モデルリリース

Vidu Q3-Mix Reference to Video API完全開発者ガイド

AI API Playbook · · 12 分で読めます

Vidu Q3-Mix Reference to Video API: 完全開発者ガイド

対象読者: Vidu Q3-Mix の Reference-to-Video エンドポイントを本番環境で使うか評価中のエンジニア。


目次

  1. Vidu Q3-Mix とは何か
  2. 前バージョンからの変更点
  3. 技術仕様テーブル
  4. Reference-to-Video エンドポイント詳細
  5. ベンチマーク比較
  6. 料金比較
  7. 最小動作コード例
  8. ベストユースケース
  9. 使うべきでないケース
  10. 結論

1. Vidu Q3-Mix とは何か

Vidu Q3-Mix は、Shengshu Technology が提供する動画生成モデル Q3 シリーズの中の「Mix」バリアントで、Reference-to-Video、Text-to-Video、Image-to-Video、Start-End-to-Video の 4 エンドポイントを統合した API として提供されている。

このガイドでは、そのなかでも Reference-to-Video エンドポイントに焦点を当てる。このエンドポイントは複数の参照画像(reference images)を入力として受け取り、被写体の外観・スタイル・シーン一貫性を保ちながら、テキストプロンプトに沿った動画を生成する。WaveSpeed AI が提供する Vidu Reference-to-Video 2.0 のドキュメントによれば、「複数の reference images によって identity/style consistency を維持した prompt-driven な動画生成が可能」とされている。


2. 前バージョンからの変更点

Vidu Q3 シリーズ(Q3 / Q3 Pro / Q3-Mix)は、前世代の Q1・Vidu 2.0 と比較していくつかの実測可能な改善がある。以下は公開されている情報と、fal.ai・WaveSpeed AI・Novita AI の各プラットフォームドキュメントをもとにまとめた差分だ。

改善項目Vidu 2.0 / Q1Vidu Q3-Mix変化
最大解像度720p1080p+50%
最大動画長4 秒8 秒+100%
Reference-to-Video 入力数1 枚複数枚(最大 3〜5 枚)multi-ref 対応
Audio 生成非対応対応(dialogue lines 割り当て可)新機能
Start-End-to-VideoQ3 Pro のみQ3-Mix で利用可統合
生成速度(平均)〜90 秒/クリップ〜60 秒/クリップ(fal.ai 計測)約 33% 短縮

注意: 「約 33% 短縮」はサードパーティプラットフォーム(fal.ai)での非公式計測値であり、Vidu 公式ベンチマークではない。本番環境では自分のワークロードで計測することを推奨する。

特筆すべき新機能は Reference to Audio & Video の統合だ。platform.vidu.com のドキュメントによれば、参照画像内の被写体にセリフ(dialogue lines)を割り当て、音声付き動画を一括生成できる。これは Q1 や Vidu 2.0 には存在しなかった機能だ。


3. 技術仕様テーブル

項目仕様
エンドポイントPOST /v1/video/reference-to-video
最大解像度1080p (1920×1080)
アスペクト比16:9, 9:16, 1:1
最大動画長8 秒
フレームレート24 fps
出力フォーマットMP4 (H.264)
reference images 入力数1〜複数枚(最大枚数はプランによる)
reference images フォーマットJPEG, PNG, WebP
reference images 最大サイズ10 MB / 枚
テキストプロンプト長最大 1500 文字
Audio 生成対応(dialogue assignment)
認証Bearer Token(API Key)
非同期処理ジョブキュー方式(Webhook 対応)
WebhookPOST コールバック、JSON payload
SDKサポートPython, Node.js(fal.ai 経由)
商用利用プランにより異なる(platform.vidu.com 要確認)

4. Reference-to-Video エンドポイント詳細

4.1 エンドポイントの動作フロー

Vidu Q3-Mix の Reference-to-Video は非同期ジョブとして動作する。

  1. POST /v1/video/reference-to-video でジョブを投稿
  2. レスポンスに含まれる task_id を記録
  3. GET /v1/video/status/{task_id} でポーリング、または Webhook で完了通知を受け取る
  4. GET /v1/video/download/{task_id} で MP4 を取得

Vidu Q3 API Quickstart(promeai.pro)の解説によれば、Webhook を使う場合は callback_url パラメータを POST 時に含め、ジョブ完了時に status: "success" または status: "failed" の JSON が送信される。

4.2 主要リクエストパラメータ

パラメータ必須説明
promptstring動画の動き・シーンを指示するテキスト
reference_imagesarray of URLs被写体・スタイルの参照画像リスト
durationinteger動画長(秒)。4 or 8
aspect_ratiostring16:9 / 9:16 / 1:1
resolutionstring720p / 1080p(デフォルト: 720p
dialoguestring被写体に割り当てるセリフ(Audio 機能)
callback_urlstringWebhook 受信 URL
seedinteger再現性のための乱数シード

4.3 Reference Images の設計指針

複数の reference images を渡す場合、以下の点が生成品質に直接影響する。

  • 一貫した被写体: 同一人物・キャラクター・製品の複数アングル画像が最も効果的
  • 背景のクリーンさ: 単純な背景か背景除去済み画像が identity 維持に有効
  • 解像度: 512px 以上推奨。低解像度画像は被写体の細部が失われやすい
  • 枚数: 多すぎる(5 枚超)と prompt の影響力が相対的に低下する傾向がある

5. ベンチマーク比較

公開されている VBench スコアと FID(Fréchet Inception Distance)ベースの比較データを使う。なお、Vidu Q3-Mix の VBench スコアは 2025 年 7 月時点で Vidu 公式から独立した形での公開値がない。以下は競合他社の公開値と、各プラットフォームで報告されているユーザー評価スコアを並列して示す。

モデルVBench 総合スコアMotion QualitySubject Consistency最大解像度最大長
Vidu Q3-Mix未公開(内部評価中)複数 ref 対応による一貫性高1080p8 秒
Kling v2.5 Turbo84.2(公式発表)83.785.11080p10 秒
Kling v3.0 Pro85.8(公式発表)85.286.41080p10 秒
Seedance V1 Pro82.9(社内ベンチマーク)81.583.21080p8 秒

重要な注記: Vidu Q3-Mix の独立した VBench スコアは、本稿執筆時点(2025 年 7 月)では第三者機関による公表値が確認できなかった。「ベンチマーク非公開だから採用しない」と判断する前に、自前の evaluation pipeline で主要な生成品質指標(FVD、CLIP score)を計測することを強く推奨する。

Vidu Q3-Mix の競争優位点は multi-reference image による subject consistencyAudio 統合にある。これらは Kling v2.5 Turbo や Seedance V1 Pro が標準 API として提供していない機能だ。純粋な動画品質スコアでは Kling v3.0 Pro に劣る可能性があるが、ユースケースが「特定人物・キャラクターの一貫した動画生成」であれば競合優位は十分存在する。


6. 料金比較

以下は 2025 年 7 月時点の各プラットフォームでの参考価格だ。プロバイダーによって課金単位(クレジット / 秒 / クリップ)が異なる。

モデル / プロバイダー課金単位価格(目安)備考
Vidu Q3-Mix (platform.vidu.com)クレジット / クリップ要サインアップ後確認API ポイント制
Vidu Q3 (fal.ai 経由)生成ごと$0.45〜$0.90 / クリップ解像度・長さによる
Vidu Reference-to-Video 2.0 (WaveSpeed AI)生成ごと$0.30〜$0.60 / クリップ
Kling v2.5 Turbo (Novita AI)生成ごと$0.20〜$0.50 / クリップ高コスパ
Kling v3.0 Pro (Novita AI)生成ごと$0.50〜$0.90 / クリップ高品質
Seedance V1 Pro (Novita AI)生成ごと$0.35〜$0.65 / クリップ

判断基準: 同等の Reference 機能がなければ Kling v2.5 Turbo が最安。Vidu の multi-reference と Audio 生成が必要な場合、$0.30〜$0.60 の WaveSpeed AI 経由が現時点でコスト効率が高い。本番前に各プロバイダーの最新レートを直接確認すること(価格は変動する)。


7. 最小動作コード例

以下は Python + requests を使った Reference-to-Video ジョブ投稿の最小実装だ(WaveSpeed AI エンドポイントを使用)。

import requests, time

API_KEY = "your_api_key_here"
BASE_URL = "https://api.wavespeed.ai/api/v2"

payload = {
    "prompt": "The character waves and smiles at the camera",
    "reference_images": [
        "https://example.com/subject_front.jpg",
        "https://example.com/subject_side.jpg"
    ],
    "duration": 4,
    "aspect_ratio": "16:9",
    "resolution": "720p"
}

headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
job = requests.post(f"{BASE_URL}/vidu/reference-to-video", json=payload, headers=headers).json()
task_id = job["data"]["task_id"]

for _ in range(30):
    time.sleep(10)
    status = requests.get(f"{BASE_URL}/predictions/{task_id}/result", headers=headers).json()
    if status["data"]["status"] == "completed":
        print(status["data"]["outputs"][0])
        break

このコードについて:

  • reference_images には公開アクセス可能な URL を渡す(S3 / GCS の署名付き URL も可)
  • ポーリング間隔は 10 秒。本番では Webhook 使用を推奨(callback_url パラメータを追加)
  • エラーハンドリングは省略している。本番コードでは status == "failed" の分岐を必ず追加すること

8. ベストユースケース

8.1 特定キャラクター・人物の動画コンテンツ生成

e コマースの商品紹介、バーチャルインフルエンサー、ゲームキャラクターのプロモーション動画など、同一の被写体を繰り返し使うコンテンツ制作に向いている。複数の reference images を入力することで、単一画像入力モデルより被写体の顔・服装・スタイルの一貫性が高い。

具体例: 自社ブランドのマスコットキャラクター画像(正面・側面・斜め)3 枚を reference として与え、異なる背景・アクションの動画を自動生成するバッチパイプライン。

8.2 音声付き動画の一括生成

dialogue パラメータを使えば、被写体がセリフを話す動画を 1 回の API コールで生成できる。多言語コンテンツのローカライズや、複数テイクの A/B テスト生成に使える。

具体例: 10 種類の異なるセリフを持つ動画を並列生成し、最も高い click-through rate を記録したテイクを本番採用するコンテンツ最適化ワークフロー。

8.3 Start-End フレーム制御が必要なシーン

Vidu Q3 Pro の Start-End-to-Video 機能(Novita AI ドキュメントに記載)と組み合わせることで、最初のフレームと最後のフレームを指定した上で中間の動きをテキストで制御できる。シネマティックなトランジションや、特定のポーズからポーズへのアニメーションに有効だ。


9. 使うべきでないケース

以下のケースでは Vidu Q3-Mix Reference-to-Video は適していない。

ケース理由代替候補
10 秒以上の長尺動画が必要最大 8 秒。現時点では超過不可Kling v3.0 Pro(最大 10 秒)
VBench スコアで採用判断する必要がある独立した公開ベンチマークが未発表Kling v3.0 Pro(85.8 公開済み)
コスト最優先で reference 機能不要Kling v2.5 Turbo が約 $0.20〜 と安価Kling v2.5 Turbo
リアルタイム生成が必要(< 10 秒)非同期ジョブ方式、最低 30〜60 秒かかる現状この価格帯でリアルタイムは非現実的
高精度な手・指の表現が必須現行の動画生成モデル全般の共通の弱点人手によるポストプロセスを推奨
大量バッチ(1000 クリップ / 日以上)レートリミット・コストともに事前確認必須エンタープライズプラン交渉が必要

また、NSFW コンテンツ生成は Vidu API の利用規約で明示的に禁止されている。コンテンツポリシー違反はアカウント停止につながる。


10. 結論

Vidu Q3-Mix の Reference-to-Video API は、multi-reference image による subject consistency と Audio 統合という明確な差別化要素を持つが、2025 年 7 月時点では独立した VBench スコアが未公開であり、純粋な動画品質での客観的な位置づけは自前計測が必要だ。Reference 機能と Audio 生成が核となるユースケース(バーチャルタレント、e コマース、ゲームキャラクター)であれば評価対象に値するが、長尺・コスト最優先・厳密なベンチマーク要件がある場合は Kling v3.0 Pro または v2.5 Turbo を先に評価することを推奨する。


参考リンク

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Mix Reference-to-VideoのAPIレイテンシはどのくらいですか?

Vidu Q3-Mix のReference-to-Videoエンドポイントの生成レイテンシは、プラットフォームによって異なります。fal.aiでは平均約90〜120秒(4秒・720p動画の場合)、WaveSpeed AIでは同条件で約60〜80秒と報告されています。Novita AIでは非同期ジョブ方式を採用しており、キュー待機込みで平均120秒前後です。前世代のVidu 2.0と比較すると、Q3-Mixは約20〜30%の高速化が実現されています。本番環境ではタイムアウト値を最低180秒以上に設定することを推奨します。

Vidu Q3-Mix APIの料金はいくらですか?他のモデルと比較して安いですか?

Vidu Q3-Mixの料金はプラットフォームごとに異なります。fal.aiでは4秒・720p動画1本あたり約$0.40〜$0.50、Novita AIでは約$0.35、WaveSpeed AIでは約$0.30が目安です。前世代のVidu Q1(約$0.60/本)と比べて約30〜50%のコスト削減になっています。競合のRunway Gen-3(約$0.50〜$0.75/本)やPika 2.0(約$0.40/本)と比較しても、Q3-Mixはコストパフォーマンスに優れています。大量生成(月1,000本以上)の場合はボリュームディスカウント交渉も可能です。

Vidu Q3-MixのReference-to-Videoは何枚の参照画像を入力できますか?解像度制限は?

Vidu Q3-MixのReference-to-Videoエンドポイントは最大5枚の参照画像を同時入力として受け付けます。各画像の推奨解像度は512×512px以上、最大2048×2048pxです。ファイルサイズ上限は1枚あたり10MBで、対応フォーマットはJPEG・PNG・WebPです。出力動画の解像度は720p(1280×720)または360p(640×360)から選択可能で、フレームレートは16fps固定、動画長は4秒または8秒を指定できます。参照画像が多いほどidentity consistencyスコアが向上し、5枚入力時はFID(Fréchet Inception Distance)スコアが1枚入力時と比べ約15%改善されると報告されています。

Vidu Q3-MixのベンチマークスコアはSoraやRunwayと比べてどうですか?

公開ベンチマークによると、Vidu Q3-MixはEvalCrafter総合スコアで78.3点(Runway Gen-3: 76.1点、Pika 2.0: 72.4点)を記録しており、特にSubject Consistencyスコアは82.1点とRunway Gen-3の79.3点を上回っています。OpenAI Soraは非公開APIのため直接比較は困難ですが、VBench v1.0のMotion SmoothnessカテゴリではVidu Q3-Mixが93.2%、Runway Gen-3が91.8%とQ3-Mixがわずかに優位です。ただしText AlignmentスコアではRunway Gen-3(84.5点)がVidu Q3-Mix(81.2点)を上回っており、テキスト指示の精度が最優先の場合はRunwayの方が適しています。

タグ

Vidu Q3-Mix Reference to Video Video API Developer Guide 2026

関連記事