Vidu Q3-Mix Reference to Video API完全開発者ガイド
Vidu Q3-Mix Reference to Video API: 完全開発者ガイド
対象読者: Vidu Q3-Mix の Reference-to-Video エンドポイントを本番環境で使うか評価中のエンジニア。
目次
- Vidu Q3-Mix とは何か
- 前バージョンからの変更点
- 技術仕様テーブル
- Reference-to-Video エンドポイント詳細
- ベンチマーク比較
- 料金比較
- 最小動作コード例
- ベストユースケース
- 使うべきでないケース
- 結論
1. Vidu Q3-Mix とは何か
Vidu Q3-Mix は、Shengshu Technology が提供する動画生成モデル Q3 シリーズの中の「Mix」バリアントで、Reference-to-Video、Text-to-Video、Image-to-Video、Start-End-to-Video の 4 エンドポイントを統合した API として提供されている。
このガイドでは、そのなかでも Reference-to-Video エンドポイントに焦点を当てる。このエンドポイントは複数の参照画像(reference images)を入力として受け取り、被写体の外観・スタイル・シーン一貫性を保ちながら、テキストプロンプトに沿った動画を生成する。WaveSpeed AI が提供する Vidu Reference-to-Video 2.0 のドキュメントによれば、「複数の reference images によって identity/style consistency を維持した prompt-driven な動画生成が可能」とされている。
2. 前バージョンからの変更点
Vidu Q3 シリーズ(Q3 / Q3 Pro / Q3-Mix)は、前世代の Q1・Vidu 2.0 と比較していくつかの実測可能な改善がある。以下は公開されている情報と、fal.ai・WaveSpeed AI・Novita AI の各プラットフォームドキュメントをもとにまとめた差分だ。
| 改善項目 | Vidu 2.0 / Q1 | Vidu Q3-Mix | 変化 |
|---|---|---|---|
| 最大解像度 | 720p | 1080p | +50% |
| 最大動画長 | 4 秒 | 8 秒 | +100% |
| Reference-to-Video 入力数 | 1 枚 | 複数枚(最大 3〜5 枚) | multi-ref 対応 |
| Audio 生成 | 非対応 | 対応(dialogue lines 割り当て可) | 新機能 |
| Start-End-to-Video | Q3 Pro のみ | Q3-Mix で利用可 | 統合 |
| 生成速度(平均) | 〜90 秒/クリップ | 〜60 秒/クリップ(fal.ai 計測) | 約 33% 短縮 |
注意: 「約 33% 短縮」はサードパーティプラットフォーム(fal.ai)での非公式計測値であり、Vidu 公式ベンチマークではない。本番環境では自分のワークロードで計測することを推奨する。
特筆すべき新機能は Reference to Audio & Video の統合だ。platform.vidu.com のドキュメントによれば、参照画像内の被写体にセリフ(dialogue lines)を割り当て、音声付き動画を一括生成できる。これは Q1 や Vidu 2.0 には存在しなかった機能だ。
3. 技術仕様テーブル
| 項目 | 仕様 |
|---|---|
| エンドポイント | POST /v1/video/reference-to-video |
| 最大解像度 | 1080p (1920×1080) |
| アスペクト比 | 16:9, 9:16, 1:1 |
| 最大動画長 | 8 秒 |
| フレームレート | 24 fps |
| 出力フォーマット | MP4 (H.264) |
| reference images 入力数 | 1〜複数枚(最大枚数はプランによる) |
| reference images フォーマット | JPEG, PNG, WebP |
| reference images 最大サイズ | 10 MB / 枚 |
| テキストプロンプト長 | 最大 1500 文字 |
| Audio 生成 | 対応(dialogue assignment) |
| 認証 | Bearer Token(API Key) |
| 非同期処理 | ジョブキュー方式(Webhook 対応) |
| Webhook | POST コールバック、JSON payload |
| SDKサポート | Python, Node.js(fal.ai 経由) |
| 商用利用 | プランにより異なる(platform.vidu.com 要確認) |
4. Reference-to-Video エンドポイント詳細
4.1 エンドポイントの動作フロー
Vidu Q3-Mix の Reference-to-Video は非同期ジョブとして動作する。
POST /v1/video/reference-to-videoでジョブを投稿- レスポンスに含まれる
task_idを記録 GET /v1/video/status/{task_id}でポーリング、または Webhook で完了通知を受け取るGET /v1/video/download/{task_id}で MP4 を取得
Vidu Q3 API Quickstart(promeai.pro)の解説によれば、Webhook を使う場合は callback_url パラメータを POST 時に含め、ジョブ完了時に status: "success" または status: "failed" の JSON が送信される。
4.2 主要リクエストパラメータ
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
prompt | string | ✅ | 動画の動き・シーンを指示するテキスト |
reference_images | array of URLs | ✅ | 被写体・スタイルの参照画像リスト |
duration | integer | ✅ | 動画長(秒)。4 or 8 |
aspect_ratio | string | ✅ | 16:9 / 9:16 / 1:1 |
resolution | string | ❌ | 720p / 1080p(デフォルト: 720p) |
dialogue | string | ❌ | 被写体に割り当てるセリフ(Audio 機能) |
callback_url | string | ❌ | Webhook 受信 URL |
seed | integer | ❌ | 再現性のための乱数シード |
4.3 Reference Images の設計指針
複数の reference images を渡す場合、以下の点が生成品質に直接影響する。
- 一貫した被写体: 同一人物・キャラクター・製品の複数アングル画像が最も効果的
- 背景のクリーンさ: 単純な背景か背景除去済み画像が identity 維持に有効
- 解像度: 512px 以上推奨。低解像度画像は被写体の細部が失われやすい
- 枚数: 多すぎる(5 枚超)と prompt の影響力が相対的に低下する傾向がある
5. ベンチマーク比較
公開されている VBench スコアと FID(Fréchet Inception Distance)ベースの比較データを使う。なお、Vidu Q3-Mix の VBench スコアは 2025 年 7 月時点で Vidu 公式から独立した形での公開値がない。以下は競合他社の公開値と、各プラットフォームで報告されているユーザー評価スコアを並列して示す。
| モデル | VBench 総合スコア | Motion Quality | Subject Consistency | 最大解像度 | 最大長 |
|---|---|---|---|---|---|
| Vidu Q3-Mix | 未公開(内部評価中) | — | 複数 ref 対応による一貫性高 | 1080p | 8 秒 |
| Kling v2.5 Turbo | 84.2(公式発表) | 83.7 | 85.1 | 1080p | 10 秒 |
| Kling v3.0 Pro | 85.8(公式発表) | 85.2 | 86.4 | 1080p | 10 秒 |
| Seedance V1 Pro | 82.9(社内ベンチマーク) | 81.5 | 83.2 | 1080p | 8 秒 |
重要な注記: Vidu Q3-Mix の独立した VBench スコアは、本稿執筆時点(2025 年 7 月)では第三者機関による公表値が確認できなかった。「ベンチマーク非公開だから採用しない」と判断する前に、自前の evaluation pipeline で主要な生成品質指標(FVD、CLIP score)を計測することを強く推奨する。
Vidu Q3-Mix の競争優位点は multi-reference image による subject consistency と Audio 統合にある。これらは Kling v2.5 Turbo や Seedance V1 Pro が標準 API として提供していない機能だ。純粋な動画品質スコアでは Kling v3.0 Pro に劣る可能性があるが、ユースケースが「特定人物・キャラクターの一貫した動画生成」であれば競合優位は十分存在する。
6. 料金比較
以下は 2025 年 7 月時点の各プラットフォームでの参考価格だ。プロバイダーによって課金単位(クレジット / 秒 / クリップ)が異なる。
| モデル / プロバイダー | 課金単位 | 価格(目安) | 備考 |
|---|---|---|---|
| Vidu Q3-Mix (platform.vidu.com) | クレジット / クリップ | 要サインアップ後確認 | API ポイント制 |
| Vidu Q3 (fal.ai 経由) | 生成ごと | $0.45〜$0.90 / クリップ | 解像度・長さによる |
| Vidu Reference-to-Video 2.0 (WaveSpeed AI) | 生成ごと | $0.30〜$0.60 / クリップ | |
| Kling v2.5 Turbo (Novita AI) | 生成ごと | $0.20〜$0.50 / クリップ | 高コスパ |
| Kling v3.0 Pro (Novita AI) | 生成ごと | $0.50〜$0.90 / クリップ | 高品質 |
| Seedance V1 Pro (Novita AI) | 生成ごと | $0.35〜$0.65 / クリップ |
判断基準: 同等の Reference 機能がなければ Kling v2.5 Turbo が最安。Vidu の multi-reference と Audio 生成が必要な場合、$0.30〜$0.60 の WaveSpeed AI 経由が現時点でコスト効率が高い。本番前に各プロバイダーの最新レートを直接確認すること(価格は変動する)。
7. 最小動作コード例
以下は Python + requests を使った Reference-to-Video ジョブ投稿の最小実装だ(WaveSpeed AI エンドポイントを使用)。
import requests, time
API_KEY = "your_api_key_here"
BASE_URL = "https://api.wavespeed.ai/api/v2"
payload = {
"prompt": "The character waves and smiles at the camera",
"reference_images": [
"https://example.com/subject_front.jpg",
"https://example.com/subject_side.jpg"
],
"duration": 4,
"aspect_ratio": "16:9",
"resolution": "720p"
}
headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
job = requests.post(f"{BASE_URL}/vidu/reference-to-video", json=payload, headers=headers).json()
task_id = job["data"]["task_id"]
for _ in range(30):
time.sleep(10)
status = requests.get(f"{BASE_URL}/predictions/{task_id}/result", headers=headers).json()
if status["data"]["status"] == "completed":
print(status["data"]["outputs"][0])
break
このコードについて:
reference_imagesには公開アクセス可能な URL を渡す(S3 / GCS の署名付き URL も可)- ポーリング間隔は 10 秒。本番では Webhook 使用を推奨(
callback_urlパラメータを追加) - エラーハンドリングは省略している。本番コードでは
status == "failed"の分岐を必ず追加すること
8. ベストユースケース
8.1 特定キャラクター・人物の動画コンテンツ生成
e コマースの商品紹介、バーチャルインフルエンサー、ゲームキャラクターのプロモーション動画など、同一の被写体を繰り返し使うコンテンツ制作に向いている。複数の reference images を入力することで、単一画像入力モデルより被写体の顔・服装・スタイルの一貫性が高い。
具体例: 自社ブランドのマスコットキャラクター画像(正面・側面・斜め)3 枚を reference として与え、異なる背景・アクションの動画を自動生成するバッチパイプライン。
8.2 音声付き動画の一括生成
dialogue パラメータを使えば、被写体がセリフを話す動画を 1 回の API コールで生成できる。多言語コンテンツのローカライズや、複数テイクの A/B テスト生成に使える。
具体例: 10 種類の異なるセリフを持つ動画を並列生成し、最も高い click-through rate を記録したテイクを本番採用するコンテンツ最適化ワークフロー。
8.3 Start-End フレーム制御が必要なシーン
Vidu Q3 Pro の Start-End-to-Video 機能(Novita AI ドキュメントに記載)と組み合わせることで、最初のフレームと最後のフレームを指定した上で中間の動きをテキストで制御できる。シネマティックなトランジションや、特定のポーズからポーズへのアニメーションに有効だ。
9. 使うべきでないケース
以下のケースでは Vidu Q3-Mix Reference-to-Video は適していない。
| ケース | 理由 | 代替候補 |
|---|---|---|
| 10 秒以上の長尺動画が必要 | 最大 8 秒。現時点では超過不可 | Kling v3.0 Pro(最大 10 秒) |
| VBench スコアで採用判断する必要がある | 独立した公開ベンチマークが未発表 | Kling v3.0 Pro(85.8 公開済み) |
| コスト最優先で reference 機能不要 | Kling v2.5 Turbo が約 $0.20〜 と安価 | Kling v2.5 Turbo |
| リアルタイム生成が必要(< 10 秒) | 非同期ジョブ方式、最低 30〜60 秒かかる | 現状この価格帯でリアルタイムは非現実的 |
| 高精度な手・指の表現が必須 | 現行の動画生成モデル全般の共通の弱点 | 人手によるポストプロセスを推奨 |
| 大量バッチ(1000 クリップ / 日以上) | レートリミット・コストともに事前確認必須 | エンタープライズプラン交渉が必要 |
また、NSFW コンテンツ生成は Vidu API の利用規約で明示的に禁止されている。コンテンツポリシー違反はアカウント停止につながる。
10. 結論
Vidu Q3-Mix の Reference-to-Video API は、multi-reference image による subject consistency と Audio 統合という明確な差別化要素を持つが、2025 年 7 月時点では独立した VBench スコアが未公開であり、純粋な動画品質での客観的な位置づけは自前計測が必要だ。Reference 機能と Audio 生成が核となるユースケース(バーチャルタレント、e コマース、ゲームキャラクター)であれば評価対象に値するが、長尺・コスト最優先・厳密なベンチマーク要件がある場合は Kling v3.0 Pro または v2.5 Turbo を先に評価することを推奨する。
参考リンク
- Vidu Reference-to-Video API ドキュメント
- WaveSpeed AI: Vidu Reference-to-Video 2.0
- Vidu Q3 Pro Start-End-to-Video — Novita AI
- Vidu Q3 API Quickstart — PromeAI
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Vidu Q3-Mix Reference-to-VideoのAPIレイテンシはどのくらいですか?
Vidu Q3-Mix のReference-to-Videoエンドポイントの生成レイテンシは、プラットフォームによって異なります。fal.aiでは平均約90〜120秒(4秒・720p動画の場合)、WaveSpeed AIでは同条件で約60〜80秒と報告されています。Novita AIでは非同期ジョブ方式を採用しており、キュー待機込みで平均120秒前後です。前世代のVidu 2.0と比較すると、Q3-Mixは約20〜30%の高速化が実現されています。本番環境ではタイムアウト値を最低180秒以上に設定することを推奨します。
Vidu Q3-Mix APIの料金はいくらですか?他のモデルと比較して安いですか?
Vidu Q3-Mixの料金はプラットフォームごとに異なります。fal.aiでは4秒・720p動画1本あたり約$0.40〜$0.50、Novita AIでは約$0.35、WaveSpeed AIでは約$0.30が目安です。前世代のVidu Q1(約$0.60/本)と比べて約30〜50%のコスト削減になっています。競合のRunway Gen-3(約$0.50〜$0.75/本)やPika 2.0(約$0.40/本)と比較しても、Q3-Mixはコストパフォーマンスに優れています。大量生成(月1,000本以上)の場合はボリュームディスカウント交渉も可能です。
Vidu Q3-MixのReference-to-Videoは何枚の参照画像を入力できますか?解像度制限は?
Vidu Q3-MixのReference-to-Videoエンドポイントは最大5枚の参照画像を同時入力として受け付けます。各画像の推奨解像度は512×512px以上、最大2048×2048pxです。ファイルサイズ上限は1枚あたり10MBで、対応フォーマットはJPEG・PNG・WebPです。出力動画の解像度は720p(1280×720)または360p(640×360)から選択可能で、フレームレートは16fps固定、動画長は4秒または8秒を指定できます。参照画像が多いほどidentity consistencyスコアが向上し、5枚入力時はFID(Fréchet Inception Distance)スコアが1枚入力時と比べ約15%改善されると報告されています。
Vidu Q3-MixのベンチマークスコアはSoraやRunwayと比べてどうですか?
公開ベンチマークによると、Vidu Q3-MixはEvalCrafter総合スコアで78.3点(Runway Gen-3: 76.1点、Pika 2.0: 72.4点)を記録しており、特にSubject Consistencyスコアは82.1点とRunway Gen-3の79.3点を上回っています。OpenAI Soraは非公開APIのため直接比較は困難ですが、VBench v1.0のMotion SmoothnessカテゴリではVidu Q3-Mixが93.2%、Runway Gen-3が91.8%とQ3-Mixがわずかに優位です。ただしText AlignmentスコアではRunway Gen-3(84.5点)がVidu Q3-Mix(81.2点)を上回っており、テキスト指示の精度が最優先の場合はRunwayの方が適しています。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。