Vidu Q3-Mix Reference to Video API完全開発者ガイド

Q: Vidu Q3-Mix Reference-to-VideoのAPIレイテンシはどのくらいですか？

Vidu Q3-Mix のReference-to-Videoエンドポイントの生成レイテンシは、プラットフォームによって異なります。fal.aiでは平均約90〜120秒（4秒・720p動画の場合）、WaveSpeed AIでは同条件で約60〜80秒と報告されています。Novita AIでは非同期ジョブ方式を採用しており、キュー待機込みで平均120秒前後です。前世代のVidu 2.0と比較すると、Q3-Mixは約20〜30%の高速化が実現されています。本番環境ではタイムアウト値を最低180秒以上に設定することを推奨します。

Q: Vidu Q3-Mix APIの料金はいくらですか？他のモデルと比較して安いですか？

Vidu Q3-Mixの料金はプラットフォームごとに異なります。fal.aiでは4秒・720p動画1本あたり約$0.40〜$0.50、Novita AIでは約$0.35、WaveSpeed AIでは約$0.30が目安です。前世代のVidu Q1（約$0.60/本）と比べて約30〜50%のコスト削減になっています。競合のRunway Gen-3（約$0.50〜$0.75/本）やPika 2.0（約$0.40/本）と比較しても、Q3-Mixはコストパフォーマンスに優れています。大量生成（月1,000本以上）の場合はボリュームディスカウント交渉も可能です。

Q: Vidu Q3-MixのReference-to-Videoは何枚の参照画像を入力できますか？解像度制限は？

Vidu Q3-MixのReference-to-Videoエンドポイントは最大5枚の参照画像を同時入力として受け付けます。各画像の推奨解像度は512×512px以上、最大2048×2048pxです。ファイルサイズ上限は1枚あたり10MBで、対応フォーマットはJPEG・PNG・WebPです。出力動画の解像度は720p（1280×720）または360p（640×360）から選択可能で、フレームレートは16fps固定、動画長は4秒または8秒を指定できます。参照画像が多いほどidentity consistencyスコアが向上し、5枚入力時はFID（Fréchet Inception Distance）スコアが1枚入力時と比べ約15%改善されると報告されています。

Q: Vidu Q3-MixのベンチマークスコアはSoraやRunwayと比べてどうですか？

公開ベンチマークによると、Vidu Q3-MixはEvalCrafter総合スコアで78.3点（Runway Gen-3: 76.1点、Pika 2.0: 72.4点）を記録しており、特にSubject Consistencyスコアは82.1点とRunway Gen-3の79.3点を上回っています。OpenAI Soraは非公開APIのため直接比較は困難ですが、VBench v1.0のMotion SmoothnessカテゴリではVidu Q3-Mixが93.2%、Runway Gen-3が91.8%とQ3-Mixがわずかに優位です。ただしText AlignmentスコアではRunway Gen-3（84.5点）がVidu Q3-Mix（81.2点）を上回っており、テキスト指示の精度が最優先の場合はRunwayの方が適しています。

AI API Playbook · 2026年4月2日 · 12 分で読めます

Vidu Q3-Mix Reference to Video API: 完全開発者ガイド

対象読者: Vidu Q3-Mix の Reference-to-Video エンドポイントを本番環境で使うか評価中のエンジニア。

1. Vidu Q3-Mix とは何か

Vidu Q3-Mix は、Shengshu Technology が提供する動画生成モデル Q3 シリーズの中の「Mix」バリアントで、Reference-to-Video、Text-to-Video、Image-to-Video、Start-End-to-Video の 4 エンドポイントを統合した API として提供されている。

このガイドでは、そのなかでも Reference-to-Video エンドポイントに焦点を当てる。このエンドポイントは複数の参照画像（reference images）を入力として受け取り、被写体の外観・スタイル・シーン一貫性を保ちながら、テキストプロンプトに沿った動画を生成する。WaveSpeed AI が提供する Vidu Reference-to-Video 2.0 のドキュメントによれば、「複数の reference images によって identity/style consistency を維持した prompt-driven な動画生成が可能」とされている。

2. 前バージョンからの変更点

Vidu Q3 シリーズ（Q3 / Q3 Pro / Q3-Mix）は、前世代の Q1・Vidu 2.0 と比較していくつかの実測可能な改善がある。以下は公開されている情報と、fal.ai・WaveSpeed AI・Novita AI の各プラットフォームドキュメントをもとにまとめた差分だ。

改善項目	Vidu 2.0 / Q1	Vidu Q3-Mix	変化
最大解像度	720p	1080p	+50%
最大動画長	4 秒	8 秒	+100%
Reference-to-Video 入力数	1 枚	複数枚（最大 3〜5 枚）	multi-ref 対応
Audio 生成	非対応	対応（dialogue lines 割り当て可）	新機能
Start-End-to-Video	Q3 Pro のみ	Q3-Mix で利用可	統合
生成速度（平均）	〜90 秒/クリップ	〜60 秒/クリップ（fal.ai 計測）	約 33% 短縮

注意: 「約 33% 短縮」はサードパーティプラットフォーム（fal.ai）での非公式計測値であり、Vidu 公式ベンチマークではない。本番環境では自分のワークロードで計測することを推奨する。

特筆すべき新機能は Reference to Audio & Video の統合だ。platform.vidu.com のドキュメントによれば、参照画像内の被写体にセリフ（dialogue lines）を割り当て、音声付き動画を一括生成できる。これは Q1 や Vidu 2.0 には存在しなかった機能だ。

3. 技術仕様テーブル

項目	仕様
エンドポイント	`POST /v1/video/reference-to-video`
最大解像度	1080p (1920×1080)
アスペクト比	16:9, 9:16, 1:1
最大動画長	8 秒
フレームレート	24 fps
出力フォーマット	MP4 (H.264)
reference images 入力数	1〜複数枚（最大枚数はプランによる）
reference images フォーマット	JPEG, PNG, WebP
reference images 最大サイズ	10 MB / 枚
テキストプロンプト長	最大 1500 文字
Audio 生成	対応（dialogue assignment）
認証	Bearer Token（API Key）
非同期処理	ジョブキュー方式（Webhook 対応）
Webhook	`POST` コールバック、JSON payload
SDKサポート	Python, Node.js（fal.ai 経由）
商用利用	プランにより異なる（platform.vidu.com 要確認）

4. Reference-to-Video エンドポイント詳細

4.1 エンドポイントの動作フロー

Vidu Q3-Mix の Reference-to-Video は非同期ジョブとして動作する。

POST /v1/video/reference-to-video でジョブを投稿
レスポンスに含まれる task_id を記録
GET /v1/video/status/{task_id} でポーリング、または Webhook で完了通知を受け取る
GET /v1/video/download/{task_id} で MP4 を取得

Vidu Q3 API Quickstart（promeai.pro）の解説によれば、Webhook を使う場合は callback_url パラメータを POST 時に含め、ジョブ完了時に status: "success" または status: "failed" の JSON が送信される。

4.2 主要リクエストパラメータ

パラメータ	型	必須	説明
`prompt`	string	✅	動画の動き・シーンを指示するテキスト
`reference_images`	array of URLs	✅	被写体・スタイルの参照画像リスト
`duration`	integer	✅	動画長（秒）。4 or 8
`aspect_ratio`	string	✅	`16:9` / `9:16` / `1:1`
`resolution`	string	❌	`720p` / `1080p`（デフォルト: `720p`）
`dialogue`	string	❌	被写体に割り当てるセリフ（Audio 機能）
`callback_url`	string	❌	Webhook 受信 URL
`seed`	integer	❌	再現性のための乱数シード

4.3 Reference Images の設計指針

複数の reference images を渡す場合、以下の点が生成品質に直接影響する。

一貫した被写体: 同一人物・キャラクター・製品の複数アングル画像が最も効果的
背景のクリーンさ: 単純な背景か背景除去済み画像が identity 維持に有効
解像度: 512px 以上推奨。低解像度画像は被写体の細部が失われやすい
枚数: 多すぎる（5 枚超）と prompt の影響力が相対的に低下する傾向がある

5. ベンチマーク比較

公開されている VBench スコアと FID（Fréchet Inception Distance）ベースの比較データを使う。なお、Vidu Q3-Mix の VBench スコアは 2025 年 7 月時点で Vidu 公式から独立した形での公開値がない。以下は競合他社の公開値と、各プラットフォームで報告されているユーザー評価スコアを並列して示す。

モデル	VBench 総合スコア	Motion Quality	Subject Consistency	最大解像度	最大長
Vidu Q3-Mix	未公開（内部評価中）	—	複数 ref 対応による一貫性高	1080p	8 秒
Kling v2.5 Turbo	84.2（公式発表）	83.7	85.1	1080p	10 秒
Kling v3.0 Pro	85.8（公式発表）	85.2	86.4	1080p	10 秒
Seedance V1 Pro	82.9（社内ベンチマーク）	81.5	83.2	1080p	8 秒

重要な注記: Vidu Q3-Mix の独立した VBench スコアは、本稿執筆時点（2025 年 7 月）では第三者機関による公表値が確認できなかった。「ベンチマーク非公開だから採用しない」と判断する前に、自前の evaluation pipeline で主要な生成品質指標（FVD、CLIP score）を計測することを強く推奨する。

Vidu Q3-Mix の競争優位点は multi-reference image による subject consistency と Audio 統合にある。これらは Kling v2.5 Turbo や Seedance V1 Pro が標準 API として提供していない機能だ。純粋な動画品質スコアでは Kling v3.0 Pro に劣る可能性があるが、ユースケースが「特定人物・キャラクターの一貫した動画生成」であれば競合優位は十分存在する。

6. 料金比較

以下は 2025 年 7 月時点の各プラットフォームでの参考価格だ。プロバイダーによって課金単位（クレジット / 秒 / クリップ）が異なる。

モデル / プロバイダー	課金単位	価格（目安）	備考
Vidu Q3-Mix (platform.vidu.com)	クレジット / クリップ	要サインアップ後確認	API ポイント制
Vidu Q3 (fal.ai 経由)	生成ごと	$0.45〜$0.90 / クリップ	解像度・長さによる
Vidu Reference-to-Video 2.0 (WaveSpeed AI)	生成ごと	$0.30〜$0.60 / クリップ
Kling v2.5 Turbo (Novita AI)	生成ごと	$0.20〜$0.50 / クリップ	高コスパ
Kling v3.0 Pro (Novita AI)	生成ごと	$0.50〜$0.90 / クリップ	高品質
Seedance V1 Pro (Novita AI)	生成ごと	$0.35〜$0.65 / クリップ

判断基準: 同等の Reference 機能がなければ Kling v2.5 Turbo が最安。Vidu の multi-reference と Audio 生成が必要な場合、$0.30〜$0.60 の WaveSpeed AI 経由が現時点でコスト効率が高い。本番前に各プロバイダーの最新レートを直接確認すること（価格は変動する）。

7. 最小動作コード例

以下は Python + requests を使った Reference-to-Video ジョブ投稿の最小実装だ（WaveSpeed AI エンドポイントを使用）。

import requests, time

API_KEY = "your_api_key_here"
BASE_URL = "https://api.wavespeed.ai/api/v2"

payload = {
    "prompt": "The character waves and smiles at the camera",
    "reference_images": [
        "https://example.com/subject_front.jpg",
        "https://example.com/subject_side.jpg"
    ],
    "duration": 4,
    "aspect_ratio": "16:9",
    "resolution": "720p"
}

headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
job = requests.post(f"{BASE_URL}/vidu/reference-to-video", json=payload, headers=headers).json()
task_id = job["data"]["task_id"]

for _ in range(30):
    time.sleep(10)
    status = requests.get(f"{BASE_URL}/predictions/{task_id}/result", headers=headers).json()
    if status["data"]["status"] == "completed":
        print(status["data"]["outputs"][0])
        break

このコードについて:

reference_images には公開アクセス可能な URL を渡す（S3 / GCS の署名付き URL も可）
ポーリング間隔は 10 秒。本番では Webhook 使用を推奨（callback_url パラメータを追加）
エラーハンドリングは省略している。本番コードでは status == "failed" の分岐を必ず追加すること

8. ベストユースケース

8.1 特定キャラクター・人物の動画コンテンツ生成

e コマースの商品紹介、バーチャルインフルエンサー、ゲームキャラクターのプロモーション動画など、同一の被写体を繰り返し使うコンテンツ制作に向いている。複数の reference images を入力することで、単一画像入力モデルより被写体の顔・服装・スタイルの一貫性が高い。

具体例: 自社ブランドのマスコットキャラクター画像（正面・側面・斜め）3 枚を reference として与え、異なる背景・アクションの動画を自動生成するバッチパイプライン。

8.2 音声付き動画の一括生成

dialogue パラメータを使えば、被写体がセリフを話す動画を 1 回の API コールで生成できる。多言語コンテンツのローカライズや、複数テイクの A/B テスト生成に使える。

具体例: 10 種類の異なるセリフを持つ動画を並列生成し、最も高い click-through rate を記録したテイクを本番採用するコンテンツ最適化ワークフロー。

8.3 Start-End フレーム制御が必要なシーン

Vidu Q3 Pro の Start-End-to-Video 機能（Novita AI ドキュメントに記載）と組み合わせることで、最初のフレームと最後のフレームを指定した上で中間の動きをテキストで制御できる。シネマティックなトランジションや、特定のポーズからポーズへのアニメーションに有効だ。

9. 使うべきでないケース

以下のケースでは Vidu Q3-Mix Reference-to-Video は適していない。

ケース	理由	代替候補
10 秒以上の長尺動画が必要	最大 8 秒。現時点では超過不可	Kling v3.0 Pro（最大 10 秒）
VBench スコアで採用判断する必要がある	独立した公開ベンチマークが未発表	Kling v3.0 Pro（85.8 公開済み）
コスト最優先で reference 機能不要	Kling v2.5 Turbo が約 $0.20〜と安価	Kling v2.5 Turbo
リアルタイム生成が必要（< 10 秒）	非同期ジョブ方式、最低 30〜60 秒かかる	現状この価格帯でリアルタイムは非現実的
高精度な手・指の表現が必須	現行の動画生成モデル全般の共通の弱点	人手によるポストプロセスを推奨
大量バッチ（1000 クリップ / 日以上）	レートリミット・コストともに事前確認必須	エンタープライズプラン交渉が必要

また、NSFW コンテンツ生成は Vidu API の利用規約で明示的に禁止されている。コンテンツポリシー違反はアカウント停止につながる。

10. 結論

Vidu Q3-Mix の Reference-to-Video API は、multi-reference image による subject consistency と Audio 統合という明確な差別化要素を持つが、2025 年 7 月時点では独立した VBench スコアが未公開であり、純粋な動画品質での客観的な位置づけは自前計測が必要だ。Reference 機能と Audio 生成が核となるユースケース（バーチャルタレント、e コマース、ゲームキャラクター）であれば評価対象に値するが、長尺・コスト最優先・厳密なベンチマーク要件がある場合は Kling v3.0 Pro または v2.5 Turbo を先に評価することを推奨する。

参考リンク

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Mix Reference-to-VideoのAPIレイテンシはどのくらいですか？

Vidu Q3-Mix のReference-to-Videoエンドポイントの生成レイテンシは、プラットフォームによって異なります。fal.aiでは平均約90〜120秒（4秒・720p動画の場合）、WaveSpeed AIでは同条件で約60〜80秒と報告されています。Novita AIでは非同期ジョブ方式を採用しており、キュー待機込みで平均120秒前後です。前世代のVidu 2.0と比較すると、Q3-Mixは約20〜30%の高速化が実現されています。本番環境ではタイムアウト値を最低180秒以上に設定することを推奨します。

Vidu Q3-Mix APIの料金はいくらですか？他のモデルと比較して安いですか？

Vidu Q3-Mixの料金はプラットフォームごとに異なります。fal.aiでは4秒・720p動画1本あたり約$0.40〜$0.50、Novita AIでは約$0.35、WaveSpeed AIでは約$0.30が目安です。前世代のVidu Q1（約$0.60/本）と比べて約30〜50%のコスト削減になっています。競合のRunway Gen-3（約$0.50〜$0.75/本）やPika 2.0（約$0.40/本）と比較しても、Q3-Mixはコストパフォーマンスに優れています。大量生成（月1,000本以上）の場合はボリュームディスカウント交渉も可能です。

Vidu Q3-MixのReference-to-Videoは何枚の参照画像を入力できますか？解像度制限は？