Vidu Q2-Pro-Fast 動画生成API完全ガイド【開発者向け】
Vidu Q2-Pro-Fast Reference to Video with Audio API: Complete Developer Guide
概要
Vidu Q2-Pro-Fastは、テキスト・画像・参照画像(Reference Image)を入力として、音声付き動画を生成するビデオ生成APIだ。reference-to-videoモードが今回のフォーカスで、複数の参照画像からキャラクターや物体の一貫性を保ちながら動画を生成できる。本記事では、仕様・ベンチマーク・料金・コードサンプルを整理し、プロダクション導入の判断材料を提供する。
前バージョンとの比較:何が変わったか
Vidu Q2シリーズには複数のバリアントが存在する。Q2 Standard、Q2 Turbo、Q2 Pro、そして今回のQ2 Pro Fastだ。以下に主要な変更点を整理する。
| 指標 | Q2 Pro(標準) | Q2 Pro Fast | 変化 |
|---|---|---|---|
| 生成速度(推定) | ~60–90秒 | ~30–45秒 | 約40–50%短縮 |
| 最大解像度 | 1080p | 1080p | 変化なし |
| 音声生成 | あり | あり | 変化なし |
| reference-to-video対応 | あり | あり | 変化なし |
| 1動画あたりのコスト | $0.10–$0.80 | Q2 Pro比で割高の可能性 | 要確認(後述) |
| 最大長さ | 8秒 | 8秒 | 変化なし |
重要な注記: 公式の生成速度ベンチマーク数値はVidu公式ドキュメントに明示されていない。「Fast」ネーミングはWavespeed AI経由のドキュメントで確認されており、「faster generation speed」と記載されているが、具体的なms値は非公開だ(出典: Wavespeed AI Docs)。速度要件が厳しい場合は、自分のユースケースで実測することを推奨する。
フルテクニカルスペック
| 項目 | 仕様 |
|---|---|
| モデル名 | vidu-q2-pro-fast |
| APIエンドポイント | POST https://pollo.ai/api/platform/generation/vidu/viduq2-pro |
| 認証方式 | x-api-key ヘッダー |
| 対応入力モード | text-to-video / image-to-video / reference-to-video / start-end-to-video |
| 最大解像度 | 1080p(1920×1080) |
| 最小解像度 | 360p |
| 動画長さ | 2秒 〜 8秒 |
| フレームレート | 24fps(標準) |
| 音声生成 | 対応(ambient audio含む) |
| 参照画像数 | 複数対応(multi-reference) |
| 出力フォーマット | MP4 |
| リクエスト形式 | application/json |
| 非同期処理 | あり(生成ジョブIDを返却し、ポーリングで取得) |
| 対応プロバイダー | Pollo.ai / Novita.ai / Fal.ai / Runware.ai / Wavespeed.ai |
出典: Pollo.ai API Docs, Fal.ai Model Card, Novita.ai Docs
リクエスト・レスポンスの構造
リクエストボディ(JSON)
{
"prompt": "A cat walking through a neon-lit alley at night, cinematic",
"reference_images": ["https://example.com/ref1.jpg"],
"duration": 4,
"resolution": "1080p",
"with_audio": true,
"model": "vidu-q2-pro-fast"
}
主要パラメータ
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
prompt | string | 必須 | 動画の内容を記述するテキスト |
reference_images | array | モードによる | 参照画像URLの配列(reference-to-videoモード) |
start_image | string | モードによる | 開始フレーム画像URL |
end_image | string | モードによる | 終了フレーム画像URL |
duration | integer | 任意 | 動画の長さ(2〜8秒) |
resolution | string | 任意 | 360p / 720p / 1080p |
with_audio | boolean | 任意 | 音声生成の有無(デフォルト: false) |
model | string | 必須 | vidu-q2-pro-fast を明示指定 |
最小動作コードサンプル
import httpx, time
API_KEY = "YOUR_API_KEY"
BASE_URL = "https://pollo.ai/api/platform/generation/vidu/viduq2-pro"
payload = {
"prompt": "A woman walking in a Tokyo street, cinematic, golden hour",
"reference_images": ["https://example.com/character_ref.jpg"],
"duration": 4,
"resolution": "1080p",
"with_audio": True,
"model": "vidu-q2-pro-fast"
}
resp = httpx.post(BASE_URL, json=payload, headers={"x-api-key": API_KEY, "Content-Type": "application/json"})
job_id = resp.json()["job_id"]
for _ in range(30):
status = httpx.get(f"{BASE_URL}/{job_id}", headers={"x-api-key": API_KEY}).json()
if status["status"] == "completed":
print(status["video_url"]); break
time.sleep(5)
このサンプルはPollo.ai経由での非同期ジョブポーリングパターンを示している。job_idを取得後、5秒間隔でステータスを確認し、completedになった時点でMP4のURLを取得する。
ベンチマーク比較
VBench(ビデオ生成品質の標準ベンチマーク)の公式スコアはVidu Q2-Pro-Fastとして単独で公表されていない。以下は各モデルの公開済みVBenchスコアおよびFIDスコアを比較した表だ。
| モデル | VBench スコア | 生成時間(4秒/1080p) | 音声生成 | reference-to-video |
|---|---|---|---|---|
| Vidu Q2 Pro Fast | 未公表 | ~30–45秒(推定) | ✅ | ✅ |
| Kling V2.6 Pro | 未公表(高評価) | ~60–90秒 | ❌(別途処理) | ✅ |
| Kling V3.0 Pro | 未公表 | ~60–90秒 | ❌ | ✅ |
| Vidu Q2 Turbo | 未公表 | ~20–30秒(推定) | ✅ | 限定的 |
正直なコメント: 本記事執筆時点(2025年)で、Vidu Q2-Pro-Fast単体のVBenchスコアは公式に公開されていない。Vidu Q2シリーズはKling V2.xと競合するカテゴリに位置するが、数値での優劣を断言できるデータは存在しない。プロダクション導入前にFal.ai Playgroundで実際にサンプル生成して品質を確認することを強く推奨する。
料金比較
Vidu Q2 Proの料金は解像度と動画の長さによって変動する(出典: Fal.ai)。
| 解像度 | 動画長さ | Vidu Q2 Pro / Fast(推定) | Kling V2.6 Pro(参考) |
|---|---|---|---|
| 360p | 2秒 | ~$0.10 | 非公表(クレジット制) |
| 720p | 4秒 | ~$0.30–$0.40 | ~$0.25–$0.35 |
| 1080p | 4秒 | ~$0.50–$0.60 | ~$0.45–$0.55 |
| 1080p | 8秒 | ~$0.80 | ~$0.70–$0.90 |
注意点:
with_audio: trueを指定した場合の追加料金は、プロバイダーによって異なる可能性がある- Fal.ai・Novita.ai・Pollo.aiそれぞれのプロバイダーが独自のマークアップを適用する場合がある
- Fal.aiの公式ページでは「$0.10–$0.80 per video depending on resolution and duration」と明示されている
ベストユースケース
1. キャラクター一貫性が必要なコンテンツ制作
reference_imagesに複数の画像を渡すmulti-referenceモードは、特定キャラクターの顔・服装・スタイルを動画全体に維持したいケースに有効だ。例えば、ECサイトのモデル着用動画や、SNS広告用のブランドキャラクター動画に適している。
2. 音声付きショートムービーの自動生成
with_audio: trueを指定することで、映像に合わせたアンビエントサウンドを自動生成できる。動画編集コストを削減したい小規模チームや、コンテンツボリュームが重要なメディアプラットフォームに向いている。
3. Start-End Frame制御が必要なシーン遷移
start_imageとend_imageを指定することで、シーンの出発点と終着点を厳密にコントロールできる。ストーリーボードが固まっているCM制作や、プレゼンテーション用のアニメーションに活用できる。
4. 高速プロトタイピング
「Fast」バリアントは通常版より生成速度が約40〜50%速い(推定)ため、A/Bテスト用に複数バリエーションを素早く生成したい場合のイテレーションサイクルを短縮できる。
使うべきでないケース
以下の条件に当てはまる場合は、このモデルは適していない:
-
長尺動画が必要な場合: 最大8秒という制限は、説明動画・チュートリアル・インタビュー映像には不十分だ。Runway Gen-3やPika 2.0など、より長い動画生成に特化したモデルを検討すること。
-
音声の内容を精密にコントロールしたい場合:
with_audioは環境音の自動生成であり、ナレーション・セリフ・特定の効果音を指定する機能ではない。ダイアログが必要な場合は別途TTSをパイプラインに組み込む必要がある。 -
コスト最優先の大量生成バッチ処理: 1080p/8秒で$0.80という単価は、1日に数百〜数千本を生成するバッチワークフローでは高コストになる。
Q2 Turboバリアントの方が単価が低い可能性があり、品質とのトレードオフを評価すること。 -
リアルタイム・低レイテンシが必須の場合: 最速でも30秒以上かかる推定生成時間は、ライブ配信やリアルタイムインタラクティブアプリには対応できない。
-
VBench等のベンチマークで他モデルと定量比較してから決めたい場合: 現時点でVidu Q2-Pro-Fastの公開ベンチマークが存在しないため、スコアベースの意思決定ができない。Fal.aiのPlaygroundで自分のユースケースに近いプロンプトを試してから判断すること。
プロバイダー別アクセス方法
Vidu Q2-Pro-FastはVidu公式APIの他、複数のサードパーティプロバイダー経由でアクセスできる。
| プロバイダー | エンドポイント特徴 | 適している用途 |
|---|---|---|
| Pollo.ai | 公式ドキュメントあり、x-api-key認証 | 標準的なREST統合 |
| Fal.ai | Python/TypeScript SDK対応、Playground UI | 開発・検証フェーズ |
| Novita.ai | 複数Viduモデルを統一APIで管理 | マルチモデル切り替えが必要な場合 |
| Wavespeed.ai | Fast Inferenceに特化したドキュメント | 速度最優先のプロダクション |
| Runware.ai | multi-reference対応を明記 | キャラクター一貫性ワークフロー |
既知の制限・注意点まとめ
- 動画長さの上限が8秒: シリーズで連続生成してつなぐアーキテクチャが必要になる場合がある
with_audioの音声は環境音のみ: 声・BGM・特定SEは別パイプラインが必要- 生成速度の公式数値が非公開: SLAが必要な本番環境では実測値で設計すること
- 非同期API: ポーリング実装が必須。Webhookサポートはプロバイダー依存
- 参照画像の画質依存性: 低解像度・背景が複雑な参照画像はキャラクター一貫性の精度を下げる
- プロバイダーごとに料金・レート制限が異なる: 本番移行前に利用規約を確認すること
結論
Vidu Q2-Pro-Fastは、音声付き・参照画像コントロール・高速生成を一つのAPIで実現したい場合に検討する価値があるが、公開ベンチマークが存在しない点と最大8秒という時間制限は、導入前に実測検証で確認すべき重要な制約だ。競合のKling V3.0 Proとの品質差が数値で示されていない現状では、Fal.aiのPlaygroundで実際のユースケースに近いプロンプトを試し、その出力品質とコストで判断するのが最も確実なアプローチになる。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Vidu Q2-Pro-FastのAPIリクエストあたりのコストはいくらですか?
Vidu Q2-Pro-Fastの料金は、1動画あたり$0.10〜$0.80の範囲とされています(Q2 Pro標準の料金体系に基づく参考値)。ただし、Q2 Pro Fastは標準のQ2 Proと比較して割高になる可能性があることが公式ドキュメントで示唆されており、正確な単価は要確認です。最大8秒・1080p解像度の動画生成が対象となります。プロダクション導入前に、Wavespeed AI経由のAPIエンドポイントで実際の課金単価を確認することを強く推奨します。
Vidu Q2-Pro-Fastの動画生成レイテンシはどのくらいですか?Q2 Proと比べて速いですか?
Vidu Q2-Pro-Fastの推定生成時間は約30〜45秒です。これは標準のQ2 Pro(推定60〜90秒)と比較して約40〜50%の速度短縮を実現しています。ただし、これらの数値は推定値であり、Vidu公式ドキュメントには具体的なミリ秒単位のベンチマーク数値は公開されていません。「Fast」の名称はWavespeed AIのドキュメントで確認されており、「faster generation speed」と記載されているものの、厳密なSLA保証値ではないため、レイテンシ要件が厳しいプロダクション環境では自環境での実測値を取得することを推奨します。
Vidu Q2-Pro-FastのReference to Videoモードで複数の参照画像を使う場合、キャラクターの一貫性はどう保証されますか?
Vidu Q2-Pro-Fastのreference-to-videoモードは、複数の参照画像(Reference Image)を入力として受け付け、キャラクターや物体の外見一貫性を保ちながら動画を生成する機能を備えています。生成可能な動画の最大長は8秒、最大解像度は1080pです。音声生成(Audio)にも対応しており、テキスト・画像・参照画像の組み合わせ入力が可能です。なお、一貫性の定量的なベンチマークスコア(例:FIDやFVD値)は現時点では公式に開示されていないため、本番導入前にユースケースに応じたA/Bテストを実施することを推奨します。
Vidu Q2-Pro-FastはQ2 TurboやQ2 Standardと何が違いますか?どのバリアントを選ぶべきですか?
Vidu Q2シリーズには4つのバリアントが存在します:Q2 Standard、Q2 Turbo、Q2 Pro、Q2 Pro Fastです。Q2 Pro Fastは、Q2 Pro(推定生成時間60〜90秒)と比較して約40〜50%高速化(推定30〜45秒)されたバリアントで、最大解像度1080p・最大8秒・音声生成対応・reference-to-video対応はQ2 Proと同等です。コストはQ2 Proの$0.10〜$0.80/動画と比較して割高になる可能性があります。速度優先かつコスト許容度が高い場合はQ2 Pro Fast、コスト重視の場合はQ2 StandardまたはQ2 Turboの選択が合理的です。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。