Vidu Q2-Pro-Fast 動画生成API完全ガイド【開発者向け】

AI API Playbook · 2026年3月18日 · 10 分で読めます

Vidu Q2-Pro-Fast Reference to Video with Audio API: Complete Developer Guide

概要

Vidu Q2-Pro-Fastは、テキスト・画像・参照画像（Reference Image）を入力として、音声付き動画を生成するビデオ生成APIだ。reference-to-videoモードが今回のフォーカスで、複数の参照画像からキャラクターや物体の一貫性を保ちながら動画を生成できる。本記事では、仕様・ベンチマーク・料金・コードサンプルを整理し、プロダクション導入の判断材料を提供する。

前バージョンとの比較：何が変わったか

Vidu Q2シリーズには複数のバリアントが存在する。Q2 Standard、Q2 Turbo、Q2 Pro、そして今回のQ2 Pro Fastだ。以下に主要な変更点を整理する。

指標	Q2 Pro（標準）	Q2 Pro Fast	変化
生成速度（推定）	~60–90秒	~30–45秒	約40–50%短縮
最大解像度	1080p	1080p	変化なし
音声生成	あり	あり	変化なし
reference-to-video対応	あり	あり	変化なし
1動画あたりのコスト	$0.10–$0.80	Q2 Pro比で割高の可能性	要確認（後述）
最大長さ	8秒	8秒	変化なし

重要な注記： 公式の生成速度ベンチマーク数値はVidu公式ドキュメントに明示されていない。「Fast」ネーミングはWavespeed AI経由のドキュメントで確認されており、「faster generation speed」と記載されているが、具体的なms値は非公開だ（出典: Wavespeed AI Docs）。速度要件が厳しい場合は、自分のユースケースで実測することを推奨する。

フルテクニカルスペック

項目	仕様
モデル名	`vidu-q2-pro-fast`
APIエンドポイント	`POST https://pollo.ai/api/platform/generation/vidu/viduq2-pro`
認証方式	`x-api-key` ヘッダー
対応入力モード	text-to-video / image-to-video / reference-to-video / start-end-to-video
最大解像度	1080p（1920×1080）
最小解像度	360p
動画長さ	2秒〜 8秒
フレームレート	24fps（標準）
音声生成	対応（ambient audio含む）
参照画像数	複数対応（multi-reference）
出力フォーマット	MP4
リクエスト形式	`application/json`
非同期処理	あり（生成ジョブIDを返却し、ポーリングで取得）
対応プロバイダー	Pollo.ai / Novita.ai / Fal.ai / Runware.ai / Wavespeed.ai

出典: Pollo.ai API Docs, Fal.ai Model Card, Novita.ai Docs

リクエスト・レスポンスの構造

リクエストボディ（JSON）

{
  "prompt": "A cat walking through a neon-lit alley at night, cinematic",
  "reference_images": ["https://example.com/ref1.jpg"],
  "duration": 4,
  "resolution": "1080p",
  "with_audio": true,
  "model": "vidu-q2-pro-fast"
}

主要パラメータ

パラメータ	型	必須	説明
`prompt`	string	必須	動画の内容を記述するテキスト
`reference_images`	array	モードによる	参照画像URLの配列（reference-to-videoモード）
`start_image`	string	モードによる	開始フレーム画像URL
`end_image`	string	モードによる	終了フレーム画像URL
`duration`	integer	任意	動画の長さ（2〜8秒）
`resolution`	string	任意	`360p` / `720p` / `1080p`
`with_audio`	boolean	任意	音声生成の有無（デフォルト: `false`）
`model`	string	必須	`vidu-q2-pro-fast` を明示指定

最小動作コードサンプル

import httpx, time

API_KEY = "YOUR_API_KEY"
BASE_URL = "https://pollo.ai/api/platform/generation/vidu/viduq2-pro"

payload = {
    "prompt": "A woman walking in a Tokyo street, cinematic, golden hour",
    "reference_images": ["https://example.com/character_ref.jpg"],
    "duration": 4,
    "resolution": "1080p",
    "with_audio": True,
    "model": "vidu-q2-pro-fast"
}

resp = httpx.post(BASE_URL, json=payload, headers={"x-api-key": API_KEY, "Content-Type": "application/json"})
job_id = resp.json()["job_id"]

for _ in range(30):
    status = httpx.get(f"{BASE_URL}/{job_id}", headers={"x-api-key": API_KEY}).json()
    if status["status"] == "completed":
        print(status["video_url"]); break
    time.sleep(5)

このサンプルはPollo.ai経由での非同期ジョブポーリングパターンを示している。job_idを取得後、5秒間隔でステータスを確認し、completedになった時点でMP4のURLを取得する。

ベンチマーク比較

VBench（ビデオ生成品質の標準ベンチマーク）の公式スコアはVidu Q2-Pro-Fastとして単独で公表されていない。以下は各モデルの公開済みVBenchスコアおよびFIDスコアを比較した表だ。

モデル	VBench スコア	生成時間（4秒/1080p）	音声生成	reference-to-video
Vidu Q2 Pro Fast	未公表	~30–45秒（推定）	✅	✅
Kling V2.6 Pro	未公表（高評価）	~60–90秒	❌（別途処理）	✅
Kling V3.0 Pro	未公表	~60–90秒	❌	✅
Vidu Q2 Turbo	未公表	~20–30秒（推定）	✅	限定的

正直なコメント： 本記事執筆時点（2025年）で、Vidu Q2-Pro-Fast単体のVBenchスコアは公式に公開されていない。Vidu Q2シリーズはKling V2.xと競合するカテゴリに位置するが、数値での優劣を断言できるデータは存在しない。プロダクション導入前にFal.ai Playgroundで実際にサンプル生成して品質を確認することを強く推奨する。

料金比較

Vidu Q2 Proの料金は解像度と動画の長さによって変動する（出典: Fal.ai）。

解像度	動画長さ	Vidu Q2 Pro / Fast（推定）	Kling V2.6 Pro（参考）
360p	2秒	~$0.10	非公表（クレジット制）
720p	4秒	~$0.30–$0.40	~$0.25–$0.35
1080p	4秒	~$0.50–$0.60	~$0.45–$0.55
1080p	8秒	~$0.80	~$0.70–$0.90

注意点：

with_audio: trueを指定した場合の追加料金は、プロバイダーによって異なる可能性がある
Fal.ai・Novita.ai・Pollo.aiそれぞれのプロバイダーが独自のマークアップを適用する場合がある
Fal.aiの公式ページでは「$0.10–$0.80 per video depending on resolution and duration」と明示されている

ベストユースケース

1. キャラクター一貫性が必要なコンテンツ制作

reference_imagesに複数の画像を渡すmulti-referenceモードは、特定キャラクターの顔・服装・スタイルを動画全体に維持したいケースに有効だ。例えば、ECサイトのモデル着用動画や、SNS広告用のブランドキャラクター動画に適している。

2. 音声付きショートムービーの自動生成

with_audio: trueを指定することで、映像に合わせたアンビエントサウンドを自動生成できる。動画編集コストを削減したい小規模チームや、コンテンツボリュームが重要なメディアプラットフォームに向いている。

3. Start-End Frame制御が必要なシーン遷移

start_imageとend_imageを指定することで、シーンの出発点と終着点を厳密にコントロールできる。ストーリーボードが固まっているCM制作や、プレゼンテーション用のアニメーションに活用できる。

4. 高速プロトタイピング

「Fast」バリアントは通常版より生成速度が約40〜50%速い（推定）ため、A/Bテスト用に複数バリエーションを素早く生成したい場合のイテレーションサイクルを短縮できる。

使うべきでないケース

以下の条件に当てはまる場合は、このモデルは適していない：

長尺動画が必要な場合： 最大8秒という制限は、説明動画・チュートリアル・インタビュー映像には不十分だ。Runway Gen-3やPika 2.0など、より長い動画生成に特化したモデルを検討すること。
音声の内容を精密にコントロールしたい場合： with_audioは環境音の自動生成であり、ナレーション・セリフ・特定の効果音を指定する機能ではない。ダイアログが必要な場合は別途TTSをパイプラインに組み込む必要がある。
コスト最優先の大量生成バッチ処理： 1080p/8秒で$0.80という単価は、1日に数百〜数千本を生成するバッチワークフローでは高コストになる。Q2 Turboバリアントの方が単価が低い可能性があり、品質とのトレードオフを評価すること。
リアルタイム・低レイテンシが必須の場合： 最速でも30秒以上かかる推定生成時間は、ライブ配信やリアルタイムインタラクティブアプリには対応できない。
VBench等のベンチマークで他モデルと定量比較してから決めたい場合： 現時点でVidu Q2-Pro-Fastの公開ベンチマークが存在しないため、スコアベースの意思決定ができない。Fal.aiのPlaygroundで自分のユースケースに近いプロンプトを試してから判断すること。

プロバイダー別アクセス方法

Vidu Q2-Pro-FastはVidu公式APIの他、複数のサードパーティプロバイダー経由でアクセスできる。

プロバイダー	エンドポイント特徴	適している用途
Pollo.ai	公式ドキュメントあり、x-api-key認証	標準的なREST統合
Fal.ai	Python/TypeScript SDK対応、Playground UI	開発・検証フェーズ
Novita.ai	複数Viduモデルを統一APIで管理	マルチモデル切り替えが必要な場合
Wavespeed.ai	Fast Inferenceに特化したドキュメント	速度最優先のプロダクション
Runware.ai	multi-reference対応を明記	キャラクター一貫性ワークフロー

既知の制限・注意点まとめ

動画長さの上限が8秒： シリーズで連続生成してつなぐアーキテクチャが必要になる場合がある
with_audioの音声は環境音のみ： 声・BGM・特定SEは別パイプラインが必要
生成速度の公式数値が非公開： SLAが必要な本番環境では実測値で設計すること
非同期API： ポーリング実装が必須。Webhookサポートはプロバイダー依存
参照画像の画質依存性： 低解像度・背景が複雑な参照画像はキャラクター一貫性の精度を下げる
プロバイダーごとに料金・レート制限が異なる： 本番移行前に利用規約を確認すること

結論

Vidu Q2-Pro-Fastは、音声付き・参照画像コントロール・高速生成を一つのAPIで実現したい場合に検討する価値があるが、公開ベンチマークが存在しない点と最大8秒という時間制限は、導入前に実測検証で確認すべき重要な制約だ。競合のKling V3.0 Proとの品質差が数値で示されていない現状では、Fal.aiのPlaygroundで実際のユースケースに近いプロンプトを試し、その出力品質とコストで判断するのが最も確実なアプローチになる。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q2-Pro-FastのAPIリクエストあたりのコストはいくらですか？

Vidu Q2-Pro-Fastの料金は、1動画あたり$0.10〜$0.80の範囲とされています（Q2 Pro標準の料金体系に基づく参考値）。ただし、Q2 Pro Fastは標準のQ2 Proと比較して割高になる可能性があることが公式ドキュメントで示唆されており、正確な単価は要確認です。最大8秒・1080p解像度の動画生成が対象となります。プロダクション導入前に、Wavespeed AI経由のAPIエンドポイントで実際の課金単価を確認することを強く推奨します。

Vidu Q2-Pro-Fastの動画生成レイテンシはどのくらいですか？Q2 Proと比べて速いですか？

Vidu Q2-Pro-Fastの推定生成時間は約30〜45秒です。これは標準のQ2 Pro（推定60〜90秒）と比較して約40〜50%の速度短縮を実現しています。ただし、これらの数値は推定値であり、Vidu公式ドキュメントには具体的なミリ秒単位のベンチマーク数値は公開されていません。「Fast」の名称はWavespeed AIのドキュメントで確認されており、「faster generation speed」と記載されているものの、厳密なSLA保証値ではないため、レイテンシ要件が厳しいプロダクション環境では自環境での実測値を取得することを推奨します。

Vidu Q2-Pro-FastのReference to Videoモードで複数の参照画像を使う場合、キャラクターの一貫性はどう保証されますか？

Vidu Q2-Pro-Fastのreference-to-videoモードは、複数の参照画像（Reference Image）を入力として受け付け、キャラクターや物体の外見一貫性を保ちながら動画を生成する機能を備えています。生成可能な動画の最大長は8秒、最大解像度は1080pです。音声生成（Audio）にも対応しており、テキスト・画像・参照画像の組み合わせ入力が可能です。なお、一貫性の定量的なベンチマークスコア（例：FIDやFVD値）は現時点では公式に開示されていないため、本番導入前にユースケースに応じたA/Bテストを実施することを推奨します。

Vidu Q2-Pro-FastはQ2 TurboやQ2 Standardと何が違いますか？どのバリアントを選ぶべきですか？

Vidu Q2シリーズには4つのバリアントが存在します：Q2 Standard、Q2 Turbo、Q2 Pro、Q2 Pro Fastです。Q2 Pro Fastは、Q2 Pro（推定生成時間60〜90秒）と比較して約40〜50%高速化（推定30〜45秒）されたバリアントで、最大解像度1080p・最大8秒・音声生成対応・reference-to-video対応はQ2 Proと同等です。コストはQ2 Proの$0.10〜$0.80/動画と比較して割高になる可能性があります。速度優先かつコスト許容度が高い場合はQ2 Pro Fast、コスト重視の場合はQ2 StandardまたはQ2 Turboの選択が合理的です。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。