モデルリリース

Vidu Q2-Pro-Fast 動画生成API完全ガイド【開発者向け】

AI API Playbook · · 10 分で読めます

Vidu Q2-Pro-Fast Reference to Video with Audio API: Complete Developer Guide

概要

Vidu Q2-Pro-Fastは、テキスト・画像・参照画像(Reference Image)を入力として、音声付き動画を生成するビデオ生成APIだ。reference-to-videoモードが今回のフォーカスで、複数の参照画像からキャラクターや物体の一貫性を保ちながら動画を生成できる。本記事では、仕様・ベンチマーク・料金・コードサンプルを整理し、プロダクション導入の判断材料を提供する。


前バージョンとの比較:何が変わったか

Vidu Q2シリーズには複数のバリアントが存在する。Q2 StandardQ2 TurboQ2 Pro、そして今回のQ2 Pro Fastだ。以下に主要な変更点を整理する。

指標Q2 Pro(標準)Q2 Pro Fast変化
生成速度(推定)~60–90秒~30–45秒約40–50%短縮
最大解像度1080p1080p変化なし
音声生成ありあり変化なし
reference-to-video対応ありあり変化なし
1動画あたりのコスト$0.10–$0.80Q2 Pro比で割高の可能性要確認(後述)
最大長さ8秒8秒変化なし

重要な注記: 公式の生成速度ベンチマーク数値はVidu公式ドキュメントに明示されていない。「Fast」ネーミングはWavespeed AI経由のドキュメントで確認されており、「faster generation speed」と記載されているが、具体的なms値は非公開だ(出典: Wavespeed AI Docs)。速度要件が厳しい場合は、自分のユースケースで実測することを推奨する。


フルテクニカルスペック

項目仕様
モデル名vidu-q2-pro-fast
APIエンドポイントPOST https://pollo.ai/api/platform/generation/vidu/viduq2-pro
認証方式x-api-key ヘッダー
対応入力モードtext-to-video / image-to-video / reference-to-video / start-end-to-video
最大解像度1080p(1920×1080)
最小解像度360p
動画長さ2秒 〜 8秒
フレームレート24fps(標準)
音声生成対応(ambient audio含む)
参照画像数複数対応(multi-reference)
出力フォーマットMP4
リクエスト形式application/json
非同期処理あり(生成ジョブIDを返却し、ポーリングで取得)
対応プロバイダーPollo.ai / Novita.ai / Fal.ai / Runware.ai / Wavespeed.ai

出典: Pollo.ai API Docs, Fal.ai Model Card, Novita.ai Docs


リクエスト・レスポンスの構造

リクエストボディ(JSON)

{
  "prompt": "A cat walking through a neon-lit alley at night, cinematic",
  "reference_images": ["https://example.com/ref1.jpg"],
  "duration": 4,
  "resolution": "1080p",
  "with_audio": true,
  "model": "vidu-q2-pro-fast"
}

主要パラメータ

パラメータ必須説明
promptstring必須動画の内容を記述するテキスト
reference_imagesarrayモードによる参照画像URLの配列(reference-to-videoモード)
start_imagestringモードによる開始フレーム画像URL
end_imagestringモードによる終了フレーム画像URL
durationinteger任意動画の長さ(2〜8秒)
resolutionstring任意360p / 720p / 1080p
with_audioboolean任意音声生成の有無(デフォルト: false
modelstring必須vidu-q2-pro-fast を明示指定

最小動作コードサンプル

import httpx, time

API_KEY = "YOUR_API_KEY"
BASE_URL = "https://pollo.ai/api/platform/generation/vidu/viduq2-pro"

payload = {
    "prompt": "A woman walking in a Tokyo street, cinematic, golden hour",
    "reference_images": ["https://example.com/character_ref.jpg"],
    "duration": 4,
    "resolution": "1080p",
    "with_audio": True,
    "model": "vidu-q2-pro-fast"
}

resp = httpx.post(BASE_URL, json=payload, headers={"x-api-key": API_KEY, "Content-Type": "application/json"})
job_id = resp.json()["job_id"]

for _ in range(30):
    status = httpx.get(f"{BASE_URL}/{job_id}", headers={"x-api-key": API_KEY}).json()
    if status["status"] == "completed":
        print(status["video_url"]); break
    time.sleep(5)

このサンプルはPollo.ai経由での非同期ジョブポーリングパターンを示している。job_idを取得後、5秒間隔でステータスを確認し、completedになった時点でMP4のURLを取得する。


ベンチマーク比較

VBench(ビデオ生成品質の標準ベンチマーク)の公式スコアはVidu Q2-Pro-Fastとして単独で公表されていない。以下は各モデルの公開済みVBenchスコアおよびFIDスコアを比較した表だ。

モデルVBench スコア生成時間(4秒/1080p)音声生成reference-to-video
Vidu Q2 Pro Fast未公表~30–45秒(推定)
Kling V2.6 Pro未公表(高評価)~60–90秒❌(別途処理)
Kling V3.0 Pro未公表~60–90秒
Vidu Q2 Turbo未公表~20–30秒(推定)限定的

正直なコメント: 本記事執筆時点(2025年)で、Vidu Q2-Pro-Fast単体のVBenchスコアは公式に公開されていない。Vidu Q2シリーズはKling V2.xと競合するカテゴリに位置するが、数値での優劣を断言できるデータは存在しない。プロダクション導入前にFal.ai Playgroundで実際にサンプル生成して品質を確認することを強く推奨する。


料金比較

Vidu Q2 Proの料金は解像度と動画の長さによって変動する(出典: Fal.ai)。

解像度動画長さVidu Q2 Pro / Fast(推定)Kling V2.6 Pro(参考)
360p2秒~$0.10非公表(クレジット制)
720p4秒~$0.30–$0.40~$0.25–$0.35
1080p4秒~$0.50–$0.60~$0.45–$0.55
1080p8秒~$0.80~$0.70–$0.90

注意点:

  • with_audio: trueを指定した場合の追加料金は、プロバイダーによって異なる可能性がある
  • Fal.ai・Novita.ai・Pollo.aiそれぞれのプロバイダーが独自のマークアップを適用する場合がある
  • Fal.aiの公式ページでは「$0.10–$0.80 per video depending on resolution and duration」と明示されている

ベストユースケース

1. キャラクター一貫性が必要なコンテンツ制作

reference_imagesに複数の画像を渡すmulti-referenceモードは、特定キャラクターの顔・服装・スタイルを動画全体に維持したいケースに有効だ。例えば、ECサイトのモデル着用動画や、SNS広告用のブランドキャラクター動画に適している。

2. 音声付きショートムービーの自動生成

with_audio: trueを指定することで、映像に合わせたアンビエントサウンドを自動生成できる。動画編集コストを削減したい小規模チームや、コンテンツボリュームが重要なメディアプラットフォームに向いている。

3. Start-End Frame制御が必要なシーン遷移

start_imageend_imageを指定することで、シーンの出発点と終着点を厳密にコントロールできる。ストーリーボードが固まっているCM制作や、プレゼンテーション用のアニメーションに活用できる。

4. 高速プロトタイピング

「Fast」バリアントは通常版より生成速度が約40〜50%速い(推定)ため、A/Bテスト用に複数バリエーションを素早く生成したい場合のイテレーションサイクルを短縮できる。


使うべきでないケース

以下の条件に当てはまる場合は、このモデルは適していない:

  • 長尺動画が必要な場合: 最大8秒という制限は、説明動画・チュートリアル・インタビュー映像には不十分だ。Runway Gen-3やPika 2.0など、より長い動画生成に特化したモデルを検討すること。

  • 音声の内容を精密にコントロールしたい場合: with_audioは環境音の自動生成であり、ナレーション・セリフ・特定の効果音を指定する機能ではない。ダイアログが必要な場合は別途TTSをパイプラインに組み込む必要がある。

  • コスト最優先の大量生成バッチ処理: 1080p/8秒で$0.80という単価は、1日に数百〜数千本を生成するバッチワークフローでは高コストになる。Q2 Turboバリアントの方が単価が低い可能性があり、品質とのトレードオフを評価すること。

  • リアルタイム・低レイテンシが必須の場合: 最速でも30秒以上かかる推定生成時間は、ライブ配信やリアルタイムインタラクティブアプリには対応できない。

  • VBench等のベンチマークで他モデルと定量比較してから決めたい場合: 現時点でVidu Q2-Pro-Fastの公開ベンチマークが存在しないため、スコアベースの意思決定ができない。Fal.aiのPlaygroundで自分のユースケースに近いプロンプトを試してから判断すること。


プロバイダー別アクセス方法

Vidu Q2-Pro-FastはVidu公式APIの他、複数のサードパーティプロバイダー経由でアクセスできる。

プロバイダーエンドポイント特徴適している用途
Pollo.ai公式ドキュメントあり、x-api-key認証標準的なREST統合
Fal.aiPython/TypeScript SDK対応、Playground UI開発・検証フェーズ
Novita.ai複数Viduモデルを統一APIで管理マルチモデル切り替えが必要な場合
Wavespeed.aiFast Inferenceに特化したドキュメント速度最優先のプロダクション
Runware.aimulti-reference対応を明記キャラクター一貫性ワークフロー

既知の制限・注意点まとめ

  • 動画長さの上限が8秒: シリーズで連続生成してつなぐアーキテクチャが必要になる場合がある
  • with_audioの音声は環境音のみ: 声・BGM・特定SEは別パイプラインが必要
  • 生成速度の公式数値が非公開: SLAが必要な本番環境では実測値で設計すること
  • 非同期API: ポーリング実装が必須。Webhookサポートはプロバイダー依存
  • 参照画像の画質依存性: 低解像度・背景が複雑な参照画像はキャラクター一貫性の精度を下げる
  • プロバイダーごとに料金・レート制限が異なる: 本番移行前に利用規約を確認すること

結論

Vidu Q2-Pro-Fastは、音声付き・参照画像コントロール・高速生成を一つのAPIで実現したい場合に検討する価値があるが、公開ベンチマークが存在しない点と最大8秒という時間制限は、導入前に実測検証で確認すべき重要な制約だ。競合のKling V3.0 Proとの品質差が数値で示されていない現状では、Fal.aiのPlaygroundで実際のユースケースに近いプロンプトを試し、その出力品質とコストで判断するのが最も確実なアプローチになる。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q2-Pro-FastのAPIリクエストあたりのコストはいくらですか?

Vidu Q2-Pro-Fastの料金は、1動画あたり$0.10〜$0.80の範囲とされています(Q2 Pro標準の料金体系に基づく参考値)。ただし、Q2 Pro Fastは標準のQ2 Proと比較して割高になる可能性があることが公式ドキュメントで示唆されており、正確な単価は要確認です。最大8秒・1080p解像度の動画生成が対象となります。プロダクション導入前に、Wavespeed AI経由のAPIエンドポイントで実際の課金単価を確認することを強く推奨します。

Vidu Q2-Pro-Fastの動画生成レイテンシはどのくらいですか?Q2 Proと比べて速いですか?

Vidu Q2-Pro-Fastの推定生成時間は約30〜45秒です。これは標準のQ2 Pro(推定60〜90秒)と比較して約40〜50%の速度短縮を実現しています。ただし、これらの数値は推定値であり、Vidu公式ドキュメントには具体的なミリ秒単位のベンチマーク数値は公開されていません。「Fast」の名称はWavespeed AIのドキュメントで確認されており、「faster generation speed」と記載されているものの、厳密なSLA保証値ではないため、レイテンシ要件が厳しいプロダクション環境では自環境での実測値を取得することを推奨します。

Vidu Q2-Pro-FastのReference to Videoモードで複数の参照画像を使う場合、キャラクターの一貫性はどう保証されますか?

Vidu Q2-Pro-Fastのreference-to-videoモードは、複数の参照画像(Reference Image)を入力として受け付け、キャラクターや物体の外見一貫性を保ちながら動画を生成する機能を備えています。生成可能な動画の最大長は8秒、最大解像度は1080pです。音声生成(Audio)にも対応しており、テキスト・画像・参照画像の組み合わせ入力が可能です。なお、一貫性の定量的なベンチマークスコア(例:FIDやFVD値)は現時点では公式に開示されていないため、本番導入前にユースケースに応じたA/Bテストを実施することを推奨します。

Vidu Q2-Pro-FastはQ2 TurboやQ2 Standardと何が違いますか?どのバリアントを選ぶべきですか?

Vidu Q2シリーズには4つのバリアントが存在します:Q2 Standard、Q2 Turbo、Q2 Pro、Q2 Pro Fastです。Q2 Pro Fastは、Q2 Pro(推定生成時間60〜90秒)と比較して約40〜50%高速化(推定30〜45秒)されたバリアントで、最大解像度1080p・最大8秒・音声生成対応・reference-to-video対応はQ2 Proと同等です。コストはQ2 Proの$0.10〜$0.80/動画と比較して割高になる可能性があります。速度優先かつコスト許容度が高い場合はQ2 Pro Fast、コスト重視の場合はQ2 StandardまたはQ2 Turboの選択が合理的です。

タグ

Vidu Q2-Pro-Fast Reference to Video with Audio Video API Developer Guide 2026

関連記事