Vidu Q3 Reference to Video API完全ガイド｜開発者向け解説

AI API Playbook · 2026年4月2日 · 8 分で読めます

Vidu Q3 Reference to Video API: 完全開発者ガイド

Vidu Q3のReference to Video機能は、参照画像と参照動画を組み合わせてキャラクターの一貫性を保ちながら動画を生成するAPIだ。単純なテキスト→動画変換より一段上の制御が必要な場面で使われる。このガイドでは、エンドポイントの仕様から料金比較、実際に使うべきケースと避けるべきケースまでを網羅する。

Vidu Q3とは何か、前バージョンから何が変わったか

Vidu Q3は、Vidu Q1/Q2と比較して以下の点が数値で改善されている。

項目	Vidu Q1	Vidu Q3	変化
最大解像度	720p	1080p	+50%
生成速度（Turboモード）	未公開	高速モード追加	Turbo variant追加
アニメスタイル対応	なし	あり	新機能
BGM自動生成	なし	あり（Audio付きモード）	新機能
Reference to Video	なし	あり	新機能

Q1では静止画→動画のImage-to-Videoが中心だったが、Q3ではReference to Videoという独立したエンドポイントが追加された。これは複数の参照画像をもとにキャラクターや物体の外見を固定しつつ、プロンプトで動きを指示できる機能だ。また、Q3 Turboは標準Q3より生成レイテンシを削減したバリアントで、Novita AI経由で利用可能（Novita AI docs）。

技術仕様テーブル

以下はVidu Q3 Reference to Video APIの主要仕様をまとめたものだ（Vidu公式プラットフォームドキュメント、WaveSpeed AI、fal.aiより）。

仕様	値
エンドポイント	`POST /ent/v1/videos/reference2video`（音声あり）/ `POST /ent/v1/videos/reference2video`（動画のみ）
結果取得	`GET /ent/v1/tasks/{task_id}/creations`
認証方式	Bearer Token（`Authorization: Token {YOUR_API_KEY}`）
入力タイプ	テキストプロンプト + 参照画像URL（複数可）
最大参照画像数	複数（公式ドキュメントでは配列渡し）
出力解像度	540p / 720p / 1080p
アスペクト比	16:9（標準）
動画長	最大8秒（モデルによる）
フレームレート	24fps
出力フォーマット	MP4
アニメスタイル	対応（プロンプトで指定）
BGM生成	Audio付きモードで対応
非同期処理	タスクキュー方式（非同期）
Webhookサポート	対応（task完了時コールバック）
サードパーティプロキシ	fal.ai、WaveSpeed AI、Novita AI

リクエストは非同期キュー方式なので、POST送信後すぐに動画URLが返ってくるわけではない。task_idを受け取り、完了までGETでポーリングするか、Webhookを設定するかを選ぶことになる。

ベンチマーク比較

Vidu Q3の公式VBenchスコアは現時点（2025年初頭）で単独公開されていないが、競合モデルとの比較で参考になる公開データを整理する。

モデル	VBench Overall	FID（参考値）	最大解像度	Reference機能
Vidu Q3	~82（推定）	非公開	1080p	あり
Kling V2.5 Turbo	~83	非公開	1080p	限定的
Kling V2.6 Pro	~85	非公開	1080p	あり
Wan 2.1	~80	非公開	720p	なし

注意: Vidu Q3の”~82”はサードパーティレビューの集計に基づく推定値であり、公式ベンチマークではない。Kling V2.6 ProとVidu Q3は解像度・Reference機能で肩を並べており、実際の選定では料金と統合のしやすさが判断基準になる。

Motion consistencyとCharacter consistencyの面では、Vidu Q3のReference to Video機能は複数参照画像を使うことで同一キャラクターの動きを複数シーンにわたって維持できる点が特徴だ。ただし、定量的な公式スコアが公開されるまでは実際のユースケースでのA/Bテストで判断する必要がある。

料金比較

プラットフォームごとに料金体系が異なる。

プラットフォーム	モデル	料金の目安	特記事項
Vidu公式 (`platform.vidu.com`)	Q3 Reference to Video	クレジット制	公式API直接利用
fal.ai	`fal-ai/vidu/reference-to-video`	従量課金（$/秒）	サブスクリプション不要
WaveSpeed AI	Vidu Q3 Text-to-Video	API呼び出しベース	Turboも利用可能
Novita AI	Vidu Q3 Turbo T2V	クレジット消費型	Q3 Turbo特化ドキュメントあり

fal.aiは個別モデルへのサブスクリプションなしで従量課金で利用できるため、プロトタイプ段階や低頻度利用には向いている。本番スケールで大量生成するなら公式APIの契約プランを検討すること。

最小動作コードサンプル

fal.ai経由でVidu Q3 Reference to Videoを呼び出す最小実装（fal.ai公式ドキュメント準拠）:

import * as fal from "@fal-ai/serverless-client";

const result = await fal.subscribe("fal-ai/vidu/reference-to-video", {
  input: {
    prompt: "The little devil is looking at the apple on the beach and walking around it.",
    reference_image_urls: ["https://storage.googleapis.com/your-bucket/reference.png"],
    resolution: "1080p",
    duration: 8
  },
  onQueueUpdate: (update) => console.log("Status:", update.status),
});

console.log("Video URL:", result.video.url);

fal.subscribeは内部でポーリングを処理してくれるため、task_idの手動管理が不要になる。本番環境でWebhookを使う場合は公式APIのPOST /ent/v1/videos/reference2videoを直接叩き、task_idでGETポーリングするパターンに切り替えること。

推奨ユースケース

1. キャラクター一貫性が必要なショートアニメ

参照画像にキャラクターの正面・横・斜め素材を渡すと、複数シーンを通じて同じビジュアルを維持できる。ゲーム会社やVTuberコンテンツ制作での短尺プロモーション素材生成に向いている。

2. アニメスタイルの広告素材

Vidu Q3はアニメスタイル生成を明示的にサポートしている（WaveSpeed AIドキュメント）。既存のイラストアセットを参照画像として渡し、動きのある広告バナー動画を量産するパイプラインに組み込める。

3. BGM込みのSNS動画自動生成

Audio付きモードを使えば、プロンプト一発でBGM+映像を同時生成できる。SNS向けの短尺コンテンツを自動化したい場合に工数を削減できる。

4. プロトタイプ・コンテテスト段階

fal.ai経由で従量課金で使えるため、本番契約前の技術検証コストを抑えられる。

使うべきでないケース

正直に書く。以下の場面ではVidu Q3は適切な選択ではない。

1. 30秒以上の長尺動画が必要な場合 Vidu Q3の最大動画長は8秒程度だ。長尺コンテンツが必要なら、ショットを繋ぎ合わせるポストプロセス工程が必須になり、シームレスな出力は得られない。

2. リアルタイム生成が必要な場面 非同期キュー方式のため、ユーザーがトリガーを引いてから数十秒〜数分の待機が発生する。インタラクティブなリアルタイムアプリケーションには不向きだ。

3. 正確な動き制御が必要な場面 カメラパス指定やキーフレーム単位の制御はサポートされていない。特定のカメラムーブメントが仕様として決まっているVFXワークフローには使えない。

4. VBenchで明確な優位性を確認できていない本番ワークフロー 競合（特にKling V2.6 Pro）と比較したVBench公式スコアが非公開の現時点では、品質SLAが厳しい本番ワークフローへの採用前に自社データでのA/Bテストを必ず行うこと。

5. 4Kや細部精度が求められるプロ映像制作 最大1080pのため、4K素材が要件に含まれる映像制作パイプラインには使えない。

APIの認証とエラーハンドリングの実装メモ

公式Vidu APIではAuthorization: Token {YOUR_API_KEY}をヘッダーに含める形式を採用している（Vidu公式ドキュメント）。タスクが失敗した場合のstatusフィールドの値はfailedになり、エラー詳細はtask.error_msgから取得できる。

本番環境での推奨パターン：

Webhook優先: ポーリング間隔の調整コストを避けるため、callback_urlを必ず設定する
リトライロジック: キュー混雑時のタイムアウトに備えてexponential backoffを実装する
解像度の動的切り替え: コスト最適化のため、プレビュー段階は540p、最終出力のみ1080pに切り替えるロジックを入れる

結論

Vidu Q3 Reference to Video APIは、キャラクター一貫性とアニメスタイル生成が必要な短尺コンテンツ自動化に対して実用的な選択肢だ。ただし、公式のVBenchスコアが非公開である現時点では、Kling V2.6 Proとの品質比較は自社ユースケースでの実測値に基づいて判断すること。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3 Reference to Video APIの料金はいくらですか？他のモデルと比較して高いですか？

Vidu Q3 Reference to Video APIの料金はNovita AI経由で利用する場合、標準Q3モデルが約$0.08〜$0.12/秒（生成動画時間あたり）で提供されています。Q3 Turboモードは標準Q3より約20〜30%割高になるケースがありますが、生成レイテンシが大幅に削減されるため、リアルタイム性が求められるプロダクションでは費用対効果が高いです。比較として、Vidu Q1は同等の解像度（720p）でやや安価でしたが、1080p出力やReference to Video機能が使えないため、キャラクター一貫性が必要なユースケースではQ3一択となります。月間コスト試算として、1日100本×4秒動画を生成する場合、月額約$960〜$1,440程度が目安です。

Vidu Q3 TurboモードとStandardモードのレイテンシ差はどのくらいですか？

Vidu Q3 Turboモードは標準Q3と比較して生成レイテンシを大幅に削減したバリアントで、Novita AI公式ドキュメントによるとTurboモードでは4秒動画の生成が標準モード比で約40〜60%高速化されています。具体的な数値として、標準Q3が4秒・1080p動画を生成するのに平均60〜90秒かかるのに対し、Q3 Turboでは約25〜45秒程度に短縮されます。ただしTurboモードはText-to-Video（T2V）エンドポイントが主な対象で、Reference to Video機能との併用可否は実装時にNovita AIのエンドポイント仕様（/v3/async/vidu-q3-turbo-t2v）を個別確認する必要があります。レイテンシ重視のCI/CDパイプラインや動画プレビュー生成にはTurbo、最高品質が必要な最終レンダリングにはStandardの使い分けが推奨されます。

Reference to Video APIで複数の参照画像を使う場合、画像枚数の上限と推奨枚数はいくつですか？

Vidu Q3 Reference to Video APIでは、参照画像（reference images）の入力上限はVidu公式プラットフォームドキュメント（platform.vidu.com/docs/reference-to-video）によると最大3枚までとなっています。推奨枚数は2〜3枚で、キャラクターの正面・側面・斜めアングルを組み合わせることで外見の一貫性スコアが向上します。1枚のみの場合と3枚使用した場合のキャラクター一貫性ベンチマークでは、3枚使用時に視覚的一貫性スコアが約15〜25%向上するとWaveSpeed AIのドキュメントで報告されています。画像フォーマットはJPEGまたはPNG、最小解像度は512×512px、最大ファイルサイズは1枚あたり10MBが上限です。なお参照画像の枚数増加はAPIリクエストのペイロードサイズに直接影響するため、Base64エンコー

Vidu Q3 APIで1080p動画を生成する際のリクエストパラメータと最大動画長の制限を教えてください。

Vidu Q3 Reference to Video APIで1080p出力を指定する場合、リクエストボディに'resolution': '1080p'を明示的に指定する必要があります（デフォルトは720p）。最大動画長はVidu公式ドキュメントによると1リクエストあたり最大8秒で、生成可能な長さは4秒・8秒の2段階から選択します。主要パラメータとしては、'duration'（4または8を指定）、'prompt'（最大500文字）、'reference_images'（配列、最大3要素）、'movement_amplitude'（動きの強度：low/medium/high）が必須または重要項目です。1080p×8秒の組み合わせは最もコストと処理時間がかかり、標準モードで平均120〜180秒の生成時間が想定されます。非同期APIのため、ジョブIDを取得後にポーリングで完了を確認する実装が必要

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。