Vidu Q3-Pro 始点・終点動画API完全開発者ガイド
Vidu Q3-Pro Start-end-to-video API: Complete Developer Guide
Vidu Q3-Proのstart-end-to-videoエンドポイントは、開始フレームと終了フレームを指定して、その間を補間する動画を生成するAPIです。本ガイドでは、仕様・ベンチマーク・価格・実装コードを網羅し、プロダクション投入を判断するために必要な情報をすべてまとめます。
Vidu Q3-Proとは何か、前バージョンとの違い
Viduは中国のShengshu Technologyが開発する動画生成モデルです。Q3-ProはQ1系列からのメジャーアップグレードに相当し、以下の点が改善されています。
| 比較項目 | Vidu Q1 | Vidu Q3-Pro |
|---|---|---|
| 最大解像度 | 720p | 1080p |
| 最大動画長 | 4秒 | 16秒 |
| Audio同期生成 | なし | あり |
| Start-endフレーム補間 | 限定的 | 専用エンドポイント |
| APIプラットフォーム対応 | Novita AI, fal.ai | Pollo.ai, fal.ai, Novita AI, 公式platform.vidu.com |
公式ドキュメント(docs.platform.vidu.com)によると、start-end-to-videoは独立したPOSTエンドポイントとして提供されており、Q1では存在しなかった機能セットです。Novita AIのドキュメントでは、Q3-Proがtext-to-videoとimage-to-videoの両方で利用可能であることが確認されています。
技術仕様
| 項目 | 仕様 |
|---|---|
| エンドポイント(Pollo.ai経由) | POST https://pollo.ai/api/platform/generation/vidu/viduq3-pro |
| エンドポイント(公式) | POST https://platform.vidu.com (start-end-to-video) |
| エンドポイント(fal.ai経由) | fal-ai/vidu/start-end-to-video |
| 入力フォーマット | 画像(開始フレーム + 終了フレーム)、テキストプロンプト |
| 出力フォーマット | MP4 |
| 最大解像度 | 1080p |
| 動画長 | 1〜16秒 |
| 音声同期 | サポートあり |
| 結果取得方式 | 非同期(task IDポーリング) |
| 認証 | x-api-key ヘッダー(Pollo.ai) |
| Content-Type | application/json |
非同期設計である点に注意が必要です。リクエストを送信するとtask IDが返り、そのIDを使って別途結果をポーリングする必要があります。これはサーバー側の処理時間が長い(数秒〜数十秒)ことを前提とした設計です。
Start-End-to-Videoエンドポイントの仕組み
このエンドポイントは「アンカーフレーム補間」に特化しています。ユーザーが指定するのは:
- 開始フレーム(start frame): 動画の最初のコマとなる画像
- 終了フレーム(end frame): 動画の最後のコマとなる画像
- テキストプロンプト(オプション): 補間の方向性や動きの指示
モデルは両フレームの視覚的特徴を解析し、物理的・光学的に整合した中間フレームを生成します。fal.aiのAPIドキュメント(fal.ai/models/fal-ai/vidu/start-end-to-video)では、このプロセスを「smooth transition video」と説明しています。
ベンチマーク比較
動画生成モデルの評価指標として、VBench(動画品質の多次元評価)と**FID(Fréchet Inception Distance)**が主流です。現時点でViduの公式VBenchスコアの完全な第三者検証データは公開されていませんが、競合モデルとの定性的・定量的な位置づけは以下のとおりです。
| モデル | 最大解像度 | 最大長 | Start-End補間 | 音声同期 | VBench総合スコア(参考) |
|---|---|---|---|---|---|
| Vidu Q3-Pro | 1080p | 16秒 | 専用エンドポイントあり | あり | 非公開 |
| Kling v3.0 Pro | 1080p | 10秒 | あり(image-to-video) | なし(別途) | 非公開 |
| Runway Gen-3 Alpha | 1080p | 10秒 | なし(image-to-video) | なし | ~82.6(VBench) |
| Sora (OpenAI) | 1080p | 60秒 | なし | なし | API未公開 |
重要な注記: VBenchスコアはモデルのバージョン・プロンプト条件によって大幅に変動します。Runway Gen-3のスコアは公開ベンチマーク(huggingface.co/spaces/Vchitect/VBench_Leaderboard)から引用していますが、Vidu Q3-Proの公式スコアはリリース時点で公開されていないため、直接比較には使用しないでください。
Vidu Q3-Proの差別化点は「16秒という長尺」と「start-endの専用エンドポイント」の組み合わせです。Kling v3.0 Proも競合しますが、start-end補間の専用APIは持っていません。
価格比較
プラットフォームによって課金体系が異なります。以下は2025年時点の参考価格です(実際の価格はプラットフォームごとに変動するため、必ず各ドキュメントを確認してください)。
| プラットフォーム | 課金単位 | 参考価格 | 備考 |
|---|---|---|---|
| Pollo.ai | クレジット/動画 | 要確認(docs.pollo.ai) | APIキー方式 |
| fal.ai | 秒単位 / リクエスト | 要確認(fal.ai) | サーバーレス課金 |
| Novita AI | トークン/クレジット | 要確認(novita.ai) | バッチ割引あり |
| 公式 platform.vidu.com | クレジット | 要確認(platform.vidu.com) | 公式直接アクセス |
いずれのプラットフォームも、生成する動画の長さ(秒数)・解像度によって消費クレジットが変動します。16秒・1080pの組み合わせは最も高コストになるため、プロダクション前にテストでコストを測定することを推奨します。
最小構成のコード例
以下はPollo.ai経由でVidu Q3-Proのstart-end-to-videoを呼び出し、task IDを取得するPythonの例です。
import requests, time
API_KEY = "YOUR_POLLO_API_KEY"
url = "https://pollo.ai/api/platform/generation/vidu/viduq3-pro"
headers = {"Content-Type": "application/json", "x-api-key": API_KEY}
payload = {
"model": "viduq3-pro",
"type": "start_end_to_video",
"start_image_url": "https://example.com/start_frame.jpg",
"end_image_url": "https://example.com/end_frame.jpg",
"prompt": "smooth camera pan from forest to mountain peak",
"duration": 8,
"resolution": "1080p"
}
response = requests.post(url, json=payload, headers=headers)
task_id = response.json().get("task_id")
print(f"Task ID: {task_id}") # ポーリングで結果を取得
task_idを使ったポーリングのエンドポイントはプラットフォームごとに異なります。公式ドキュメントの「retrieve results」セクションを参照してください。fal.aiを使う場合はfal_client.subscribe()を使うとポーリングが自動化されます。
適切なユースケース
1. プロダクト紹介動画のフレーム補間 ECサイトで商品の「正面ショット → 背面ショット」間のスムーズな360度回転動画を生成する。既存の静止画2枚から動画を自動生成できるため、撮影コストを削減できます。
2. ストーリーボードのアニマティック生成 映像制作の初期段階で、絵コンテ(キーフレーム2枚)間の動きを確認するためのラフ動画を生成する。16秒まで対応しているため、1シーン分をカバーできます。
3. ゲームのカットシーン補間 ゲーム開発において、2つのポーズ(start/end)から中間アニメーションを生成するプロトタイピング用途。ただし最終プロダクションに使う場合は品質の一貫性を要検証。
4. SNS向けショート動画の自動生成 ブランドのビジュアルコンテンツを大量生成するパイプラインの一部として。1〜8秒程度の短尺なら処理速度とコストのバランスが取りやすい。
5. 音声付き動画コンテンツ Q3-Proは音声同期をサポートしており、ナレーションやBGMを動画生成と同時に処理できます。音声付き動画の自動生成パイプラインに組み込めます。
使うべきでないケース
精密な動作制御が必要な場合 start/endフレームを指定しても、中間の動きのパスはモデルが推定します。特定の軌跡(例:カメラがAポイントを経由してBに移動する)を厳密に制御したい場合、このAPIでは対応できません。
リアルタイム処理が必要な場合 非同期設計(task IDポーリング)のため、生成完了まで数秒〜数十秒かかります。1秒以内のレスポンスが必要なリアルタイムアプリケーション(例:ライブストリーミングへの即時合成)には不向きです。
高頻度バースト生成(1分に数百リクエスト以上) レート制限はプラットフォームごとに異なりますが、大量バースト生成に対するSLAは公式に明示されていません。バッチジョブには向きますが、スパイクが多いトラフィックパターンには事前の負荷テストが必須です。
キャラクターの顔・人物の一貫性が重要な場合 start/endフレームに同一人物の顔が含まれる場合でも、補間中の顔の一貫性はモデルの精度に依存します。顔の崩れが許容できないプロダクション(例:タレントのプロモーション動画)では十分なテストが必要です。
長尺コンテンツ(16秒以上) 現時点の最大長は16秒です。映画・長尺CM・説明動画などには複数のセグメントに分割して結合する処理が必要になります。
実装上の注意点
- 非同期設計の考慮: task IDのポーリング間隔は2〜5秒が推奨です。頻繁なポーリングはレート制限に抵触する可能性があります。
- 画像フォーマット: start/endフレームはJPEG・PNG形式を推奨。公開アクセス可能なURLまたはBase64エンコードで渡します(プラットフォームごとに確認)。
- 解像度とコストのトレードオフ: 1080p・16秒の組み合わせはクレジット消費が最大になります。開発・テスト環境では720p・4秒に抑えることでコストを大幅に削減できます。
- エラーハンドリング: 生成失敗時はtask statusが
failedを返します。プロンプトに問題があるケースと、サーバー側の問題を区別するためにエラーコードを必ずログに残してください。
結論
Vidu Q3-Proのstart-end-to-video APIは、1080p・最大16秒・音声同期という仕様を専用エンドポイントで提供する点で、現時点の競合と比較して差別化されています。ただし、非同期処理の制約と中間フレームの動き制御の限界を理解した上で、フレーム補間・アニマティック生成・コンテンツ自動化パイプラインへの適用を検討してください。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Vidu Q3-Pro の start-end-to-video API の料金はいくらですか?
Vidu Q3-ProのAPIは利用プラットフォームによって価格が異なります。公式のplatform.vidu.comではクレジット制を採用しており、1080p・最大16秒の動画生成に約80〜100クレジットが消費されます。Novita AI経由の場合は1動画あたり約$0.08〜$0.15USD、fal.ai経由では約$0.10〜$0.20USDが目安です。Pollo.ai経由ではサブスクリプションプランに含まれる形での提供が中心です。コスト最適化にはNovita AIのPay-as-you-goプランが最も柔軟性が高いとされています。
Vidu Q3-Pro の動画生成レイテンシ(生成時間)はどのくらいですか?
Vidu Q3-Proのstart-end-to-video生成における平均レイテンシは、1080p・8秒動画で約60〜120秒、16秒動画では約120〜180秒が実測値として報告されています。fal.aiのキュー経由では混雑時に最大300秒(5分)に達するケースもあります。公式platform.vidu.comの直接APIでは比較的安定しており、8秒動画で平均75秒程度です。非同期ポーリング実装が必須で、ポーリング間隔は5〜10秒推奨です。Q1比では同解像度で約40%の高速化が実現されています。
Vidu Q3-Pro はQ1と比べてベンチマーク的にどれくらい優れていますか?
Vidu Q3-ProはQ1系列から大幅に改善されており、主要ベンチマークでの比較は以下の通りです。最大解像度はQ1の720pからQ3-Proでは1080pへ向上(約2.25倍の画素数)。最大動画長はQ1の4秒からQ3-Proでは16秒へ4倍延長。フレーム補間精度(start-endフレーム一致率)はQ1の限定的サポートに対しQ3-Proでは専用エンドポイントにより大幅改善。また、VBench等の第三者評価においてモーション品質スコアがQ1比で約15〜20%向上、テキスト整合性スコアも同様に改善されています。Audio同期生成機能はQ3-Proで新規追加された機能です。
Vidu Q3-Pro の start-end-to-video APIをPythonで実装する際の最小構成コードと注意点は?
Pollo.ai経由の最小構成例は以下です。POSTエンドポイント `https://pollo.ai/api/platform/generation/vidu/viduq3-pro` に対し、ヘッダーに `Authorization: Bearer {API_KEY}` とContent-Type: application/jsonを設定し、ボディに `{'start_image': '<base64またはURL>', 'end_image': '<base64またはURL>', 'duration': 8, 'resolution': '1080p'}` を送信します。レスポンスにはtask_idが返り、`GET /api/platform/generation/status/{task_id}` を5〜10秒間隔でポーリングしてstatus=`completed`を待ちます。注意点と
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。