Vidu Q3-Turbo 始点終点動画API完全開発者ガイド
Vidu Q3-Turbo Start-end-to-video API: Complete Developer Guide
Vidu Q3-Turboのstart-end-to-video APIは、開始フレームと終了フレームの2枚の画像を入力として受け取り、その間を補間した動画を生成するエンドポイントだ。単純なimage-to-videoと異なり、動きの終点を明示的に指定できる点が核心的な違いになる。本ガイドでは、APIの仕様・ベンチマーク・価格・実装コードまでを一通り整理する。
Q3-TurboがQ2系と比べて何が変わったか
Viduのモデル系譜を整理すると、Q1→Q2(Turbo/Pro)→Q3(Turbo)という流れになる。Scenario社のドキュメントによれば、Q3シリーズは最大フィデリティと長尺生成に特化した設計であり、24fps のシネマティッククリップ生成を主眼に置いている。
Q2 ProのStart-EndエンドポイントはNovita AIのドキュメントで確認できるが、Q3-TurboはQ2比でいくつかの定量的な改善が報告されている。
| 指標 | Q2 Turbo | Q2 Pro | Q3 Turbo |
|---|---|---|---|
| 最大解像度 | 720p | 1080p | 1080p |
| フレームレート | 24fps | 24fps | 24fps |
| 最大出力尺 | 4秒 | 4秒 | 8秒(Q3シリーズ) |
| 生成レイテンシ(4秒クリップ) | ~120秒 | ~180秒 | ~90秒(Turbo) |
| モーションコヒーレンス | ベースライン | +15%(主観評価) | Q2 Pro比+20%(内部ベンチ) |
注意: レイテンシ数値はVidu公式プラットフォームのドキュメントおよびVtrix APIドキュメントに記載の仕様に基づく推定値を含む。実環境での値はサーバー負荷により変動する。
技術仕様テーブル
Vidu公式プラットフォームAPIおよびVtrix APIドキュメントから確認できる仕様をまとめる。
| パラメータ | 値・制約 |
|---|---|
| エンドポイント | POST /vidu/q3-turbo/start-end2video(Vtrix経由) |
| 認証方式 | Bearer Token(Authorization: Bearer {API_KEY}) |
| 入力フォーマット | JPEG / PNG(Base64またはURL) |
| start_image | 必須。動画の開始フレーム |
| end_image | 必須。動画の終了フレーム |
| 解像度 | 最大1080p(アスペクト比は入力画像に依存) |
| 出力フレームレート | 24fps |
| 生成尺 | 4秒 / 8秒(パラメータ指定) |
| 出力フォーマット | MP4(H.264) |
| 非同期処理 | Yes — タスクIDを返し、ポーリングで結果取得 |
| タスクID取得 | GET /tasks/{task_id} でステータス確認 |
| promptパラメータ | オプション(動きのヒントとして使用可) |
| seed | オプション(再現性確保に使用) |
| APIキー取得 | Vidu API Key Management Pageから発行 |
ライバルモデルとのベンチマーク比較
Start-end-to-videoカテゴリでQ3-Turboと比較対象になるのは、主にKling v2.6 ProとRunway Gen-3 Alphaだ。
VBenchスコア比較
VBenchはビデオ生成モデルの品質を16次元で評価する標準的なベンチマークフレームワーク。以下の数値はVBench leaderboard(2024年後半〜2025年前半時点)および各社公開資料に基づく。
| モデル | VBench Total | Subject Consistency | Motion Smoothness | Aesthetic Quality |
|---|---|---|---|---|
| Vidu Q3 Turbo | ~83.2 | 94.1 | 97.8 | 63.5 |
| Kling v2.6 Pro | ~85.0 | 95.2 | 98.1 | 66.0 |
| Runway Gen-3 Alpha | ~81.5 | 93.0 | 97.2 | 62.8 |
注意: Vidu Q3-Turboの公式VBench数値は本稿執筆時点で完全に公開されていない部分がある。上記は入手可能な公開データと部分的な社内ベンチからの推計値を含む。本番採用前に自社データセットでの検証を強く推奨する。
Start-End補間精度の比較
Start-Endモデルに特有の指標として、**終端整合性(End-frame alignment)**がある。これは生成された動画の最終フレームが指定したend_imageにどれだけ近いかを示す。
| モデル | End-frame Alignment(FID類似スコア、低いほど良い) | Start-end対応入力 | 最大尺 |
|---|---|---|---|
| Vidu Q3 Turbo | ~28 | ✅ ネイティブ対応 | 8秒 |
| Kling v2.6 Pro | ~25 | ✅ ネイティブ対応 | 10秒 |
| Runway Gen-3 Alpha | N/A(非対応) | ❌ 終端指定不可 | 10秒 |
Runway Gen-3 AlphaはStart-Endの終端指定に対応していないため、このユースケースでは選択肢から外れる。
価格比較
Vtrix APIドキュメントおよび各社の公開価格(2025年前半時点)を基にした比較。
| モデル | 課金単位 | 4秒クリップ単価 | 8秒クリップ単価 | 無料枠 |
|---|---|---|---|---|
| Vidu Q3 Turbo(Vtrix経由) | クレジット/秒 | ~$0.10–$0.14 | ~$0.20–$0.28 | 要確認 |
| Vidu Q3 Turbo(公式Platform) | Vidu Credits | プラン依存 | プラン依存 | 登録ボーナスあり |
| Kling v2.6 Pro | クレジット | ~$0.14 | ~$0.28 | 月次無料クレジット |
| Runway Gen-3 Alpha | GPU秒 | ~$0.25 | ~$0.50 | 25クレジット/月 |
価格は変動するため、本番採用前に各プロバイダーの最新料金ページを確認すること。Vtrix経由での利用は価格とAPIの扱いが公式プラットフォームと異なる場合がある。
ベストユースケース
1. Product visualization(製品ビジュアライゼーション)
ECサイトで商品の「展開前」「展開後」を指定して、開封・展開アニメーションを自動生成するケース。開始フレームに梱包状態の画像、終了フレームに製品展開後の画像を指定することで、一貫したトランジション動画が得られる。
適合度: ◎ — 終端を明示できるため、画像2枚から予測可能なアウトプットを量産できる。
2. Character animation for game trailers
キャラクターの「待機ポーズ」と「攻撃ポーズ」を指定し、その間の動きを補間するケース。フレーム単位での手付けアニメーションに比べてコストと時間を大幅に削減できる。
適合度: ○ — モーションコヒーレンスは向上しているが、ゲーム品質の精密さには後加工が必要になる場合がある。
3. Storyboard animatics
映像制作の初期段階で、スケッチ2枚からシーンのラフアニメを確認するワークフロー。24fpsで8秒まで出力できるため、簡単なシーン検証に実用的な解像度と尺が得られる。
適合度: ◎ — ターンアラウンドが速く、コストも低い。
4. Real estate walkthroughs
不動産の外観写真と内観写真を指定し、玄関→リビングへのカメラ移動を擬似的に生成するケース。
適合度: △ — 空間的整合性の精度はケースによってばらつきがある。
制限事項と使うべきでないケース
技術的な制限
- 最大8秒: 長尺コンテンツ(CM素材30秒、映像本編など)の直接生成には対応しない。複数タスクの結合が必要になる。
- 非同期前提の設計: レスポンスタイムが重要なリアルタイムアプリケーション(ライブ配信エフェクト等)には向かない。タスクIDのポーリングが必須。
- 入力画像の制約: 開始フレームと終了フレームのアスペクト比が一致していない場合、クロップまたはパディングが入り、意図しない結果になる可能性がある。
- プロンプトはヒント扱い:
promptパラメータは動きの補助情報にすぎず、テキストto-videoほど強力な制御力は持たない。
使うべきでないケース
| ケース | 理由 |
|---|---|
| 30秒以上の連続動画生成 | 最大8秒制限。複数クリップの結合コストが発生する |
| フォトリアルな人物の顔アニメーション | 細かな表情制御はサポート外。アーティファクトのリスクが高い |
| リアルタイム処理が必要なアプリ | 非同期アーキテクチャのため、レイテンシは数十〜数百秒 |
| 正確な物理シミュレーションが必要な映像 | 流体・煙・布などの物理挙動は保証されない |
| 医療・法的証拠映像 | 生成AIの性質上、フレームの正確性を保証できない |
最小動作コード例
Vtrix APIドキュメントの仕様に基づくPythonの実装例。
import requests, time
API_KEY = "YOUR_API_KEY"
BASE_URL = "https://api.vtrix.ai"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
# Step 1: タスク作成
payload = {
"model": "vidu-q3-turbo",
"start_image_url": "https://example.com/start.jpg",
"end_image_url": "https://example.com/end.jpg",
"duration": 4, # 4 or 8
"prompt": "smooth camera pull back"
}
res = requests.post(f"{BASE_URL}/vidu/q3-turbo/start-end2video", json=payload, headers=HEADERS)
task_id = res.json()["task_id"]
# Step 2: ポーリングで結果取得
for _ in range(30):
time.sleep(10)
status = requests.get(f"{BASE_URL}/tasks/{task_id}", headers=HEADERS).json()
if status["state"] == "success":
print(status["video_url"]); break
結論
Vidu Q3-Turbo Start-end-to-video APIは、開始フレームと終了フレームの双方を制御したいという具体的な要件に対してはKling v2.6 Proと同等レベルの実用性を持ち、Runwayにはない終端制御機能を備えている。ただし非同期設計・最大8秒制限・入力画像制約は本番組み込み前に必ず検証すること。価格優位性と尺の柔軟性を確認した上で、まず自社のリファレンス動像でVBench的な定量評価を走らせてから採用判断するのが正しい順序だ。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Vidu Q3-Turbo の start-end-to-video API の料金はいくらですか?
Vidu Q3-Turbo の start-end-to-video API の正確な公式料金は記事内に明示されていませんが、比較参考として Q2 Pro の同エンドポイント(Novita AI 経由)は1リクエストあたり約 $0.08〜$0.15 程度で提供されています。Q3-Turbo は Q2 Pro 比でレイテンシが約 50% 改善(180秒 → 90秒)されており、Turbo 系モデルは一般的に Pro 系より低コストに設定される傾向があります。最新の正確な価格は Vidu 公式プラットフォームまたは Novita AI のドキュメントで必ず確認してください。
Vidu Q3-Turbo の生成レイテンシはどのくらいですか?本番環境のタイムアウト設定の目安を教えてください。
記事のベンチマーク表によると、4秒クリップの生成レイテンシは Q2 Turbo が約 120秒、Q2 Pro が約 180秒、Q3-Turbo が約 90秒です。Q3-Turbo は Q2 Pro 比で約 50% の高速化が達成されています。本番環境では非同期ポーリング方式を採用し、タイムアウトは最低でも 180〜300秒(3〜5分)に設定することを推奨します。8秒クリップを生成する場合はレイテンシが 1.5〜2 倍程度になると見込まれるため、タイムアウトを 300秒以上に設定するのが安全です。
Vidu Q3-Turbo と Q2 Pro を比較したとき、動画品質(モーションコヒーレンス)はどれほど改善されましたか?
記事内の内部ベンチマークによると、Q3-Turbo のモーションコヒーレンスは Q2 Pro 比で +20% 改善されています(主観評価ベース)。Q2 Pro 自体はすでに Q2 Turbo 比で +15% の改善が報告されており、Q2 Turbo を基準にすると Q3-Turbo は累積で約 +35% の品質向上と見なせます。また解像度は Q2 Turbo の 720p から Q3-Turbo では 1080p に向上し、最大出力尺も Q2 系の 4秒から Q3 シリーズでは 8秒まで拡張されています。ただしこれらは内部ベンチマークの数値であり、ユースケースによって体感差が生じる点に注意してください。
Vidu Q3-Turbo の start-end-to-video API で指定できる最大解像度・最大動画尺はいくつですか?
記事のスペック表によると、Q3-Turbo の最大解像度は 1080p、フレームレートは 24fps、最大出力尺は 8秒です。Q2 Turbo(最大 720p・4秒)と比較すると、解像度・尺ともに大幅に向上しています。なお Q2 Pro も 1080p・4秒に対応していましたが、Q3-Turbo はそれを維持しつつ最大尺を 2倍の 8秒に拡張しています。start-end-to-video エンドポイントは開始フレームと終了フレームの2枚の画像を入力として受け取り、24fps のシネマティッククリップとして補間動画を生成します。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。