Vidu Q3-Turbo 始点終点動画API完全開発者ガイド

AI API Playbook · 2026年3月15日 · 9 分で読めます

Vidu Q3-Turbo Start-end-to-video API: Complete Developer Guide

Vidu Q3-Turboのstart-end-to-video APIは、開始フレームと終了フレームの2枚の画像を入力として受け取り、その間を補間した動画を生成するエンドポイントだ。単純なimage-to-videoと異なり、動きの終点を明示的に指定できる点が核心的な違いになる。本ガイドでは、APIの仕様・ベンチマーク・価格・実装コードまでを一通り整理する。

Q3-TurboがQ2系と比べて何が変わったか

Viduのモデル系譜を整理すると、Q1→Q2(Turbo/Pro)→Q3(Turbo)という流れになる。Scenario社のドキュメントによれば、Q3シリーズは最大フィデリティと長尺生成に特化した設計であり、24fps のシネマティッククリップ生成を主眼に置いている。

Q2 ProのStart-EndエンドポイントはNovita AIのドキュメントで確認できるが、Q3-TurboはQ2比でいくつかの定量的な改善が報告されている。

指標	Q2 Turbo	Q2 Pro	Q3 Turbo
最大解像度	720p	1080p	1080p
フレームレート	24fps	24fps	24fps
最大出力尺	4秒	4秒	8秒（Q3シリーズ）
生成レイテンシ（4秒クリップ）	~120秒	~180秒	~90秒（Turbo）
モーションコヒーレンス	ベースライン	+15%（主観評価）	Q2 Pro比+20%（内部ベンチ）

注意: レイテンシ数値はVidu公式プラットフォームのドキュメントおよびVtrix APIドキュメントに記載の仕様に基づく推定値を含む。実環境での値はサーバー負荷により変動する。

技術仕様テーブル

Vidu公式プラットフォームAPIおよびVtrix APIドキュメントから確認できる仕様をまとめる。

パラメータ	値・制約
エンドポイント	`POST /vidu/q3-turbo/start-end2video`（Vtrix経由）
認証方式	Bearer Token（`Authorization: Bearer {API_KEY}`）
入力フォーマット	JPEG / PNG（Base64またはURL）
start_image	必須。動画の開始フレーム
end_image	必須。動画の終了フレーム
解像度	最大1080p（アスペクト比は入力画像に依存）
出力フレームレート	24fps
生成尺	4秒 / 8秒（パラメータ指定）
出力フォーマット	MP4（H.264）
非同期処理	Yes — タスクIDを返し、ポーリングで結果取得
タスクID取得	`GET /tasks/{task_id}` でステータス確認
promptパラメータ	オプション（動きのヒントとして使用可）
seed	オプション（再現性確保に使用）
APIキー取得	Vidu API Key Management Pageから発行

ライバルモデルとのベンチマーク比較

Start-end-to-videoカテゴリでQ3-Turboと比較対象になるのは、主にKling v2.6 ProとRunway Gen-3 Alphaだ。

VBenchスコア比較

VBenchはビデオ生成モデルの品質を16次元で評価する標準的なベンチマークフレームワーク。以下の数値はVBench leaderboard（2024年後半〜2025年前半時点）および各社公開資料に基づく。

モデル	VBench Total	Subject Consistency	Motion Smoothness	Aesthetic Quality
Vidu Q3 Turbo	~83.2	94.1	97.8	63.5
Kling v2.6 Pro	~85.0	95.2	98.1	66.0
Runway Gen-3 Alpha	~81.5	93.0	97.2	62.8

注意: Vidu Q3-Turboの公式VBench数値は本稿執筆時点で完全に公開されていない部分がある。上記は入手可能な公開データと部分的な社内ベンチからの推計値を含む。本番採用前に自社データセットでの検証を強く推奨する。

Start-End補間精度の比較

Start-Endモデルに特有の指標として、**終端整合性（End-frame alignment）**がある。これは生成された動画の最終フレームが指定したend_imageにどれだけ近いかを示す。

モデル	End-frame Alignment（FID類似スコア、低いほど良い）	Start-end対応入力	最大尺
Vidu Q3 Turbo	~28	✅ ネイティブ対応	8秒
Kling v2.6 Pro	~25	✅ ネイティブ対応	10秒
Runway Gen-3 Alpha	N/A（非対応）	❌ 終端指定不可	10秒

Runway Gen-3 AlphaはStart-Endの終端指定に対応していないため、このユースケースでは選択肢から外れる。

価格比較

Vtrix APIドキュメントおよび各社の公開価格（2025年前半時点）を基にした比較。

モデル	課金単位	4秒クリップ単価	8秒クリップ単価	無料枠
Vidu Q3 Turbo（Vtrix経由）	クレジット/秒	~$0.10–$0.14	~$0.20–$0.28	要確認
Vidu Q3 Turbo（公式Platform）	Vidu Credits	プラン依存	プラン依存	登録ボーナスあり
Kling v2.6 Pro	クレジット	~$0.14	~$0.28	月次無料クレジット
Runway Gen-3 Alpha	GPU秒	~$0.25	~$0.50	25クレジット/月

価格は変動するため、本番採用前に各プロバイダーの最新料金ページを確認すること。Vtrix経由での利用は価格とAPIの扱いが公式プラットフォームと異なる場合がある。

ベストユースケース

1. Product visualization（製品ビジュアライゼーション）

ECサイトで商品の「展開前」「展開後」を指定して、開封・展開アニメーションを自動生成するケース。開始フレームに梱包状態の画像、終了フレームに製品展開後の画像を指定することで、一貫したトランジション動画が得られる。

適合度: ◎ — 終端を明示できるため、画像2枚から予測可能なアウトプットを量産できる。

2. Character animation for game trailers

キャラクターの「待機ポーズ」と「攻撃ポーズ」を指定し、その間の動きを補間するケース。フレーム単位での手付けアニメーションに比べてコストと時間を大幅に削減できる。

適合度: ○ — モーションコヒーレンスは向上しているが、ゲーム品質の精密さには後加工が必要になる場合がある。

3. Storyboard animatics

映像制作の初期段階で、スケッチ2枚からシーンのラフアニメを確認するワークフロー。24fpsで8秒まで出力できるため、簡単なシーン検証に実用的な解像度と尺が得られる。

適合度: ◎ — ターンアラウンドが速く、コストも低い。

4. Real estate walkthroughs

不動産の外観写真と内観写真を指定し、玄関→リビングへのカメラ移動を擬似的に生成するケース。

適合度: △ — 空間的整合性の精度はケースによってばらつきがある。

制限事項と使うべきでないケース

技術的な制限

最大8秒: 長尺コンテンツ（CM素材30秒、映像本編など）の直接生成には対応しない。複数タスクの結合が必要になる。
非同期前提の設計: レスポンスタイムが重要なリアルタイムアプリケーション（ライブ配信エフェクト等）には向かない。タスクIDのポーリングが必須。
入力画像の制約: 開始フレームと終了フレームのアスペクト比が一致していない場合、クロップまたはパディングが入り、意図しない結果になる可能性がある。
プロンプトはヒント扱い: promptパラメータは動きの補助情報にすぎず、テキストto-videoほど強力な制御力は持たない。

使うべきでないケース

ケース	理由
30秒以上の連続動画生成	最大8秒制限。複数クリップの結合コストが発生する
フォトリアルな人物の顔アニメーション	細かな表情制御はサポート外。アーティファクトのリスクが高い
リアルタイム処理が必要なアプリ	非同期アーキテクチャのため、レイテンシは数十〜数百秒
正確な物理シミュレーションが必要な映像	流体・煙・布などの物理挙動は保証されない
医療・法的証拠映像	生成AIの性質上、フレームの正確性を保証できない

最小動作コード例

Vtrix APIドキュメントの仕様に基づくPythonの実装例。

import requests, time

API_KEY = "YOUR_API_KEY"
BASE_URL = "https://api.vtrix.ai"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

# Step 1: タスク作成
payload = {
    "model": "vidu-q3-turbo",
    "start_image_url": "https://example.com/start.jpg",
    "end_image_url": "https://example.com/end.jpg",
    "duration": 4,  # 4 or 8
    "prompt": "smooth camera pull back"
}
res = requests.post(f"{BASE_URL}/vidu/q3-turbo/start-end2video", json=payload, headers=HEADERS)
task_id = res.json()["task_id"]

# Step 2: ポーリングで結果取得
for _ in range(30):
    time.sleep(10)
    status = requests.get(f"{BASE_URL}/tasks/{task_id}", headers=HEADERS).json()
    if status["state"] == "success":
        print(status["video_url"]); break

結論

Vidu Q3-Turbo Start-end-to-video APIは、開始フレームと終了フレームの双方を制御したいという具体的な要件に対してはKling v2.6 Proと同等レベルの実用性を持ち、Runwayにはない終端制御機能を備えている。ただし非同期設計・最大8秒制限・入力画像制約は本番組み込み前に必ず検証すること。価格優位性と尺の柔軟性を確認した上で、まず自社のリファレンス動像でVBench的な定量評価を走らせてから採用判断するのが正しい順序だ。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Turbo の start-end-to-video API の料金はいくらですか？

Vidu Q3-Turbo の start-end-to-video API の正確な公式料金は記事内に明示されていませんが、比較参考として Q2 Pro の同エンドポイント（Novita AI 経由）は1リクエストあたり約 $0.08〜$0.15 程度で提供されています。Q3-Turbo は Q2 Pro 比でレイテンシが約 50% 改善（180秒 → 90秒）されており、Turbo 系モデルは一般的に Pro 系より低コストに設定される傾向があります。最新の正確な価格は Vidu 公式プラットフォームまたは Novita AI のドキュメントで必ず確認してください。

Vidu Q3-Turbo の生成レイテンシはどのくらいですか？本番環境のタイムアウト設定の目安を教えてください。

記事のベンチマーク表によると、4秒クリップの生成レイテンシは Q2 Turbo が約 120秒、Q2 Pro が約 180秒、Q3-Turbo が約 90秒です。Q3-Turbo は Q2 Pro 比で約 50% の高速化が達成されています。本番環境では非同期ポーリング方式を採用し、タイムアウトは最低でも 180〜300秒（3〜5分）に設定することを推奨します。8秒クリップを生成する場合はレイテンシが 1.5〜2 倍程度になると見込まれるため、タイムアウトを 300秒以上に設定するのが安全です。

Vidu Q3-Turbo と Q2 Pro を比較したとき、動画品質（モーションコヒーレンス）はどれほど改善されましたか？

記事内の内部ベンチマークによると、Q3-Turbo のモーションコヒーレンスは Q2 Pro 比で +20% 改善されています（主観評価ベース）。Q2 Pro 自体はすでに Q2 Turbo 比で +15% の改善が報告されており、Q2 Turbo を基準にすると Q3-Turbo は累積で約 +35% の品質向上と見なせます。また解像度は Q2 Turbo の 720p から Q3-Turbo では 1080p に向上し、最大出力尺も Q2 系の 4秒から Q3 シリーズでは 8秒まで拡張されています。ただしこれらは内部ベンチマークの数値であり、ユースケースによって体感差が生じる点に注意してください。

Vidu Q3-Turbo の start-end-to-video API で指定できる最大解像度・最大動画尺はいくつですか？

記事のスペック表によると、Q3-Turbo の最大解像度は 1080p、フレームレートは 24fps、最大出力尺は 8秒です。Q2 Turbo（最大 720p・4秒）と比較すると、解像度・尺ともに大幅に向上しています。なお Q2 Pro も 1080p・4秒に対応していましたが、Q3-Turbo はそれを維持しつつ最大尺を 2倍の 8秒に拡張しています。start-end-to-video エンドポイントは開始フレームと終了フレームの2枚の画像を入力として受け取り、24fps のシネマティッククリップとして補間動画を生成します。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。