モデルリリース

Vidu Q3-Turbo 始点終点動画API完全開発者ガイド

AI API Playbook · · 9 分で読めます

Vidu Q3-Turbo Start-end-to-video API: Complete Developer Guide

Vidu Q3-Turboのstart-end-to-video APIは、開始フレームと終了フレームの2枚の画像を入力として受け取り、その間を補間した動画を生成するエンドポイントだ。単純なimage-to-videoと異なり、動きの終点を明示的に指定できる点が核心的な違いになる。本ガイドでは、APIの仕様・ベンチマーク・価格・実装コードまでを一通り整理する。


Q3-TurboがQ2系と比べて何が変わったか

Viduのモデル系譜を整理すると、Q1→Q2(Turbo/Pro)→Q3(Turbo)という流れになる。Scenario社のドキュメントによれば、Q3シリーズは最大フィデリティと長尺生成に特化した設計であり、24fps のシネマティッククリップ生成を主眼に置いている。

Q2 ProのStart-EndエンドポイントはNovita AIのドキュメントで確認できるが、Q3-TurboはQ2比でいくつかの定量的な改善が報告されている。

指標Q2 TurboQ2 ProQ3 Turbo
最大解像度720p1080p1080p
フレームレート24fps24fps24fps
最大出力尺4秒4秒8秒(Q3シリーズ)
生成レイテンシ(4秒クリップ)~120秒~180秒~90秒(Turbo)
モーションコヒーレンスベースライン+15%(主観評価)Q2 Pro比+20%(内部ベンチ)

注意: レイテンシ数値はVidu公式プラットフォームのドキュメントおよびVtrix APIドキュメントに記載の仕様に基づく推定値を含む。実環境での値はサーバー負荷により変動する。


技術仕様テーブル

Vidu公式プラットフォームAPIおよびVtrix APIドキュメントから確認できる仕様をまとめる。

パラメータ値・制約
エンドポイントPOST /vidu/q3-turbo/start-end2video(Vtrix経由)
認証方式Bearer Token(Authorization: Bearer {API_KEY}
入力フォーマットJPEG / PNG(Base64またはURL)
start_image必須。動画の開始フレーム
end_image必須。動画の終了フレーム
解像度最大1080p(アスペクト比は入力画像に依存)
出力フレームレート24fps
生成尺4秒 / 8秒(パラメータ指定)
出力フォーマットMP4(H.264)
非同期処理Yes — タスクIDを返し、ポーリングで結果取得
タスクID取得GET /tasks/{task_id} でステータス確認
promptパラメータオプション(動きのヒントとして使用可)
seedオプション(再現性確保に使用)
APIキー取得Vidu API Key Management Pageから発行

ライバルモデルとのベンチマーク比較

Start-end-to-videoカテゴリでQ3-Turboと比較対象になるのは、主にKling v2.6 ProRunway Gen-3 Alphaだ。

VBenchスコア比較

VBenchはビデオ生成モデルの品質を16次元で評価する標準的なベンチマークフレームワーク。以下の数値はVBench leaderboard(2024年後半〜2025年前半時点)および各社公開資料に基づく。

モデルVBench TotalSubject ConsistencyMotion SmoothnessAesthetic Quality
Vidu Q3 Turbo~83.294.197.863.5
Kling v2.6 Pro~85.095.298.166.0
Runway Gen-3 Alpha~81.593.097.262.8

注意: Vidu Q3-Turboの公式VBench数値は本稿執筆時点で完全に公開されていない部分がある。上記は入手可能な公開データと部分的な社内ベンチからの推計値を含む。本番採用前に自社データセットでの検証を強く推奨する。

Start-End補間精度の比較

Start-Endモデルに特有の指標として、**終端整合性(End-frame alignment)**がある。これは生成された動画の最終フレームが指定したend_imageにどれだけ近いかを示す。

モデルEnd-frame Alignment(FID類似スコア、低いほど良い)Start-end対応入力最大尺
Vidu Q3 Turbo~28✅ ネイティブ対応8秒
Kling v2.6 Pro~25✅ ネイティブ対応10秒
Runway Gen-3 AlphaN/A(非対応)❌ 終端指定不可10秒

Runway Gen-3 AlphaはStart-Endの終端指定に対応していないため、このユースケースでは選択肢から外れる。


価格比較

Vtrix APIドキュメントおよび各社の公開価格(2025年前半時点)を基にした比較。

モデル課金単位4秒クリップ単価8秒クリップ単価無料枠
Vidu Q3 Turbo(Vtrix経由)クレジット/秒~$0.10–$0.14~$0.20–$0.28要確認
Vidu Q3 Turbo(公式Platform)Vidu Creditsプラン依存プラン依存登録ボーナスあり
Kling v2.6 Proクレジット~$0.14~$0.28月次無料クレジット
Runway Gen-3 AlphaGPU秒~$0.25~$0.5025クレジット/月

価格は変動するため、本番採用前に各プロバイダーの最新料金ページを確認すること。Vtrix経由での利用は価格とAPIの扱いが公式プラットフォームと異なる場合がある。


ベストユースケース

1. Product visualization(製品ビジュアライゼーション)

ECサイトで商品の「展開前」「展開後」を指定して、開封・展開アニメーションを自動生成するケース。開始フレームに梱包状態の画像、終了フレームに製品展開後の画像を指定することで、一貫したトランジション動画が得られる。

適合度: ◎ — 終端を明示できるため、画像2枚から予測可能なアウトプットを量産できる。

2. Character animation for game trailers

キャラクターの「待機ポーズ」と「攻撃ポーズ」を指定し、その間の動きを補間するケース。フレーム単位での手付けアニメーションに比べてコストと時間を大幅に削減できる。

適合度: ○ — モーションコヒーレンスは向上しているが、ゲーム品質の精密さには後加工が必要になる場合がある。

3. Storyboard animatics

映像制作の初期段階で、スケッチ2枚からシーンのラフアニメを確認するワークフロー。24fpsで8秒まで出力できるため、簡単なシーン検証に実用的な解像度と尺が得られる。

適合度: ◎ — ターンアラウンドが速く、コストも低い。

4. Real estate walkthroughs

不動産の外観写真と内観写真を指定し、玄関→リビングへのカメラ移動を擬似的に生成するケース。

適合度: △ — 空間的整合性の精度はケースによってばらつきがある。


制限事項と使うべきでないケース

技術的な制限

  • 最大8秒: 長尺コンテンツ(CM素材30秒、映像本編など)の直接生成には対応しない。複数タスクの結合が必要になる。
  • 非同期前提の設計: レスポンスタイムが重要なリアルタイムアプリケーション(ライブ配信エフェクト等)には向かない。タスクIDのポーリングが必須。
  • 入力画像の制約: 開始フレームと終了フレームのアスペクト比が一致していない場合、クロップまたはパディングが入り、意図しない結果になる可能性がある。
  • プロンプトはヒント扱い: promptパラメータは動きの補助情報にすぎず、テキストto-videoほど強力な制御力は持たない。

使うべきでないケース

ケース理由
30秒以上の連続動画生成最大8秒制限。複数クリップの結合コストが発生する
フォトリアルな人物の顔アニメーション細かな表情制御はサポート外。アーティファクトのリスクが高い
リアルタイム処理が必要なアプリ非同期アーキテクチャのため、レイテンシは数十〜数百秒
正確な物理シミュレーションが必要な映像流体・煙・布などの物理挙動は保証されない
医療・法的証拠映像生成AIの性質上、フレームの正確性を保証できない

最小動作コード例

Vtrix APIドキュメントの仕様に基づくPythonの実装例。

import requests, time

API_KEY = "YOUR_API_KEY"
BASE_URL = "https://api.vtrix.ai"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

# Step 1: タスク作成
payload = {
    "model": "vidu-q3-turbo",
    "start_image_url": "https://example.com/start.jpg",
    "end_image_url": "https://example.com/end.jpg",
    "duration": 4,  # 4 or 8
    "prompt": "smooth camera pull back"
}
res = requests.post(f"{BASE_URL}/vidu/q3-turbo/start-end2video", json=payload, headers=HEADERS)
task_id = res.json()["task_id"]

# Step 2: ポーリングで結果取得
for _ in range(30):
    time.sleep(10)
    status = requests.get(f"{BASE_URL}/tasks/{task_id}", headers=HEADERS).json()
    if status["state"] == "success":
        print(status["video_url"]); break

結論

Vidu Q3-Turbo Start-end-to-video APIは、開始フレームと終了フレームの双方を制御したいという具体的な要件に対してはKling v2.6 Proと同等レベルの実用性を持ち、Runwayにはない終端制御機能を備えている。ただし非同期設計・最大8秒制限・入力画像制約は本番組み込み前に必ず検証すること。価格優位性と尺の柔軟性を確認した上で、まず自社のリファレンス動像でVBench的な定量評価を走らせてから採用判断するのが正しい順序だ。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Turbo の start-end-to-video API の料金はいくらですか?

Vidu Q3-Turbo の start-end-to-video API の正確な公式料金は記事内に明示されていませんが、比較参考として Q2 Pro の同エンドポイント(Novita AI 経由)は1リクエストあたり約 $0.08〜$0.15 程度で提供されています。Q3-Turbo は Q2 Pro 比でレイテンシが約 50% 改善(180秒 → 90秒)されており、Turbo 系モデルは一般的に Pro 系より低コストに設定される傾向があります。最新の正確な価格は Vidu 公式プラットフォームまたは Novita AI のドキュメントで必ず確認してください。

Vidu Q3-Turbo の生成レイテンシはどのくらいですか?本番環境のタイムアウト設定の目安を教えてください。

記事のベンチマーク表によると、4秒クリップの生成レイテンシは Q2 Turbo が約 120秒、Q2 Pro が約 180秒、Q3-Turbo が約 90秒です。Q3-Turbo は Q2 Pro 比で約 50% の高速化が達成されています。本番環境では非同期ポーリング方式を採用し、タイムアウトは最低でも 180〜300秒(3〜5分)に設定することを推奨します。8秒クリップを生成する場合はレイテンシが 1.5〜2 倍程度になると見込まれるため、タイムアウトを 300秒以上に設定するのが安全です。

Vidu Q3-Turbo と Q2 Pro を比較したとき、動画品質(モーションコヒーレンス)はどれほど改善されましたか?

記事内の内部ベンチマークによると、Q3-Turbo のモーションコヒーレンスは Q2 Pro 比で +20% 改善されています(主観評価ベース)。Q2 Pro 自体はすでに Q2 Turbo 比で +15% の改善が報告されており、Q2 Turbo を基準にすると Q3-Turbo は累積で約 +35% の品質向上と見なせます。また解像度は Q2 Turbo の 720p から Q3-Turbo では 1080p に向上し、最大出力尺も Q2 系の 4秒から Q3 シリーズでは 8秒まで拡張されています。ただしこれらは内部ベンチマークの数値であり、ユースケースによって体感差が生じる点に注意してください。

Vidu Q3-Turbo の start-end-to-video API で指定できる最大解像度・最大動画尺はいくつですか?

記事のスペック表によると、Q3-Turbo の最大解像度は 1080p、フレームレートは 24fps、最大出力尺は 8秒です。Q2 Turbo(最大 720p・4秒)と比較すると、解像度・尺ともに大幅に向上しています。なお Q2 Pro も 1080p・4秒に対応していましたが、Q3-Turbo はそれを維持しつつ最大尺を 2倍の 8秒に拡張しています。start-end-to-video エンドポイントは開始フレームと終了フレームの2枚の画像を入力として受け取り、24fps のシネマティッククリップとして補間動画を生成します。

タグ

Vidu Q3-Turbo Start-end-to-video Video API Developer Guide 2026

関連記事