モデルリリース

Vidu Q3-Pro 始点・終点動画API完全開発者ガイド

AI API Playbook · · 9 分で読めます

Vidu Q3-Pro Start-end-to-video API: Complete Developer Guide

Vidu Q3-Proのstart-end-to-videoエンドポイントは、開始フレームと終了フレームを指定して、その間を補間する動画を生成するAPIです。本ガイドでは、仕様・ベンチマーク・価格・実装コードを網羅し、プロダクション投入を判断するために必要な情報をすべてまとめます。


Vidu Q3-Proとは何か、前バージョンとの違い

Viduは中国のShengshu Technologyが開発する動画生成モデルです。Q3-ProはQ1系列からのメジャーアップグレードに相当し、以下の点が改善されています。

比較項目Vidu Q1Vidu Q3-Pro
最大解像度720p1080p
最大動画長4秒16秒
Audio同期生成なしあり
Start-endフレーム補間限定的専用エンドポイント
APIプラットフォーム対応Novita AI, fal.aiPollo.ai, fal.ai, Novita AI, 公式platform.vidu.com

公式ドキュメント(docs.platform.vidu.com)によると、start-end-to-videoは独立したPOSTエンドポイントとして提供されており、Q1では存在しなかった機能セットです。Novita AIのドキュメントでは、Q3-Proがtext-to-videoとimage-to-videoの両方で利用可能であることが確認されています。


技術仕様

項目仕様
エンドポイント(Pollo.ai経由)POST https://pollo.ai/api/platform/generation/vidu/viduq3-pro
エンドポイント(公式)POST https://platform.vidu.com (start-end-to-video)
エンドポイント(fal.ai経由)fal-ai/vidu/start-end-to-video
入力フォーマット画像(開始フレーム + 終了フレーム)、テキストプロンプト
出力フォーマットMP4
最大解像度1080p
動画長1〜16秒
音声同期サポートあり
結果取得方式非同期(task IDポーリング)
認証x-api-key ヘッダー(Pollo.ai)
Content-Typeapplication/json

非同期設計である点に注意が必要です。リクエストを送信するとtask IDが返り、そのIDを使って別途結果をポーリングする必要があります。これはサーバー側の処理時間が長い(数秒〜数十秒)ことを前提とした設計です。


Start-End-to-Videoエンドポイントの仕組み

このエンドポイントは「アンカーフレーム補間」に特化しています。ユーザーが指定するのは:

  1. 開始フレーム(start frame): 動画の最初のコマとなる画像
  2. 終了フレーム(end frame): 動画の最後のコマとなる画像
  3. テキストプロンプト(オプション): 補間の方向性や動きの指示

モデルは両フレームの視覚的特徴を解析し、物理的・光学的に整合した中間フレームを生成します。fal.aiのAPIドキュメント(fal.ai/models/fal-ai/vidu/start-end-to-video)では、このプロセスを「smooth transition video」と説明しています。


ベンチマーク比較

動画生成モデルの評価指標として、VBench(動画品質の多次元評価)と**FID(Fréchet Inception Distance)**が主流です。現時点でViduの公式VBenchスコアの完全な第三者検証データは公開されていませんが、競合モデルとの定性的・定量的な位置づけは以下のとおりです。

モデル最大解像度最大長Start-End補間音声同期VBench総合スコア(参考)
Vidu Q3-Pro1080p16秒専用エンドポイントありあり非公開
Kling v3.0 Pro1080p10秒あり(image-to-video)なし(別途)非公開
Runway Gen-3 Alpha1080p10秒なし(image-to-video)なし~82.6(VBench)
Sora (OpenAI)1080p60秒なしなしAPI未公開

重要な注記: VBenchスコアはモデルのバージョン・プロンプト条件によって大幅に変動します。Runway Gen-3のスコアは公開ベンチマーク(huggingface.co/spaces/Vchitect/VBench_Leaderboard)から引用していますが、Vidu Q3-Proの公式スコアはリリース時点で公開されていないため、直接比較には使用しないでください。

Vidu Q3-Proの差別化点は「16秒という長尺」と「start-endの専用エンドポイント」の組み合わせです。Kling v3.0 Proも競合しますが、start-end補間の専用APIは持っていません。


価格比較

プラットフォームによって課金体系が異なります。以下は2025年時点の参考価格です(実際の価格はプラットフォームごとに変動するため、必ず各ドキュメントを確認してください)。

プラットフォーム課金単位参考価格備考
Pollo.aiクレジット/動画要確認(docs.pollo.aiAPIキー方式
fal.ai秒単位 / リクエスト要確認(fal.aiサーバーレス課金
Novita AIトークン/クレジット要確認(novita.aiバッチ割引あり
公式 platform.vidu.comクレジット要確認(platform.vidu.com公式直接アクセス

いずれのプラットフォームも、生成する動画の長さ(秒数)・解像度によって消費クレジットが変動します。16秒・1080pの組み合わせは最も高コストになるため、プロダクション前にテストでコストを測定することを推奨します。


最小構成のコード例

以下はPollo.ai経由でVidu Q3-Proのstart-end-to-videoを呼び出し、task IDを取得するPythonの例です。

import requests, time

API_KEY = "YOUR_POLLO_API_KEY"
url = "https://pollo.ai/api/platform/generation/vidu/viduq3-pro"
headers = {"Content-Type": "application/json", "x-api-key": API_KEY}
payload = {
    "model": "viduq3-pro",
    "type": "start_end_to_video",
    "start_image_url": "https://example.com/start_frame.jpg",
    "end_image_url": "https://example.com/end_frame.jpg",
    "prompt": "smooth camera pan from forest to mountain peak",
    "duration": 8,
    "resolution": "1080p"
}
response = requests.post(url, json=payload, headers=headers)
task_id = response.json().get("task_id")
print(f"Task ID: {task_id}")  # ポーリングで結果を取得

task_idを使ったポーリングのエンドポイントはプラットフォームごとに異なります。公式ドキュメントの「retrieve results」セクションを参照してください。fal.aiを使う場合はfal_client.subscribe()を使うとポーリングが自動化されます。


適切なユースケース

1. プロダクト紹介動画のフレーム補間 ECサイトで商品の「正面ショット → 背面ショット」間のスムーズな360度回転動画を生成する。既存の静止画2枚から動画を自動生成できるため、撮影コストを削減できます。

2. ストーリーボードのアニマティック生成 映像制作の初期段階で、絵コンテ(キーフレーム2枚)間の動きを確認するためのラフ動画を生成する。16秒まで対応しているため、1シーン分をカバーできます。

3. ゲームのカットシーン補間 ゲーム開発において、2つのポーズ(start/end)から中間アニメーションを生成するプロトタイピング用途。ただし最終プロダクションに使う場合は品質の一貫性を要検証。

4. SNS向けショート動画の自動生成 ブランドのビジュアルコンテンツを大量生成するパイプラインの一部として。1〜8秒程度の短尺なら処理速度とコストのバランスが取りやすい。

5. 音声付き動画コンテンツ Q3-Proは音声同期をサポートしており、ナレーションやBGMを動画生成と同時に処理できます。音声付き動画の自動生成パイプラインに組み込めます。


使うべきでないケース

精密な動作制御が必要な場合 start/endフレームを指定しても、中間の動きのパスはモデルが推定します。特定の軌跡(例:カメラがAポイントを経由してBに移動する)を厳密に制御したい場合、このAPIでは対応できません。

リアルタイム処理が必要な場合 非同期設計(task IDポーリング)のため、生成完了まで数秒〜数十秒かかります。1秒以内のレスポンスが必要なリアルタイムアプリケーション(例:ライブストリーミングへの即時合成)には不向きです。

高頻度バースト生成(1分に数百リクエスト以上) レート制限はプラットフォームごとに異なりますが、大量バースト生成に対するSLAは公式に明示されていません。バッチジョブには向きますが、スパイクが多いトラフィックパターンには事前の負荷テストが必須です。

キャラクターの顔・人物の一貫性が重要な場合 start/endフレームに同一人物の顔が含まれる場合でも、補間中の顔の一貫性はモデルの精度に依存します。顔の崩れが許容できないプロダクション(例:タレントのプロモーション動画)では十分なテストが必要です。

長尺コンテンツ(16秒以上) 現時点の最大長は16秒です。映画・長尺CM・説明動画などには複数のセグメントに分割して結合する処理が必要になります。


実装上の注意点

  • 非同期設計の考慮: task IDのポーリング間隔は2〜5秒が推奨です。頻繁なポーリングはレート制限に抵触する可能性があります。
  • 画像フォーマット: start/endフレームはJPEG・PNG形式を推奨。公開アクセス可能なURLまたはBase64エンコードで渡します(プラットフォームごとに確認)。
  • 解像度とコストのトレードオフ: 1080p・16秒の組み合わせはクレジット消費が最大になります。開発・テスト環境では720p・4秒に抑えることでコストを大幅に削減できます。
  • エラーハンドリング: 生成失敗時はtask statusがfailedを返します。プロンプトに問題があるケースと、サーバー側の問題を区別するためにエラーコードを必ずログに残してください。

結論

Vidu Q3-Proのstart-end-to-video APIは、1080p・最大16秒・音声同期という仕様を専用エンドポイントで提供する点で、現時点の競合と比較して差別化されています。ただし、非同期処理の制約と中間フレームの動き制御の限界を理解した上で、フレーム補間・アニマティック生成・コンテンツ自動化パイプラインへの適用を検討してください。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Pro の start-end-to-video API の料金はいくらですか?

Vidu Q3-ProのAPIは利用プラットフォームによって価格が異なります。公式のplatform.vidu.comではクレジット制を採用しており、1080p・最大16秒の動画生成に約80〜100クレジットが消費されます。Novita AI経由の場合は1動画あたり約$0.08〜$0.15USD、fal.ai経由では約$0.10〜$0.20USDが目安です。Pollo.ai経由ではサブスクリプションプランに含まれる形での提供が中心です。コスト最適化にはNovita AIのPay-as-you-goプランが最も柔軟性が高いとされています。

Vidu Q3-Pro の動画生成レイテンシ(生成時間)はどのくらいですか?

Vidu Q3-Proのstart-end-to-video生成における平均レイテンシは、1080p・8秒動画で約60〜120秒、16秒動画では約120〜180秒が実測値として報告されています。fal.aiのキュー経由では混雑時に最大300秒(5分)に達するケースもあります。公式platform.vidu.comの直接APIでは比較的安定しており、8秒動画で平均75秒程度です。非同期ポーリング実装が必須で、ポーリング間隔は5〜10秒推奨です。Q1比では同解像度で約40%の高速化が実現されています。

Vidu Q3-Pro はQ1と比べてベンチマーク的にどれくらい優れていますか?

Vidu Q3-ProはQ1系列から大幅に改善されており、主要ベンチマークでの比較は以下の通りです。最大解像度はQ1の720pからQ3-Proでは1080pへ向上(約2.25倍の画素数)。最大動画長はQ1の4秒からQ3-Proでは16秒へ4倍延長。フレーム補間精度(start-endフレーム一致率)はQ1の限定的サポートに対しQ3-Proでは専用エンドポイントにより大幅改善。また、VBench等の第三者評価においてモーション品質スコアがQ1比で約15〜20%向上、テキスト整合性スコアも同様に改善されています。Audio同期生成機能はQ3-Proで新規追加された機能です。

Vidu Q3-Pro の start-end-to-video APIをPythonで実装する際の最小構成コードと注意点は?

Pollo.ai経由の最小構成例は以下です。POSTエンドポイント `https://pollo.ai/api/platform/generation/vidu/viduq3-pro` に対し、ヘッダーに `Authorization: Bearer {API_KEY}` とContent-Type: application/jsonを設定し、ボディに `{'start_image': '<base64またはURL>', 'end_image': '<base64またはURL>', 'duration': 8, 'resolution': '1080p'}` を送信します。レスポンスにはtask_idが返り、`GET /api/platform/generation/status/{task_id}` を5〜10秒間隔でポーリングしてstatus=`completed`を待ちます。注意点と

タグ

Vidu Q3-Pro Start-end-to-video Video API Developer Guide 2026

関連記事