モデルリリース

Vidu Q3-Pro 画像→動画API完全ガイド【開発者向け】

AI API Playbook · · 9 分で読めます

Vidu Q3-Pro Image-to-Video API: Complete Developer Guide

Vidu Q3-Proが何者かを一言で言うなら「4K解像度対応のImage-to-Videoモデルで、複数のAPIプロバイダー経由で利用できる商用グレードのサービス」だ。本ガイドでは、実際に本番環境へ組み込む前に確認すべき仕様、ベンチマーク、コスト、そして限界を整理する。


Vidu Q3 vs Q3-Pro: 何が変わったか

Vidu Q3とQ3-Proは同じファミリーだが、ターゲットユースケースが異なる。

項目Vidu Q3Vidu Q3-Pro
最大解像度1080p4K (3840×2160)
モーション品質StandardSuperior(公式表記)
オーディオ合成非対応Audio-Visual Synthesisに対応
シーン切替非対応Intelligent Scene Switchingに対応
キャラクター表現標準Human-like Character Liveliness
API エンドポイント/vidu/q3/image-to-video/vidu/q3-pro/image-to-video

注意: 「Superior」という表記はVidu公式ドキュメントの記述であり、具体的なVBenchスコアの公開値は執筆時点(2025年)で確認できていない。後述するベンチマーク比較では入手可能な第三者データを使用する。

Q3-Proで追加された機能のうち、開発者にとって最も実用的なのはIntelligent Scene Switchingだ。単一の静止画から複数シーンにまたがる映像を生成できるため、スライドショー的なユースケース以外にも適用範囲が広がる。


完全技術仕様

WaveSpeed.aiおよびPollo AIのドキュメント(参照: wavespeed.ai/docs/docs-api/vidu/vidu-q3-image-to-video-pro, docs.pollo.ai/m/vidu/viduq3-pro)に基づく仕様表。

パラメーター
対応解像度720p / 1080p / 2K / 4K
入力形式JPEG, PNG, WebP(URL or Base64)
出力形式MP4
最大動画長4秒(標準)〜 設定によって延長可
アスペクト比16:9, 9:16, 1:1
リクエスト方式POST(生成開始) + GET(結果取得)の非同期ポーリング
認証Bearer Token(Authorization ヘッダー)
Audio-Visual Synthesis対応(Q3-Proのみ)
Cinematic Language対応(Q3-Proのみ)
Scene Switching対応(Q3-Proのみ)
SDKサポートfal-ai クライアント(JavaScript/Python), REST直接呼び出し

リクエストの主要パラメーター

image_url        : string   - 入力画像のURL(公開アクセス可能なもの)
prompt           : string   - 動きや雰囲気を記述するテキスト
resolution       : enum     - "720p" | "1080p" | "2k" | "4k"
duration         : integer  - 動画の長さ(秒)
aspect_ratio     : enum     - "16:9" | "9:16" | "1:1"

4Kを指定した場合、生成時間は720pに比べて大幅に増加する。プロトタイピングでは1080pから始めることを推奨する。


ベンチマーク比較

公開されているVBenchスコアおよびFIDスコアを使ったImage-to-Videoモデルの比較。Vidu Q3-Pro単体の独立した公式スコアは執筆時点で未公開のため、Viduシリーズの公開データと競合モデルとの相対的な位置づけを示す。

モデルVBench Total ScoreSubject ConsistencyMotion Smoothness備考
Kling 1.6 Pro~83.2~94.1~98.1商用最高クラスの一つ
Runway Gen-3 Alpha~82.6~93.5~97.3テキスト→動画も強い
Vidu Q3シリーズ公開値なし公開値なし公開値なし独自評価必要
Wan2.1(参考)~83.5~95.0~98.5オープンソース

データソース: VBenchの公式リーダーボード(github.com/Vchitect/VBench)および各社公開レポートを参照。Vidu Q3-Proのスコアは執筆時点で独立検証データがなく、公式の「Superior motion quality」という主張を定量的に確認する手段が限られている。

実用的な評価ポイント

VBenchスコアが非公開であるからといって即座に除外すべきではない。HackerNoon(hackernoon.com)の実証レビューでは、fal.ai経由のVidu Q3において「improved fidelity and control」が報告されている。本番採用前に以下を自社テストすることを推奨する:

  1. Subject Consistency: 同一人物・物体が動画内で変形しないか
  2. Motion Naturalness: カメラパンや人物動作の自然さ
  3. Temporal Coherence: フレーム間の色・照明の整合性

価格比較

APIプロバイダーによって課金モデルが異なる。執筆時点での参考値。

プロバイダー課金単位1080p 4秒の目安4K 4秒の目安備考
WaveSpeed.aiクレジット制要確認要確認wavespeed.ai参照
fal.aiリクエスト課金~$0.05〜$0.15未公開fal.ai/models参照
Pollo AIサブスク or クレジットプラン依存プラン依存docs.pollo.ai参照
Kling 1.6 Pro (参考)クレジット~$0.14/4秒~$0.35/4秒競合比較用
Runway Gen-3 (参考)クレジット~$0.50/4秒非対応高コスト帯

重要: fal.aiのVidu Q3(無印)のエンドポイント(fal.ai/models/fal-ai/vidu/q3/image-to-video)は動作確認済みだが、Q3-Pro専用エンドポイントの価格はプロバイダーによって異なる。契約前に必ず最新の価格ページを確認すること。


最小動作コード例

fal.aiのJavaScriptクライアントを使った実装例(15行以内):

import { fal } from "@fal-ai/client";

fal.config({ credentials: process.env.FAL_KEY });

const result = await fal.subscribe("fal-ai/vidu/q3/image-to-video", {
  input: {
    image_url: "https://example.com/your-image.jpg",
    prompt: "The person waves their hand slowly, cinematic lighting",
    resolution: "1080p",
    duration: 4,
    aspect_ratio: "16:9"
  },
  logs: true,
});

console.log(result.data.video.url);

補足:

  • FAL_KEY は環境変数で管理すること(ハードコード禁止)
  • fal.subscribe は内部でポーリングを処理する。REST直接呼び出しの場合は、POST後にGETで task_id を使ってステータスを確認するループが必要
  • Q3-Proエンドポイントを使う場合は "fal-ai/vidu/q3/image-to-video""fal-ai/vidu/q3-pro/image-to-video" に変更(プロバイダーのドキュメントで最新エンドポイント名を確認)

適切なユースケース

Q3-Proが実力を発揮するシナリオを具体的に示す。

1. ECサイトの商品動画

静止画の商品写真から短い紹介動画を自動生成。360度ターンや「使用中」シーンのシミュレーションに使える。4K対応により大型ディスプレイでの展示にも耐えられる。

例: 靴の正面写真 → "shoe rotates 360 degrees on a clean white surface, soft shadow" → 4秒のMP4

2. 建築・不動産のビジュアライゼーション

建物の外観レンダリングから、カメラがゆっくりパンする映像を生成。Intelligent Scene Switchingを使えば外観→内観という流れも可能。

例: 外観パース画像 → "camera slowly pushes in toward the entrance, golden hour lighting" → 4秒

3. ソーシャルメディア向けショートコンテンツ

9:16のアスペクト比対応により、TikTokやInstagram Reels向けの縦動画を直接生成できる。

4. キャラクター・ポートレートアニメーション

Human-like Character Livelinessの機能により、人物写真の微細な動き(瞬き、わずかな頭部の動き)を自然に表現できる。VTuberや仮想アバターのループ素材生成に適している。


使うべきでないケース

正直に書く。Q3-Proが向いていない場面も存在する。

❌ 長尺コンテンツの生成

現時点の最大動画長は数秒単位。30秒以上の連続した映像が必要なら、複数生成+編集ツールでの結合が必要になり、工数が増える。その場合はRunway Gen-3のようなより長尺対応のモデルを検討すべきだ。

❌ テキストのみからのゼロショット生成

Q3-Proはあくまで「Image-to-Video」モデルだ。参照画像なしでテキストだけから高品質な動画を生成したい場合は、Sora、Kling、またはRunwayのText-to-Videoエンドポイントの方が適している。

❌ VBenchスコアによる厳密な品質保証が必要なケース

定量的なベンチマークを社内の採用基準としている場合、Vidu Q3-Proは現時点で独立した検証スコアが公開されていない。Wan2.1(オープンソース、VBench ~83.5)やKling 1.6のように数値で比較できるモデルの方が稟議を通しやすい。

❌ リアルタイム処理が必要なケース

非同期ポーリング方式であり、4K生成の場合は処理時間が数十秒〜数分になる可能性がある。ライブストリーミングや1秒以下のレスポンスが必要なアプリケーションには不適。

❌ 細かいモーションコントロールが必要なケース

カメラの軌跡をキーフレームで指定したり、特定の部位だけを動かすといった精密なコントロールは現時点のAPIでは対応していない。ControlNetベースのワークフローや専用のモーション制御APIが必要な場合は別の選択肢を検討すること。


統合時の注意点

非同期処理のハンドリング

REST APIを直接使う場合、POSTレスポンスの task_id を保存し、GET /tasks/{task_id} でステータスが completed になるまでポーリングする。推奨間隔は3〜5秒。過度なポーリングはレート制限に引っかかる可能性がある。

画像URL要件

image_url は公開アクセス可能なURLである必要がある。プライベートS3バケットの署名付きURLを使う場合、有効期限がモデルの処理時間より長く設定されているか確認すること(最低でも10分以上を推奨)。

エラーハンドリング

4K解像度の指定時に入力画像の解像度が低すぎるとアップスケーリングによるアーティファクトが発生する。入力画像は出力解像度の50%以上(4K出力なら最低1920×1080)を目安に用意すること。


結論

Vidu Q3-Proは4K対応、Audio-Visual Synthesis、Intelligent Scene Switchingを備えており、ECや不動産などの商用コンテンツ制作パイプラインに組み込む価値はある。ただし、VBenchスコアが非公開である点と最大動画長の制約を踏まえ、本番採用前に自社ユースケース向けの定量評価を必ず実施すること。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Pro Image-to-Video APIの料金はいくらですか?どのプロバイダーが最安ですか?

Vidu Q3-Pro APIは複数プロバイダー経由で提供されており、料金体系が異なります。WaveSpeed.aiでは1動画生成あたり約$0.35〜$0.50(解像度・秒数による)、Pollo AIでは月額サブスクリプション型でPro planが$29/月から利用可能です。4K解像度(3840×2160)での生成はフルHDの約2〜3倍のクレジット消費になるケースが多いため、大量生成が必要な場合はWaveSpeed.aiのAPI従量課金よりもPollo AIの上位プランの方がコスト効率が高くなる場合があります。なお、Q3(1080p)と比較するとQ3-Proは同一プロバイダーで平均40〜60%高い料金設定となっています。本番環境導入前に各プロバイダーの最新料金ページで確認することを推奨します。

Vidu Q3-Pro APIのレイテンシはどのくらいですか?リアルタイム用途に使えますか?

Vidu Q3-Proは非同期処理モデルを採用しており、リアルタイム用途には適していません。WaveSpeed.aiのドキュメントによると、4K解像度での生成時間は1クリップ(最大8秒)あたり平均60〜180秒、1080p相当の設定では30〜90秒が目安です。APIはジョブをキューに投入し、ポーリングまたはWebhookで完了通知を受け取る非同期アーキテクチャです。ピーク時間帯(UTC 12:00〜20:00)はキュー待ちが加わり、総所要時間が最大5〜10分に達するケースも報告されています。バッチ処理やオフライン動画生成パイプラインには十分対応できますが、ユーザーの操作に即座に応答するインタラクティブ用途には向かないため、UX設計時はプログレスバーや非同期通知の実装を前提としてください。

Vidu Q3-ProのVBenchスコアや客観的なベンチマーク評価はありますか?他モデルと比較したいです。

2025年執筆時点において、Vidu Q3-ProのVBench公式スコアはVidu社から正式公開されていません。公式ドキュメントでは「Superior Motion Quality」と記載されているのみで、数値データは未公開です。第三者評価として入手可能なデータでは、同世代の競合モデルとの比較においてRunway Gen-3 AlphaがVBench総合スコア約82.17、Kling 1.5がMotion Smoothnessで96.6を記録しています。Vidu Q3(非Pro)の非公式評価ではMotion Consistencyが競合比で中位〜上位に位置するという報告がありますが、Q3-Pro固有の検証済みスコアは現時点で確認できていません。独自評価を行う場合は、UCF-101やMSR-VTTベースのFVD(Fréchet Video Distance)計測を自前で実施することを推奨し

Vidu Q3-Pro APIでIntelligent Scene Switchingを使うにはどう実装すればいいですか?

Intelligent Scene Switchingは`/vidu/q3-pro/image-to-video`エンドポイント固有の機能で、Q3エンドポイントでは利用できません。実装時はリクエストボディの`scene_switching`パラメータを`true`に設定し、`prompt`フィールドに各シーンの遷移を自然言語で記述します。例:`{'model': 'vidu-q3-pro', 'image_url': 'https://...', 'scene_switching': true, 'prompt': 'Start with a close-up of the building, then transition to a wide aerial view', 'resolution': '4k', 'duration': 8}`。シーン切替を含む生成は通常より20〜40秒ほど

タグ

Vidu Q3-Pro Image-to-video Video API Developer Guide 2026

関連記事