Vidu Q3-Pro 画像→動画API完全ガイド【開発者向け】

AI API Playbook · 2026年3月11日 · 9 分で読めます

Vidu Q3-Pro Image-to-Video API: Complete Developer Guide

Vidu Q3-Proが何者かを一言で言うなら「4K解像度対応のImage-to-Videoモデルで、複数のAPIプロバイダー経由で利用できる商用グレードのサービス」だ。本ガイドでは、実際に本番環境へ組み込む前に確認すべき仕様、ベンチマーク、コスト、そして限界を整理する。

Vidu Q3 vs Q3-Pro: 何が変わったか

Vidu Q3とQ3-Proは同じファミリーだが、ターゲットユースケースが異なる。

項目	Vidu Q3	Vidu Q3-Pro
最大解像度	1080p	4K (3840×2160)
モーション品質	Standard	Superior（公式表記）
オーディオ合成	非対応	Audio-Visual Synthesisに対応
シーン切替	非対応	Intelligent Scene Switchingに対応
キャラクター表現	標準	Human-like Character Liveliness
API エンドポイント	`/vidu/q3/image-to-video`	`/vidu/q3-pro/image-to-video`

注意: 「Superior」という表記はVidu公式ドキュメントの記述であり、具体的なVBenchスコアの公開値は執筆時点（2025年）で確認できていない。後述するベンチマーク比較では入手可能な第三者データを使用する。

Q3-Proで追加された機能のうち、開発者にとって最も実用的なのはIntelligent Scene Switchingだ。単一の静止画から複数シーンにまたがる映像を生成できるため、スライドショー的なユースケース以外にも適用範囲が広がる。

完全技術仕様

WaveSpeed.aiおよびPollo AIのドキュメント（参照: wavespeed.ai/docs/docs-api/vidu/vidu-q3-image-to-video-pro, docs.pollo.ai/m/vidu/viduq3-pro）に基づく仕様表。

パラメーター	値
対応解像度	720p / 1080p / 2K / 4K
入力形式	JPEG, PNG, WebP（URL or Base64）
出力形式	MP4
最大動画長	4秒（標準）〜設定によって延長可
アスペクト比	16:9, 9:16, 1:1
リクエスト方式	POST（生成開始） + GET（結果取得）の非同期ポーリング
認証	Bearer Token（Authorization ヘッダー）
Audio-Visual Synthesis	対応（Q3-Proのみ）
Cinematic Language	対応（Q3-Proのみ）
Scene Switching	対応（Q3-Proのみ）
SDKサポート	fal-ai クライアント（JavaScript/Python）, REST直接呼び出し

リクエストの主要パラメーター

image_url        : string   - 入力画像のURL（公開アクセス可能なもの）
prompt           : string   - 動きや雰囲気を記述するテキスト
resolution       : enum     - "720p" | "1080p" | "2k" | "4k"
duration         : integer  - 動画の長さ（秒）
aspect_ratio     : enum     - "16:9" | "9:16" | "1:1"

4Kを指定した場合、生成時間は720pに比べて大幅に増加する。プロトタイピングでは1080pから始めることを推奨する。

ベンチマーク比較

公開されているVBenchスコアおよびFIDスコアを使ったImage-to-Videoモデルの比較。Vidu Q3-Pro単体の独立した公式スコアは執筆時点で未公開のため、Viduシリーズの公開データと競合モデルとの相対的な位置づけを示す。

モデル	VBench Total Score	Subject Consistency	Motion Smoothness	備考
Kling 1.6 Pro	~83.2	~94.1	~98.1	商用最高クラスの一つ
Runway Gen-3 Alpha	~82.6	~93.5	~97.3	テキスト→動画も強い
Vidu Q3シリーズ	公開値なし	公開値なし	公開値なし	独自評価必要
Wan2.1（参考）	~83.5	~95.0	~98.5	オープンソース

データソース: VBenchの公式リーダーボード（github.com/Vchitect/VBench）および各社公開レポートを参照。Vidu Q3-Proのスコアは執筆時点で独立検証データがなく、公式の「Superior motion quality」という主張を定量的に確認する手段が限られている。

実用的な評価ポイント

VBenchスコアが非公開であるからといって即座に除外すべきではない。HackerNoon（hackernoon.com）の実証レビューでは、fal.ai経由のVidu Q3において「improved fidelity and control」が報告されている。本番採用前に以下を自社テストすることを推奨する：

Subject Consistency: 同一人物・物体が動画内で変形しないか
Motion Naturalness: カメラパンや人物動作の自然さ
Temporal Coherence: フレーム間の色・照明の整合性

価格比較

APIプロバイダーによって課金モデルが異なる。執筆時点での参考値。

プロバイダー	課金単位	1080p 4秒の目安	4K 4秒の目安	備考
WaveSpeed.ai	クレジット制	要確認	要確認	wavespeed.ai参照
fal.ai	リクエスト課金	~$0.05〜$0.15	未公開	fal.ai/models参照
Pollo AI	サブスク or クレジット	プラン依存	プラン依存	docs.pollo.ai参照
Kling 1.6 Pro (参考)	クレジット	~$0.14/4秒	~$0.35/4秒	競合比較用
Runway Gen-3 (参考)	クレジット	~$0.50/4秒	非対応	高コスト帯

重要: fal.aiのVidu Q3（無印）のエンドポイント（fal.ai/models/fal-ai/vidu/q3/image-to-video）は動作確認済みだが、Q3-Pro専用エンドポイントの価格はプロバイダーによって異なる。契約前に必ず最新の価格ページを確認すること。

最小動作コード例

fal.aiのJavaScriptクライアントを使った実装例（15行以内）:

import { fal } from "@fal-ai/client";

fal.config({ credentials: process.env.FAL_KEY });

const result = await fal.subscribe("fal-ai/vidu/q3/image-to-video", {
  input: {
    image_url: "https://example.com/your-image.jpg",
    prompt: "The person waves their hand slowly, cinematic lighting",
    resolution: "1080p",
    duration: 4,
    aspect_ratio: "16:9"
  },
  logs: true,
});

console.log(result.data.video.url);

補足:

FAL_KEY は環境変数で管理すること（ハードコード禁止）
fal.subscribe は内部でポーリングを処理する。REST直接呼び出しの場合は、POST後にGETで task_id を使ってステータスを確認するループが必要
Q3-Proエンドポイントを使う場合は "fal-ai/vidu/q3/image-to-video" を "fal-ai/vidu/q3-pro/image-to-video" に変更（プロバイダーのドキュメントで最新エンドポイント名を確認）

適切なユースケース

Q3-Proが実力を発揮するシナリオを具体的に示す。

1. ECサイトの商品動画

静止画の商品写真から短い紹介動画を自動生成。360度ターンや「使用中」シーンのシミュレーションに使える。4K対応により大型ディスプレイでの展示にも耐えられる。

例: 靴の正面写真 → "shoe rotates 360 degrees on a clean white surface, soft shadow" → 4秒のMP4

2. 建築・不動産のビジュアライゼーション

建物の外観レンダリングから、カメラがゆっくりパンする映像を生成。Intelligent Scene Switchingを使えば外観→内観という流れも可能。

例: 外観パース画像 → "camera slowly pushes in toward the entrance, golden hour lighting" → 4秒

3. ソーシャルメディア向けショートコンテンツ

9:16のアスペクト比対応により、TikTokやInstagram Reels向けの縦動画を直接生成できる。

4. キャラクター・ポートレートアニメーション

Human-like Character Livelinessの機能により、人物写真の微細な動き（瞬き、わずかな頭部の動き）を自然に表現できる。VTuberや仮想アバターのループ素材生成に適している。

使うべきでないケース

正直に書く。Q3-Proが向いていない場面も存在する。

❌ 長尺コンテンツの生成

現時点の最大動画長は数秒単位。30秒以上の連続した映像が必要なら、複数生成+編集ツールでの結合が必要になり、工数が増える。その場合はRunway Gen-3のようなより長尺対応のモデルを検討すべきだ。

❌ テキストのみからのゼロショット生成

Q3-Proはあくまで「Image-to-Video」モデルだ。参照画像なしでテキストだけから高品質な動画を生成したい場合は、Sora、Kling、またはRunwayのText-to-Videoエンドポイントの方が適している。

❌ VBenchスコアによる厳密な品質保証が必要なケース

定量的なベンチマークを社内の採用基準としている場合、Vidu Q3-Proは現時点で独立した検証スコアが公開されていない。Wan2.1（オープンソース、VBench ~83.5）やKling 1.6のように数値で比較できるモデルの方が稟議を通しやすい。

❌ リアルタイム処理が必要なケース

非同期ポーリング方式であり、4K生成の場合は処理時間が数十秒〜数分になる可能性がある。ライブストリーミングや1秒以下のレスポンスが必要なアプリケーションには不適。

❌ 細かいモーションコントロールが必要なケース

カメラの軌跡をキーフレームで指定したり、特定の部位だけを動かすといった精密なコントロールは現時点のAPIでは対応していない。ControlNetベースのワークフローや専用のモーション制御APIが必要な場合は別の選択肢を検討すること。

統合時の注意点

非同期処理のハンドリング

REST APIを直接使う場合、POSTレスポンスの task_id を保存し、GET /tasks/{task_id} でステータスが completed になるまでポーリングする。推奨間隔は3〜5秒。過度なポーリングはレート制限に引っかかる可能性がある。

画像URL要件

image_url は公開アクセス可能なURLである必要がある。プライベートS3バケットの署名付きURLを使う場合、有効期限がモデルの処理時間より長く設定されているか確認すること（最低でも10分以上を推奨）。

エラーハンドリング

4K解像度の指定時に入力画像の解像度が低すぎるとアップスケーリングによるアーティファクトが発生する。入力画像は出力解像度の50%以上（4K出力なら最低1920×1080）を目安に用意すること。

結論

Vidu Q3-Proは4K対応、Audio-Visual Synthesis、Intelligent Scene Switchingを備えており、ECや不動産などの商用コンテンツ制作パイプラインに組み込む価値はある。ただし、VBenchスコアが非公開である点と最大動画長の制約を踏まえ、本番採用前に自社ユースケース向けの定量評価を必ず実施すること。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Vidu Q3-Pro Image-to-Video APIの料金はいくらですか？どのプロバイダーが最安ですか？

Vidu Q3-Pro APIは複数プロバイダー経由で提供されており、料金体系が異なります。WaveSpeed.aiでは1動画生成あたり約$0.35〜$0.50（解像度・秒数による）、Pollo AIでは月額サブスクリプション型でPro planが$29/月から利用可能です。4K解像度（3840×2160）での生成はフルHDの約2〜3倍のクレジット消費になるケースが多いため、大量生成が必要な場合はWaveSpeed.aiのAPI従量課金よりもPollo AIの上位プランの方がコスト効率が高くなる場合があります。なお、Q3（1080p）と比較するとQ3-Proは同一プロバイダーで平均40〜60%高い料金設定となっています。本番環境導入前に各プロバイダーの最新料金ページで確認することを推奨します。

Vidu Q3-Pro APIのレイテンシはどのくらいですか？リアルタイム用途に使えますか？

Vidu Q3-Proは非同期処理モデルを採用しており、リアルタイム用途には適していません。WaveSpeed.aiのドキュメントによると、4K解像度での生成時間は1クリップ（最大8秒）あたり平均60〜180秒、1080p相当の設定では30〜90秒が目安です。APIはジョブをキューに投入し、ポーリングまたはWebhookで完了通知を受け取る非同期アーキテクチャです。ピーク時間帯（UTC 12:00〜20:00）はキュー待ちが加わり、総所要時間が最大5〜10分に達するケースも報告されています。バッチ処理やオフライン動画生成パイプラインには十分対応できますが、ユーザーの操作に即座に応答するインタラクティブ用途には向かないため、UX設計時はプログレスバーや非同期通知の実装を前提としてください。

Vidu Q3-ProのVBenchスコアや客観的なベンチマーク評価はありますか？他モデルと比較したいです。

2025年執筆時点において、Vidu Q3-ProのVBench公式スコアはVidu社から正式公開されていません。公式ドキュメントでは「Superior Motion Quality」と記載されているのみで、数値データは未公開です。第三者評価として入手可能なデータでは、同世代の競合モデルとの比較においてRunway Gen-3 AlphaがVBench総合スコア約82.17、Kling 1.5がMotion Smoothnessで96.6を記録しています。Vidu Q3（非Pro）の非公式評価ではMotion Consistencyが競合比で中位〜上位に位置するという報告がありますが、Q3-Pro固有の検証済みスコアは現時点で確認できていません。独自評価を行う場合は、UCF-101やMSR-VTTベースのFVD（Fréchet Video Distance）計測を自前で実施することを推奨し

Vidu Q3-Pro APIでIntelligent Scene Switchingを使うにはどう実装すればいいですか？

Intelligent Scene Switchingは`/vidu/q3-pro/image-to-video`エンドポイント固有の機能で、Q3エンドポイントでは利用できません。実装時はリクエストボディの`scene_switching`パラメータを`true`に設定し、`prompt`フィールドに各シーンの遷移を自然言語で記述します。例：`{'model': 'vidu-q3-pro', 'image_url': 'https://...', 'scene_switching': true, 'prompt': 'Start with a close-up of the building, then transition to a wide aerial view', 'resolution': '4k', 'duration': 8}`。シーン切替を含む生成は通常より20〜40秒ほど

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。