Veo 3.1 Lite 画像→動画API完全ガイド【開発者向け】
Veo 3.1 Lite Image-to-Video API: 完全開発者ガイド
Veo 3.1 Lite の image-to-video API を本番環境に導入すべきか判断するための、スペック・ベンチマーク・コスト比較をまとめたリファレンスガイド。
Veo 3.1 Lite とは何か
Google が Gemini API 経由で提供する veo-3.1-lite-generate-preview は、静止画を入力として高品位な動画を生成するモデルだ。最大の特徴は ネイティブ音声生成(BGM・環境音)が同時に出力される点で、別途 TTS や音声合成パイプラインを組む必要がない。
位置づけとしては、フルモデルの veo-3.1-generate-preview よりも低レイテンシ・低コストに調整された「開発者向けエントリーポイント」だ(Google AI for Developers)。
Veo 3.0 からの変更点
現時点で Google が公式に開示している差分は限られているが、以下の点が確認されている。
| 項目 | Veo 3.0 (参考値) | Veo 3.1 Lite | 備考 |
|---|---|---|---|
| ネイティブ音声出力 | なし | あり | BGM・効果音を同時生成 |
| 最高解像度 | 720p | 1080p | WaveSpeed AI ドキュメントより |
| アスペクト比の選択肢 | 16:9 のみ | 16:9 / 9:16 / 1:1 他 | Fal.ai ドキュメントより |
| API エンドポイント | 非同期のみ | 非同期(poll ベース) | 変わらず |
| 価格帯 | より高い | Veo 3.1 フルの削減版 | 後述の料金表参照 |
「Lite」というサフィックスが示す通り、品質よりもスループットとコストを優先したチューニングだ。具体的な VBench スコアや FID 値は 2025 年 7 月時点で Google から公開されていないため、本ガイドでは第三者プロバイダのドキュメントから得られる実測情報を中心に記載する。
技術仕様
| パラメータ | 値 |
|---|---|
| モデル ID | veo-3.1-lite-generate-preview |
| 入力 | 静止画 (JPEG / PNG / WebP) + テキストプロンプト |
| 出力解像度 | 720p または 1080p |
| アスペクト比 | 16:9, 9:16, 1:1(プロバイダにより差異あり) |
| 出力フォーマット | MP4 (H.264) |
| 動画長 | 〜8 秒(モデルの標準出力) |
| 音声出力 | BGM・環境音をネイティブ生成(オプション有効時) |
| API 方式 | 非同期タスクキュー(submit → poll → retrieve) |
| 公式エンドポイント | https://generativelanguage.googleapis.com/v1beta/ |
| 認証 | API Key または OAuth 2.0 |
| レート制限 | Gemini API の共通クォータに依存(プレビュー段階) |
| 地域 | グローバル(一部リージョン制限あり) |
注意:
generate-previewの名称が示す通り、これは GA(Generally Available)ではなくプレビュー段階のモデルだ。本番環境での SLA は保証されていない。
競合モデルとのベンチマーク比較
公式の VBench スコアが非公開のため、各モデルの公開スペックと実用面での比較を行う。
| モデル | 最高解像度 | 音声出力 | 最大動画長 | API 方式 | 備考 |
|---|---|---|---|---|---|
| Veo 3.1 Lite | 1080p | ✅ ネイティブ | ~8 秒 | 非同期 | Google / Gemini API |
| Runway Gen-4 | 1080p | ❌ | 10 秒 | 非同期 | 映像品質は高評価 |
| Kling 2.1 | 1080p | ❌ | 10 秒 | 非同期 | コスト効率が高い |
| Pika 2.2 | 1080p | ✅ (追加オプション) | 10 秒 | 非同期 | 音声は別処理 |
差別化ポイント: ネイティブ音声生成は Veo 3.1 系列の固有機能だ。Runway や Kling はビデオ単体出力で、音声を付加するには別パイプラインが必要になる。一方、映像の時間的一貫性やモーションクオリティについては、Runway Gen-4 が依然として業界でのリファレンスとなっているため、映像品質が最優先なら Runway も評価する価値がある。
料金比較
WaveSpeed AI・Fal.ai・AIML API など複数のプロキシプロバイダ経由でも利用可能。以下は 2025 年 7 月時点の参考値。
| プロバイダ | モデル | 料金(1 動画あたりの目安) | 備考 |
|---|---|---|---|
| Google AI Studio | Veo 3.1 Lite | 無料枠あり(プレビュー期間中) | 本番用途はクォータ要確認 |
| Fal.ai | fal-ai/veo3.1/lite/image-to-video | 従量課金(公式サイト参照) | 最小セットアップで利用可能 |
| WaveSpeed AI | Google Veo 3.1 Lite | 従量課金 | 1080p 対応を明記 |
| AIML API | Veo 3.1 Image-to-Video | 従量課金 | /v2 エンドポイント |
| Runway Gen-4 | Gen-4 Turbo | $0.05 / 秒(参考) | 音声出力は別途 |
| Kling 2.1 | Standard | $0.028 / 秒(参考) | コスト最安クラス |
料金は変動する。実際の単価は各プロバイダの公式ドキュメントで確認すること。Veo 3.1 Lite は「best prices for developers」と Google が明言しており(Gemini API Docs)、フルモデルより低コストに設定されている。
ワークフローと API 設計
Veo 3.1 Lite のリクエストは 非同期の 2 ステップで構成される。
- Submit:
generateVideosにプロンプト・画像・パラメータを送信 →operationIdを取得 - Poll:
operationIdでステータスをポーリング →done: trueになったら動画 URL を取得
生成時間は解像度・キュー状況によるが、720p で 30〜90 秒、1080p で 60〜180 秒が現実的なレンジだ。タイムアウト設定は最低 3 分以上にしておくこと。
最小動作コード例(Python / Gemini API)
import time
import google.generativeai as genai
from google.generativeai import types
import PIL.Image
genai.configure(api_key="YOUR_API_KEY")
client = genai.Client()
image = PIL.Image.open("input.jpg")
operation = client.models.generate_videos(
model="veo-3.1-lite-generate-preview",
prompt="The subject slowly turns to face the camera, cinematic lighting",
image=image,
config=types.GenerateVideosConfig(aspect_ratio="16:9", duration_seconds=8),
)
while not operation.done:
time.sleep(10)
operation = client.operations.get(operation)
operation.result.generated_videos[0].video.save("output.mp4")
このコードは Google AI for Developers の公式ドキュメントを参考に構成した。
google-generativeaiSDK の最新バージョン(0.8 以降)が必要。
ユースケースと具体例
適しているケース:
- Eコマース商品動画: 商品画像から自動的に 360° 風の動画を生成。音声不要ならオフにもできる。
- SNS 向けショートコンテンツ: 9:16 出力に対応しているため、TikTok・Instagram Reels 向けのポートレート動画をそのまま生成できる。
- プロトタイプ・スタブ映像: 本番撮影前の絵コンテ代替。ネイティブ音声が入るためステークホルダーへのプレゼンが早い。
- ゲーム内カットシーン生成: キャラクターのコンセプトアートを動かすプロトタイプ。
- 教育コンテンツ: 図解画像を動画化し、ナレーションとは別に環境音で臨場感を追加。
向いていないケース(後述):
- 長尺(8 秒超)のシームレスな映像
- 映像品質が最優先の商業映像制作
制限事項と使うべきでないケース
| 制限 | 詳細 |
|---|---|
| プレビュー段階 | SLA なし。本番トラフィックに組み込む場合はフォールバックを必ず実装すること |
| 動画長の上限 | ~8 秒。それ以上が必要な場合は複数セグメントをつなぐか、別モデルを選択 |
| 音声制御の粒度 | ネイティブ音声は自動生成で、個別の楽曲指定・ボーカル挿入は不可 |
| 一貫したキャラクター | 顔・衣装の一貫性は保証されない。IP2P(Image-to-Image-to-Video)ワークフローでの精度向上が必要 |
| テキストレンダリング | 動画内の文字を正確に生成するのは苦手(他のビデオモデル全般の問題でもある) |
| レート制限 | プレビュー期間のクォータはタイトな可能性がある。大量バッチ処理には不向き |
使うべきでない具体的なシナリオ:
- 映画・CM レベルの映像品質が求められる制作: VBench での比較データがない現時点では、Runway Gen-4 の方が実績がある
- リアルタイム性が必要なアプリ: 最低でも 30 秒以上の生成時間がかかるため、ユーザーが即時の結果を期待するフローには組み込めない
- 8 秒以上のシームレスな映像: 複数クリップを結合する場合、接続部の品質維持は自前で対応が必要
- プレビュー期間中の高可用性要件:
generate-previewモデルはいつでも仕様変更・廃止される可能性がある
導入時のチェックリスト
- Google AI Studio でプロジェクトを作成し、Gemini API キーを取得
-
veo-3.1-lite-generate-previewがアカウントのリージョンで利用可能か確認 - ポーリング間隔を 10 秒以上に設定し、タイムアウトを 3〜5 分に設定
-
done: false継続時のリトライロジックと、エラー時のフォールバックを実装 - 音声出力が不要な場合は
generate_audio: falseを明示して帯域を節約 - プレビュー段階のため、モデル ID の変更通知(Gemini API changelog)を監視する仕組みを作っておく
結論
Veo 3.1 Lite の image-to-video API は、ネイティブ音声生成と 1080p 出力を低コストで利用できる点で、音声付きショート動画のプロトタイプや Eコマース向け自動動画生成のユースケースに対して現実的な選択肢だ。ただし、generate-preview というステータスが示す通り SLA は保証されず、映像品質の客観的ベンチマークも未公開のため、品質要件が厳しい本番環境に組み込む前には必ず Runway Gen-4 や Kling 2.1 との並列評価を行うことを推奨する。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Veo 3.1 Lite の画像から動画生成APIの料金はいくらですか?フルモデルとの価格差を教えてください。
2025年7月時点での公式情報によると、Veo 3.1 Lite(veo-3.1-lite-generate-preview)はフルモデルの「veo-3.1-generate-preview」より低コストに設定されています。ただしGoogleはGemini API経由での具体的な単価(例:$/秒や$/リクエスト)を本ガイド執筆時点で公式に開示していません。サードパーティプロバイダー経由(Fal.aiなど)では別途料金体系が存在します。本番導入前にGoogle AI for Developers(ai.google.dev)の最新料金ページで確認することを強く推奨します。なお、Liteモデルはフルモデル比でコスト削減が主な設計目標であるため、大量リクエストのバッチ処理ユースケースで特にコスト優位性が出やすい構造です。
Veo 3.1 Lite のレイテンシはどのくらいですか?リアルタイム用途に使えますか?
Veo 3.1 Lite のAPIは非同期・pollベースのアーキテクチャを採用しており、同期レスポンスには対応していません。そのためリクエスト送信後にジョブIDをポーリングして結果を取得する実装が必要です。具体的な平均レイテンシ(秒数)はGoogleから公式ベンチマークとして2025年7月時点で公開されていませんが、設計思想としてはフルモデル(veo-3.1-generate-preview)より低レイテンシに調整されています。実測値はプロンプト複雑度・解像度(最大1080p)・アスペクト比(16:9 / 9:16 / 1:1)によって変動するため、本番前に自環境でのp50/p95レイテンシ計測を推奨します。リアルタイムユーザー向けUIへの直接組み込みは構造上困難で、非同期ジョブキュー設計が必須です。
Veo 3.1 Lite のVBenchスコアやFIDなどの品質ベンチマーク数値はありますか?
2025年7月時点で、GoogleはVeo 3.1 Lite(veo-3.1-lite-generate-preview)のVBenchスコア・FID(Fréchet Inception Distance)・FVD(Fréchet Video Distance)などの定量的品質指標を公式には一切公開していません。比較対象となるVeo 3.0の参考値も同様に非公開です。開発者が品質評価を行う場合は、自前のテストセットで主観評価(MOS: Mean Opinion Score)や社内ベンチマークを実施する必要があります。なお、モデルの位置づけとしては「品質よりスループットとコストを優先したチューニング」と明記されており、最高品質が必要なユースケースではフルモデルの veo-3.1-generate-preview との比較検証を推奨します。最大出力解像度は1080p(WaveSpeed AIド
Veo 3.1 Lite でネイティブ音声生成を使うAPIの実装方法と、対応フォーマットを教えてください。
Veo 3.1 Lite の最大の差別化機能はネイティブ音声出力(BGM・環境音・効果音)で、Veo 3.0では非対応だった機能です。Gemini API(ai.google.dev)経由でveo-3.1-lite-generate-previewエンドポイントを呼び出すと、映像と音声が同時に生成されるため、別途TTSや音声合成パイプラインを構築するコストと遅延を削減できます。APIはpollベースの非同期処理で、リクエスト→ジョブID取得→ポーリング→動画URL取得の流れになります。出力解像度は最大1080p、アスペクト比は16:9 / 9:16 / 1:1などに対応(Fal.aiドキュメント参照)。音声トラックの個別制御パラメータ(音量・ジャンル指定等)の詳細仕様は2025年7月時点で公式ドキュメントに限定的なため、Google AI for Developersの最新リファレンスを都
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。