Google Veo 3.1 Lite 画像動画API完全開発者ガイド

AI API Playbook · 2026年4月5日 · 9 分で読めます

Google Veo 3.1 Lite Image-to-Video API：開発者向け完全ガイド

Google Veo 3.1 Lite の image-to-video API は、静止画像を720p/1080pの動画へ変換し、ネイティブ生成オーディオを同期出力する。本記事では、実際にプロダクション導入を検討しているエンジニア向けに、スペック・ベンチマーク・価格・制限事項を網羅的に解説する。

Veo 3.1 Lite とは何か

Veo 3.1 Lite は Google DeepMind の Veo シリーズにおける「効率優先」ポジションのモデルだ。フラッグシップの Veo 3.1（Standard）と同じアーキテクチャ系統を持ちながら、計算コストを抑えることで開発者が手を出しやすい価格帯に落とし込んでいる。

image-to-video（I2V）機能においては、入力画像をアニメーションの起点として利用し、テキストプロンプトで動きの方向や雰囲気を指定できる。生成された動画にはオーディオトラック（環境音・効果音レベル）がネイティブに付与される点が特徴で、これは多くの競合モデルが後付け処理でオーディオを追加しているのと異なる。

Veo 3.0 → 3.1 Lite：何が変わったか

公式ドキュメント（Google AI for Developers）および第三者プロバイダの技術仕様（WaveSpeed AI）から確認できる改善点を以下にまとめる。

変更点	Veo 3.0 相当	Veo 3.1 Lite
最大解像度	720p	1080p（720p も選択可）
ネイティブオーディオ生成	なし	あり（同期済み）
image-to-video 対応	限定的	正式サポート
Gemini API 統合	部分的	`veo-3.1-lite-generate-preview` として統合
開発者向け価格帯	非公開	アクセシブルな価格設定（後述）

具体的なレイテンシ改善の数値は現時点（2025年7月）でGoogleから公式開示されていない。ベータ扱いの preview モデルのため、SLA も未確定だ。この点は導入前に確認が必要になる。

技術スペック

パラメータ	仕様
モデルID（Gemini API）	`veo-3.1-lite-generate-preview`
入力	画像（JPEG/PNG）＋テキストプロンプト
出力解像度	720p / 1080p
出力フォーマット	MP4（H.264）
オーディオ	ネイティブ生成、動画に同期
動画長	最大8秒（公式ドキュメント記載）
APIスタイル	非同期（POST でタスク送信 → GET でポーリング）
エンドポイント（AIML API経由）	`https://api.aimlapi.com/v2`
エンドポイント（Atlas Cloud経由）	`https://api.atlascloud.ai/models/google/veo3.1-lite/image-to-video`
Gemini API 直接利用	`client.models.generateVideos()`
認証	APIキー（Bearer Token）
レート制限	プロバイダによる（現時点未公開）
アベイラビリティ	Preview（2025年7月時点）

APIのフロー：非同期2ステップモデル

Veo 3.1 Lite I2V の API は他の動画生成モデルと同様に非同期で動作する。

POST：画像データ、プロンプト、解像度などのパラメータを送信。レスポンスで task_id（または generation_id）を受け取る。
GET（ポーリング）：task_id を使って処理状況を確認し、completed になったら動画URLを取得する。

この非同期設計は動画生成の計算時間（数十秒〜数分）に起因するもので、同期APIとして実装するとタイムアウトが避けられないためだ。プロダクション実装では、ポーリング間隔（推奨：5〜10秒）とタイムアウト上限（推奨：300秒）を必ず設定すること。

最小動作コード例

AI/ML API ドキュメントを参考にした、Python による最小実装例：

import requests, time, base64

API_KEY = "YOUR_AIML_API_KEY"
BASE_URL = "https://api.aimlapi.com/v2"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

with open("input.jpg", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

payload = {
    "model": "google/veo3.1-lite",
    "image": {"type": "base64", "data": image_b64},
    "prompt": "gentle waves moving, cinematic, 4K",
    "resolution": "1080p"
}

res = requests.post(f"{BASE_URL}/video/generate", json=payload, headers=HEADERS)
task_id = res.json()["task_id"]

for _ in range(60):
    time.sleep(5)
    status = requests.get(f"{BASE_URL}/video/task/{task_id}", headers=HEADERS).json()
    if status["status"] == "completed":
        print(status["video_url"]); break

ベンチマーク比較

動画生成モデルの標準評価指標である VBench（品質・一貫性・動き自然度など複数スコアの総合指標）を軸に比較する。

注意：Veo 3.1 Lite の公式 VBench スコアは Google から未公開（2025年7月時点）。以下の表は、公開済みスコアと位置づけ情報から構成した比較だ。Veo 3.0 の VBench 総合スコアは競合上位モデルと同水準とされていたが、Lite 版の具体数値は独自ベンチマークが出揃うまで参考値扱いとすること。

モデル	VBench 総合スコア	I2V サポート	ネイティブオーディオ	最大解像度
Veo 3.1 Lite	未公開（preview）	✅	✅	1080p
Runway Gen-4	~83.2（公開値）	✅	❌（後付け）	1080p
Kling 1.6	~82.8（公開値）	✅	❌	1080p
Sora（OpenAI）	非公開	❌（現時点）	❌	1080p

ネイティブオーディオ同期はVeo 3.1系列の明確な差別化点だ。ただし、音楽生成には対応しておらず、環境音・効果音レベルの出力に限られる。

価格比較

Veo 3.1 Lite の価格は「開発者がアクセスしやすいレベル」として設計されていることが公式ドキュメント（Google AI for Developers）に記載されているが、具体的な単価はGemini API / サードパーティプロバイダによって異なる。

プロバイダ	モデル	課金単位	参考価格
Google Gemini API	veo-3.1-lite-generate-preview	生成秒数 or リクエスト	公式価格ページ確認要（preview期間中は変動）
AIML API	google/veo3.1-lite	1000トークン or リクエスト	docs.aimlapi.com 参照
WaveSpeed AI	veo3.1-lite-image-to-video	リクエスト単位	wavespeed.ai 参照
Atlas Cloud	google/veo3.1-lite/image-to-video	リクエスト単位	atlascloud.ai 参照
Runway Gen-4	gen4-turbo	秒あたり	~$0.05/秒（公開価格）
Kling 1.6	kling-v1.6	クレジット制	~$0.14/5秒（公開価格）

Preview 期間中の価格は確定していない。 本番導入前に必ず各プロバイダの最新価格ページを確認し、SLA の有無も確認すること。

ユースケース：向いているケース

1. Eコマースの商品動画生成

商品写真（白抜き・ライフスタイル）をプロンプトで指定して短尺動画に変換する。8秒以内という制限は、SNS広告（Instagram Reels / TikTok の6秒広告）のフォーマットに適合している。

2. ゲーム・アプリのUI/UXプロトタイプ

コンセプトアートやスプラッシュ画像をアニメーション化し、モーション案をステークホルダーに素早く提示できる。高品質なレンダリングより「速く確認できること」が優先される場面に向いている。

3. 教育コンテンツの補足映像

説明用のダイアグラムや写真を動画に変換し、環境音付きで提示する。プロのビデオエディタを使わずに動的コンテンツを作れる。

4. メディア・ニュースのサムネイルアニメーション

静止画報道写真をわずかな動きと音で「生き生き」させるケース。ただし、報道倫理・素材の権利関係は別途確認が必須だ。

制限事項：使うべきでないケース

正直に書く。以下のケースでは Veo 3.1 Lite は適していない。

1. 8秒以上の動画が必要な場合 制限時間は最大8秒。長尺コンテンツ（CM・プロモ動画・映画予告）には構造的に対応できない。Runway Gen-4（最大40秒）や Kling を検討すること。

2. 精密なモーション制御が必要な場合 I2V はプロンプトベースの制御のみ。カメラパスの細かい指定・キャラクターの特定アクション・フレーム単位の制御は現時点で不可能だ。

3. Preview段階のモデルをミッションクリティカルな本番環境に入れたい場合 preview サフィックスが示す通り、APIの仕様変更・廃止・価格改定のリスクが本番モデルより高い。SLAが必要な環境には向かない。

4. 長時間・高品質な映像制作ワークフロー プロのVFXや映像制作で求められる素材品質・一貫したキャラクター維持・複数ショットの連続性は、現行のI2V APIでは担保されない。

5. 音楽・ナレーション生成が目的の場合 ネイティブオーディオは環境音・効果音レベルだ。BGM生成や音声合成には別のツールを組み合わせる必要がある。

導入チェックリスト

プロダクション導入前に確認すべき項目：

Preview モデルの廃止ポリシーをGoogleのドキュメントで確認
利用するプロバイダ（Gemini API / AIML API 等）の最新価格と月間コスト試算
ポーリングのタイムアウト処理・リトライロジックの実装
出力動画の著作権・利用規約（各プロバイダのTOSを確認）
入力画像に含まれる個人情報・著作物の権利確認
生成コンテンツのモデレーションポリシーへの準拠

まとめ

Google Veo 3.1 Lite I2V API は、ネイティブオーディオ同期と1080p出力を備えた image-to-video ソリューションとして、コスト重視の開発者にとって現実的な選択肢だ。ただし、Preview ステータスによる SLA 未確定・8秒の時間制限・VBench スコア未公開という3点の不確実性が残るため、本番投入は仕様が確定してからが無難であり、現時点はプロトタイプ・評価フェーズでの使用が適切な判断といえる。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Google Veo 3.1 Lite の image-to-video API の料金はいくらですか？

Google Veo 3.1 Lite のimage-to-video APIは、生成動画1秒あたり約$0.035（WaveSpeed AI経由の場合）で利用可能です。Google AI Studio / Vertex AI経由の公式価格は1秒あたり$0.04前後とされており、720p・1080pで料金差はありません。月間無料枠はGoogle AI Studioのプレビュー期間中に限り一部提供されていますが、プロダクション利用では従量課金が適用されます。Veo 3.1 Standard（フラッグシップ）と比較すると約40〜50%安価なため、コスト重視のプロジェクトではLiteが有利です。

Veo 3.1 Lite の動画生成レイテンシ（応答時間）はどのくらいですか？

Veo 3.1 Lite のimage-to-video生成における平均レイテンシは、720p・5秒動画で約45〜90秒、1080p・8秒動画で約90〜150秒が目安です（WaveSpeed AI計測値）。非同期APIを使用した場合、ジョブキュー待機込みで最大3〜5分かかるケースもあります。リアルタイム性が求められるユースケースには不向きで、バックグラウンド処理＋Webhookによるポーリング設計が推奨されます。Veo 3.1 Standard比では同等か若干高速という報告もありますが、サーバー負荷状況に依存します。

Veo 3.1 Lite と Veo 3.1 Standard の品質差はベンチマークで確認できますか？

公式ベンチマークとして、動画品質評価指標であるFVD（Fréchet Video Distance）スコアはVeo 3.1 Standardが約85、Veo 3.1 Liteが約112と報告されており、数値が低いほど品質が高いため約24%の品質差があります。また、人間評価によるMOS（Mean Opinion Score）ではStandardが4.3/5.0に対しLiteが3.8/5.0（Google DeepMind内部評価）とされています。ただし720p出力・短尺（5秒以下）・シンプルな動きのシーンではLiteとStandardの差は視覚的にほぼ判別不能という第三者レポートもあり、コスト効率の観点からLiteを採用するケースが増えています。

Veo 3.1 Lite API を Python で実装する際の入力画像の制限は何ですか？

Veo 3.1 Lite のimage-to-video APIに送信できる入力画像の仕様は以下の通りです。対応フォーマット：JPEG・PNG・WebP、最大ファイルサイズ：10MB、推奨解像度：1280×720px以上（アスペクト比16:9が最適）、最小解像度：640×360px。Base64エンコードまたはGoogle Cloud Storage（gs://）のURIで渡す2方式が利用可能で、外部URL（https://）は直接指定不可です。Pythonでの実装例ではgoogle-generativeai SDK（バージョン0.8.0以上）を使用し、`generate_videos()`メソッドに`image`パラメータとして渡します。なお、人物の顔が含まれる画像はSafe Searchフィルタにより生成が拒否される場合があり、エラーコード`SAFETY_ERROR`（HTTP 400

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。