Google Veo 3.1 Lite テキスト動画API完全開発者ガイド

AI API Playbook · 2026年4月5日 · 10 分で読めます

Google Veo 3.1 Lite Text-to-Video API: Complete Developer Guide

google veo 3.1 lite text-to-video api を本番環境に組み込むべきか判断しようとしているエンジニア向けに、スペック・ベンチマーク・価格・制約をまとめた。

Veo 3.1 Lite とは何か

Google が2025年にリリースした Veo 3.1 Lite は、Gemini API 経由で利用できるテキストto動画モデルだ。Veo ファミリーは Lite / Fast / Pro の3段階に分かれており、Lite は「最もコスト効率が高いエントリーポイント」として位置づけられている（Google Blog）。

高解像度動画の生成、オプションでのネイティブ音声同期、そして開発者が実験しやすい価格帯が特徴だ。Veo 3.0 と比較した場合の具体的な改善点を次のセクションで整理する。

Veo 3.0 からの変更点

項目	Veo 3.0	Veo 3.1 Lite	変化
最大解像度	720p	1080p	+50% pixel count
ネイティブ音声同期	なし（オプション外）	あり（オプション）	新機能
モデル識別子	`veo-3.0-generate-preview`	`veo-3.1-lite-generate-preview`	—
価格帯	非公開 / Vertex AI 中心	Gemini API で一般提供	アクセス改善
プロンプト言語対応	英語中心	自然言語プロンプト対応範囲を拡大	定量情報は非公開

注意: Veo 3.0 の公式ベンチマーク数値は Google が開示していない部分が多いため、上記は公式発表とGoogle AI for Developers ドキュメントから確認できる定性・定量の情報をベースにしている。「劇的な改善」という表現は避け、確認できた事実のみを記載している。

技術スペック一覧

項目	値
モデル識別子	`veo-3.1-lite-generate-preview`
最大解像度	1080p (1920×1080)
対応解像度	720p / 1080p
動画長	最大8秒（1クリップ）
フレームレート	24fps
音声生成	オプションで同期音声あり
入力モダリティ	テキストプロンプト、画像（Image-to-Video）
APIプロトコル	REST (POST で生成開始 / GET でポーリング)
非同期ジョブ	あり（生成完了まで数十秒〜数分）
出力フォーマット	MP4
SDK	`google-genai` Python SDK、REST API
提供プラットフォーム	Gemini API、Google AI Studio、WaveSpeed AI（サードパーティ）
ステータス	Preview（2025年時点）

出典: Google AI for Developers — Veo 3.1 Lite Preview、WaveSpeed AI ドキュメント

ベンチマーク比較

テキストto動画モデルの標準的な評価指標には VBench（動画品質・時間一貫性・テキスト整合性など複数スコアの合計）と FID (Fréchet Inception Distance)（低いほど良い）がある。

現状の注意点: Google は Veo 3.1 Lite の VBench スコアや FID を公式に発表していない。以下の比較は、業界で公開されているスコアと Google が発表している定性評価を組み合わせたものだ。スコアが「—」となっている箇所は未公開を意味する。

モデル	VBench Total (↑)	FID (↓)	最大解像度	音声同期	API提供
Veo 3.1 Lite	—	—	1080p	✅	✅ Gemini API
Veo 3.1 Pro	—	—	1080p+	✅	✅ Gemini API
Runway Gen-4	84.2*	—	1080p	❌	✅ REST API
Kling 2.0	85.1*	—	1080p	❌	✅ REST API
Sora (OpenAI)	—	—	1080p	❌	限定アクセス

*VBench スコアは各社の公開論文・独立機関評価（2024〜2025年）からの参照値。Veo 3.1 Lite は Google が “state-of-the-art” と表現しているが、第三者の定量スコアが未公開のため直接比較不可。

実用上の観点:

テキスト整合性: Veo 3.1 Lite は複雑なシーン記述（カメラアングル・照明・被写体の動作指定）への追従が高いと Google は主張している（開発者ドキュメント）。
時間一貫性: 8秒クリップ内での被写体の一貫性は、同価格帯の競合と同等かそれ以上というのが現時点の開発者レポートでの評価だ。
音声同期: ネイティブ音声生成は Runway Gen-4 や Kling 2.0 にはなく、Veo 3.1 Lite の差別化ポイントになっている。

価格比較

Google は Veo ファミリーを3段階に分けており、Lite が最安値として設定されている。

モデル	価格（目安）	備考
Veo 3.1 Lite	最安（Veo Lite tier）	Gemini API 経由、バルク生成向け
Veo 3.1 Fast	中価格（Veo Fast tier）	速度と品質のバランス
Veo 3.1 Pro	最高（Veo Pro tier）	高品質・商用プロジェクト向け
Runway Gen-4	$0.05/秒（目安）	API 経由、公式レートシート参照
Kling 2.0	$0.14/クリップ（目安）	API 経由
Sora	$0.02〜/秒（ChatGPT Plus同梱）	API は限定公開

Veo 3.1 Lite の具体的なドル単価は Google が公開していないため「最安」という相対表現にとどめる。実際のコストは Google AI Studio 料金ページと WaveSpeed AI ドキュメントで確認すること。

出典: apiyi.com — Veo 3.1 Lite API コスト解説

ユースケース: 向いている用途

1. プロトタイピングと内部デモ

解像度・品質のバランスと低価格から、広告やプロダクト動画のコンセプト検証に使いやすい。10〜20種類のバリエーションを短時間で生成してチームに見せるワークフローに向いている。

2. ソーシャルメディア向けショートコンテンツ

8秒クリップという制約が、TikTok / Instagram Reels / YouTube Shorts の典型的なシーン長と合致する。1080p 出力で追加アップスケールなしに投稿可能。

3. 音声付きコンテンツの自動生成

ネイティブ音声同期は、BGM・環境音・ナレーションを別途合成する必要がないため、動画生成パイプラインのステップ数を削減できる。教育コンテンツやプロダクトデモに実用的だ。

4. バルク生成パイプライン

Veo Lite tier の価格設定は大量生成を前提としている。e コマース商品の動画カタログ生成や A/B テスト用アセット量産などに適する。

5. Image-to-Video

テキストプロンプトと組み合わせたスタート画像指定（Image-to-Video）に対応しており、ブランドビジュアルや製品写真を動かすワークフローで使える（Gemini API ドキュメント）。

制約とNGケース

使うべきでない場面

状況	理由
8秒超のシーンが必要	1クリップ最大8秒。長尺には複数クリップ連結が必要で、ジョイント部のシーン一貫性が課題
フレーム精度が要求される映像	24fps 固定。映画的な高フレームレート（60fps 等）は非対応
リアルタイム生成が必要	生成は非同期ジョブ方式で、数十秒〜数分のレイテンシが発生する
完全に定量化されたベンチマークが判断基準	Veo 3.1 Lite の VBench / FID は未公開。スコアで厳密比較できない
特定人物・顔の再現	プライバシー・安全ポリシーにより人物生成に制約あり
最高品質の商用映像	Veo 3.1 Pro または Runway Gen-4 を検討すべき

API 設計上の注意点

ポーリング必須: POST でジョブを起動し、GET で完了を確認するまで結果は取得できない。Webhook 方式ではないため、自前のポーリングループが必要。
Preview ステータス: 2025年時点でまだ Preview 扱い。SLA・レート制限・API 互換性は GA 後に変わる可能性がある。
出力は MP4 のみ: WebM や GIF への変換が必要な場合は後処理パイプラインを追加する必要がある。

最小動作コード例

from google import genai
import time

client = genai.Client(api_key="YOUR_API_KEY")

operation = client.models.generate_videos(
    model="veo-3.1-lite-generate-preview",
    prompt="A red fox walking through a snowy forest at dusk, cinematic, 4K",
)

# Poll until the job completes
while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

video_bytes = operation.response.generated_videos[0].video.video_bytes
with open("output.mp4", "wb") as f:
    f.write(video_bytes)

generate_videos は非同期ジョブを返す。operation.done が True になるまで operations.get() でポーリングする。完了後は video_bytes をファイルに書き出す。出典: Google AI for Developers — Video Generation

競合との立ち位置まとめ

観点	Veo 3.1 Lite	Runway Gen-4	Kling 2.0
音声同期	✅ ネイティブ	❌	❌
最大解像度	1080p	1080p	1080p
API アクセス	Gemini API（一般）	REST API（一般）	REST API（一般）
価格帯	低（Lite tier）	中	中
ベンチマーク公開	❌ 未公開	部分公開	部分公開
クリップ長	最大8秒	最大16秒	最大10秒
Preview/GA	Preview	GA	GA

まとめ

Veo 3.1 Lite は、コスト優先のバルク動画生成パイプラインと音声付きショートコンテンツ自動化の2用途に絞れば、現時点で最も API アクセスしやすい選択肢の一つだ。
ただし VBench / FID スコアが未公開な点とPreview ステータスによる不確実性を許容できないプロダクションワークロードには、Runway Gen-4 や Veo 3.1 Pro を先に評価することを勧める。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Veo 3.1 Lite APIの料金はいくらですか？Veo 3.0と比べてコスト効率はどう変わりましたか？

Veo 3.1 LiteはGemini API経由で一般提供されており、Veo 3.0がVertex AI中心で価格非公開だったのに対し、開発者が実験しやすい価格帯に改善されました。具体的な単価はGoogle AI for Developersの公式ドキュメントで最新情報を確認してください。なお、Veoファミリー内ではLite（最安）→ Fast → Proの3段階構成となっており、Liteは「最もコスト効率が高いエントリーポイント」と公式に位置づけられています。本番導入前にGoogle AI Studioの料金計算ツールで見積もりを取ることを推奨します。

Veo 3.1 LiteのAPIレイテンシはどのくらいですか？リアルタイム用途に使えますか？

Veo 3.1 Liteはテキストto動画生成モデルであり、動画生成には数秒〜数十秒単位の処理時間が必要なため、リアルタイム（数百ミリ秒以下）用途には適していません。公式ドキュメントでは具体的なレイテンシ数値は非公開ですが、最大解像度が1080p（Veo 3.0の720pから+50%のピクセル数増加）となったため、同等クオリティでの生成時間はVeo 3.0比で増加する可能性があります。低レイテンシが必要な場合はVeo Fastの利用を検討し、非同期ジョブキュー方式での実装が推奨されます。

Veo 3.1 LiteのモデルIDや呼び出し時のAPIエンドポイントを教えてください

Veo 3.1 Liteのモデル識別子は `veo-3.1-lite-generate-preview` です（Veo 3.0の `veo-3.0-generate-preview` から変更）。Gemini API経由で呼び出す形式となっており、リクエスト時にこのモデルIDをパラメータに指定します。エンドポイントはGoogle AI for Developers（https://ai.google.dev/gemini-api）の公式ドキュメントに記載されています。なお `preview` サフィックスが示す通り現時点ではプレビュー提供であり、GAリリース時にモデルIDが変更される可能性があるため、本番実装では識別子を環境変数で管理することを推奨します。

Veo 3.1 Liteは日本語プロンプトに対応していますか？英語以外の言語でのベンチマーク結果はありますか？

Veo 3.1 LiteはVeo 3.0の「英語中心」から「自然言語プロンプト対応範囲を拡大」と公式に発表されており、日本語を含む多言語プロンプトへの対応が改善されています。ただし、具体的な言語別ベンチマークスコアはGoogleから公式開示されていません。実務上の注意点として、日本語プロンプトでの生成品質は英語プロンプトと比較して差異が生じる可能性があるため、本番導入前に日本語・英語双方でA/Bテストを実施し、プロンプト品質を定量評価することを強く推奨します。ネイティブ音声同期機能（Veo 3.1 Liteで新規追加）の多言語対応状況も合わせて検証が必要です。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。