モデルリリース

Google Veo 3.1 Lite テキスト動画API完全開発者ガイド

AI API Playbook · · 10 分で読めます

Google Veo 3.1 Lite Text-to-Video API: Complete Developer Guide

google veo 3.1 lite text-to-video api を本番環境に組み込むべきか判断しようとしているエンジニア向けに、スペック・ベンチマーク・価格・制約をまとめた。


Veo 3.1 Lite とは何か

Google が2025年にリリースした Veo 3.1 Lite は、Gemini API 経由で利用できるテキストto動画モデルだ。Veo ファミリーは Lite / Fast / Pro の3段階に分かれており、Lite は「最もコスト効率が高いエントリーポイント」として位置づけられている(Google Blog)。

高解像度動画の生成、オプションでのネイティブ音声同期、そして開発者が実験しやすい価格帯が特徴だ。Veo 3.0 と比較した場合の具体的な改善点を次のセクションで整理する。


Veo 3.0 からの変更点

項目Veo 3.0Veo 3.1 Lite変化
最大解像度720p1080p+50% pixel count
ネイティブ音声同期なし(オプション外)あり(オプション)新機能
モデル識別子veo-3.0-generate-previewveo-3.1-lite-generate-preview
価格帯非公開 / Vertex AI 中心Gemini API で一般提供アクセス改善
プロンプト言語対応英語中心自然言語プロンプト対応範囲を拡大定量情報は非公開

注意: Veo 3.0 の公式ベンチマーク数値は Google が開示していない部分が多いため、上記は公式発表とGoogle AI for Developers ドキュメントから確認できる定性・定量の情報をベースにしている。「劇的な改善」という表現は避け、確認できた事実のみを記載している。


技術スペック一覧

項目
モデル識別子veo-3.1-lite-generate-preview
最大解像度1080p (1920×1080)
対応解像度720p / 1080p
動画長最大8秒(1クリップ)
フレームレート24fps
音声生成オプションで同期音声あり
入力モダリティテキストプロンプト、画像(Image-to-Video)
APIプロトコルREST (POST で生成開始 / GET でポーリング)
非同期ジョブあり(生成完了まで数十秒〜数分)
出力フォーマットMP4
SDKgoogle-genai Python SDK、REST API
提供プラットフォームGemini API、Google AI Studio、WaveSpeed AI(サードパーティ)
ステータスPreview(2025年時点)

出典: Google AI for Developers — Veo 3.1 Lite PreviewWaveSpeed AI ドキュメント


ベンチマーク比較

テキストto動画モデルの標準的な評価指標には VBench(動画品質・時間一貫性・テキスト整合性など複数スコアの合計)と FID (Fréchet Inception Distance)(低いほど良い)がある。

現状の注意点: Google は Veo 3.1 Lite の VBench スコアや FID を公式に発表していない。以下の比較は、業界で公開されているスコアと Google が発表している定性評価を組み合わせたものだ。スコアが「—」となっている箇所は未公開を意味する。

モデルVBench Total (↑)FID (↓)最大解像度音声同期API提供
Veo 3.1 Lite1080p✅ Gemini API
Veo 3.1 Pro1080p+✅ Gemini API
Runway Gen-484.2*1080p✅ REST API
Kling 2.085.1*1080p✅ REST API
Sora (OpenAI)1080p限定アクセス

*VBench スコアは各社の公開論文・独立機関評価(2024〜2025年)からの参照値。Veo 3.1 Lite は Google が “state-of-the-art” と表現しているが、第三者の定量スコアが未公開のため直接比較不可。

実用上の観点:

  • テキスト整合性: Veo 3.1 Lite は複雑なシーン記述(カメラアングル・照明・被写体の動作指定)への追従が高いと Google は主張している(開発者ドキュメント)。
  • 時間一貫性: 8秒クリップ内での被写体の一貫性は、同価格帯の競合と同等かそれ以上というのが現時点の開発者レポートでの評価だ。
  • 音声同期: ネイティブ音声生成は Runway Gen-4 や Kling 2.0 にはなく、Veo 3.1 Lite の差別化ポイントになっている。

価格比較

Google は Veo ファミリーを3段階に分けており、Lite が最安値として設定されている。

モデル価格(目安)備考
Veo 3.1 Lite最安(Veo Lite tier)Gemini API 経由、バルク生成向け
Veo 3.1 Fast中価格(Veo Fast tier)速度と品質のバランス
Veo 3.1 Pro最高(Veo Pro tier)高品質・商用プロジェクト向け
Runway Gen-4$0.05/秒(目安)API 経由、公式レートシート参照
Kling 2.0$0.14/クリップ(目安)API 経由
Sora$0.02〜/秒(ChatGPT Plus同梱)API は限定公開

Veo 3.1 Lite の具体的なドル単価は Google が公開していないため「最安」という相対表現にとどめる。実際のコストは Google AI Studio 料金ページWaveSpeed AI ドキュメント で確認すること。

出典: apiyi.com — Veo 3.1 Lite API コスト解説


ユースケース: 向いている用途

1. プロトタイピングと内部デモ

解像度・品質のバランスと低価格から、広告やプロダクト動画のコンセプト検証に使いやすい。10〜20種類のバリエーションを短時間で生成してチームに見せるワークフローに向いている。

2. ソーシャルメディア向けショートコンテンツ

8秒クリップという制約が、TikTok / Instagram Reels / YouTube Shorts の典型的なシーン長と合致する。1080p 出力で追加アップスケールなしに投稿可能。

3. 音声付きコンテンツの自動生成

ネイティブ音声同期は、BGM・環境音・ナレーションを別途合成する必要がないため、動画生成パイプラインのステップ数を削減できる。教育コンテンツやプロダクトデモに実用的だ。

4. バルク生成パイプライン

Veo Lite tier の価格設定は大量生成を前提としている。e コマース商品の動画カタログ生成や A/B テスト用アセット量産などに適する。

5. Image-to-Video

テキストプロンプトと組み合わせたスタート画像指定(Image-to-Video)に対応しており、ブランドビジュアルや製品写真を動かすワークフローで使える(Gemini API ドキュメント)。


制約とNGケース

使うべきでない場面

状況理由
8秒超のシーンが必要1クリップ最大8秒。長尺には複数クリップ連結が必要で、ジョイント部のシーン一貫性が課題
フレーム精度が要求される映像24fps 固定。映画的な高フレームレート(60fps 等)は非対応
リアルタイム生成が必要生成は非同期ジョブ方式で、数十秒〜数分のレイテンシが発生する
完全に定量化されたベンチマークが判断基準Veo 3.1 Lite の VBench / FID は未公開。スコアで厳密比較できない
特定人物・顔の再現プライバシー・安全ポリシーにより人物生成に制約あり
最高品質の商用映像Veo 3.1 Pro または Runway Gen-4 を検討すべき

API 設計上の注意点

  • ポーリング必須: POST でジョブを起動し、GET で完了を確認するまで結果は取得できない。Webhook 方式ではないため、自前のポーリングループが必要。
  • Preview ステータス: 2025年時点でまだ Preview 扱い。SLA・レート制限・API 互換性は GA 後に変わる可能性がある。
  • 出力は MP4 のみ: WebM や GIF への変換が必要な場合は後処理パイプラインを追加する必要がある。

最小動作コード例

from google import genai
import time

client = genai.Client(api_key="YOUR_API_KEY")

operation = client.models.generate_videos(
    model="veo-3.1-lite-generate-preview",
    prompt="A red fox walking through a snowy forest at dusk, cinematic, 4K",
)

# Poll until the job completes
while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

video_bytes = operation.response.generated_videos[0].video.video_bytes
with open("output.mp4", "wb") as f:
    f.write(video_bytes)

generate_videos は非同期ジョブを返す。operation.doneTrue になるまで operations.get() でポーリングする。完了後は video_bytes をファイルに書き出す。出典: Google AI for Developers — Video Generation


競合との立ち位置まとめ

観点Veo 3.1 LiteRunway Gen-4Kling 2.0
音声同期✅ ネイティブ
最大解像度1080p1080p1080p
API アクセスGemini API(一般)REST API(一般)REST API(一般)
価格帯低(Lite tier)
ベンチマーク公開❌ 未公開部分公開部分公開
クリップ長最大8秒最大16秒最大10秒
Preview/GAPreviewGAGA

まとめ

Veo 3.1 Lite は、コスト優先のバルク動画生成パイプラインと音声付きショートコンテンツ自動化の2用途に絞れば、現時点で最も API アクセスしやすい選択肢の一つだ。
ただし VBench / FID スコアが未公開な点とPreview ステータスによる不確実性を許容できないプロダクションワークロードには、Runway Gen-4 や Veo 3.1 Pro を先に評価することを勧める。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Veo 3.1 Lite APIの料金はいくらですか?Veo 3.0と比べてコスト効率はどう変わりましたか?

Veo 3.1 LiteはGemini API経由で一般提供されており、Veo 3.0がVertex AI中心で価格非公開だったのに対し、開発者が実験しやすい価格帯に改善されました。具体的な単価はGoogle AI for Developersの公式ドキュメントで最新情報を確認してください。なお、Veoファミリー内ではLite(最安)→ Fast → Proの3段階構成となっており、Liteは「最もコスト効率が高いエントリーポイント」と公式に位置づけられています。本番導入前にGoogle AI Studioの料金計算ツールで見積もりを取ることを推奨します。

Veo 3.1 LiteのAPIレイテンシはどのくらいですか?リアルタイム用途に使えますか?

Veo 3.1 Liteはテキストto動画生成モデルであり、動画生成には数秒〜数十秒単位の処理時間が必要なため、リアルタイム(数百ミリ秒以下)用途には適していません。公式ドキュメントでは具体的なレイテンシ数値は非公開ですが、最大解像度が1080p(Veo 3.0の720pから+50%のピクセル数増加)となったため、同等クオリティでの生成時間はVeo 3.0比で増加する可能性があります。低レイテンシが必要な場合はVeo Fastの利用を検討し、非同期ジョブキュー方式での実装が推奨されます。

Veo 3.1 LiteのモデルIDや呼び出し時のAPIエンドポイントを教えてください

Veo 3.1 Liteのモデル識別子は `veo-3.1-lite-generate-preview` です(Veo 3.0の `veo-3.0-generate-preview` から変更)。Gemini API経由で呼び出す形式となっており、リクエスト時にこのモデルIDをパラメータに指定します。エンドポイントはGoogle AI for Developers(https://ai.google.dev/gemini-api)の公式ドキュメントに記載されています。なお `preview` サフィックスが示す通り現時点ではプレビュー提供であり、GAリリース時にモデルIDが変更される可能性があるため、本番実装では識別子を環境変数で管理することを推奨します。

Veo 3.1 Liteは日本語プロンプトに対応していますか?英語以外の言語でのベンチマーク結果はありますか?

Veo 3.1 LiteはVeo 3.0の「英語中心」から「自然言語プロンプト対応範囲を拡大」と公式に発表されており、日本語を含む多言語プロンプトへの対応が改善されています。ただし、具体的な言語別ベンチマークスコアはGoogleから公式開示されていません。実務上の注意点として、日本語プロンプトでの生成品質は英語プロンプトと比較して差異が生じる可能性があるため、本番導入前に日本語・英語双方でA/Bテストを実施し、プロンプト品質を定量評価することを強く推奨します。ネイティブ音声同期機能(Veo 3.1 Liteで新規追加)の多言語対応状況も合わせて検証が必要です。

タグ

Google Veo 3.1 Lite Text-to-video Video API Developer Guide 2026

関連記事