Google Veo 3.1 Lite テキスト動画API完全開発者ガイド
Google Veo 3.1 Lite Text-to-Video API: Complete Developer Guide
google veo 3.1 lite text-to-video api を本番環境に組み込むべきか判断しようとしているエンジニア向けに、スペック・ベンチマーク・価格・制約をまとめた。
Veo 3.1 Lite とは何か
Google が2025年にリリースした Veo 3.1 Lite は、Gemini API 経由で利用できるテキストto動画モデルだ。Veo ファミリーは Lite / Fast / Pro の3段階に分かれており、Lite は「最もコスト効率が高いエントリーポイント」として位置づけられている(Google Blog)。
高解像度動画の生成、オプションでのネイティブ音声同期、そして開発者が実験しやすい価格帯が特徴だ。Veo 3.0 と比較した場合の具体的な改善点を次のセクションで整理する。
Veo 3.0 からの変更点
| 項目 | Veo 3.0 | Veo 3.1 Lite | 変化 |
|---|---|---|---|
| 最大解像度 | 720p | 1080p | +50% pixel count |
| ネイティブ音声同期 | なし(オプション外) | あり(オプション) | 新機能 |
| モデル識別子 | veo-3.0-generate-preview | veo-3.1-lite-generate-preview | — |
| 価格帯 | 非公開 / Vertex AI 中心 | Gemini API で一般提供 | アクセス改善 |
| プロンプト言語対応 | 英語中心 | 自然言語プロンプト対応範囲を拡大 | 定量情報は非公開 |
注意: Veo 3.0 の公式ベンチマーク数値は Google が開示していない部分が多いため、上記は公式発表とGoogle AI for Developers ドキュメントから確認できる定性・定量の情報をベースにしている。「劇的な改善」という表現は避け、確認できた事実のみを記載している。
技術スペック一覧
| 項目 | 値 |
|---|---|
| モデル識別子 | veo-3.1-lite-generate-preview |
| 最大解像度 | 1080p (1920×1080) |
| 対応解像度 | 720p / 1080p |
| 動画長 | 最大8秒(1クリップ) |
| フレームレート | 24fps |
| 音声生成 | オプションで同期音声あり |
| 入力モダリティ | テキストプロンプト、画像(Image-to-Video) |
| APIプロトコル | REST (POST で生成開始 / GET でポーリング) |
| 非同期ジョブ | あり(生成完了まで数十秒〜数分) |
| 出力フォーマット | MP4 |
| SDK | google-genai Python SDK、REST API |
| 提供プラットフォーム | Gemini API、Google AI Studio、WaveSpeed AI(サードパーティ) |
| ステータス | Preview(2025年時点) |
出典: Google AI for Developers — Veo 3.1 Lite Preview、WaveSpeed AI ドキュメント
ベンチマーク比較
テキストto動画モデルの標準的な評価指標には VBench(動画品質・時間一貫性・テキスト整合性など複数スコアの合計)と FID (Fréchet Inception Distance)(低いほど良い)がある。
現状の注意点: Google は Veo 3.1 Lite の VBench スコアや FID を公式に発表していない。以下の比較は、業界で公開されているスコアと Google が発表している定性評価を組み合わせたものだ。スコアが「—」となっている箇所は未公開を意味する。
| モデル | VBench Total (↑) | FID (↓) | 最大解像度 | 音声同期 | API提供 |
|---|---|---|---|---|---|
| Veo 3.1 Lite | — | — | 1080p | ✅ | ✅ Gemini API |
| Veo 3.1 Pro | — | — | 1080p+ | ✅ | ✅ Gemini API |
| Runway Gen-4 | 84.2* | — | 1080p | ❌ | ✅ REST API |
| Kling 2.0 | 85.1* | — | 1080p | ❌ | ✅ REST API |
| Sora (OpenAI) | — | — | 1080p | ❌ | 限定アクセス |
*VBench スコアは各社の公開論文・独立機関評価(2024〜2025年)からの参照値。Veo 3.1 Lite は Google が “state-of-the-art” と表現しているが、第三者の定量スコアが未公開のため直接比較不可。
実用上の観点:
- テキスト整合性: Veo 3.1 Lite は複雑なシーン記述(カメラアングル・照明・被写体の動作指定)への追従が高いと Google は主張している(開発者ドキュメント)。
- 時間一貫性: 8秒クリップ内での被写体の一貫性は、同価格帯の競合と同等かそれ以上というのが現時点の開発者レポートでの評価だ。
- 音声同期: ネイティブ音声生成は Runway Gen-4 や Kling 2.0 にはなく、Veo 3.1 Lite の差別化ポイントになっている。
価格比較
Google は Veo ファミリーを3段階に分けており、Lite が最安値として設定されている。
| モデル | 価格(目安) | 備考 |
|---|---|---|
| Veo 3.1 Lite | 最安(Veo Lite tier) | Gemini API 経由、バルク生成向け |
| Veo 3.1 Fast | 中価格(Veo Fast tier) | 速度と品質のバランス |
| Veo 3.1 Pro | 最高(Veo Pro tier) | 高品質・商用プロジェクト向け |
| Runway Gen-4 | $0.05/秒(目安) | API 経由、公式レートシート参照 |
| Kling 2.0 | $0.14/クリップ(目安) | API 経由 |
| Sora | $0.02〜/秒(ChatGPT Plus同梱) | API は限定公開 |
Veo 3.1 Lite の具体的なドル単価は Google が公開していないため「最安」という相対表現にとどめる。実際のコストは Google AI Studio 料金ページ と WaveSpeed AI ドキュメント で確認すること。
出典: apiyi.com — Veo 3.1 Lite API コスト解説
ユースケース: 向いている用途
1. プロトタイピングと内部デモ
解像度・品質のバランスと低価格から、広告やプロダクト動画のコンセプト検証に使いやすい。10〜20種類のバリエーションを短時間で生成してチームに見せるワークフローに向いている。
2. ソーシャルメディア向けショートコンテンツ
8秒クリップという制約が、TikTok / Instagram Reels / YouTube Shorts の典型的なシーン長と合致する。1080p 出力で追加アップスケールなしに投稿可能。
3. 音声付きコンテンツの自動生成
ネイティブ音声同期は、BGM・環境音・ナレーションを別途合成する必要がないため、動画生成パイプラインのステップ数を削減できる。教育コンテンツやプロダクトデモに実用的だ。
4. バルク生成パイプライン
Veo Lite tier の価格設定は大量生成を前提としている。e コマース商品の動画カタログ生成や A/B テスト用アセット量産などに適する。
5. Image-to-Video
テキストプロンプトと組み合わせたスタート画像指定(Image-to-Video)に対応しており、ブランドビジュアルや製品写真を動かすワークフローで使える(Gemini API ドキュメント)。
制約とNGケース
使うべきでない場面
| 状況 | 理由 |
|---|---|
| 8秒超のシーンが必要 | 1クリップ最大8秒。長尺には複数クリップ連結が必要で、ジョイント部のシーン一貫性が課題 |
| フレーム精度が要求される映像 | 24fps 固定。映画的な高フレームレート(60fps 等)は非対応 |
| リアルタイム生成が必要 | 生成は非同期ジョブ方式で、数十秒〜数分のレイテンシが発生する |
| 完全に定量化されたベンチマークが判断基準 | Veo 3.1 Lite の VBench / FID は未公開。スコアで厳密比較できない |
| 特定人物・顔の再現 | プライバシー・安全ポリシーにより人物生成に制約あり |
| 最高品質の商用映像 | Veo 3.1 Pro または Runway Gen-4 を検討すべき |
API 設計上の注意点
- ポーリング必須: POST でジョブを起動し、GET で完了を確認するまで結果は取得できない。Webhook 方式ではないため、自前のポーリングループが必要。
- Preview ステータス: 2025年時点でまだ Preview 扱い。SLA・レート制限・API 互換性は GA 後に変わる可能性がある。
- 出力は MP4 のみ: WebM や GIF への変換が必要な場合は後処理パイプラインを追加する必要がある。
最小動作コード例
from google import genai
import time
client = genai.Client(api_key="YOUR_API_KEY")
operation = client.models.generate_videos(
model="veo-3.1-lite-generate-preview",
prompt="A red fox walking through a snowy forest at dusk, cinematic, 4K",
)
# Poll until the job completes
while not operation.done:
time.sleep(10)
operation = client.operations.get(operation)
video_bytes = operation.response.generated_videos[0].video.video_bytes
with open("output.mp4", "wb") as f:
f.write(video_bytes)
generate_videosは非同期ジョブを返す。operation.doneがTrueになるまでoperations.get()でポーリングする。完了後はvideo_bytesをファイルに書き出す。出典: Google AI for Developers — Video Generation
競合との立ち位置まとめ
| 観点 | Veo 3.1 Lite | Runway Gen-4 | Kling 2.0 |
|---|---|---|---|
| 音声同期 | ✅ ネイティブ | ❌ | ❌ |
| 最大解像度 | 1080p | 1080p | 1080p |
| API アクセス | Gemini API(一般) | REST API(一般) | REST API(一般) |
| 価格帯 | 低(Lite tier) | 中 | 中 |
| ベンチマーク公開 | ❌ 未公開 | 部分公開 | 部分公開 |
| クリップ長 | 最大8秒 | 最大16秒 | 最大10秒 |
| Preview/GA | Preview | GA | GA |
まとめ
Veo 3.1 Lite は、コスト優先のバルク動画生成パイプラインと音声付きショートコンテンツ自動化の2用途に絞れば、現時点で最も API アクセスしやすい選択肢の一つだ。
ただし VBench / FID スコアが未公開な点とPreview ステータスによる不確実性を許容できないプロダクションワークロードには、Runway Gen-4 や Veo 3.1 Pro を先に評価することを勧める。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Veo 3.1 Lite APIの料金はいくらですか?Veo 3.0と比べてコスト効率はどう変わりましたか?
Veo 3.1 LiteはGemini API経由で一般提供されており、Veo 3.0がVertex AI中心で価格非公開だったのに対し、開発者が実験しやすい価格帯に改善されました。具体的な単価はGoogle AI for Developersの公式ドキュメントで最新情報を確認してください。なお、Veoファミリー内ではLite(最安)→ Fast → Proの3段階構成となっており、Liteは「最もコスト効率が高いエントリーポイント」と公式に位置づけられています。本番導入前にGoogle AI Studioの料金計算ツールで見積もりを取ることを推奨します。
Veo 3.1 LiteのAPIレイテンシはどのくらいですか?リアルタイム用途に使えますか?
Veo 3.1 Liteはテキストto動画生成モデルであり、動画生成には数秒〜数十秒単位の処理時間が必要なため、リアルタイム(数百ミリ秒以下)用途には適していません。公式ドキュメントでは具体的なレイテンシ数値は非公開ですが、最大解像度が1080p(Veo 3.0の720pから+50%のピクセル数増加)となったため、同等クオリティでの生成時間はVeo 3.0比で増加する可能性があります。低レイテンシが必要な場合はVeo Fastの利用を検討し、非同期ジョブキュー方式での実装が推奨されます。
Veo 3.1 LiteのモデルIDや呼び出し時のAPIエンドポイントを教えてください
Veo 3.1 Liteのモデル識別子は `veo-3.1-lite-generate-preview` です(Veo 3.0の `veo-3.0-generate-preview` から変更)。Gemini API経由で呼び出す形式となっており、リクエスト時にこのモデルIDをパラメータに指定します。エンドポイントはGoogle AI for Developers(https://ai.google.dev/gemini-api)の公式ドキュメントに記載されています。なお `preview` サフィックスが示す通り現時点ではプレビュー提供であり、GAリリース時にモデルIDが変更される可能性があるため、本番実装では識別子を環境変数で管理することを推奨します。
Veo 3.1 Liteは日本語プロンプトに対応していますか?英語以外の言語でのベンチマーク結果はありますか?
Veo 3.1 LiteはVeo 3.0の「英語中心」から「自然言語プロンプト対応範囲を拡大」と公式に発表されており、日本語を含む多言語プロンプトへの対応が改善されています。ただし、具体的な言語別ベンチマークスコアはGoogleから公式開示されていません。実務上の注意点として、日本語プロンプトでの生成品質は英語プロンプトと比較して差異が生じる可能性があるため、本番導入前に日本語・英語双方でA/Bテストを実施し、プロンプト品質を定量評価することを強く推奨します。ネイティブ音声同期機能(Veo 3.1 Liteで新規追加)の多言語対応状況も合わせて検証が必要です。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。