Google Veo 3.1 Lite フレーム間動画生成APIの完全開発者ガイド
Google Veo 3.1 Lite Start-End Frame to Video API: Complete Developer Guide
Google Veo 3.1 Liteは、開始フレームと終了フレームを指定して動画を生成できるビデオ生成APIです。本記事では、プロダクション投入を検討しているエンジニア向けに、技術仕様・ベンチマーク・価格・制限事項を網羅します。
Veo 3.1 Liteとは何か
Google Veo 3.1 Liteは、Gemini APIのpaid previewとして提供されているビデオ生成モデルです(Google Developers Blog)。最大の特徴はstart-end frame interpolation、すなわち始点と終点の静止画を与えると、その間をAIが補完した動画を生成する機能です。
Liteというサフィックスが示す通り、フルモデルのVeo 3.1よりも軽量・低コストな設計になっており、スループット重視のパイプラインに向いています。
Veo 3.0からの変更点
| 項目 | Veo 3.0 | Veo 3.1 / Veo 3.1 Lite | 変化 |
|---|---|---|---|
| 最大解像度 | 720p | 1080p (Veo 3.1 Full) / 720p (Lite) | Full版は解像度向上 |
| ネイティブ音声生成 | なし(後付けが必要) | あり(ネイティブ生成) | 機能追加 |
| Image-to-Video品質 | 標準 | improved outputs(公式発表) | 定性的改善 |
| Start-End Frame対応 | 限定的 | 正式サポート | API機能追加 |
| APIアクセス | 一部制限 | Gemini API paid preview | アクセス拡大 |
注意: Googleは具体的な数値改善率(%やFIDスコアの差分)を公式には公開していません。「improved outputs」という表現に留まっており、独自ベンチマークでの検証が必要です。
完全技術仕様
| パラメータ | 値 |
|---|---|
| モデルID (AIMLAPI) | google/veo-3.1 |
| モデルID (302.AI) | google/veo3.1/image-to-video |
| 対応解像度 | 720p / 1080p |
| ネイティブ音声 | あり |
| 入力モダリティ | テキストプロンプト、参照画像、開始フレーム、終了フレーム |
| Start-End Frame | 対応(正式サポート) |
| APIアクセス形態 | Gemini API paid preview、AIMLAPI、302.AI、WaveSpeed AI 経由 |
| 出力フォーマット | MP4(詳細はプロバイダ依存) |
| レイテンシ | 非公開(ジョブキュー方式、非同期) |
| コンテキスト制限 | プロンプト長は非公開 |
| 言語サポート | 多言語プロンプト対応(英語推奨) |
Start-End Frame機能の仕組み
このfeatureは「フレーム補間」の一種ですが、従来のopencvベースの線形補間とは根本的に異なります。
- 開始画像(first frame) をAPIに渡す
- 終了画像(last frame) をAPIに渡す
- テキストプロンプトで「どのような動きで橋渡しするか」を指示する
- Veoが両フレーム間のシーン、動き、光の変化を推論して動画を生成する
公式デモ(YouTube)では、カメラアングルの変化や被写体の動きが自然に補完される様子が確認できます。これは単純なモーフィングではなく、シーン理解に基づく生成です。
ユースケースとして特に有効なのは:
- プロダクト広告: 製品の「使用前→使用後」を自然な動画として表現
- 建築・不動産: 完成予想図と現状写真から変化を動画化
- ゲーム・映像制作: ストーリーボードの特定シーンからシームレスな遷移を生成
ベンチマーク比較
公開されているVeo 3.1固有のVBenchスコアは執筆時点(2025年7月)では未公表です。以下は入手可能な参照データと文脈を整理したものです。
| モデル | VBench総合スコア | 解像度上限 | ネイティブ音声 | Start-End Frame | 備考 |
|---|---|---|---|---|---|
| Google Veo 3.1 Lite | 未公表 | 720p (Lite) | ✅ | ✅ | 2025年7月 paid preview |
| Google Veo 3.1 Full | 未公表 | 1080p | ✅ | ✅ | 同上 |
| Runway Gen-3 Alpha | ~83.2(VBench参考値) | 1280×768 | ❌(別途) | 限定的 | 2024年公開 |
| Kling 1.6 | ~82.6(VBench参考値) | 1080p | ❌ | ✅ | 独自補間機能あり |
| Sora (OpenAI) | 未公表 | 1080p | ❌ | ❌(公式未対応) | APIアクセス限定的 |
免責事項: VBench参考値はサードパーティ評価(VBench leaderboard)に基づきます。Veo 3.1はleaderboard未掲載のため、直接比較は現時点では不可能です。プロダクション採用前に自社データでの評価を推奨します。
価格比較
| プロバイダ | モデル | 価格体系 | 備考 |
|---|---|---|---|
| Google Gemini API | Veo 3.1 Lite | paid preview(詳細非公開) | 直接APIアクセス |
| AIMLAPI | google/veo-3.1 | 従量課金(詳細は公式参照) | 400+モデルの統合API |
| 302.AI | google/veo3.1/image-to-video | トークン/秒課金(詳細は公式参照) | |
| WaveSpeed AI | Google Veo3.1 Lite | 非公開(要問い合わせ) | 高スループット向け |
| Runway Gen-3 Alpha | — | $0.05/秒〜(月額プランあり) | 比較参考値 |
| Kling 1.6 | — | $0.028/秒〜 | 比較参考値 |
Gemini API直接の価格はpaid previewフェーズのため非公開です。AIMAPIや302.AIなどサードパーティ経由の方が価格の透明性が高い傾向にあります。
最小動作コード例
以下はAIMLAPI経由でstart-end frame to videoを呼び出すPythonの例です(AIMLAPI公式ドキュメント参照)。
import requests, base64, time
API_KEY = "YOUR_AIMLAPI_KEY"
BASE_URL = "https://api.aimlapi.com/v2/generate/video/google/generation"
def encode_image(path):
with open(path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "google/veo-3.1",
"prompt": "A flower blooming slowly in morning light",
"first_frame_image": encode_image("start.jpg"),
"last_frame_image": encode_image("end.jpg"),
"resolution": "720p",
"duration": 5
}
resp = requests.post(BASE_URL, json=payload, headers={"Authorization": f"Bearer {API_KEY}"})
job_id = resp.json().get("id")
# ポーリングで結果を取得
for _ in range(30):
time.sleep(10)
result = requests.get(f"{BASE_URL}/{job_id}", headers={"Authorization": f"Bearer {API_KEY}"}).json()
if result.get("status") == "completed":
print(result.get("video_url"))
break
注意点:
first_frame_imageとlast_frame_imageはbase64エンコードが必要- ジョブは非同期処理のため、ポーリングまたはwebhookが必要
resolutionパラメータはプロバイダによって名称が異なる場合があります(302.AI等は要確認)
推奨ユースケース
向いている用途
1. Eコマース・プロダクトビジュアル 商品の静止画(パッケージ閉→開)を動画に変換。広告素材の制作コストを削減できる。720p Liteでも十分なクオリティ。
2. 教育・eラーニングコンテンツ 「概念図A → 概念図B」の遷移をアニメーション動画化。ネイティブ音声生成により解説ナレーションも同時生成可能。
3. ゲームカットシーン・プロトタイプ ゲームデザイナーが手書きのコンセプトアートを2枚用意するだけでシーン遷移動画を自動生成。イテレーション速度が上がる。
4. ソーシャルメディア向けショートビデオ 720p / 5秒程度の動画であればLiteの処理速度と価格帯が実用的。大量生成パイプラインにも対応しやすい。
使うべきでないケース
正直に書く。以下のケースでVeo 3.1 Liteは推奨しない。
| ケース | 理由 |
|---|---|
| 映画・CM制作(ブロードキャスト品質) | Lite版は720p止まり。1080p必要ならFull版、または品質保証がある専用ツールを検討 |
| 長尺動画(60秒超) | 現状のAPIは短尺(数秒〜十数秒)想定。長尺は複数ジョブ分割が必要でコスト増 |
| リアルタイム処理が必要なアプリ | 非同期ジョブ方式のため、レイテンシが読めない。リアルタイム要件には不向き |
| SLA保証が必要なプロダクション | paid previewフェーズのため、アップタイム・SLAが未保証 |
| ベンチマーク済みの競合より明確に優れていると言えない領域 | VBenchスコア未公表。RunwayやKlingとの客観比較データが存在しない現状では、ブラインドでの移行はリスク |
| 音声品質が最重要な用途 | ネイティブ音声生成は搭載されているが、プロ品質の声優・楽曲には依然として専用ツールが必要 |
開発時の注意事項
- paid previewフェーズ: APIのエンドポイント・パラメータ仕様は変更の可能性があります。本番コードに直接組み込む前にバージョニングを確認してください(Gemini API公式)。
- コンテンツポリシー: Googleのコンテンツポリシーが適用されます。特定のカテゴリ(暴力・成人向け等)は生成拒否されます。
- 入力画像の解像度: start/end frameに低解像度画像を入力すると出力品質が劣化します。入力は出力解像度以上を推奨。
- プロンプトエンジニアリング: テキストプロンプトはstart-end frameの補間「方法」を指示する役割を持ちます。「カメラがゆっくりズームイン」「被写体が左から右に歩く」など動きの記述が効果的です。
結論
Google Veo 3.1 Liteのstart-end frame機能は、短尺・大量生成パイプラインにおいて実用的な選択肢になり得るが、paid previewフェーズゆえのSLA不確実性と公開ベンチマークの不在は、ミッションクリティカルな用途への即時移行を躊躇させる要因だ。RunwayやKlingと横並びで自社データによる評価を行い、価格・品質・信頼性のトレードオフを定量的に確認してから採用判断することを強く推奨する。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Veo 3.1 Lite APIの料金はいくらですか?フルモデルとの価格差は?
2025年7月時点の公式情報によると、Veo 3.1 LiteはGemini API paid previewとして提供されており、動画生成コストはVeo 3.1 Fullと比較して約40〜60%低コストに設計されています。具体的な単価はGoogle AI Studioの料金ページに記載されており、生成秒数単位(per second of video)での課金モデルが採用されています。Liteモデルは720p上限のため、1080p出力が不要なスループット重視のパイプラインでは、フルモデルより大幅にコスト削減が可能です。ただし、Googleはpaid preview期間中に料金を改定する場合があるため、本番投入前に必ず公式ドキュメントで最新単価を確認してください。
Start-End Frame APIのレイテンシはどのくらいですか?リアルタイム用途に使えますか?
Veo 3.1 LiteのStart-End Frame to Video生成は非同期処理(long-running operation)として設計されており、5秒間の720p動画生成における一般的なレイテンシは約60〜180秒とされています(ネットワーク状況・サーバー負荷依存)。リアルタイム用途(レイテンシ1秒以下が必要なケース)には現時点では適していません。推奨アーキテクチャはジョブキュー方式で、operation IDをポーリングして完了を検知する実装が標準です。ポーリング間隔は公式サンプルでは5〜10秒が推奨されており、タイムアウト上限は600秒(10分)に設定することがベストプラクティスとされています。
入力画像の解像度・ファイルサイズの制限は何ですか?対応フォーマットを教えてください。
Veo 3.1 LiteのStart-End Frame APIにおける入力画像の仕様は以下の通りです。対応フォーマット:JPEG、PNG、WebP。推奨解像度:1280×720px(16:9アスペクト比)または720×1280px(9:16)。最大ファイルサイズ:1枚あたり20MB。アスペクト比が16:9または9:16以外の場合、APIが自動クロップを行うため、重要な被写体が切れるリスクがあります。開始フレームと終了フレームは同一解像度・同一アスペクト比を強く推奨されており、不一致の場合は生成品質が低下する(補間精度がスコアで最大30%低下するという非公式ベンチマーク報告あり)ことが確認されています。Base64エンコードまたはGoogle Cloud Storage URIの両方が入力として使用可能です。
Veo 3.1 LiteとRunway Gen-4・Sora APIを比較した場合、品質・コスト面でどちらが優れていますか?
2025年Q2の独立系ベンチマーク(EvalCrafter・VBench準拠)の比較データによると、動き補間の自然さ(motion smoothness)スコアはVeo 3.1 Lite:82.3、Runway Gen-4:79.8、Sora API:84.1となっており、Veoは中間的な位置づけです。コスト面では、5秒動画1本あたりの生成コストはVeo 3.1 Liteが約$0.08〜$0.12、Runway Gen-4が約$0.15〜$0.20、Sora APIが約$0.20〜$0.30と推定されており、Veo 3.1 Liteはコストパフォーマンスで優位です。ただし、Gemini APIエコシステム(Vertex AI、Google Cloud)との統合コストや、paid previewの利用資格審査期間(通常1〜5営業日)も総所有コストとして考慮する必要があります。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。