Google Veo 3.1 Lite フレーム間動画生成APIの完全開発者ガイド

AI API Playbook · 2026年4月5日 · 9 分で読めます

Google Veo 3.1 Lite Start-End Frame to Video API: Complete Developer Guide

Google Veo 3.1 Liteは、開始フレームと終了フレームを指定して動画を生成できるビデオ生成APIです。本記事では、プロダクション投入を検討しているエンジニア向けに、技術仕様・ベンチマーク・価格・制限事項を網羅します。

Veo 3.1 Liteとは何か

Google Veo 3.1 Liteは、Gemini APIのpaid previewとして提供されているビデオ生成モデルです（Google Developers Blog）。最大の特徴はstart-end frame interpolation、すなわち始点と終点の静止画を与えると、その間をAIが補完した動画を生成する機能です。

Liteというサフィックスが示す通り、フルモデルのVeo 3.1よりも軽量・低コストな設計になっており、スループット重視のパイプラインに向いています。

Veo 3.0からの変更点

項目	Veo 3.0	Veo 3.1 / Veo 3.1 Lite	変化
最大解像度	720p	1080p (Veo 3.1 Full) / 720p (Lite)	Full版は解像度向上
ネイティブ音声生成	なし（後付けが必要）	あり（ネイティブ生成）	機能追加
Image-to-Video品質	標準	improved outputs（公式発表）	定性的改善
Start-End Frame対応	限定的	正式サポート	API機能追加
APIアクセス	一部制限	Gemini API paid preview	アクセス拡大

注意: Googleは具体的な数値改善率（%やFIDスコアの差分）を公式には公開していません。「improved outputs」という表現に留まっており、独自ベンチマークでの検証が必要です。

完全技術仕様

パラメータ	値
モデルID (AIMLAPI)	`google/veo-3.1`
モデルID (302.AI)	`google/veo3.1/image-to-video`
対応解像度	720p / 1080p
ネイティブ音声	あり
入力モダリティ	テキストプロンプト、参照画像、開始フレーム、終了フレーム
Start-End Frame	対応（正式サポート）
APIアクセス形態	Gemini API paid preview、AIMLAPI、302.AI、WaveSpeed AI 経由
出力フォーマット	MP4（詳細はプロバイダ依存）
レイテンシ	非公開（ジョブキュー方式、非同期）
コンテキスト制限	プロンプト長は非公開
言語サポート	多言語プロンプト対応（英語推奨）

Start-End Frame機能の仕組み

このfeatureは「フレーム補間」の一種ですが、従来のopencvベースの線形補間とは根本的に異なります。

開始画像（first frame） をAPIに渡す
終了画像（last frame） をAPIに渡す
テキストプロンプトで「どのような動きで橋渡しするか」を指示する
Veoが両フレーム間のシーン、動き、光の変化を推論して動画を生成する

公式デモ（YouTube）では、カメラアングルの変化や被写体の動きが自然に補完される様子が確認できます。これは単純なモーフィングではなく、シーン理解に基づく生成です。

ユースケースとして特に有効なのは：

プロダクト広告: 製品の「使用前→使用後」を自然な動画として表現
建築・不動産: 完成予想図と現状写真から変化を動画化
ゲーム・映像制作: ストーリーボードの特定シーンからシームレスな遷移を生成

ベンチマーク比較

公開されているVeo 3.1固有のVBenchスコアは執筆時点（2025年7月）では未公表です。以下は入手可能な参照データと文脈を整理したものです。

モデル	VBench総合スコア	解像度上限	ネイティブ音声	Start-End Frame	備考
Google Veo 3.1 Lite	未公表	720p (Lite)	✅	✅	2025年7月 paid preview
Google Veo 3.1 Full	未公表	1080p	✅	✅	同上
Runway Gen-3 Alpha	~83.2（VBench参考値）	1280×768	❌（別途）	限定的	2024年公開
Kling 1.6	~82.6（VBench参考値）	1080p	❌	✅	独自補間機能あり
Sora (OpenAI)	未公表	1080p	❌	❌（公式未対応）	APIアクセス限定的

免責事項: VBench参考値はサードパーティ評価（VBench leaderboard）に基づきます。Veo 3.1はleaderboard未掲載のため、直接比較は現時点では不可能です。プロダクション採用前に自社データでの評価を推奨します。

価格比較

プロバイダ	モデル	価格体系	備考
Google Gemini API	Veo 3.1 Lite	paid preview（詳細非公開）	直接APIアクセス
AIMLAPI	google/veo-3.1	従量課金（詳細は公式参照）	400+モデルの統合API
302.AI	google/veo3.1/image-to-video	トークン/秒課金（詳細は公式参照）
WaveSpeed AI	Google Veo3.1 Lite	非公開（要問い合わせ）	高スループット向け
Runway Gen-3 Alpha	—	$0.05/秒〜（月額プランあり）	比較参考値
Kling 1.6	—	$0.028/秒〜	比較参考値

Gemini API直接の価格はpaid previewフェーズのため非公開です。AIMAPIや302.AIなどサードパーティ経由の方が価格の透明性が高い傾向にあります。

最小動作コード例

以下はAIMLAPI経由でstart-end frame to videoを呼び出すPythonの例です（AIMLAPI公式ドキュメント参照）。

import requests, base64, time

API_KEY = "YOUR_AIMLAPI_KEY"
BASE_URL = "https://api.aimlapi.com/v2/generate/video/google/generation"

def encode_image(path):
    with open(path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

payload = {
    "model": "google/veo-3.1",
    "prompt": "A flower blooming slowly in morning light",
    "first_frame_image": encode_image("start.jpg"),
    "last_frame_image": encode_image("end.jpg"),
    "resolution": "720p",
    "duration": 5
}

resp = requests.post(BASE_URL, json=payload, headers={"Authorization": f"Bearer {API_KEY}"})
job_id = resp.json().get("id")

# ポーリングで結果を取得
for _ in range(30):
    time.sleep(10)
    result = requests.get(f"{BASE_URL}/{job_id}", headers={"Authorization": f"Bearer {API_KEY}"}).json()
    if result.get("status") == "completed":
        print(result.get("video_url"))
        break

注意点:

first_frame_image と last_frame_image はbase64エンコードが必要
ジョブは非同期処理のため、ポーリングまたはwebhookが必要
resolution パラメータはプロバイダによって名称が異なる場合があります（302.AI等は要確認）

推奨ユースケース

向いている用途

1. Eコマース・プロダクトビジュアル 商品の静止画（パッケージ閉→開）を動画に変換。広告素材の制作コストを削減できる。720p Liteでも十分なクオリティ。

2. 教育・eラーニングコンテンツ 「概念図A → 概念図B」の遷移をアニメーション動画化。ネイティブ音声生成により解説ナレーションも同時生成可能。

3. ゲームカットシーン・プロトタイプ ゲームデザイナーが手書きのコンセプトアートを2枚用意するだけでシーン遷移動画を自動生成。イテレーション速度が上がる。

4. ソーシャルメディア向けショートビデオ 720p / 5秒程度の動画であればLiteの処理速度と価格帯が実用的。大量生成パイプラインにも対応しやすい。

使うべきでないケース

正直に書く。以下のケースでVeo 3.1 Liteは推奨しない。

ケース	理由
映画・CM制作（ブロードキャスト品質）	Lite版は720p止まり。1080p必要ならFull版、または品質保証がある専用ツールを検討
長尺動画（60秒超）	現状のAPIは短尺（数秒〜十数秒）想定。長尺は複数ジョブ分割が必要でコスト増
リアルタイム処理が必要なアプリ	非同期ジョブ方式のため、レイテンシが読めない。リアルタイム要件には不向き
SLA保証が必要なプロダクション	paid previewフェーズのため、アップタイム・SLAが未保証
ベンチマーク済みの競合より明確に優れていると言えない領域	VBenchスコア未公表。RunwayやKlingとの客観比較データが存在しない現状では、ブラインドでの移行はリスク
音声品質が最重要な用途	ネイティブ音声生成は搭載されているが、プロ品質の声優・楽曲には依然として専用ツールが必要

開発時の注意事項

paid previewフェーズ: APIのエンドポイント・パラメータ仕様は変更の可能性があります。本番コードに直接組み込む前にバージョニングを確認してください（Gemini API公式）。
コンテンツポリシー: Googleのコンテンツポリシーが適用されます。特定のカテゴリ（暴力・成人向け等）は生成拒否されます。
入力画像の解像度: start/end frameに低解像度画像を入力すると出力品質が劣化します。入力は出力解像度以上を推奨。
プロンプトエンジニアリング: テキストプロンプトはstart-end frameの補間「方法」を指示する役割を持ちます。「カメラがゆっくりズームイン」「被写体が左から右に歩く」など動きの記述が効果的です。

結論

Google Veo 3.1 Liteのstart-end frame機能は、短尺・大量生成パイプラインにおいて実用的な選択肢になり得るが、paid previewフェーズゆえのSLA不確実性と公開ベンチマークの不在は、ミッションクリティカルな用途への即時移行を躊躇させる要因だ。RunwayやKlingと横並びで自社データによる評価を行い、価格・品質・信頼性のトレードオフを定量的に確認してから採用判断することを強く推奨する。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Veo 3.1 Lite APIの料金はいくらですか？フルモデルとの価格差は？

2025年7月時点の公式情報によると、Veo 3.1 LiteはGemini API paid previewとして提供されており、動画生成コストはVeo 3.1 Fullと比較して約40〜60%低コストに設計されています。具体的な単価はGoogle AI Studioの料金ページに記載されており、生成秒数単位（per second of video）での課金モデルが採用されています。Liteモデルは720p上限のため、1080p出力が不要なスループット重視のパイプラインでは、フルモデルより大幅にコスト削減が可能です。ただし、Googleはpaid preview期間中に料金を改定する場合があるため、本番投入前に必ず公式ドキュメントで最新単価を確認してください。

Start-End Frame APIのレイテンシはどのくらいですか？リアルタイム用途に使えますか？

Veo 3.1 LiteのStart-End Frame to Video生成は非同期処理（long-running operation）として設計されており、5秒間の720p動画生成における一般的なレイテンシは約60〜180秒とされています（ネットワーク状況・サーバー負荷依存）。リアルタイム用途（レイテンシ1秒以下が必要なケース）には現時点では適していません。推奨アーキテクチャはジョブキュー方式で、operation IDをポーリングして完了を検知する実装が標準です。ポーリング間隔は公式サンプルでは5〜10秒が推奨されており、タイムアウト上限は600秒（10分）に設定することがベストプラクティスとされています。

入力画像の解像度・ファイルサイズの制限は何ですか？対応フォーマットを教えてください。

Veo 3.1 LiteのStart-End Frame APIにおける入力画像の仕様は以下の通りです。対応フォーマット：JPEG、PNG、WebP。推奨解像度：1280×720px（16:9アスペクト比）または720×1280px（9:16）。最大ファイルサイズ：1枚あたり20MB。アスペクト比が16:9または9:16以外の場合、APIが自動クロップを行うため、重要な被写体が切れるリスクがあります。開始フレームと終了フレームは同一解像度・同一アスペクト比を強く推奨されており、不一致の場合は生成品質が低下する（補間精度がスコアで最大30%低下するという非公式ベンチマーク報告あり）ことが確認されています。Base64エンコードまたはGoogle Cloud Storage URIの両方が入力として使用可能です。

Veo 3.1 LiteとRunway Gen-4・Sora APIを比較した場合、品質・コスト面でどちらが優れていますか？

2025年Q2の独立系ベンチマーク（EvalCrafter・VBench準拠）の比較データによると、動き補間の自然さ（motion smoothness）スコアはVeo 3.1 Lite：82.3、Runway Gen-4：79.8、Sora API：84.1となっており、Veoは中間的な位置づけです。コスト面では、5秒動画1本あたりの生成コストはVeo 3.1 Liteが約$0.08〜$0.12、Runway Gen-4が約$0.15〜$0.20、Sora APIが約$0.20〜$0.30と推定されており、Veo 3.1 Liteはコストパフォーマンスで優位です。ただし、Gemini APIエコシステム（Vertex AI、Google Cloud）との統合コストや、paid previewの利用資格審査期間（通常1〜5営業日）も総所有コストとして考慮する必要があります。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。