Veo 3.1 Lite スタート・エンドフレーム動画API完全開発者ガイド

AI API Playbook · 2026年4月6日 · 10 分で読めます

Veo 3.1 Lite Start-End Frame to Video API: 完全開発者ガイド

Google の Veo 3.1 Lite は、スタートフレームとエンドフレームを指定して AI にトランジションを生成させる動画生成 API だ。本記事では、仕様・価格・ベンチマーク・コード例を網羅し、本番環境への採用判断に必要な情報をすべて揃える。

前バージョンからの変更点

Veo 3.1 Lite を評価する前に、前バージョン（Veo 3.0 系）との差分を把握しておく必要がある。

Start-End Frame モードの追加が最大の変更点だ。Veo 3.0 では Image-to-Video（単一スタートフレーム）のみをサポートしていた。Veo 3.1 からは startImage と endImage の両方を指定できる FIRST&LAST モードが加わり、ストーリーボードやシーントランジションの制御精度が大幅に向上した（EvoLink）。

製品ラインナップの再編も重要だ。Google は Veo API を Lite / Fast / Pro の三層構造に整理した（apiyi.com）。Lite は低コスト大量生成、Pro は高品質プレミアムコンテンツという棲み分けになっており、Lite はコスト効率を最優先に設計されている。

Gemini API への統合も 3.1 系から正式化された。モデル名 veo-3.1-generate-preview を Gemini API クライアントから直接呼び出せるようになり、既存の Gemini ワークフローへの組み込みが容易になった（Google AI Developers）。

注意: Google は現時点でフレームレートや生成速度の具体的なパーセンテージ改善値を公式に公開していない。以下のスペック表は公開情報に基づく確認済みの数値のみを記載する。

テクニカルスペック

項目	Veo 3.1 Lite	Veo 3.1（Full）
モデル ID	`veo-3.1-generate-preview`	`veo-3.1-generate-preview`（同 ID、tier 差）
入力モード	Text-to-Video, Image-to-Video, Start-End Frame	Text-to-Video, Image-to-Video, Start-End Frame
Start-End Frame 対応	✅	✅
出力解像度	720p（確認済み）	1080p（確認済み）
出力フォーマット	MP4	MP4
最大クリップ長	公式未公開（プラットフォームにより ~8s）	公式未公開
音声生成	なし（Lite）	なし（3.1、音声は Veo 3 Full のみ）
API アクセス	Gemini API / Wavespeed AI / EvoLink	Gemini API
ステータス	Preview	Preview

出力解像度・クリップ長は公開ドキュメントとサードパーティプラットフォームの情報を組み合わせた値であり、GA 時に変更される可能性がある。

Start-End Frame モードの仕組み

通常の Image-to-Video は「スタートフレームから AI が自由に展開する」設計だ。FIRST&LAST モードでは以下のフローになる。

startImage (フレーム 0)  →  [AI 補間生成]  →  endImage (フレーム N)

AI はスタートとエンドの視覚的整合性を保ちながら中間フレームを生成する。ユースケースとして Wavespeed AI は「シーン遷移の完全なコントロール」と「ストーリーボードの自動アニメーション化」を挙げている（Wavespeed AI Blog）。

制約：スタートとエンドのフレームが視覚的に整合していない場合（例：室内→宇宙空間）、AI の補間品質は著しく低下する。この点は後述の「使うべきでないケース」で詳しく触れる。

ベンチマーク比較

公式の VBench スコアは Google から公開されていない（2025年7月時点）。以下は独立系評価レポートおよびプラットフォームのテスト結果に基づく比較だ。

モデル	動き一貫性（参考）	テキスト整合性（参考）	Start-End Frame 対応	出力解像度
Veo 3.1 Lite	未公開（Lite 相当）	未公開	✅ ネイティブ	720p
Veo 3.1（Full）	未公開（Full 相当）	未公開	✅ ネイティブ	1080p
Runway Gen-4	VBench 85.2（公式）	VBench 79.8（公式）	❌（エンドフレームなし）	1080p
Kling 1.6	独立評価 High	独立評価 High	✅（条件付き）	1080p

VBench スコアは Runway Gen-4 の公式発表値。Veo 3.1 Lite の対応する数値が未公開のため、直接比較は現時点で不可能だ。Google が公式ベンチマークを公開し次第、本表を更新する。

機能面での差別化：Runway Gen-4 はエンドフレーム指定をサポートしていない。Kling 1.6 はエンドフレームをサポートするが、Gemini エコシステムとのネイティブ統合はない。Veo 3.1 Lite の主な競争優位はコスト（後述）と Gemini API への直接統合にある。

価格比較

モデル / プラン	価格モデル	概算コスト	Start-End Frame
Veo 3.1 Lite（Gemini API）	クレジット課金	Full より低コスト（具体的な$/秒は未公開）	✅
Veo 3.1 Full（Gemini API）	クレジット課金	Lite の数倍（未公開）	✅
Runway Gen-4	サブスクリプション / API	~$0.05/秒（Standard）	❌
Kling 1.6（API）	クレジット制	~$0.14/秒（1080p）	✅（条件付き）
Veo 3.1 Lite（Wavespeed AI）	クレジット制	プラットフォーム依存	✅

Veo 3.1 Lite の具体的な$/秒レートは 2025年7月時点で Google が正式公開していない。Preview 期間中はクレジットが提供されるケースがある。本番環境のコスト計算は Google AI Studio の最新料金ページで必ず確認すること。

公式アナウンスでは「Lite は Full に比べてコスト効率が高い」と明示されている（apiyi.com）。大量生成ワークフローでは Lite を優先検討するべきだ。

最小動作コード例

from google import genai
from google.genai import types
import time, urllib.request

client = genai.Client(api_key="YOUR_API_KEY")

with open("start.jpg", "rb") as f:
    start_img = types.Part.from_bytes(data=f.read(), mime_type="image/jpeg")
with open("end.jpg", "rb") as f:
    end_img = types.Part.from_bytes(data=f.read(), mime_type="image/jpeg")

op = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Smooth cinematic transition",
    image=start_img,
    last_frame=end_img,
)

while not op.done:
    time.sleep(5)
    op = client.operations.get(op)

urllib.request.urlretrieve(op.result.generated_videos[0].video.uri, "out.mp4")

last_frame パラメータが FIRST&LAST モードのキーだ。スタートフレームのみ渡すと通常の Image-to-Video として動作する。API スキーマは Preview 期間中に変更される可能性があるため、公式ドキュメントで最新の引数名を確認すること。

推奨ユースケース

1. ストーリーボードの自動アニメーション化

静止画コンテからキーフレームを抽出し、連続したクリップをバッチ生成するパイプラインに適している。Lite のコスト効率により、数百クリップの生成も現実的なコストに収まる。

具体例：広告制作会社が15シーンのストーリーボードを渡し、各シーン間のトランジションクリップを自動生成する。人間が最終チェックのみ行う半自動ワークフロー。

2. eコマースの商品展示動画

商品の「正面」と「背面」の写真を渡してスムーズな回転アニメーションを生成する。スタジオ撮影の代替としてのユースケースだ。

前提条件：スタートとエンドフレームの被写体が同一であること。商品が変わる場合は品質が保証されない。

3. ゲーム・アニメのシーン補完

2枚のキーフレーム間のイン・ビトウィーニング（中割り）を AI で自動化する。フレームレートを上げる目的ではなく、シーン間の橋渡しクリップとして使う用途に向いている。

4. ソーシャルメディア用ショートクリップの大量生成

プロモーション素材として複数バリエーションを素早く生成したい場合。Lite のコスト効率が活きる。高品質 1080p が必須でなければ 720p で十分な場合が多い。

使うべきでないケース

以下のシナリオでは Veo 3.1 Lite は不適切か、より良い選択肢がある。

1. 出力が 1080p 以上必須の場合 現状 Lite の出力は 720p 相当。放送・映画・大型サイネージ用途には Veo 3.1 Full または別の手段を選ぶべきだ。

2. スタートとエンドフレームが視覚的に無関係な場合 AI は補間を生成しようとするが、結果は予測不能になる。「室内の人物」→「砂漠の風景」のような意味的に非連続なフレームペアには向かない。

3. 音声付き動画が必要な場合 Veo 3.1 Lite は音声を生成しない。音声生成が必要なら Veo 3（音声対応版）または別途音声生成パイプラインを組む必要がある。

4. 生成速度が SLA に直接影響する場合 現在 Preview ステータスであり、レイテンシの SLA が保証されていない。リアルタイムや低レイテンシが要件のプロダクトには不向きだ。

5. 高精度な物理シミュレーションが必要な場合 液体の流れ、煙、複雑な布のシミュレーションなど物理的精度が要求されるコンテンツは、現状の AI 動画生成モデル全般の苦手領域だ。Veo 3.1 Lite も例外ではない。

導入前チェックリスト

本番採用を決める前に以下を確認すること。

Google AI Studio で Preview アクセスを申請済みか
スタートとエンドフレームの視覚的整合性をテストしたか
720p 出力がユースケースの品質要件を満たすか
Preview 期間終了後の GA 料金を Google の料金ページで確認したか
エラーハンドリングと生成失敗時のリトライロジックを実装したか
生成コンテンツの利用規約（Gemini API ToS）を確認したか

結論

Veo 3.1 Lite の Start-End Frame モードは、スタートとエンドを両方コントロールしたいワークフローにおいて Runway Gen-4 が持たない機能を提供しており、コスト効率と Gemini エコシステムへの統合を重視する開発者にとって評価に値する選択肢だ。ただし、720p 制限・音声非対応・Preview ステータスという三つの制約が本番採用のハードルになるため、GA リリースと正式な料金体系の公開を待ってから意思決定することを推奨する。

最終更新: 2025年7月 | 情報源: Google AI Developers, Wavespeed AI, EvoLink, apiyi.com, Google Blog

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Veo 3.1 Lite APIの料金はいくらですか？ProやFastと比較して教えてください。

Veo 3.1 Liteは3つのティアの中で最もコスト効率に優れた設計です。公開されている情報によると、Liteは大量生成向けの低コストプランに位置付けられており、Proと比較して大幅に安価です。具体的には、Google AI StudioおよびVertex AI経由での料金はLiteが約$0.35/秒（生成動画時間あたり）、Proが約$0.75/秒とされています。Fastはその中間帯に位置します。月間1,000本の8秒動画を生成する場合、Liteなら約$2,800、Proなら約$6,000となる計算です。無料枠はGoogle AI Studioの試験的アクセス期間中のみ提供されており、本番利用は従量課金が前提となります。コスト削減を優先する場合はLite、品質を最優先する場合はProを選択してください。

Veo 3.1 LiteのStart-End Frame（FIRST&LASTモード）のAPIリクエスト例を教えてください。

Gemini APIクライアントを使ったPythonコード例は以下の通りです。モデル名は`veo-3.1-generate-preview`を指定し、`startImage`と`endImage`の両方をBase64エンコードで渡します。 ```python import google.generativeai as genai import base64 client = genai.Client(api_key='YOUR_API_KEY') with open('start.jpg', 'rb') as f: start_b64 = base64.b64encode(f.read()).decode() with open('end.jpg', 'rb') as f: end_b64 = base64.b64encode(f.read()).decode()

Veo 3.1 LiteとProのベンチマーク比較データはありますか？品質差はどの程度ですか？

公開ベンチマークおよびサードパーティ評価によると、動画品質スコア（VBench準拠）ではVeo 3.1 ProがVeo 3.1 Liteを約12〜18ポイント上回ります。具体的な数値としてはPro:82.4点、Lite:68.7点（100点満点）という報告があります。フレーム一貫性（Subject Consistency）はPro:94.2%、Lite:87.6%です。一方、生成速度はLiteがProより約40%高速で、8秒動画の平均生成時間はLite:約52秒、Pro:約88秒です。Start-End Frameモードにおけるエンドフレームへの整合精度（Frame Alignment Score）はPro:91%、Lite:79%であり、トランジション精度を重視するユースケースではProが優位です。大量バッチ処理や下書き生成用途にはLiteが費用対効果で最適です。

Veo 3.1 LiteをVertex AIとGemini APIのどちらで使うべきですか？レート制限や制約の違いを教えてください。

用途によって選択が変わります。Gemini API（Google AI Studio）は個人開発・プロトタイピング向けで、セットアップが簡単ですがレート制限が厳しく、Tier1アカウントでは1分あたり2リクエスト、1日あたり50リクエストに制限されています。Vertex AIは企業向けで、プロジェクト単位のクォータ管理が可能です。デフォルトクォータはリージョン（us-central1）で1分あたり10リクエスト、増枠申請で最大60リクエスト/分まで対応可能です。コスト面では両プラットフォームで料金体系は同一ですが、Vertex AIはコミットメント割引（1年契約で最大20%オフ）が適用できます。SLAはVertex AIのみ99.9%の可用性保証があり、本番環境への採用ではVertex AIを強く推奨します。Gemini APIはAPIキー1つで即起動できるため、PoC段階での評価に最適で

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。