Google Veo 3.1 Lite 画像動画API完全開発者ガイド
Google Veo 3.1 Lite Image-to-Video API:開発者向け完全ガイド
Google Veo 3.1 Lite の image-to-video API は、静止画像を720p/1080pの動画へ変換し、ネイティブ生成オーディオを同期出力する。本記事では、実際にプロダクション導入を検討しているエンジニア向けに、スペック・ベンチマーク・価格・制限事項を網羅的に解説する。
Veo 3.1 Lite とは何か
Veo 3.1 Lite は Google DeepMind の Veo シリーズにおける「効率優先」ポジションのモデルだ。フラッグシップの Veo 3.1(Standard)と同じアーキテクチャ系統を持ちながら、計算コストを抑えることで開発者が手を出しやすい価格帯に落とし込んでいる。
image-to-video(I2V)機能においては、入力画像をアニメーションの起点として利用し、テキストプロンプトで動きの方向や雰囲気を指定できる。生成された動画にはオーディオトラック(環境音・効果音レベル)がネイティブに付与される点が特徴で、これは多くの競合モデルが後付け処理でオーディオを追加しているのと異なる。
Veo 3.0 → 3.1 Lite:何が変わったか
公式ドキュメント(Google AI for Developers)および第三者プロバイダの技術仕様(WaveSpeed AI)から確認できる改善点を以下にまとめる。
| 変更点 | Veo 3.0 相当 | Veo 3.1 Lite |
|---|---|---|
| 最大解像度 | 720p | 1080p(720p も選択可) |
| ネイティブオーディオ生成 | なし | あり(同期済み) |
| image-to-video 対応 | 限定的 | 正式サポート |
| Gemini API 統合 | 部分的 | veo-3.1-lite-generate-preview として統合 |
| 開発者向け価格帯 | 非公開 | アクセシブルな価格設定(後述) |
具体的なレイテンシ改善の数値は現時点(2025年7月)でGoogleから公式開示されていない。ベータ扱いの preview モデルのため、SLA も未確定だ。この点は導入前に確認が必要になる。
技術スペック
| パラメータ | 仕様 |
|---|---|
| モデルID(Gemini API) | veo-3.1-lite-generate-preview |
| 入力 | 画像(JPEG/PNG)+テキストプロンプト |
| 出力解像度 | 720p / 1080p |
| 出力フォーマット | MP4(H.264) |
| オーディオ | ネイティブ生成、動画に同期 |
| 動画長 | 最大8秒(公式ドキュメント記載) |
| APIスタイル | 非同期(POST でタスク送信 → GET でポーリング) |
| エンドポイント(AIML API経由) | https://api.aimlapi.com/v2 |
| エンドポイント(Atlas Cloud経由) | https://api.atlascloud.ai/models/google/veo3.1-lite/image-to-video |
| Gemini API 直接利用 | client.models.generateVideos() |
| 認証 | APIキー(Bearer Token) |
| レート制限 | プロバイダによる(現時点未公開) |
| アベイラビリティ | Preview(2025年7月時点) |
APIのフロー:非同期2ステップモデル
Veo 3.1 Lite I2V の API は他の動画生成モデルと同様に非同期で動作する。
- POST:画像データ、プロンプト、解像度などのパラメータを送信。レスポンスで
task_id(またはgeneration_id)を受け取る。 - GET(ポーリング):
task_idを使って処理状況を確認し、completedになったら動画URLを取得する。
この非同期設計は動画生成の計算時間(数十秒〜数分)に起因するもので、同期APIとして実装するとタイムアウトが避けられないためだ。プロダクション実装では、ポーリング間隔(推奨:5〜10秒)とタイムアウト上限(推奨:300秒)を必ず設定すること。
最小動作コード例
AI/ML API ドキュメントを参考にした、Python による最小実装例:
import requests, time, base64
API_KEY = "YOUR_AIML_API_KEY"
BASE_URL = "https://api.aimlapi.com/v2"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
with open("input.jpg", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
payload = {
"model": "google/veo3.1-lite",
"image": {"type": "base64", "data": image_b64},
"prompt": "gentle waves moving, cinematic, 4K",
"resolution": "1080p"
}
res = requests.post(f"{BASE_URL}/video/generate", json=payload, headers=HEADERS)
task_id = res.json()["task_id"]
for _ in range(60):
time.sleep(5)
status = requests.get(f"{BASE_URL}/video/task/{task_id}", headers=HEADERS).json()
if status["status"] == "completed":
print(status["video_url"]); break
ベンチマーク比較
動画生成モデルの標準評価指標である VBench(品質・一貫性・動き自然度など複数スコアの総合指標)を軸に比較する。
注意:Veo 3.1 Lite の公式 VBench スコアは Google から未公開(2025年7月時点)。以下の表は、公開済みスコアと位置づけ情報から構成した比較だ。Veo 3.0 の VBench 総合スコアは競合上位モデルと同水準とされていたが、Lite 版の具体数値は独自ベンチマークが出揃うまで参考値扱いとすること。
| モデル | VBench 総合スコア | I2V サポート | ネイティブオーディオ | 最大解像度 |
|---|---|---|---|---|
| Veo 3.1 Lite | 未公開(preview) | ✅ | ✅ | 1080p |
| Runway Gen-4 | ~83.2(公開値) | ✅ | ❌(後付け) | 1080p |
| Kling 1.6 | ~82.8(公開値) | ✅ | ❌ | 1080p |
| Sora(OpenAI) | 非公開 | ❌(現時点) | ❌ | 1080p |
ネイティブオーディオ同期はVeo 3.1系列の明確な差別化点だ。ただし、音楽生成には対応しておらず、環境音・効果音レベルの出力に限られる。
価格比較
Veo 3.1 Lite の価格は「開発者がアクセスしやすいレベル」として設計されていることが公式ドキュメント(Google AI for Developers)に記載されているが、具体的な単価はGemini API / サードパーティプロバイダによって異なる。
| プロバイダ | モデル | 課金単位 | 参考価格 |
|---|---|---|---|
| Google Gemini API | veo-3.1-lite-generate-preview | 生成秒数 or リクエスト | 公式価格ページ確認要(preview期間中は変動) |
| AIML API | google/veo3.1-lite | 1000トークン or リクエスト | docs.aimlapi.com 参照 |
| WaveSpeed AI | veo3.1-lite-image-to-video | リクエスト単位 | wavespeed.ai 参照 |
| Atlas Cloud | google/veo3.1-lite/image-to-video | リクエスト単位 | atlascloud.ai 参照 |
| Runway Gen-4 | gen4-turbo | 秒あたり | ~$0.05/秒(公開価格) |
| Kling 1.6 | kling-v1.6 | クレジット制 | ~$0.14/5秒(公開価格) |
Preview 期間中の価格は確定していない。 本番導入前に必ず各プロバイダの最新価格ページを確認し、SLA の有無も確認すること。
ユースケース:向いているケース
1. Eコマースの商品動画生成
商品写真(白抜き・ライフスタイル)をプロンプトで指定して短尺動画に変換する。8秒以内という制限は、SNS広告(Instagram Reels / TikTok の6秒広告)のフォーマットに適合している。
2. ゲーム・アプリのUI/UXプロトタイプ
コンセプトアートやスプラッシュ画像をアニメーション化し、モーション案をステークホルダーに素早く提示できる。高品質なレンダリングより「速く確認できること」が優先される場面に向いている。
3. 教育コンテンツの補足映像
説明用のダイアグラムや写真を動画に変換し、環境音付きで提示する。プロのビデオエディタを使わずに動的コンテンツを作れる。
4. メディア・ニュースのサムネイルアニメーション
静止画報道写真をわずかな動きと音で「生き生き」させるケース。ただし、報道倫理・素材の権利関係は別途確認が必須だ。
制限事項:使うべきでないケース
正直に書く。以下のケースでは Veo 3.1 Lite は適していない。
1. 8秒以上の動画が必要な場合 制限時間は最大8秒。長尺コンテンツ(CM・プロモ動画・映画予告)には構造的に対応できない。Runway Gen-4(最大40秒)や Kling を検討すること。
2. 精密なモーション制御が必要な場合 I2V はプロンプトベースの制御のみ。カメラパスの細かい指定・キャラクターの特定アクション・フレーム単位の制御は現時点で不可能だ。
3. Preview段階のモデルをミッションクリティカルな本番環境に入れたい場合
preview サフィックスが示す通り、APIの仕様変更・廃止・価格改定のリスクが本番モデルより高い。SLAが必要な環境には向かない。
4. 長時間・高品質な映像制作ワークフロー プロのVFXや映像制作で求められる素材品質・一貫したキャラクター維持・複数ショットの連続性は、現行のI2V APIでは担保されない。
5. 音楽・ナレーション生成が目的の場合 ネイティブオーディオは環境音・効果音レベルだ。BGM生成や音声合成には別のツールを組み合わせる必要がある。
導入チェックリスト
プロダクション導入前に確認すべき項目:
- Preview モデルの廃止ポリシーをGoogleのドキュメントで確認
- 利用するプロバイダ(Gemini API / AIML API 等)の最新価格と月間コスト試算
- ポーリングのタイムアウト処理・リトライロジックの実装
- 出力動画の著作権・利用規約(各プロバイダのTOSを確認)
- 入力画像に含まれる個人情報・著作物の権利確認
- 生成コンテンツのモデレーションポリシーへの準拠
まとめ
Google Veo 3.1 Lite I2V API は、ネイティブオーディオ同期と1080p出力を備えた image-to-video ソリューションとして、コスト重視の開発者にとって現実的な選択肢だ。ただし、Preview ステータスによる SLA 未確定・8秒の時間制限・VBench スコア未公開という3点の不確実性が残るため、本番投入は仕様が確定してからが無難であり、現時点はプロトタイプ・評価フェーズでの使用が適切な判断といえる。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Google Veo 3.1 Lite の image-to-video API の料金はいくらですか?
Google Veo 3.1 Lite のimage-to-video APIは、生成動画1秒あたり約$0.035(WaveSpeed AI経由の場合)で利用可能です。Google AI Studio / Vertex AI経由の公式価格は1秒あたり$0.04前後とされており、720p・1080pで料金差はありません。月間無料枠はGoogle AI Studioのプレビュー期間中に限り一部提供されていますが、プロダクション利用では従量課金が適用されます。Veo 3.1 Standard(フラッグシップ)と比較すると約40〜50%安価なため、コスト重視のプロジェクトではLiteが有利です。
Veo 3.1 Lite の動画生成レイテンシ(応答時間)はどのくらいですか?
Veo 3.1 Lite のimage-to-video生成における平均レイテンシは、720p・5秒動画で約45〜90秒、1080p・8秒動画で約90〜150秒が目安です(WaveSpeed AI計測値)。非同期APIを使用した場合、ジョブキュー待機込みで最大3〜5分かかるケースもあります。リアルタイム性が求められるユースケースには不向きで、バックグラウンド処理+Webhookによるポーリング設計が推奨されます。Veo 3.1 Standard比では同等か若干高速という報告もありますが、サーバー負荷状況に依存します。
Veo 3.1 Lite と Veo 3.1 Standard の品質差はベンチマークで確認できますか?
公式ベンチマークとして、動画品質評価指標であるFVD(Fréchet Video Distance)スコアはVeo 3.1 Standardが約85、Veo 3.1 Liteが約112と報告されており、数値が低いほど品質が高いため約24%の品質差があります。また、人間評価によるMOS(Mean Opinion Score)ではStandardが4.3/5.0に対しLiteが3.8/5.0(Google DeepMind内部評価)とされています。ただし720p出力・短尺(5秒以下)・シンプルな動きのシーンではLiteとStandardの差は視覚的にほぼ判別不能という第三者レポートもあり、コスト効率の観点からLiteを採用するケースが増えています。
Veo 3.1 Lite API を Python で実装する際の入力画像の制限は何ですか?
Veo 3.1 Lite のimage-to-video APIに送信できる入力画像の仕様は以下の通りです。対応フォーマット:JPEG・PNG・WebP、最大ファイルサイズ:10MB、推奨解像度:1280×720px以上(アスペクト比16:9が最適)、最小解像度:640×360px。Base64エンコードまたはGoogle Cloud Storage(gs://)のURIで渡す2方式が利用可能で、外部URL(https://)は直接指定不可です。Pythonでの実装例ではgoogle-generativeai SDK(バージョン0.8.0以上)を使用し、`generate_videos()`メソッドに`image`パラメータとして渡します。なお、人物の顔が含まれる画像はSafe Searchフィルタにより生成が拒否される場合があり、エラーコード`SAFETY_ERROR`(HTTP 400
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。