モデルリリース

Veo 3.1 Lite 画像→動画API完全ガイド【開発者向け】

AI API Playbook · · 10 分で読めます

Veo 3.1 Lite Image-to-Video API: 完全開発者ガイド

Veo 3.1 Lite の image-to-video API を本番環境に導入すべきか判断するための、スペック・ベンチマーク・コスト比較をまとめたリファレンスガイド。


Veo 3.1 Lite とは何か

Google が Gemini API 経由で提供する veo-3.1-lite-generate-preview は、静止画を入力として高品位な動画を生成するモデルだ。最大の特徴は ネイティブ音声生成(BGM・環境音)が同時に出力される点で、別途 TTS や音声合成パイプラインを組む必要がない。

位置づけとしては、フルモデルの veo-3.1-generate-preview よりも低レイテンシ・低コストに調整された「開発者向けエントリーポイント」だ(Google AI for Developers)。


Veo 3.0 からの変更点

現時点で Google が公式に開示している差分は限られているが、以下の点が確認されている。

項目Veo 3.0 (参考値)Veo 3.1 Lite備考
ネイティブ音声出力なしありBGM・効果音を同時生成
最高解像度720p1080pWaveSpeed AI ドキュメントより
アスペクト比の選択肢16:9 のみ16:9 / 9:16 / 1:1 他Fal.ai ドキュメントより
API エンドポイント非同期のみ非同期(poll ベース)変わらず
価格帯より高いVeo 3.1 フルの削減版後述の料金表参照

「Lite」というサフィックスが示す通り、品質よりもスループットとコストを優先したチューニングだ。具体的な VBench スコアや FID 値は 2025 年 7 月時点で Google から公開されていないため、本ガイドでは第三者プロバイダのドキュメントから得られる実測情報を中心に記載する。


技術仕様

パラメータ
モデル IDveo-3.1-lite-generate-preview
入力静止画 (JPEG / PNG / WebP) + テキストプロンプト
出力解像度720p または 1080p
アスペクト比16:9, 9:16, 1:1(プロバイダにより差異あり)
出力フォーマットMP4 (H.264)
動画長〜8 秒(モデルの標準出力)
音声出力BGM・環境音をネイティブ生成(オプション有効時)
API 方式非同期タスクキュー(submit → poll → retrieve)
公式エンドポイントhttps://generativelanguage.googleapis.com/v1beta/
認証API Key または OAuth 2.0
レート制限Gemini API の共通クォータに依存(プレビュー段階)
地域グローバル(一部リージョン制限あり)

注意: generate-preview の名称が示す通り、これは GA(Generally Available)ではなくプレビュー段階のモデルだ。本番環境での SLA は保証されていない。


競合モデルとのベンチマーク比較

公式の VBench スコアが非公開のため、各モデルの公開スペックと実用面での比較を行う。

モデル最高解像度音声出力最大動画長API 方式備考
Veo 3.1 Lite1080p✅ ネイティブ~8 秒非同期Google / Gemini API
Runway Gen-41080p10 秒非同期映像品質は高評価
Kling 2.11080p10 秒非同期コスト効率が高い
Pika 2.21080p✅ (追加オプション)10 秒非同期音声は別処理

差別化ポイント: ネイティブ音声生成は Veo 3.1 系列の固有機能だ。Runway や Kling はビデオ単体出力で、音声を付加するには別パイプラインが必要になる。一方、映像の時間的一貫性やモーションクオリティについては、Runway Gen-4 が依然として業界でのリファレンスとなっているため、映像品質が最優先なら Runway も評価する価値がある。


料金比較

WaveSpeed AI・Fal.ai・AIML API など複数のプロキシプロバイダ経由でも利用可能。以下は 2025 年 7 月時点の参考値。

プロバイダモデル料金(1 動画あたりの目安)備考
Google AI StudioVeo 3.1 Lite無料枠あり(プレビュー期間中)本番用途はクォータ要確認
Fal.aifal-ai/veo3.1/lite/image-to-video従量課金(公式サイト参照)最小セットアップで利用可能
WaveSpeed AIGoogle Veo 3.1 Lite従量課金1080p 対応を明記
AIML APIVeo 3.1 Image-to-Video従量課金/v2 エンドポイント
Runway Gen-4Gen-4 Turbo$0.05 / 秒(参考)音声出力は別途
Kling 2.1Standard$0.028 / 秒(参考)コスト最安クラス

料金は変動する。実際の単価は各プロバイダの公式ドキュメントで確認すること。Veo 3.1 Lite は「best prices for developers」と Google が明言しており(Gemini API Docs)、フルモデルより低コストに設定されている。


ワークフローと API 設計

Veo 3.1 Lite のリクエストは 非同期の 2 ステップで構成される。

  1. Submit: generateVideos にプロンプト・画像・パラメータを送信 → operationId を取得
  2. Poll: operationId でステータスをポーリング → done: true になったら動画 URL を取得

生成時間は解像度・キュー状況によるが、720p で 30〜90 秒、1080p で 60〜180 秒が現実的なレンジだ。タイムアウト設定は最低 3 分以上にしておくこと。


最小動作コード例(Python / Gemini API)

import time
import google.generativeai as genai
from google.generativeai import types
import PIL.Image

genai.configure(api_key="YOUR_API_KEY")
client = genai.Client()

image = PIL.Image.open("input.jpg")
operation = client.models.generate_videos(
    model="veo-3.1-lite-generate-preview",
    prompt="The subject slowly turns to face the camera, cinematic lighting",
    image=image,
    config=types.GenerateVideosConfig(aspect_ratio="16:9", duration_seconds=8),
)
while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

operation.result.generated_videos[0].video.save("output.mp4")

このコードは Google AI for Developers の公式ドキュメントを参考に構成した。google-generativeai SDK の最新バージョン(0.8 以降)が必要。


ユースケースと具体例

適しているケース:

  • Eコマース商品動画: 商品画像から自動的に 360° 風の動画を生成。音声不要ならオフにもできる。
  • SNS 向けショートコンテンツ: 9:16 出力に対応しているため、TikTok・Instagram Reels 向けのポートレート動画をそのまま生成できる。
  • プロトタイプ・スタブ映像: 本番撮影前の絵コンテ代替。ネイティブ音声が入るためステークホルダーへのプレゼンが早い。
  • ゲーム内カットシーン生成: キャラクターのコンセプトアートを動かすプロトタイプ。
  • 教育コンテンツ: 図解画像を動画化し、ナレーションとは別に環境音で臨場感を追加。

向いていないケース(後述):

  • 長尺(8 秒超)のシームレスな映像
  • 映像品質が最優先の商業映像制作

制限事項と使うべきでないケース

制限詳細
プレビュー段階SLA なし。本番トラフィックに組み込む場合はフォールバックを必ず実装すること
動画長の上限~8 秒。それ以上が必要な場合は複数セグメントをつなぐか、別モデルを選択
音声制御の粒度ネイティブ音声は自動生成で、個別の楽曲指定・ボーカル挿入は不可
一貫したキャラクター顔・衣装の一貫性は保証されない。IP2P(Image-to-Image-to-Video)ワークフローでの精度向上が必要
テキストレンダリング動画内の文字を正確に生成するのは苦手(他のビデオモデル全般の問題でもある)
レート制限プレビュー期間のクォータはタイトな可能性がある。大量バッチ処理には不向き

使うべきでない具体的なシナリオ:

  1. 映画・CM レベルの映像品質が求められる制作: VBench での比較データがない現時点では、Runway Gen-4 の方が実績がある
  2. リアルタイム性が必要なアプリ: 最低でも 30 秒以上の生成時間がかかるため、ユーザーが即時の結果を期待するフローには組み込めない
  3. 8 秒以上のシームレスな映像: 複数クリップを結合する場合、接続部の品質維持は自前で対応が必要
  4. プレビュー期間中の高可用性要件: generate-preview モデルはいつでも仕様変更・廃止される可能性がある

導入時のチェックリスト

  • Google AI Studio でプロジェクトを作成し、Gemini API キーを取得
  • veo-3.1-lite-generate-preview がアカウントのリージョンで利用可能か確認
  • ポーリング間隔を 10 秒以上に設定し、タイムアウトを 3〜5 分に設定
  • done: false 継続時のリトライロジックと、エラー時のフォールバックを実装
  • 音声出力が不要な場合は generate_audio: false を明示して帯域を節約
  • プレビュー段階のため、モデル ID の変更通知(Gemini API changelog)を監視する仕組みを作っておく

結論

Veo 3.1 Lite の image-to-video API は、ネイティブ音声生成と 1080p 出力を低コストで利用できる点で、音声付きショート動画のプロトタイプや Eコマース向け自動動画生成のユースケースに対して現実的な選択肢だ。ただし、generate-preview というステータスが示す通り SLA は保証されず、映像品質の客観的ベンチマークも未公開のため、品質要件が厳しい本番環境に組み込む前には必ず Runway Gen-4 や Kling 2.1 との並列評価を行うことを推奨する

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Veo 3.1 Lite の画像から動画生成APIの料金はいくらですか?フルモデルとの価格差を教えてください。

2025年7月時点での公式情報によると、Veo 3.1 Lite(veo-3.1-lite-generate-preview)はフルモデルの「veo-3.1-generate-preview」より低コストに設定されています。ただしGoogleはGemini API経由での具体的な単価(例:$/秒や$/リクエスト)を本ガイド執筆時点で公式に開示していません。サードパーティプロバイダー経由(Fal.aiなど)では別途料金体系が存在します。本番導入前にGoogle AI for Developers(ai.google.dev)の最新料金ページで確認することを強く推奨します。なお、Liteモデルはフルモデル比でコスト削減が主な設計目標であるため、大量リクエストのバッチ処理ユースケースで特にコスト優位性が出やすい構造です。

Veo 3.1 Lite のレイテンシはどのくらいですか?リアルタイム用途に使えますか?

Veo 3.1 Lite のAPIは非同期・pollベースのアーキテクチャを採用しており、同期レスポンスには対応していません。そのためリクエスト送信後にジョブIDをポーリングして結果を取得する実装が必要です。具体的な平均レイテンシ(秒数)はGoogleから公式ベンチマークとして2025年7月時点で公開されていませんが、設計思想としてはフルモデル(veo-3.1-generate-preview)より低レイテンシに調整されています。実測値はプロンプト複雑度・解像度(最大1080p)・アスペクト比(16:9 / 9:16 / 1:1)によって変動するため、本番前に自環境でのp50/p95レイテンシ計測を推奨します。リアルタイムユーザー向けUIへの直接組み込みは構造上困難で、非同期ジョブキュー設計が必須です。

Veo 3.1 Lite のVBenchスコアやFIDなどの品質ベンチマーク数値はありますか?

2025年7月時点で、GoogleはVeo 3.1 Lite(veo-3.1-lite-generate-preview)のVBenchスコア・FID(Fréchet Inception Distance)・FVD(Fréchet Video Distance)などの定量的品質指標を公式には一切公開していません。比較対象となるVeo 3.0の参考値も同様に非公開です。開発者が品質評価を行う場合は、自前のテストセットで主観評価(MOS: Mean Opinion Score)や社内ベンチマークを実施する必要があります。なお、モデルの位置づけとしては「品質よりスループットとコストを優先したチューニング」と明記されており、最高品質が必要なユースケースではフルモデルの veo-3.1-generate-preview との比較検証を推奨します。最大出力解像度は1080p(WaveSpeed AIド

Veo 3.1 Lite でネイティブ音声生成を使うAPIの実装方法と、対応フォーマットを教えてください。

Veo 3.1 Lite の最大の差別化機能はネイティブ音声出力(BGM・環境音・効果音)で、Veo 3.0では非対応だった機能です。Gemini API(ai.google.dev)経由でveo-3.1-lite-generate-previewエンドポイントを呼び出すと、映像と音声が同時に生成されるため、別途TTSや音声合成パイプラインを構築するコストと遅延を削減できます。APIはpollベースの非同期処理で、リクエスト→ジョブID取得→ポーリング→動画URL取得の流れになります。出力解像度は最大1080p、アスペクト比は16:9 / 9:16 / 1:1などに対応(Fal.aiドキュメント参照)。音声トラックの個別制御パラメータ(音量・ジャンル指定等)の詳細仕様は2025年7月時点で公式ドキュメントに限定的なため、Google AI for Developersの最新リファレンスを都

タグ

Veo 3.1 Lite Image-to-video Video API Developer Guide 2026

関連記事