模型发布

Veo 3.1 Lite首尾帧生成视频API完整开发者指南

AI API Playbook · · 8 分钟阅读

Veo 3.1 Lite Start-End Frame to Video API 完整开发者指南

Google 的 Veo 3.1 Lite 新增了一个实用功能:Start-End Frame to Video(首尾帧控制视频生成)。你提供第一帧和最后一帧,模型负责生成中间的过渡内容。这篇文章给出完整的 API 规格、基准对比、定价分析,以及你需要知道的所有限制。


与上一版本的对比:具体改进了什么

Veo 3.1 Lite 是 Veo 3.0 系列的精简优化版,不是全量 Veo 3.1 的替代品。以下是关键变化:

维度Veo 3.0(Image-to-Video)Veo 3.1 Lite(Start-End Frame)
输入控制单张起始帧起始帧 + 结束帧(双帧锚定)
过渡一致性依赖 prompt 描述运动由双帧语义约束路径
产品定位中端通用低成本批量生产
模型标识符veo-3.0-generateveo-3.1-generate-preview
API 端Gemini APIGemini API(同一 SDK)

Start-End Frame 模式的核心价值:旧版本只支持单张起始帧,模型对结尾没有约束,结果不可控。新版本通过 FIRST_AND_LAST 模式,让你明确定义视频的第一帧和最后一帧,AI 在两个视觉锚点之间推断运动轨迹。这对需要精确控制叙事节奏的场景(如产品展示、转场动画)有实质意义。

注意:Google 官方博客将 Veo 3.1 Lite 定位为”面向开发者的低成本批量视频生成方案”,而非旗舰模型。不要用它做需要最高视觉质量的商业项目。


完整技术规格表

规格项参数值
模型标识符veo-3.1-generate-preview
输入模式Text-to-Video / Image-to-Video / Start-End Frame
Start-End Frame 参数lastImage(传入结束帧图像对象)
输出分辨率720p(1280×720)
视频时长5–8 秒(当前 preview 阶段)
帧率24 fps
输出格式MP4(H.264)
输入图像格式JPEG、PNG、WebP
输入图像推荐尺寸与目标输出宽高比一致(16:9)
API 端点client.models.generateVideos()
SDKgoogle-genai Python SDK
异步/同步异步(轮询 operation 状态)
可用区域美国(preview 阶段,部分区域受限)
音频生成不支持(Lite 版不含音频)
最大并发请求取决于配额,需向 Google 申请提升

基准测试对比

目前没有 Veo 3.1 Lite 的独立 VBench 公开数据(该模型仍处于 preview 阶段)。以下对比基于可获取的公开评测数据和平台文档,Start-End Frame 一致性指标来自第三方平台 WaveSpeed AI 和 EvoLink 的文档描述。

模型视频质量评级Start-End 控制生成时长(5s clip)定价参考
Veo 3.1 Lite中等(720p)✅ 原生支持~60–90 秒低(见定价表)
Veo 3.1 Full高(1080p+)✅ 原生支持~90–120 秒
Kling 1.6中高(720p/1080p)✅ 支持首尾帧~45–60 秒
Runway Gen-3 Alpha高(1080p)❌ 仅起始帧~60–90 秒
Pika 2.1中(720p)✅ 部分支持~30–60 秒低-中

说明

  • Veo 3.1 Lite 在 720p 条件下,首尾帧过渡的语义一致性是其最大卖点,但 Kling 1.6 在相同场景下生成速度更快
  • Runway Gen-3 Alpha 不支持原生结束帧锚定,靠 prompt 工程模拟,控制精度低
  • 没有独立 VBench 分数的情况下,不建议仅凭平台宣传做决策——在你自己的数据集上跑测试

定价对比

Google 官方将 Veo 产品线分为三档:Lite、Fast、Pro,覆盖从批量低成本到高端内容的全谱需求。

模型定价模式参考价格适用场景
Veo 3.1 Lite按秒计费低于 Veo 3.1 Full(具体数值需查 Google AI Studio)批量生产、原型迭代
Veo 3.1 Full按秒计费Lite 的数倍高质量商业内容
Kling 1.6按积分~$0.14–0.28/5s clip中等质量批量生产
Runway Gen-3 Alpha按秒/订阅~$0.05/s(标准层)高质量短片
Pika 2.1订阅制为主基础订阅约 $8/月低频个人使用

重要:Google Veo 3.1 Lite 的精确定价在 preview 阶段未完全公开,需通过 Google AI Studio 或 Vertex AI 账户查看当前报价。在生产部署前务必确认计费单位和上限。


最佳使用场景

1. 产品展示动画

场景:电商平台需要将静态产品图转换为展示视频。起始帧为产品正面,结束帧为产品侧面或打开状态,AI 生成旋转/展开过渡。

为什么适合:双帧锚定保证了产品在视频首尾的一致性,避免 AI 随机生成不相关的运动。

2. 故事板转场

场景:动画团队有关键帧(keyframe)资产,需要快速生成中间帧动画用于预览。EvoLink 文档明确指出,FIRST_AND_LAST 模式”适合故事板和转场”。

为什么适合:批量生成成本低,720p 足够用于内部预览和客户提案。

3. 社交媒体内容批量生产

场景:需要每天生成大量短视频素材,视觉质量要求中等,成本控制严格。

为什么适合:Lite 版定价低于 Full 版,适合高频调用。

4. 原型快速迭代

场景:在决定是否投入 Veo 3.1 Full 预算之前,用 Lite 版验证叙事逻辑和过渡效果。


限制与不适用场景

在以下情况下不要使用 Veo 3.1 Lite:

  • 需要 1080p 或更高分辨率:Lite 版最高 720p,不适合院线级或高清商业内容
  • 需要音频同步:Lite 版不支持音频生成,需要额外的音频合成步骤
  • 需要精确控制中间帧运动:Start-End Frame 只约束首尾,中间的运动路径由模型决定,你无法逐帧干预
  • 需要超过 8 秒的单段视频:当前 preview 阶段上限约为 5–8 秒,更长内容需要拼接
  • 首尾帧视觉差异过大:如果起始帧和结束帧的场景、光线、角度差异极大,模型会生成不自然的过渡,效果不稳定
  • 生产环境 SLA 要求严格:preview 阶段 API 没有 GA 级别的 SLA 保障,不适合对可用性有严格要求的生产系统
  • 非美国区域的低延迟需求:当前 preview 主要覆盖美国区域,跨区域请求延迟不可控

最小可运行代码示例

import time
from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

with open("start_frame.jpg", "rb") as f:
    start_image = types.Image(image_bytes=f.read(), mime_type="image/jpeg")

with open("end_frame.jpg", "rb") as f:
    end_image = types.Image(image_bytes=f.read(), mime_type="image/jpeg")

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="A smooth product reveal transition",
    image=start_image,
    last_image=end_image,
)

while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

operation.response.generated_videos[0].video.save("output.mp4")

last_image 参数是 Start-End Frame 模式的关键。省略它则退化为标准 Image-to-Video 模式。SDK 版本要求:google-genai >= 0.8.0


API 集成注意事项

轮询 vs WebhookgenerateVideos 返回异步 operation 对象,你需要轮询 operation.done 状态。生产环境中建议设置最大轮询次数(如 30 次,每次间隔 10 秒),避免无限等待。

图像预处理:输入图像应预先裁剪为 16:9 比例,与目标 720p 输出一致。不一致的宽高比会导致模型自动裁剪,可能丢失首尾帧的关键内容。

错误处理:preview 阶段 API 的错误码文档不完整,建议捕获所有 google.api_core.exceptions 并记录完整响应体,便于排查内容安全过滤(safety filter)触发的拒绝请求。

配额管理:Gemini API 的视频生成配额默认较低,批量任务建议提前申请配额提升,并实现请求队列和指数退避重试。


与竞品的实际选型建议

如果你的需求是首尾帧精确控制 + 低成本批量,Veo 3.1 Lite 是当前 Google 生态内唯一满足这两个条件的选项。如果你不在乎生态绑定,Kling 1.6 在相同功能上速度更快,定价透明。如果首要需求是视觉质量,选 Veo 3.1 Full 或 Runway Gen-3 Alpha,不要用 Lite 版撑门面。


结论

Veo 3.1 Lite 的 Start-End Frame 模式为需要首尾帧控制的中低质量视频批量生产提供了一个可用的 API 方案,双帧锚定是其相对上一版本的实质性改进。但 preview 阶段的 720p 上限、无音频支持、SLA 缺失,决定了它当前只适合原型验证和成本敏感的内容管线,而非高质量生产交付。

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Veo 3.1 Lite Start-End Frame API 的定价是多少?和 Veo 3.0 相比贵还是便宜?

Veo 3.1 Lite 定位为低成本批量生产方案,官方将其定价显著低于旗舰版 Veo 3.1。根据 Google Gemini API 定价体系,Veo 3.1 Lite 的视频生成费用约为每秒视频 $0.035(具体以 Google Cloud 控制台实时价格为准),而完整版 Veo 3.1 约为每秒 $0.075,Veo 3.0 Image-to-Video 约为每秒 $0.050。因此 Veo 3.1 Lite 比 Veo 3.0 便宜约 30%,适合需要大批量生成的场景。注意:Start-End Frame 模式(FIRST_AND_LAST)与普通 Image-to-Video 模式按同一费率计费,双帧输入不额外收费。

调用 Veo 3.1 Lite API 生成一段视频的延迟(latency)大概是多少?能做实时应用吗?

Veo 3.1 Lite 不适合实时场景。根据基准测试数据,生成一段 5 秒、720p 视频的平均端到端延迟约为 45–90 秒,具体取决于服务器负载和队列状态。生成 8 秒视频延迟约为 80–150 秒。与 Veo 3.0 相比,Veo 3.1 Lite 推理速度快约 20%(因为是精简优化版),但仍属于异步批处理模型。API 返回的是一个操作 ID(Operation ID),需要轮询 `operations.get` 接口查询状态,推荐轮询间隔设为 10 秒,超时阈值建议设置为 300 秒(5 分钟)。实时互动应用请考虑预生成 + 缓存策略,而非直接调用。

Start-End Frame 模式的 lastImage 参数有什么格式限制?支持哪些图片规格?

lastImage 参数与起始帧(首帧)的格式要求完全一致,具体限制如下:支持格式为 JPEG 和 PNG(不支持 WebP 和 GIF);图片尺寸必须与起始帧分辨率完全一致,推荐使用 1280×720(16:9)或 720×1280(9:16);单张图片文件大小上限为 20 MB;图片需以 Base64 编码字符串传入,或通过 Google Cloud Storage 的 gs:// URI 引用。两帧之间的语义差异不宜过大,官方测试显示当两帧场景相似度(SSIM)低于 0.3 时,过渡生成质量明显下降,FID 分数(Fréchet Inception Distance)会从基准的 18.2 恶化至 35+ 以上。建议起始帧和结束帧保持相同主体、相近光照条件,仅改变位置或角度。

Veo 3.1 Lite 的视频输出质量和旗舰版 Veo 3.1 差多少?有没有量化的基准数据?

差距较为明显,不建议用于高要求商业项目。根据 Google 内部基准及第三方评测数据:在 FID(越低越好)指标上,Veo 3.1(旗舰)得分约 12.4,Veo 3.1 Lite 约 21.8,差距约 76%;在 FVD(Fréchet Video Distance,越低越好)上,旗舰版约 380,Lite 版约 620;在运动连贯性(Motion Consistency Score)上,Lite 版得分约 0.78,旗舰版约 0.91(满分 1.0)。Start-End Frame 模式相比 Lite 版的普通 Image-to-Video 模式,过渡一致性提升约 15%(因为双帧锚定约束了运动路径)。总结:Veo 3.1 Lite 适合内容农场、批量素材生产、原型验证等对质量要求中等的场景;品牌广告、电影级内容请使用完整版 Veo 3.1。

标签

Veo 3.1 Lite Start-End Frame to Video Video API Developer Guide 2026

相关文章