模型发布

Vidu Q3-Turbo 首尾帧视频API完整开发者指南

AI API Playbook · · 7 分钟阅读

Vidu Q3-Turbo Start-End-to-Video API 完整开发者指南

Vidu Q3-Turbo 的 start-end-to-video 功能允许你提供首帧和尾帧,让模型自动生成中间的运动过渡。本文从技术规格到生产集成,给出完整的工程参考。


什么是 Start-End-to-Video?

与普通的 image-to-video(仅提供起始帧)不同,start-end-to-video 接受两张图片作为锚点

  • start_image:视频第一帧
  • end_image:视频最后一帧

模型在两帧之间进行运动插值,生成连贯的 24fps 视频片段。这种方式对需要确定性收尾动作的场景非常有用——比如产品展示的开合动画、角色从 A 姿态到 B 姿态的过渡。


Q3-Turbo vs 前代版本:具体改进

根据 Shengshu Technology 官方文档及 Scenario 平台的集成说明(scenario.com),Q3 系列相较于 Q2 系列的核心改进如下:

维度Q2 TurboQ3-Turbo改进幅度
最大时长4 秒8 秒+100%
帧率24fps24fps持平
运动一致性评分(内部 VBench)基准线+~12%定性提升
推理延迟(4 秒片段)~60s~35s约 -42%
分辨率上限1280×7201920×1080面积 +125%
参考帧控制部分支持start + end 双锚点结构性新增

注意:运动一致性的具体分数来自 Scenario 平台发布的集成文档,不是第三方独立 benchmark。工程决策前建议在自己的数据集上跑验证。


完整技术规格

参数
API 协议REST / HTTPS POST
认证方式Bearer Token(Header: Authorization: Bearer <API_KEY>
任务模式异步(提交 → 获取 task_id → 轮询结果)
输入格式JPEG / PNG,Base64 或 URL
start_image 分辨率建议与 end_image 保持一致,推荐 1280×720 或 1920×1080
输出分辨率最高 1920×1080
输出帧率24fps
输出格式MP4 (H.264)
视频时长选项2s / 4s / 8s
最大并发任务取决于套餐,默认 5
结果有效期生成后 24 小时内可下载(Vtrix 文档注明)
主要 API Endpoint(Vtrix)POST https://api.vtrix.ai/v1/vidu/q3-turbo/start-end2video
主要 API Endpoint(官方)https://platform.vidu.com/docs/api-reference

Benchmark 对比

以下数据综合来自公开 VBench 排行榜、各平台集成文档及第三方评测(截至 2025 年 Q2)。不同测试集之间的数字不可直接横向比较,仅供量级参考。

模型VBench 总分(100分制)运动平滑度语义一致性最高分辨率最长时长
Vidu Q3-Turbo~84.2中-高1080p8s
Kling v2.6 Pro~85.11080p10s
Runway Gen-3 Alpha~82.7中-高1080p10s
Sora (OpenAI)未公开独立分数1080p20s

关键解读:

  • Kling v2.6 Pro 在语义一致性上略占优势,但其 start-end 双锚点控制在部分场景下不如 Q3-Turbo 稳定。
  • Runway Gen-3 的运动平滑度在复杂镜头中有时出现抖动,Q3-Turbo 在静态背景+主体运动的场景下表现更稳。
  • Sora 目前无公开 API 的 start-end-to-video 接口,不具备直接竞争关系。

定价对比

服务商 / 模型计费单位4s 视频单价(约)start-end 支持
Vidu Q3-Turbo(官方平台)按积分/credits~$0.08–$0.12
Vidu Q3-Turbo(Vtrix API)按次~$0.10
Kling v2.6 Pro(Novita AI)按次~$0.14–$0.18
Runway Gen-3 Alpha按秒~$0.05/s → $0.20 for 4s❌(无原生双锚点)
Pika 2.2按次~$0.06–$0.10部分支持

价格来自各平台公开定价页面(2025 年 Q2),可能随套餐变化。大批量生产请直接联系商务报价。

结论:Q3-Turbo 在同级别双锚点控制模型中,性价比相对合理;Runway 单价便宜,但缺乏原生 end-frame 控制。


最佳使用场景

1. 产品展示动画

场景:电商平台需要展示包装盒从”闭合”到”打开”的过渡。

  • start_image:闭合状态的产品图
  • end_image:打开后展示内容的产品图
  • 设置时长 4s,模型自动生成自然的开盖动作

2. 角色动作过渡

场景:游戏或短片制作中,NPC 从”站立”切换到”坐下”。

  • 两帧姿态明确,中间运动完全由模型生成
  • 相比纯 text-to-video,结果的起止状态可控

3. 建筑 / 室内设计对比

场景:装修前后的空间对比动画。

  • 同一视角下两种状态的照片作为锚点
  • 生成 4–8s 的平滑过渡,适合营销内容

4. 科学可视化

场景:蛋白质构象变化、细胞分裂阶段对比。

  • 两张显微镜图像作为锚点
  • 注意:模型生成的中间帧不具备科学准确性,仅适合示意用途

限制与不适用场景

在以下场景下,请不要使用 Vidu Q3-Turbo start-end-to-video:

场景原因
需要精确中间帧控制模型不支持关键帧注入,中间运动路径不可指定
超过 8 秒的长视频当前最大时长限制为 8s,需要拼接处理
高度动态的镜头(爆炸、流体)在极端运动场景下,Q3-Turbo 有时产生运动模糊伪影
start/end 图像视角差异过大超过约 30° 的视角变化会导致中间帧几何扭曲
需要音频轨道输出为静默 MP4,需另行添加音频
法规要求可解释性的应用生成内容不可逆推,无法提供帧级生成依据
实时生成(<5s 延迟)异步任务模式,最短等待约 20–35s

最小可用代码示例

import httpx, time

API_KEY = "your_api_key_here"
BASE_URL = "https://api.vtrix.ai/v1/vidu/q3-turbo"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

# 提交任务
payload = {
    "start_image_url": "https://example.com/frame_start.jpg",
    "end_image_url": "https://example.com/frame_end.jpg",
    "duration": 4,
    "resolution": "1280x720"
}
resp = httpx.post(f"{BASE_URL}/start-end2video", json=payload, headers=HEADERS, timeout=30)
task_id = resp.json()["task_id"]

# 轮询结果
for _ in range(30):
    time.sleep(10)
    result = httpx.get(f"{BASE_URL}/task/{task_id}", headers=HEADERS).json()
    if result["status"] == "completed":
        print(result["video_url"])
        break

关键点:task_id 由首次 POST 返回;轮询间隔建议 10s,避免触发限流;video_url 有效期 24 小时,请及时下载到自己的存储。


工程集成注意事项

错误处理:API 返回 status: failed 时,error_code 字段会说明原因(常见:IMAGE_RESOLUTION_MISMATCHQUOTA_EXCEEDED)。建议在生产环境中对这两类错误做专项报警。

图像预处理:start 和 end 两张图必须分辨率一致,否则任务会被拒绝。提交前用 Pillow 或 Sharp 做统一 resize。

幂等性:重试时不要重新提交任务——用原有 task_id 继续轮询,避免重复计费。

Webhook vs 轮询:官方平台文档提到 webhook 回调选项(callback_url 参数),生产环境优先用 webhook,减少不必要的请求。


结论

Vidu Q3-Turbo 的 start-end-to-video API 在双锚点控制和成本之间取得了合理的平衡,8 秒上限和 1080p 输出对大多数短视频生产场景已经够用。如果你的核心需求是精确控制视频起止状态且预算有限,它值得进入候选列表;如果你需要更长时长或更强的语义理解,Kling v2.6 Pro 目前是更稳健的替代选项。

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Vidu Q3-Turbo start-end-to-video API 的推理延迟是多少?比上一代快多少?

Vidu Q3-Turbo 生成 4 秒片段的推理延迟约为 35 秒,而上一代 Q2 Turbo 需要约 60 秒,性能提升约 42%。如果生成 8 秒片段(Q3-Turbo 最大支持时长),延迟会相应增加,实际生产环境建议配合异步轮询机制处理请求,避免同步等待超时。

Vidu Q3-Turbo 和 Q2 Turbo 在视频质量上有哪些具体差异?分辨率和时长提升了多少?

Q3-Turbo 相比 Q2 Turbo 有三项关键提升:① 最大视频时长从 4 秒增加到 8 秒,提升 100%;② 分辨率上限从 1280×720 提升至 1920×1080,画面面积增加约 125%;③ 运动一致性评分(基于 Scenario 平台内部 VBench 测试)提升约 12%。此外 Q3-Turbo 新增了 start + end 双锚点结构性支持,而 Q2 仅部分支持参考帧控制。需要注意的是运动一致性数据来自平台内部测试,建议在自有数据集上做独立验证后再做工程决策。

Vidu Q3-Turbo start-end-to-video 对输入图片有哪些格式和尺寸要求?

根据技术规格,start_image 和 end_image 均需满足以下要求:支持 JPEG/PNG 格式,建议分辨率与目标输出一致或接近,最高支持 1920×1080(Q3-Turbo 分辨率上限)。两张锚点图片的宽高比应保持一致,否则模型在插值时可能产生画面变形。生成帧率固定为 24fps,最大输出时长 8 秒,即最多可生成 192 帧的中间过渡内容。建议图片文件大小控制在合理范围内以减少上传耗时,从而降低端到端总延迟。

调用 Vidu Q3-Turbo API 的费用是多少?如何计费?

根据 Scenario 平台集成文档及 Shengshu Technology 官方资料,Vidu Q3-Turbo 采用按生成时长计费模式。具体单价需以官方最新定价页为准,不同平台(直接调用 Vidu API vs 通过 Scenario 等第三方平台)费率可能存在差异。开发者在进行成本估算时需重点关注:① 单次生成时长(4 秒 vs 8 秒费用不同);② 失败重试是否计费;③ 是否有免费额度或阶梯定价。建议在生产上线前通过官方定价文档确认最新费率,并在代码中加入生成时长参数的显式控制,避免因默认值导致超预期消费。

标签

Vidu Q3-Turbo Start-end-to-video Video API Developer Guide 2026

相关文章