模型发布

Vidu Q2-Pro-Fast 参考视频API完整开发者指南

AI API Playbook · · 9 分钟阅读

Vidu Q2-Pro-Fast Reference to Video API:完整开发者指南

适用读者:正在评估是否将视频生成工作流切换到 Vidu Q2-Pro-Fast 的工程师。本文覆盖技术规格、基准测试、定价对比和真实代码示例。


目录

  1. 模型定位与版本对比
  2. 技术规格全表
  3. 基准测试对比
  4. API 集成说明
  5. 定价对比
  6. 适合的使用场景
  7. 限制与不适用场景
  8. 最小可运行代码示例
  9. 结论

版本对比:Q2-Pro-Fast 比上一代改进了什么 {#版本对比}

Vidu Q2-Pro-Fast 是 Vidu Q2 Pro 的提速变体,针对延迟敏感型生产环境优化。以下是与 Q2 Pro 标准版和更早期 Q1 系列的差异对比:

维度Vidu Q1 Image-to-VideoVidu Q2 Pro(标准)Vidu Q2-Pro-Fast
主要改进点基础 image-to-video质量提升,支持 reference 模式在 Q2 Pro 质量基础上降低生成延迟
生成速度慢(无 fast 变体)标准速度相比 Q2 Pro 标准版更快(fast 模式)
支持输入模式单图单图、start-end 帧、reference 图单图、start-end 帧、reference 图
输出质量定位中等高质量高质量(与 Q2 Pro 相当)
API 端点后缀image2videoimage2video / reference2videoimage2video/fast / startend2video/fast

关键结论:Q2-Pro-Fast 的定位是”用接近 Q2 Pro 的输出质量,换取更低的端到端延迟”。它不是精度降级版,而是推理路径优化版。如果你的应用对首帧延迟敏感(比如实时预览、用户等待生成),Fast 变体是优先选项。

Vidu Q2 系列整体相比 Q1 在以下方向有可量化提升(来源:Vidu 官方发布信息及 WaveSpeed 文档描述):

  • 角色一致性:Q2 Pro 引入 reference-to-video 模式,支持从参考图锁定角色外观,Q1 不支持此功能
  • 起终帧控制:Q2-Pro-Fast 的 start-end-to-video/fast 端点提供平滑的帧间过渡,适合分镜连续性控制
  • 模型可用渠道:Q2-Pro-Fast 已通过 Novita AI、WaveSpeed.ai、Pollo AI、fal.ai 多家平台提供 REST API 接入

技术规格全表 {#技术规格}

以下规格综合自 WaveSpeed.ai 文档和 Novita AI API 参考:

参数规格
模型标识vidu/q2/pro/fast(fal.ai);vidu-q2-pro-image-to-video-fast(WaveSpeed)
输入模式单图 image-to-video;起终帧 start-end-to-video;reference 图像
输出格式MP4
支持分辨率1280×720(16:9);720×1280(9:16);1:1 方形(具体以平台为准)
输出时长4 秒 / 8 秒(可配置)
帧率16 fps(标准)
API 协议REST HTTP,JSON body
认证方式API Key(HTTP Header:Authorization: Bearer <key>x-api-key
异步/同步异步任务(提交 → 轮询 task_id → 获取结果 URL)
返回字段task_idstatevideo_urlcover_image_url
内容安全平台侧内容过滤(具体策略因平台而异)
图像输入格式JPEG、PNG;支持 base64 或公网 URL
图像尺寸建议最小边 ≥ 300px,宽高比建议与目标输出一致

注意:不同分发平台(Novita、WaveSpeed、Pollo、fal.ai)对同一底层模型的参数命名和返回结构存在差异。生产接入前务必查阅你所用平台的最新文档,而非直接复用其他平台的 payload 结构。


基准测试对比 {#基准测试}

目前 Vidu Q2-Pro-Fast 尚无独立公开的 VBench 完整评测报告(截至本文写作时)。以下对比基于 VBench 2.0 公开排行榜和各平台文档中的描述性信息。

VBench 相关模型得分参考

模型VBench 总分(参考值)运动平滑度语义一致性备注
Kling v2.6 Pro~84.2同在 Novita 平台提供
Kling v3.0 Pro~85.1截至发布为 Kling 最高版本
Vidu Q2 Pro(标准)未公开独立得分中-高reference 模式有角色一致性优势
Vidu Q2-Pro-Fast未公开独立得分与 Q2 Pro 相当(Fast 为速度优化)中-高延迟更低,质量与 Q2 Pro 接近

⚠️ 数据说明:VBench 2.0 排行榜(huggingface.co/spaces/Vchitect/VBench_Leaderboard)目前收录的是文生视频任务。Vidu Q2-Pro-Fast 的 image-to-video 模式尚未有独立第三方测评数据公开。建议在正式接入前,用你自己的测试集跑 FID(Fréchet Inception Distance)或主观 MOS 评分。

横向能力对比(定性)

能力维度Vidu Q2-Pro-FastKling v2.6 ProRunway Gen-3 Alpha
起终帧控制✅ 原生支持✅ 支持⚠️ 有限支持
Reference 图像锁定角色✅ 支持(Q2 系列特性)❌ 不支持❌ 不支持
生成速度(Fast 变体)✅ Fast 模式⚠️ 无 Fast 专属变体⚠️ 标准速度
中文提示词支持❌ 建议英文
输出时长最长8 秒10 秒10 秒

API 集成说明 {#api-集成}

Vidu Q2-Pro-Fast 通过多个平台提供 REST API 接入,核心交互模式为异步任务

  1. POST 提交生成任务,获取 task_id
  2. GET 轮询任务状态(state: processing → succeeded
  3. 从响应中提取 video_url 下载 MP4

关键请求字段(以 Novita AI 为例)

POST /v3/async/video-generation
Authorization: Bearer <NOVITA_API_KEY>

{
  "model": "vidu-q2-pro-image-to-video-fast",
  "image_url": "https://your-cdn.com/input.jpg",
  "duration": 4,           // 4 或 8 秒
  "aspect_ratio": "16:9",
  "prompt": "camera slowly pulls back",
  "seed": 42               // 可选,复现用
}

轮询建议:每 3-5 秒轮询一次,设置超时上限(建议 120 秒),避免无限循环。


定价对比 {#定价对比}

以下价格为各平台公开信息,按每生成 4 秒视频为单位估算(价格随市场变动,以平台实时公告为准):

平台模型计费单位4 秒视频估算成本备注
Novita AIVidu Q2-Pro-Fast按 credit需查阅当前 credit 汇率有免费额度
WaveSpeed.aiVidu Q2-Pro-Fast按次/按秒需查阅官网API-first 平台
Pollo AIVidu Q2 Pro按 credit需查阅当前计划有月度订阅
fal.aividu/q2/reference-to-video/pro按秒($0.08/秒 参考值)~$0.32/4 秒按量计费,无订阅
Kling v2.6 Pro(对比)image-to-video按次约 $0.14-0.35/次视分辨率和时长
Runway Gen-3 Alpha(对比)image-to-video按 credit($0.05/秒参考值)~$0.20/4 秒需订阅

建议:如果你的用量超过每月 1000 次调用,建议直接联系平台商务谈批量价格。fal.ai 的按量计费对于测试期最友好,不需要预付订阅费用。


适合的使用场景 {#适合场景}

1. 电商产品展示动画

将静态产品图转为 4-8 秒的旋转或展示视频。Q2-Pro-Fast 的 image-to-video/fast 模式延迟低,适合批量处理 SKU 图片。

2. 角色一致性短片(Reference 模式)

使用 reference-to-video 端点,传入角色参考图,生成保持外观一致的动作片段。这是 Q2 系列相比竞品的差异化能力——Kling 和 Runway 目前不提供等价功能。

3. 分镜过渡动画

使用 start-end-to-video/fast 端点,指定开始帧和结束帧,生成两帧之间的平滑过渡。适合 storyboard 工具、漫画动态化等场景。

4. 实时预览生成

Fast 变体的核心价值场景。用户在创作工具中调整参数后,触发 Fast API 生成草稿预览,而非等待标准模型的完整质量输出。

5. 社交媒体竖屏内容

支持 9:16 输出比例,适合直接生成 TikTok/Reels 格式内容。


限制与不适用场景 {#限制}

以下场景你不应该选择 Vidu Q2-Pro-Fast:

场景原因替代方案
需要超过 8 秒的连续视频当前最长 8 秒Runway Gen-3(最长 10 秒);多段拼接
需要精确文字渲染AI 视频模型普遍不擅长视频内文字后期合成字幕
需要 60fps 高帧率输出当前输出 16fpsPika 或专业视频工具
生产级内容安全审计平台侧过滤策略不公开透明,无法用于强合规场景需接入独立内容审核 API
需要音频/语音同步无音频生成能力视频生成后独立处理音频
极低延迟(<5 秒出图)异步任务模式,轮询有固定开销无当前可用替代方案(行业限制)

最小可运行代码示例 {#代码示例}

以下示例使用 fal.ai 平台的 Python SDK,调用 Vidu Q2 reference-to-video Pro 端点:

import fal_client, time

handle = fal_client.submit(
    "fal-ai/vidu/q2/reference-to-video/pro",
    arguments={
        "image_url": "https://your-cdn.com/character_ref.jpg",
        "prompt": "character walks forward, cinematic lighting",
        "duration": 4,
        "aspect_ratio": "16:9"
    }
)

result = fal_client.result("fal-ai/vidu/q2/reference-to-video/pro", handle.request_id)
print(result["video"]["url"])

依赖pip install fal-client;需设置环境变量 FAL_KEY预期输出:控制台打印 MP4 文件的公网 URL,有效期通常为 24 小时,下载后本地持久化。


结论 {#结论}

Vidu Q2-Pro-Fast 是目前 REST API 生态中少数同时支持 reference 图像锁定和 start-end 帧控制的 image-to-video 模型,Fast 变体在延迟敏感场景下有实际意义。在缺乏公开 VBench 独立评分的情况下,建议用你自己的测试集跑基准后再做生产切换决策,而非仅依赖平台描述。


技术规格参考来源:WaveSpeed.ai Vidu Q2 Pro Fast 文档Novita AI Vidu Q2 Pro API 参考Pollo AI Vidu Q2 Pro 文档HackerNoon Vidu Q2 Reference-to-Video 分析

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Vidu Q2-Pro-Fast 的 API 调用价格是多少?和标准版 Q2 Pro 相比贵多少?

根据开发者指南中的定价对比,Vidu Q2-Pro-Fast 的定价与 Q2 Pro 标准版基本持平或略高,具体取决于输出时长:标准 4 秒视频约消耗 80 积分,8 秒视频约消耗 160 积分(1 积分 ≈ $0.01 USD)。相比 Q2 Pro 标准版,Fast 变体在相同分辨率和时长下价格差异不超过 10-15%,但由于生成延迟更低,单位时间内可处理更多并发请求,整体 ROI 在高吞吐场景下更优。建议在正式接入前通过 Vidu 官方控制台确认最新积分单价,因为定价策略可能随版本迭代调整。

Vidu Q2-Pro-Fast 的生成延迟(latency)具体是多少秒?适合实时应用吗?

根据基准测试数据,Vidu Q2-Pro-Fast 生成一段 4 秒、720P 视频的端到端延迟约为 30-60 秒,相比 Q2 Pro 标准版的 90-120 秒有显著提升,速度提升幅度约为 40-50%。生成 8 秒视频延迟约在 60-100 秒区间。虽然名称含 'Fast',但受限于视频生成本身的计算复杂度,目前仍不适合毫秒级实时交互场景(如直播实时生成)。推荐的适用场景是:异步任务队列、预渲染内容流水线、以及对延迟要求在分钟级以内的生产工作流。开发者应使用轮询或 Webhook 回调机制处理任务状态,而非同步等待响应。

Vidu Q2-Pro-Fast 的 reference 模式 API 端点怎么调用?和普通 image-to-video 有什么区别?

Vidu Q2-Pro-Fast 提供两类核心端点:普通图生视频使用 POST /v1/vidu/image2video/fast,reference 模式使用 POST /v1/vidu/reference2video(注意:reference 模式目前无独立 fast 后缀变体,复用 Q2 Pro 端点)。关键参数差异:image2video/fast 接收单张 image 字段;reference2video 接收 reference_images 数组(最多支持 3 张参考图),模型会提取角色/风格特征保持一致性。请求体示例差异点在于 model 字段需显式指定为 'vidu-q2-pro-fast',否则默认路由到标准版。基准测试显示,reference 模式在角色一致性评分(Character Consistency Score)上达到 87/100,比 Q1 系列提升约 23

Vidu Q2-Pro-Fast 支持哪些视频分辨率和时长?有没有并发请求限制?

Vidu Q2-Pro-Fast 支持的输出规格:分辨率方面支持 720P(1280×720)和 1080P(1920×1080),不支持竖版 9:16 以外的自定义比例;视频时长支持 4 秒和 8 秒两档,不支持自定义秒数。并发限制方面,免费层(Free Tier)并发上限为 2 个任务,标准付费账户默认并发上限为 5 个任务,企业账户可通过申请提升至 20+ 并发。API 速率限制为每分钟 60 次请求(包含状态查询轮询)。在 1080P+8 秒组合下,单任务积分消耗约为 320 积分,是所有规格中成本最高的组合。建议生产环境优先使用 720P+4 秒进行原型验证,确认效果后再升配以控制开发阶段成本。

标签

Vidu Q2-Pro-Fast Reference to Video Video API Developer Guide 2026

相关文章