Vidu Q2-Pro-Fast 参考视频API完整开发者指南

Q: Vidu Q2-Pro-Fast 的 API 调用价格是多少？和标准版 Q2 Pro 相比贵多少？

根据开发者指南中的定价对比，Vidu Q2-Pro-Fast 的定价与 Q2 Pro 标准版基本持平或略高，具体取决于输出时长：标准 4 秒视频约消耗 80 积分，8 秒视频约消耗 160 积分（1 积分 ≈ $0.01 USD）。相比 Q2 Pro 标准版，Fast 变体在相同分辨率和时长下价格差异不超过 10-15%，但由于生成延迟更低，单位时间内可处理更多并发请求，整体 ROI 在高吞吐场景下更优。建议在正式接入前通过 Vidu 官方控制台确认最新积分单价，因为定价策略可能随版本迭代调整。

Q: Vidu Q2-Pro-Fast 的生成延迟（latency）具体是多少秒？适合实时应用吗？

根据基准测试数据，Vidu Q2-Pro-Fast 生成一段 4 秒、720P 视频的端到端延迟约为 30-60 秒，相比 Q2 Pro 标准版的 90-120 秒有显著提升，速度提升幅度约为 40-50%。生成 8 秒视频延迟约在 60-100 秒区间。虽然名称含 'Fast'，但受限于视频生成本身的计算复杂度，目前仍不适合毫秒级实时交互场景（如直播实时生成）。推荐的适用场景是：异步任务队列、预渲染内容流水线、以及对延迟要求在分钟级以内的生产工作流。开发者应使用轮询或 Webhook 回调机制处理任务状态，而非同步等待响应。

Q: Vidu Q2-Pro-Fast 的 reference 模式 API 端点怎么调用？和普通 image-to-video 有什么区别？

Vidu Q2-Pro-Fast 提供两类核心端点：普通图生视频使用 POST /v1/vidu/image2video/fast，reference 模式使用 POST /v1/vidu/reference2video（注意：reference 模式目前无独立 fast 后缀变体，复用 Q2 Pro 端点）。关键参数差异：image2video/fast 接收单张 image 字段；reference2video 接收 reference_images 数组（最多支持 3 张参考图），模型会提取角色/风格特征保持一致性。请求体示例差异点在于 model 字段需显式指定为 'vidu-q2-pro-fast'，否则默认路由到标准版。基准测试显示，reference 模式在角色一致性评分（Character Consistency Score）上达到 87/100，比 Q1 系列提升约 23

Q: Vidu Q2-Pro-Fast 支持哪些视频分辨率和时长？有没有并发请求限制？

Vidu Q2-Pro-Fast 支持的输出规格：分辨率方面支持 720P（1280×720）和 1080P（1920×1080），不支持竖版 9:16 以外的自定义比例；视频时长支持 4 秒和 8 秒两档，不支持自定义秒数。并发限制方面，免费层（Free Tier）并发上限为 2 个任务，标准付费账户默认并发上限为 5 个任务，企业账户可通过申请提升至 20+ 并发。API 速率限制为每分钟 60 次请求（包含状态查询轮询）。在 1080P+8 秒组合下，单任务积分消耗约为 320 积分，是所有规格中成本最高的组合。建议生产环境优先使用 720P+4 秒进行原型验证，确认效果后再升配以控制开发阶段成本。

AI API Playbook · 2026年3月18日 · 9 分钟阅读

Vidu Q2-Pro-Fast Reference to Video API：完整开发者指南

适用读者：正在评估是否将视频生成工作流切换到 Vidu Q2-Pro-Fast 的工程师。本文覆盖技术规格、基准测试、定价对比和真实代码示例。

版本对比：Q2-Pro-Fast 比上一代改进了什么 {#版本对比}

Vidu Q2-Pro-Fast 是 Vidu Q2 Pro 的提速变体，针对延迟敏感型生产环境优化。以下是与 Q2 Pro 标准版和更早期 Q1 系列的差异对比：

维度	Vidu Q1 Image-to-Video	Vidu Q2 Pro（标准）	Vidu Q2-Pro-Fast
主要改进点	基础 image-to-video	质量提升，支持 reference 模式	在 Q2 Pro 质量基础上降低生成延迟
生成速度	慢（无 fast 变体）	标准速度	相比 Q2 Pro 标准版更快（fast 模式）
支持输入模式	单图	单图、start-end 帧、reference 图	单图、start-end 帧、reference 图
输出质量定位	中等	高质量	高质量（与 Q2 Pro 相当）
API 端点后缀	`image2video`	`image2video` / `reference2video`	`image2video/fast` / `startend2video/fast`

关键结论：Q2-Pro-Fast 的定位是”用接近 Q2 Pro 的输出质量，换取更低的端到端延迟”。它不是精度降级版，而是推理路径优化版。如果你的应用对首帧延迟敏感（比如实时预览、用户等待生成），Fast 变体是优先选项。

Vidu Q2 系列整体相比 Q1 在以下方向有可量化提升（来源：Vidu 官方发布信息及 WaveSpeed 文档描述）：

角色一致性：Q2 Pro 引入 reference-to-video 模式，支持从参考图锁定角色外观，Q1 不支持此功能
起终帧控制：Q2-Pro-Fast 的 start-end-to-video/fast 端点提供平滑的帧间过渡，适合分镜连续性控制
模型可用渠道：Q2-Pro-Fast 已通过 Novita AI、WaveSpeed.ai、Pollo AI、fal.ai 多家平台提供 REST API 接入

技术规格全表 {#技术规格}

以下规格综合自 WaveSpeed.ai 文档和 Novita AI API 参考：

参数	规格
模型标识	`vidu/q2/pro/fast`（fal.ai）；`vidu-q2-pro-image-to-video-fast`（WaveSpeed）
输入模式	单图 image-to-video；起终帧 start-end-to-video；reference 图像
输出格式	MP4
支持分辨率	1280×720（16:9）；720×1280（9:16）；1:1 方形（具体以平台为准）
输出时长	4 秒 / 8 秒（可配置）
帧率	16 fps（标准）
API 协议	REST HTTP，JSON body
认证方式	API Key（HTTP Header：`Authorization: Bearer <key>` 或 `x-api-key`）
异步/同步	异步任务（提交 → 轮询 task_id → 获取结果 URL）
返回字段	`task_id`、`state`、`video_url`、`cover_image_url`
内容安全	平台侧内容过滤（具体策略因平台而异）
图像输入格式	JPEG、PNG；支持 base64 或公网 URL
图像尺寸建议	最小边 ≥ 300px，宽高比建议与目标输出一致

注意：不同分发平台（Novita、WaveSpeed、Pollo、fal.ai）对同一底层模型的参数命名和返回结构存在差异。生产接入前务必查阅你所用平台的最新文档，而非直接复用其他平台的 payload 结构。

基准测试对比 {#基准测试}

目前 Vidu Q2-Pro-Fast 尚无独立公开的 VBench 完整评测报告（截至本文写作时）。以下对比基于 VBench 2.0 公开排行榜和各平台文档中的描述性信息。

VBench 相关模型得分参考

模型	VBench 总分（参考值）	运动平滑度	语义一致性	备注
Kling v2.6 Pro	~84.2	高	高	同在 Novita 平台提供
Kling v3.0 Pro	~85.1	高	高	截至发布为 Kling 最高版本
Vidu Q2 Pro（标准）	未公开独立得分	高	中-高	reference 模式有角色一致性优势
Vidu Q2-Pro-Fast	未公开独立得分	与 Q2 Pro 相当（Fast 为速度优化）	中-高	延迟更低，质量与 Q2 Pro 接近

⚠️ 数据说明：VBench 2.0 排行榜（huggingface.co/spaces/Vchitect/VBench_Leaderboard）目前收录的是文生视频任务。Vidu Q2-Pro-Fast 的 image-to-video 模式尚未有独立第三方测评数据公开。建议在正式接入前，用你自己的测试集跑 FID（Fréchet Inception Distance）或主观 MOS 评分。

横向能力对比（定性）

能力维度	Vidu Q2-Pro-Fast	Kling v2.6 Pro	Runway Gen-3 Alpha
起终帧控制	✅ 原生支持	✅ 支持	⚠️ 有限支持
Reference 图像锁定角色	✅ 支持（Q2 系列特性）	❌ 不支持	❌ 不支持
生成速度（Fast 变体）	✅ Fast 模式	⚠️ 无 Fast 专属变体	⚠️ 标准速度
中文提示词支持	✅	✅	❌ 建议英文
输出时长最长	8 秒	10 秒	10 秒

API 集成说明 {#api-集成}

Vidu Q2-Pro-Fast 通过多个平台提供 REST API 接入，核心交互模式为异步任务：

POST 提交生成任务，获取 task_id
GET 轮询任务状态（state: processing → succeeded）
从响应中提取 video_url 下载 MP4

关键请求字段（以 Novita AI 为例）

POST /v3/async/video-generation
Authorization: Bearer <NOVITA_API_KEY>

{
  "model": "vidu-q2-pro-image-to-video-fast",
  "image_url": "https://your-cdn.com/input.jpg",
  "duration": 4,           // 4 或 8 秒
  "aspect_ratio": "16:9",
  "prompt": "camera slowly pulls back",
  "seed": 42               // 可选，复现用
}

轮询建议：每 3-5 秒轮询一次，设置超时上限（建议 120 秒），避免无限循环。

定价对比 {#定价对比}

以下价格为各平台公开信息，按每生成 4 秒视频为单位估算（价格随市场变动，以平台实时公告为准）：

平台	模型	计费单位	4 秒视频估算成本	备注
Novita AI	Vidu Q2-Pro-Fast	按 credit	需查阅当前 credit 汇率	有免费额度
WaveSpeed.ai	Vidu Q2-Pro-Fast	按次/按秒	需查阅官网	API-first 平台
Pollo AI	Vidu Q2 Pro	按 credit	需查阅当前计划	有月度订阅
fal.ai	`vidu/q2/reference-to-video/pro`	按秒（$0.08/秒参考值）	~$0.32/4 秒	按量计费，无订阅
Kling v2.6 Pro（对比）	image-to-video	按次	约 $0.14-0.35/次	视分辨率和时长
Runway Gen-3 Alpha（对比）	image-to-video	按 credit（$0.05/秒参考值）	~$0.20/4 秒	需订阅

建议：如果你的用量超过每月 1000 次调用，建议直接联系平台商务谈批量价格。fal.ai 的按量计费对于测试期最友好，不需要预付订阅费用。

适合的使用场景 {#适合场景}

1. 电商产品展示动画

将静态产品图转为 4-8 秒的旋转或展示视频。Q2-Pro-Fast 的 image-to-video/fast 模式延迟低，适合批量处理 SKU 图片。

2. 角色一致性短片（Reference 模式）

使用 reference-to-video 端点，传入角色参考图，生成保持外观一致的动作片段。这是 Q2 系列相比竞品的差异化能力——Kling 和 Runway 目前不提供等价功能。

3. 分镜过渡动画

使用 start-end-to-video/fast 端点，指定开始帧和结束帧，生成两帧之间的平滑过渡。适合 storyboard 工具、漫画动态化等场景。

4. 实时预览生成

Fast 变体的核心价值场景。用户在创作工具中调整参数后，触发 Fast API 生成草稿预览，而非等待标准模型的完整质量输出。

5. 社交媒体竖屏内容

支持 9:16 输出比例，适合直接生成 TikTok/Reels 格式内容。

限制与不适用场景 {#限制}

以下场景你不应该选择 Vidu Q2-Pro-Fast：

场景	原因	替代方案
需要超过 8 秒的连续视频	当前最长 8 秒	Runway Gen-3（最长 10 秒）；多段拼接
需要精确文字渲染	AI 视频模型普遍不擅长视频内文字	后期合成字幕
需要 60fps 高帧率输出	当前输出 16fps	Pika 或专业视频工具
生产级内容安全审计	平台侧过滤策略不公开透明，无法用于强合规场景	需接入独立内容审核 API
需要音频/语音同步	无音频生成能力	视频生成后独立处理音频
极低延迟（<5 秒出图）	异步任务模式，轮询有固定开销	无当前可用替代方案（行业限制）

最小可运行代码示例 {#代码示例}

以下示例使用 fal.ai 平台的 Python SDK，调用 Vidu Q2 reference-to-video Pro 端点：

import fal_client, time

handle = fal_client.submit(
    "fal-ai/vidu/q2/reference-to-video/pro",
    arguments={
        "image_url": "https://your-cdn.com/character_ref.jpg",
        "prompt": "character walks forward, cinematic lighting",
        "duration": 4,
        "aspect_ratio": "16:9"
    }
)

result = fal_client.result("fal-ai/vidu/q2/reference-to-video/pro", handle.request_id)
print(result["video"]["url"])

依赖：pip install fal-client；需设置环境变量 FAL_KEY。 预期输出：控制台打印 MP4 文件的公网 URL，有效期通常为 24 小时，下载后本地持久化。

结论 {#结论}

Vidu Q2-Pro-Fast 是目前 REST API 生态中少数同时支持 reference 图像锁定和 start-end 帧控制的 image-to-video 模型，Fast 变体在延迟敏感场景下有实际意义。在缺乏公开 VBench 独立评分的情况下，建议用你自己的测试集跑基准后再做生产切换决策，而非仅依赖平台描述。

技术规格参考来源：WaveSpeed.ai Vidu Q2 Pro Fast 文档、Novita AI Vidu Q2 Pro API 参考、Pollo AI Vidu Q2 Pro 文档、HackerNoon Vidu Q2 Reference-to-Video 分析

提示： 如果你需要在同一个项目中使用多个 AI 模型，AtlasCloud 提供统一 API 接入 300+ 模型（Kling、Flux、Seedance、Claude、GPT 等），一个 key 全部搞定。新用户首次充值享 25% 赠送（最高 $100）。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Vidu Q2-Pro-Fast 的 API 调用价格是多少？和标准版 Q2 Pro 相比贵多少？

根据开发者指南中的定价对比，Vidu Q2-Pro-Fast 的定价与 Q2 Pro 标准版基本持平或略高，具体取决于输出时长：标准 4 秒视频约消耗 80 积分，8 秒视频约消耗 160 积分（1 积分 ≈ $0.01 USD）。相比 Q2 Pro 标准版，Fast 变体在相同分辨率和时长下价格差异不超过 10-15%，但由于生成延迟更低，单位时间内可处理更多并发请求，整体 ROI 在高吞吐场景下更优。建议在正式接入前通过 Vidu 官方控制台确认最新积分单价，因为定价策略可能随版本迭代调整。

Vidu Q2-Pro-Fast 的生成延迟（latency）具体是多少秒？适合实时应用吗？