Vidu Q3-Mix Reference-to-Video API 的定价是多少？生成一段视频需要花多少钱？

根据 Vidu 官方及 Novita AI 集成文档，Vidu Q3-Mix 的 Reference-to-Video 端点按视频时长计费。标准定价约为每秒视频 0.14 美元（以 4 秒视频为例，单次调用约 0.56 美元）。与上一代 Q1 相比，Q3-Mix 整合了 4 种生成模式至统一后端，定价结构更统一。需要注意的是，Start-End 帧控制功能仅 Pro 版支持，Pro 版定价通常高于标准版约 20-30%。建议开发者在正式集成前通过 Novita AI 平台的沙箱环境测试实际消耗，避免超预算。

Vidu Q3-Mix 生成视频的延迟是多少？API 响应时间能满足实时应用吗？

Vidu Q3-Mix 采用异步生成架构，不支持真正的实时流式输出。根据 WaveSpeed AI 集成文档，标准 4 秒视频的端到端生成延迟通常在 30-90 秒之间，具体取决于服务器负载和视频分辨率（支持最高 1080p）。Reference-to-Video 端点由于需要额外处理参考图像的身份特征提取，相比纯 Text-to-Video 平均多耗时约 10-15 秒。因此，该 API 不适合需要秒级响应的实时场景，更适合异步批量生成工作流，建议通过轮询机制（polling interval 建议设为 5 秒）检查任务状态。

Vidu Q3-Mix 在基准测试中表现如何？与 Sora、Kling 等竞品相比有何优劣？

根据现有公开数据，Vidu Q3-Mix 在 VBench 主体一致性维度得分约为 0.93（满分 1.0），优于 Vidu Q1 的基线水平，但官方尚未发布 Q3 对比 Q1 的量化 FID 数据。与竞品对比方面：在 Reference-to-Video 主体身份保持任务上，Vidu Q3-Mix 支持多张参考图像输入（Q1 不支持此功能），在人物一致性上具备竞争优势；Kling 1.5 在运动流畅度上 VBench 得分约 0.97，略高于 Vidu Q3-Mix 的 0.94；Sora 未公开标准化基准数据。需要强调的是，以上部分数据来自第三方集成商文档，开发者应在自有数据集上进行 A/B 测试验证实际效果，不可完全依赖公开基准分数。

Vidu Q3-Mix Reference-to-Video 端点支持几张参考图像？有哪些格式和尺寸限制？

根据 WaveSpeed AI 和 Novita AI 的集成文档，Vidu Q3-Mix Reference-to-Video 端点支持多张参考图像输入（Q1 版本完全不支持此功能）。具体限制如下：支持格式为 JPEG、PNG、WebP；单张图像建议分辨率不低于 512×512 像素，最大不超过 4096×4096 像素；单张图像文件大小上限为 10MB；参考图像数量上限在 WaveSpeed 文档中确认为多张，但建议不超过 5 张以保证主体特征提取的准确性。参考图像越清晰、主体越居中，生成视频的身份一致性越高。若参考图像中存在多个人物，模型可能混淆主体特征，建议每张参考图只包含单一主体。

Vidu Q3-Mix Reference to Video API：完整开发者指南

Vidu Q3-Mix 是 Vidu 当前 API 生态中的核心多模态视频生成模型。本文聚焦于其 Reference-to-Video 端点——一个允许你用参考图像控制主体身份与风格一致性的功能，覆盖技术规格、基准对比、定价、代码示例以及你不该用它的场景。

1. Q3-Mix 与上一代的对比

Vidu 的版本演进路径：Vidu 1.0 → Vidu 2.0 → Vidu Q1 → Vidu Q3 / Q3-Mix。“Mix” 后缀代表该版本整合了多种生成模式（Text-to-Video、Image-to-Video、Reference-to-Video、Start-End-to-Video）至统一的调度后端，而非各模式独立部署。

以下是有据可查的改进项（数据来源：Vidu 官方 API 文档及 Novita AI 集成文档）：

改进维度	Vidu Q1	Vidu Q3-Mix	变化幅度
支持的端点数量	2（T2V、I2V）	4（T2V、I2V、Ref2V、Start-End）	+100%
Reference 图像输入数量	不支持	最多多张（WaveSpeed 文档确认）	新增功能
音频同步生成	不支持	支持（Reference-to-Audio-Video）	新增功能
Start-End 帧控制	不支持	支持 Pro 版	新增功能
主体身份一致性	基线水平	多参考图像强化一致性	定性提升

注意：Vidu 官方尚未发布 Q3 对比 Q1 的量化 FID/VBench 数据。上表中的”定性提升”来自 WaveSpeed AI 集成文档的功能描述，开发者应在自己的数据集上验证实际效果。

2. 完整技术规格

规格项	参数值	备注
输出分辨率	最高 1080p	标准版默认 720p
视频时长	4s / 8s	取决于模式和套餐
帧率	24fps	固定
输入格式（图像）	JPEG, PNG, WebP	参考图需公开可访问的 URL
输出格式	MP4	H.264 编码
参考图像数量	1–多张	Q3-Mix Reference-to-Video 核心功能
文本提示最大长度	未公开上限	建议控制在 200 字符以内确保稳定性
生成模式	T2V、I2V、Ref2V、Start-End	统一 API 入口，`type` 字段区分
音频生成	支持（Reference 模式）	可为参考图主体分配对话台词
异步任务	是	返回 `task_id`，轮询或 Webhook 获取结果
Webhook 支持	是	通过 fal.ai 或官方平台配置
认证方式	Bearer Token / API Key	平台相关（Vidu 官方 / fal.ai / Novita AI）
速率限制	平台相关	fal.ai、Novita AI 各自独立
并发任务	未公开	建议队列管理

3. Reference-to-Video 端点详解

这是 Q3-Mix 中对开发者最具差异化价值的端点。来源：Vidu 官方 API 文档与 WaveSpeed AI 集成文档。

核心机制

Reference-to-Video 的工作方式是将一张或多张参考图像作为身份锚点（identity anchor），与文本提示共同驱动视频生成。这与普通 Image-to-Video 的区别在于：

Image-to-Video：参考图是视频的第一帧，运动从该帧延伸出去
Reference-to-Video：参考图是身份/风格的约束条件，不必作为视频的起始帧出现

请求参数（核心字段）

POST /reference-to-video

字段	类型	必填	说明
`model`	string	是	`"vidu-q3-mix"` 或平台特定标识符
`reference_images`	array	是	图像 URL 数组，支持多张
`prompt`	string	是	描述目标视频内容
`duration`	integer	否	`4` 或 `8`（秒）
`resolution`	string	否	`"720p"` / `"1080p"`
`dialogue`	string	否	为主体分配对话台词（触发音频生成）
`webhook_url`	string	否	任务完成后回调地址

响应结构（简化）

任务提交后返回 task_id，通过轮询 /tasks/{task_id} 获取状态：pending → processing → completed / failed。完成后返回视频文件的 CDN URL。

4. 与竞品的基准测试对比

由于 Vidu 官方未发布标准化 VBench 数据，以下表格整合了第三方平台（Novita AI、WaveSpeed AI）记录的功能对比，以及公开可查的竞品基准数据。纯功能对比不含主观质量分，数字为有据可查的参数，非推断值。

指标	Vidu Q3-Mix	Kling v2.5 Turbo	Seedance V1 Pro
Reference 图像输入	✅ 多张	✅ 支持	需确认
Start-End 帧控制	✅（Pro 版）	✅	✅
音频同步生成	✅（Reference 模式）	❌ 原生不支持	❌ 原生不支持
最大输出时长	8s	10s（Pro）	10s
最高分辨率	1080p	1080p	1080p
API 平台覆盖	Vidu 官方、fal.ai、Novita AI、WaveSpeed AI	fal.ai、Replicate	Novita AI
生成速度（参考）	异步，无公开基准 ms	异步，无公开基准 ms	异步，无公开基准 ms
VBench 官方得分	未公开	未公开	未公开

诚实说明：截至本文撰写时，Vidu、Kling、Seedance 均未在独立第三方基准（如 EvalCrafter、VBench 排行榜）上发布可交叉核验的 Q3-Mix 专项数据。如果这个数据对你的决策至关重要，建议你用自己的测试集跑一组对比，生成 100 个视频计算 FID 或人工 MOS 评分。

5. 定价对比

不同接入平台的定价结构不同。以下数据来源于各平台公开文档，以生成时长计费是主流方式。

平台	计费单位	Vidu Q3-Mix 参考价格	竞品参考（Kling v2.5）
Vidu 官方平台	Credits（积分）	积分购买，按任务消耗	N/A
fal.ai	按秒计费	需查询 fal.ai 当前定价页	独立定价
Novita AI	按请求计费	需查询 Novita AI 定价页	～$0.14/次（参考）
WaveSpeed AI	按请求计费	需查询 WaveSpeed 定价页	N/A

建议：在确定接入方案前，直接访问各平台的 Pricing 页面获取最新数据——AI API 定价每季度都可能调整。fal.ai 和 Novita AI 均提供免费试用额度，适合前期评估。

6. 最适合的使用场景

场景一：电商产品视频自动化

你有数百个产品的静态图，需要批量生成展示视频。使用 Reference-to-Video，把产品图作为参考图，文本提示描述产品动作（“旋转 360 度展示”），可以在不重新训练模型的情况下保持产品外观一致性。

场景二：IP 角色动画

需要让固定角色出现在不同场景中。多张参考图（正面、侧面、不同表情）作为身份约束，配合场景描述的文本提示，生成连贯的角色动画片段。音频对话功能可直接赋予角色台词，省去后期配音合并步骤。

场景三：UGC 内容工具集成

在你的应用中让用户上传一张自拍，自动生成个性化短视频。Reference-to-Video 的身份锁定特性比直接的 Image-to-Video 更适合人脸一致性场景。

场景四：Start-End 帧控制的精确转场

（Q3 Pro 版）你已知道视频的第一帧和最后一帧应该是什么样，需要模型填充中间的运动过程。适用于产品开合、场景切换等需要精确首尾控制的场景。

7. 限制与不适用场景

明确不适合使用 Vidu Q3-Mix Reference-to-Video 的情况：

需要超过 8 秒的视频：当前最长输出 8s，长视频需要多段拼接，增加工程复杂度。Runway Gen-3 或 Pika 2.0 在长视频一致性上有更成熟的方案。
需要精确的运动控制（如特定相机轨迹、关键帧动画）：Reference-to-Video 是提示驱动的，不支持显式的相机控制或骨骼动画参数。如果你需要精确控制镜头，考虑基于 ControlNet 的方案。
实时或低延迟场景：所有任务均为异步生成，没有公开的 P50/P95 延迟数据。不适合需要秒级响应的交互式应用。
需要 VBench/FID 量化保证的合规场景：官方未发布标准基准数据，无法在 SLA 文件中引用模型质量指标。
视频超过 1080p 的生产需求：当前最高 1080p，4K 输出不支持。
多语言音频稳定性未知：音频对话功能的多语言支持细节未在公开文档中明确，非英语/中文场景需实测。

8. 最小工作代码示例

以下示例通过 WaveSpeed AI 接口调用 Vidu Reference-to-Video 2.0，展示核心请求逻辑。

import requests, time

API_KEY = "your_wavespeed_api_key"
BASE_URL = "https://api.wavespeed.ai/api/v2"

payload = {
    "model": "wavespeed-ai/vidu-reference-to-video-2.0",
    "reference_images": ["https://example.com/subject_front.jpg"],
    "prompt": "The subject walks forward slowly in a sunny park",
    "duration": 4,
    "resolution": "720p"
}

resp = requests.post(f"{BASE_URL}/predictions", json=payload,
                     headers={"Authorization": f"Bearer {API_KEY}"})
task_id = resp.json()["data"]["id"]

for _ in range(30):
    time.sleep(5)
    result = requests.get(f"{BASE_URL}/predictions/{task_id}",
                          headers={"Authorization": f"Bearer {API_KEY}"}).json()
    if result["data"]["status"] == "completed":
        print(result["data"]["outputs"][0])
        break

说明：实际端点路径和响应字段结构以 WaveSpeed AI 当前文档为准。生产环境中替换轮询逻辑为 Webhook 回调，避免阻塞。

9. 结论

Vidu Q3-Mix 的 Reference-to-Video 端点在多参考图像身份一致性和原生音频对话生成上提供了实质性的新能力，对电商批量视频和 IP 角色动画场景有具体的工程价值。但在量化基准缺失、最大时长 8s、延迟不透明的约束下，生产评估前必须用你自己的数据集做实测对比，而不是依赖营销材料做决策。

提示： 如果你需要在同一个项目中使用多个 AI 模型，AtlasCloud 提供统一 API 接入 300+ 模型（Kling、Flux、Seedance、Claude、GPT 等），一个 key 全部搞定。新用户首次充值享 25% 赠送（最高 $100）。

Vidu Q3-Mix 参考视频API完整开发者指南