Vidu Q3参考视频API完整开发者指南 | 快速集成教程

Q: Vidu Q3 的 reference to video 最多支持几张参考图？对图片格式有什么限制？

Vidu Q3 的 reference to video 功能支持单张或多张参考图输入，图像通过 URL 方式传入 API 请求体。标准 Q3 和 Q3 Turbo 均支持多张参考图，适合需要保持多角色或多场景元素一致性的工作流。这是相比 Vidu Q1 的核心新增能力——Q1 完全不支持 reference to video 模式。在分辨率支持上，Q3 标准版支持 540p、720p、1080p，时长支持 4 秒和 8 秒；Q3 Turbo 仅支持 540p 和 720p，时长限 4 秒。输出格式统一为 MP4。对于参考图的具体数量上限、单张图片文件大小限制及支持的图片格式（如 JPEG/PNG/WebP），建议查阅 WaveSpeed AI 或 Novita AI 的最新 API 文档，不同平台封装可能存在细微差异。

Q: Vidu Q3 和同类模型（如 Kling、Runway）相比，视频质量基准测试数据如何？

根据现有文档，Vidu Q3 相比上一代 Vidu Q1 有可量化的提升：最高输出分辨率从 720p 提升至 1080p（提升 50%），新增 8 秒时长选项（Q1 最长 4 秒），并新增动漫风格生成、背景音乐生成（Audio & Video Direct Generation）及 reference to video 模式。这些是官方公布的硬性规格差异。在与 Kling、Runway Gen-3、Sora 等竞品的横向基准测试（如 VBench、EvalCrafter 评分）方面，当前文档未披露具体跑分数据。对于需要量化对比的开发者，建议参考第三方评测机构（如 Artificial Analysis）发布的视频生成模型排行榜，或自行使用标准测试集（固定 prompt + 参考图组合）对多个模型进行 A/B 测试，重点评估角色一致性、运动流畅度和文本遵循度三个维度。

AI API Playbook · 2026年4月2日 · 8 分钟阅读

Vidu Q3 Reference to Video API：完整开发者指南

Vidu Q3 是生数科技（Shengshu Technology）推出的最新视频生成模型。本文聚焦于其 reference to video 功能——即以参考图像为锚点、结合文本描述生成视频的工作流。如果你正在评估是否将生产环境中的视频生成任务切换至该模型，以下内容提供你需要的所有技术细节。

Vidu Q3 vs 前代版本：有哪些实质性改进

Vidu Q3 相比 Vidu Q1 在以下维度有明确提升：

指标	Vidu Q1	Vidu Q3	变化幅度
最高输出分辨率	720p	1080p	+50%
支持时长	4s	4s / 8s	新增 8s 选项
动漫风格生成	不支持	支持	新增
背景音乐生成	不支持	支持（Audio & Video Direct Generation）	新增
Reference to Video 模式	不支持	支持（单张或多张参考图）	新增
Turbo 变体	无	Vidu Q3 Turbo	新增

Q3 的核心突破集中在两点：1）reference to video 工作流的引入，让角色/场景一致性从纯文本驱动转向图像锚点驱动；2）Turbo 变体大幅压缩了推理延迟，适合对响应时间敏感的场景。

数据来源：WaveSpeed AI Vidu Q3 文档、Novita AI Vidu Q1/Q3 对比文档

完整技术规格

模型基础参数

参数	Vidu Q3	Vidu Q3 Turbo
接口类型	REST API（异步任务）	REST API（异步任务）
请求方式	POST（提交）/ GET（查询）	POST（提交）/ GET（查询）
支持分辨率	540p、720p、1080p	540p、720p
支持时长	4s、8s	4s
输出格式	MP4	MP4
参考图输入	单张或多张 URL	单张或多张 URL
动漫风格模式	✅	✅
背景音乐生成	✅（Audio & Video Direct Generation）	❌
Webhook 支持	✅	✅
认证方式	Bearer Token	Bearer Token

Reference to Video 两种子模式

根据 Vidu 官方平台文档（platform.vidu.com/docs/reference-to-video），reference to video 包含两个子模式，使用相同的请求地址和请求头：

子模式	说明	适用场景
Video Direct Generation	仅生成视频，无音轨	需要后期配音、混音的工作流
Audio & Video Direct Generation	同步生成视频 + 背景音乐	短视频内容、社交媒体素材直出

两个子模式通过请求体中的参数字段区分，不需要调用不同的 endpoint。

主要限制参数

reference_image_urls：接受图像 URL 数组，图像需为公开可访问的 HTTPS 链接
prompt：纯文本描述，建议英文以获得最优效果（中文提示词支持，但一致性略低）
任务为异步模式，提交后需轮询或等待 Webhook 回调获取结果

基准测试对比

目前 Vidu Q3 尚无完整的独立第三方 VBench 评测公开数据（截至本文撰写时）。以下对比基于可获取的公开数据和平台文档，供参考而非最终结论。

主观质量与功能对比

模型	最高分辨率	最长时长	Reference/Image 输入	动漫风格	音频生成
Vidu Q3	1080p	8s	✅（多图参考）	✅	✅
Kling v2.6 Pro	1080p	10s	✅（单图）	❌	❌
Runway Gen-3 Alpha	1080p	10s	✅（图像参考）	❌	❌
Pika 2.2	1080p	10s	✅	❌	✅（部分）

注意：Kling v2.6 Pro 和 Runway Gen-3 在 VBench 整体质量评分中处于当前同级别模型的前列。Vidu Q3 的差异化优势在于多图参考一致性和内置动漫风格，而非原始画质评分。

速度对比（估算）

模型	4s 视频平均生成时间	Turbo 变体
Vidu Q3	~60–90s（1080p）	~20–40s（Q3 Turbo，720p）
Kling v2.5 Turbo	~30–50s	✅
Runway Gen-3	~90–120s	❌

以上生成时间数据来自 WaveSpeed AI 和 PromeAI 文档中的参考值，实际时间受服务器负载影响。

定价对比

平台 / 模型	计费单位	参考价格
Vidu Q3（官方平台）	按积分/生成数	约 $0.08–$0.20/视频（分辨率相关）
Vidu Q3（via fal.ai）	按请求	约 $0.10–$0.25/请求
Vidu Q3 Turbo（Novita AI）	按生成数	低于标准版约 30–40%
Kling v2.6 Pro	按积分	约 $0.14–$0.35/视频
Runway Gen-3 Alpha	按积分（$10/500 credits）	约 $0.20–$0.40/视频
Pika 2.2	订阅制为主	$8/月起（有限生成数）

定价数据来源：fal.ai 模型 API 文档、Novita AI 文档、各平台公开定价页（价格可能随时调整，以官网为准）。

结论：Vidu Q3 Turbo 通过 Novita AI 接入是当前成本最低的高质量选项之一，适合高频调用场景。如需 1080p + 音频，走官方平台或 fal.ai。

最佳适用场景

1. 角色一致性动画

场景：你有一套角色概念图，需要批量生成不同动作/场景的短视频片段，且角色外观必须保持一致。

为什么选 Vidu Q3：reference_image_urls 支持传入多张参考图，模型会尝试保持参考图中角色的视觉特征。这是纯文本模型（如 Runway Gen-3 不开 Act-One 模式时）做不到的。

2. 动漫/二次元内容生成

场景：游戏公司、漫画平台需要批量生成宣传片、角色动态展示。

为什么选 Vidu Q3：原生支持动漫风格，无需 LoRA fine-tuning 或额外 prompt engineering。

3. 社交媒体素材快速生产

场景：需要生成带背景音乐的短视频素材，直接上传至抖音/Instagram。

为什么选 Vidu Q3：Audio & Video Direct Generation 子模式可以在单次 API 调用中同时输出视频和背景音乐，减少后期制作步骤。

4. 中等成本、高频调用的产品集成

场景：你的 SaaS 产品需要为每个用户请求生成个性化视频，每天调用量 > 500 次。

为什么选 Vidu Q3 Turbo：Turbo 变体在 Novita AI 上的定价比标准版低约 30–40%，且延迟更低，适合产品侧集成。

已知局限与不建议使用的场景

局限	说明
最长 8 秒	对于需要 > 10s 连续叙事的场景（如完整广告片），需要多段拼接，有跳接风险。Kling v2.6 Pro 支持 10s。
异步任务模式	没有同步响应。最快也需要 20s+，不适合要求实时生成的场景（如直播互动）。
Turbo 变体不支持 1080p	Turbo 最高 720p，如需 1080p 需使用标准版，速度下降明显。
Turbo 无音频输出	Q3 Turbo 不支持 Audio & Video Direct Generation。
参考图依赖 HTTPS 公开 URL	内部私有图像需要先上传至对象存储（如 S3、OSS）再传入，增加工程复杂度。
中文 prompt 效果略差	官方未明确说明，但实际测试中英文 prompt 在细节控制上更稳定。
无原生 ControlNet/骨骼控制	如需精确动作控制，需结合其他工具预处理。

最小可运行代码示例

以下示例通过 fal.ai 调用 Vidu Q3 reference to video，使用参考图像生成 4 秒动画：

import fal_client

result = fal_client.subscribe(
    "fal-ai/vidu/reference-to-video",
    input={
        "prompt": "The character walks along the beach at sunset, gentle waves in background.",
        "reference_image_urls": [
            "https://your-bucket.s3.amazonaws.com/character-reference.png"
        ],
        "duration": "4",
        "resolution": "720p",
        "style": "general"  # or "anime"
    },
    with_logs=True
)

print(result["video"]["url"])

前置条件：pip install fal-client，并设置环境变量 FAL_KEY。完整参数列表参见 fal.ai Vidu reference-to-video 文档。

接入路径对比

你有三条主要接入路径，各有适用场景：

接入路径	适用场景	认证方式	文档质量
platform.vidu.com（官方）	需要最新功能、音频生成	API Key	完整但更新周期较慢
fal.ai	快速集成、Webhook 支持好、文档清晰	FAL_KEY	⭐⭐⭐⭐⭐
Novita AI	成本敏感、高频 Turbo 调用	API Key	⭐⭐⭐⭐
WaveSpeed AI	全模型聚合，统一账单	API Key	⭐⭐⭐

建议：原型阶段用 fal.ai（文档最清晰、SDK 支持最好）；生产高频调用考虑 Novita AI Turbo 降成本；需要音频生成走官方平台。

结论

Vidu Q3 reference to video API 的差异化价值集中在两点：多图参考的角色一致性控制，以及原生动漫风格支持——这两个特性在同价位竞品中并不常见。对于 8 秒以上的长视频需求、实时响应场景，或需要精确动作控制的工作流，它目前仍不是最优选择。

提示： 如果你需要在同一个项目中使用多个 AI 模型，AtlasCloud 提供统一 API 接入 300+ 模型（Kling、Flux、Seedance、Claude、GPT 等），一个 key 全部搞定。新用户首次充值享 25% 赠送（最高 $100）。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Vidu Q3 API 的价格是多少？生成一个 1080p 8 秒视频需要花多少钱？

根据 WaveSpeed AI 文档，Vidu Q3 采用按积分计费模式。生成 1080p 分辨率视频费用最高，8 秒时长比 4 秒时长消耗约 2 倍积分。Vidu Q3 Turbo 变体价格更低，但仅支持最高 720p 和 4 秒时长。相比之下，Vidu Q1 的单次生成费用低于 Q3，但不支持 reference to video 功能。建议开发者在生产环境中优先用 Turbo 变体处理对画质要求不高的批量任务，标准 Q3 用于高质量输出场景，以控制整体 API 调用成本。具体单价请以 WaveSpeed AI 或 Novita AI 官方定价页为准，因渠道不同可能存在差异。

Vidu Q3 Turbo 的推理延迟是多少？适合实时应用吗？

Vidu Q3 Turbo 相比标准 Q3 大幅压缩了推理延迟，是对响应时间敏感场景的推荐选项。根据文档描述，Turbo 变体的异步任务完成时间显著短于标准版本，适合需要快速返回结果的产品场景。标准 Vidu Q3 生成 1080p 8 秒视频的任务队列等待加推理时间较长，不适合实时交互。Turbo 版本限制为 540p/720p 分辨率和最长 4 秒时长，换取的是更低的端到端延迟。两者均为 REST API 异步任务模式（POST 提交 + GET 轮询），不支持 WebSocket 流式返回，因此严格意义上的实时（<1 秒响应）场景目前不适用。建议开发者在测试环境中实测 P50/P95 延迟后再做架构决策。

Vidu Q3 的 reference to video 最多支持几张参考图？对图片格式有什么限制？