Wan-2.7图像转视频API完整开发者指南
Wan-2.7 Image-to-Video API:完整开发者指南
Wan-2.7 是阿里巴巴 Wan AI 团队发布的最新视频生成模型,在上一版本的基础上新增了指令式编辑、参考帧控制和多图输入等功能。本文覆盖 API 技术规格、基准测试对比、定价分析和具体使用建议,帮助你判断它是否值得迁移。
Wan-2.7 vs 前代版本:具体改进了什么
Wan 系列从 2.2、2.5 到 2.6 一路迭代,每次升级都有明确的功能边界。2.7 的变化集中在三个方向:
1. 指令式视频编辑(Instruction-based Editing) 前代版本(2.6 及以下)只能通过 prompt 驱动生成,无法对现有视频做局部修改。Wan-2.7 引入了基于文本指令的编辑流程,可以直接告诉模型”把背景换成夜晚”或”让人物向左移动”,而不需要重新生成整段视频。来源:Together AI 模型页
2. First & Last Frame 控制 Wan-2.7 支持同时指定视频的第一帧和最后一帧,让模型在两个固定锚点之间自动插值生成中间动画。这对需要精确控制镜头起点和终点的生产场景(如广告、产品展示)意义很大。前代版本中 last frame 控制能力不完整,2.7 将其作为一等公民特性支持。来源:WaveSpeed AI 指南
3. 9-Grid 多图输入(3×3 Multi-Input) Wan-2.7 支持以 3×3 网格形式同时传入最多 9 张参考图像,模型可以跨图提取风格、角色和场景特征后合成视频。这在 2.6 中不存在。来源:Medium 功能汇总
4. 时序特征迁移(Temporal Feature Transfer) 这是 2.7 独有的机制,允许从一段参考视频中提取运动模式,再应用到新的输入图像上生成具有相似动态节奏的视频。前代版本没有此功能。
技术规格表
| 参数 | 规格 |
|---|---|
| 输入类型 | 图像(image-to-video)、文本(text-to-video)、视频(指令式编辑) |
| 最大输出分辨率 | 1280×720(HD);部分 provider 支持 720×1280 竖版 |
| 视频时长 | 4秒 / 8秒(典型选项,具体以 provider 参数为准) |
| 帧率 | 16 fps(默认);部分接口可调 |
| First/Last Frame 控制 | 支持,均为可选参数 |
| 多图输入 | 支持 9-Grid(3×3),最多 9 张参考图 |
| 指令编辑 | 支持文本指令直接修改现有视频 |
| 时序特征迁移 | 支持,需传入参考视频 |
| 推理模式 | 异步队列(async job),非流式 |
| 输出格式 | MP4 |
| 典型推理延迟 | 约 60–180 秒(取决于分辨率和 provider 负载) |
| 可用 API Provider | Together AI、Kie.ai、WaveSpeed AI、Pixazo AI |
注:延迟数据来自社区实测,官方未公布标准 SLA。生产环境建议自行压测。
基准测试对比
视频生成领域目前主流评测工具是 VBench,从主题一致性、动作流畅性、画面质量等多个维度给出 0–100 的分项得分。以下数据来自公开评测结果和社区报告,截止时间 2025 年上半年。
| 模型 | VBench 综合分 | 动作流畅性 | 主题一致性 | First/Last Frame 控制 | 指令编辑 |
|---|---|---|---|---|---|
| Wan-2.7 | ~83.5 | 较高 | 较高 | ✅ 原生支持 | ✅ 原生支持 |
| Wan-2.6 | ~82.1 | 中高 | 中高 | ⚠️ 仅 first frame | ❌ |
| Kling 1.6 | ~84.2 | 高 | 高 | ✅ 支持 | ❌ |
| Stable Video Diffusion (SVD-XT) | ~79.3 | 中 | 中 | ⚠️ 仅 first frame | ❌ |
解读:
- Wan-2.7 的 VBench 综合分(~83.5)与 Kling 1.6(~84.2)处于同一量级,差距在统计误差范围内。
- 相比 SVD-XT,Wan-2.7 在主题一致性上有明显优势,尤其在多图输入场景下。
- Wan-2.7 的竞争优势不在纯质量分,而在 功能覆盖:First/Last Frame + 指令编辑 + 多图输入三者同时具备,其他模型目前没有全部支持的。
数据来源:VBench 官方排行榜(2025)、WaveSpeed AI 技术博客。具体分数会随模型更新变化,建议以最新排行榜为准。
定价对比
Wan-2.7 目前没有官方统一定价,各 provider 定价策略不同,以下为主要平台的参考价格(均为图像转视频,以生成一个约 5 秒视频为基准):
| Provider | 计费单位 | 参考价格 | 备注 |
|---|---|---|---|
| Together AI | 按秒/按帧计费 | ~$0.05–0.08 / 视频秒 | 支持企业 API,有免费额度 |
| Kie.ai | 按次计费 | ~$0.02–0.05 / 次 | 标注为”affordable”,适合批量场景 |
| WaveSpeed AI | 按次或订阅 | 订阅制,具体见官网 | 侧重生产工作流集成 |
| Pixazo AI | 按次计费 | 支持 Wan 2.2/2.5/2.6,2.7 需确认 | 多版本共存 |
| Kling 1.6(对比) | 按积分 | ~$0.08–0.15 / 视频 | 质量相当,价格偏高 |
| Runway Gen-3(对比) | 按秒 | ~$0.05 / 秒,订阅起 $15/月 | 生态成熟,成本更高 |
结论: 如果你的场景是高频批量生成,Kie.ai 的单次成本最低。如果需要企业级 SLA 和更稳定的 API,Together AI 是更合适的选择。
最佳使用场景
1. 电商产品动态展示 输入产品静态图作为 first frame,指定结束状态(如产品旋转 90 度后正视)作为 last frame,模型自动补全中间动画。避免了手动关键帧的工作量。
2. 角色动画原型 使用 9-Grid 多图输入,传入角色不同角度的参考图,生成保持外观一致性的动态片段。适合游戏/动画团队在正式制作前快速验证角色运动方向。
3. 视频风格迁移 通过时序特征迁移功能,从一段参考视频中提取镜头运动节奏(如推拉摇移),应用到新的静态图像上。适合需要保持视觉节奏统一的系列内容。
4. 局部视频修改(指令编辑) 已有一段生成视频,只想修改背景或局部元素,不需要重新生成整段。直接传入视频 + 编辑指令,成本和时间都比重新生成低。
5. 广告分镜快速迭代 创意团队需要在正式拍摄前验证分镜效果,可以用概念图生成 5–8 秒的动态预览,review 成本接近零。
明确不适合使用的场景
在这些场景下,Wan-2.7 不是最佳选择:
- 需要超过 10 秒的连续视频:当前支持的单次生成时长在 4–8 秒范围内,生成更长内容需要拼接,会出现场景衔接不自然的问题。
- 实时或低延迟场景:推理时间在 60–180 秒,不适合需要秒级响应的交互式应用。
- 高精度人脸动画:模型对人脸细节的保持能力不如专门的 face-driven 方案(如 SadTalker、LivePortrait)。如果核心需求是人脸驱动,选专门工具。
- 需要精确音画同步:Wan-2.7 不生成音频,视频内容也不以音频为驱动依据。音画同步需要后期处理。
- 生产级 SLA 要求严格:API 当前无官方 uptime SLA 承诺,各 provider 延迟波动较大,不适合对可用性要求极高的场景。
最小可用代码示例
以下示例使用 Together AI 的接口,演示最基础的 image-to-video 调用(含 first/last frame 参数):
import together
import base64, time
client = together.Together(api_key="YOUR_API_KEY")
with open("first_frame.jpg", "rb") as f:
first_b64 = base64.b64encode(f.read()).decode()
with open("last_frame.jpg", "rb") as f:
last_b64 = base64.b64encode(f.read()).decode()
response = client.images.generate(
model="wan-ai/wan2.7-i2v-720p",
prompt="a product rotating slowly on a white surface",
image=f"data:image/jpeg;base64,{first_b64}",
last_frame=f"data:image/jpeg;base64,{last_b64}",
width=1280, height=720, duration=5
)
print(response.data[0].url)
注意: Together AI 的实际参数名称(
last_frame、duration)需以其最新 API 文档为准,上方仅为示意。异步场景下应使用 job ID 轮询而非直接等待返回。
局限性汇总
| 局限 | 具体表现 | 建议规避方式 |
|---|---|---|
| 生成时长上限 | 单次最长约 8 秒 | 分段生成后拼接,注意场景连贯性 |
| 推理延迟高 | 60–180 秒 | 使用队列架构,避免同步等待 |
| 人脸保真度有限 | 细节失真、微表情不准 | 换用 face-driven 专用模型 |
| 无音频输出 | 只输出静音视频 | 后期叠加音频轨道 |
| 无官方 SLA | Provider 间质量和可用性不一致 | 生产前压测各 provider,做 fallback |
| 多图一致性取决于输入质量 | 9-Grid 输入图差异过大会导致风格混乱 | 确保参考图角度和光线统一 |
结论
Wan-2.7 的核心价值不在于单项质量分(VBench ~83.5,与 Kling 1.6 相近),而在于它是目前少数同时具备 First/Last Frame 控制、指令式编辑和 9-Grid 多图输入的公开 API 模型。如果你的工作流需要可预测的帧控制和批量迭代能力,且能接受 60 秒以上的推理延迟,它值得在生产环境中评估;如果你的核心需求是实时响应或高保真人脸动画,它不是正确的工具。
提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。
在 AtlasCloud 上试用此 API
AtlasCloud常见问题
Wan-2.7 图生视频 API 的调用费用是多少?和竞品相比贵不贵?
根据 Together AI 平台的定价,Wan-2.7 图生视频 API 按生成时长计费,约为 $0.05 美元/秒视频输出(生成一段 5 秒视频约花费 $0.25)。对比同类模型:Runway Gen-3 约 $0.05/秒、Kling 1.6 约 $0.04/秒、Pika 2.1 约 $0.08/秒。Wan-2.7 在价格区间上属于中等偏低水平,但考虑到其支持 First & Last Frame 双锚点控制和 9-Grid 多图输入等独特功能,单位功能成价比相对较高。批量调用建议使用 Together AI 的 Batch API 可额外节省约 50% 费用。
Wan-2.7 API 的生成延迟大概是多少?能用于实时或近实时场景吗?
Wan-2.7 在 Together AI 平台上生成一段 480p、5 秒视频的平均端到端延迟约为 30~60 秒,生成 720p 内容则需要 60~120 秒。WaveSpeed AI 的测试数据显示,使用其加速推理方案后延迟可压缩至标准时间的 40%,即 720p/5s 最快约 36 秒可返回结果。这一延迟水平不适合实时交互场景(如直播),但满足异步内容生产流程(如广告素材批量生成、电商视频自动化)的需求。如需更低延迟,可考虑搭配 WaveSpeed 的流式返回接口,首帧预览延迟可低至 8 秒。
Wan-2.7 在主流视频生成基准测试中表现如何?
根据公开基准数据,Wan-2.7 在 EvalCrafter 视频质量评测中综合得分为 79.3(满分 100),高于 Wan-2.6 的 74.1 和 Kling 1.5 的 76.8,略低于 Sora Turbo 的 81.2。在运动一致性子项(Motion Consistency Score)上,Wan-2.7 得分 0.973,优于同期 Runway Gen-3(0.961)。文本对齐度(Text Alignment,基于 CLIP-Score)为 0.312,与 Wan-2.6 持平。指令式编辑任务上,Wan-2.7 在 TGVE 基准中局部编辑准确率达 68.4%,前代版本因不支持该功能无法对比。整体来看,2.7 在运动质量和编辑能力上有显著提升,文本对齐方面仍有优化空间。
Wan-2.7 的 First & Last Frame 功能怎么用?API 参数怎么传?
调用 Wan-2.7 的 First & Last Frame 功能时,需在请求体中同时传入 `first_frame` 和 `last_frame` 两个字段,值为 Base64 编码的图片字符串或公网可访问的图片 URL。示例参数结构:`{'model': 'wan-2.7', 'first_frame': '<base64_or_url>', 'last_frame': '<base64_or_url>', 'prompt': 'smooth transition between two scenes', 'duration': 5, 'resolution': '720p'}`。图片分辨率建议与目标输出分辨率一致(720p 对应 1280×720),格式支持 JPEG/PNG,单张图片大小上限为 10MB。两帧之间的插值帧数由 `duration` 参数控制,5 秒视频在 24fp
标签
相关文章
Seedance 2.0图像转视频API开发者完整指南
深入了解Seedance 2.0快速图像转视频API的完整开发者指南,包含API接入、参数配置、代码示例及最佳实践,助您快速构建AI视频生成应用。
Seedance 2.0 视频API开发者完整指南 | 参考图生视频
全面解析Seedance 2.0 Fast参考图生视频API的接入方法、参数配置与最佳实践,帮助开发者快速集成高质量AI视频生成能力,提升开发效率。
Seedance 2.0文生视频API开发者完整指南
深入了解Seedance 2.0文生视频API的核心功能与接入方法,涵盖参数配置、代码示例及最佳实践,帮助开发者快速构建高质量AI视频生成应用。