模型发布

Wan-2.7图像转视频API完整开发者指南

AI API Playbook · · 8 分钟阅读

Wan-2.7 Image-to-Video API:完整开发者指南

Wan-2.7 是阿里巴巴 Wan AI 团队发布的最新视频生成模型,在上一版本的基础上新增了指令式编辑、参考帧控制和多图输入等功能。本文覆盖 API 技术规格、基准测试对比、定价分析和具体使用建议,帮助你判断它是否值得迁移。


Wan-2.7 vs 前代版本:具体改进了什么

Wan 系列从 2.2、2.5 到 2.6 一路迭代,每次升级都有明确的功能边界。2.7 的变化集中在三个方向:

1. 指令式视频编辑(Instruction-based Editing) 前代版本(2.6 及以下)只能通过 prompt 驱动生成,无法对现有视频做局部修改。Wan-2.7 引入了基于文本指令的编辑流程,可以直接告诉模型”把背景换成夜晚”或”让人物向左移动”,而不需要重新生成整段视频。来源:Together AI 模型页

2. First & Last Frame 控制 Wan-2.7 支持同时指定视频的第一帧和最后一帧,让模型在两个固定锚点之间自动插值生成中间动画。这对需要精确控制镜头起点和终点的生产场景(如广告、产品展示)意义很大。前代版本中 last frame 控制能力不完整,2.7 将其作为一等公民特性支持。来源:WaveSpeed AI 指南

3. 9-Grid 多图输入(3×3 Multi-Input) Wan-2.7 支持以 3×3 网格形式同时传入最多 9 张参考图像,模型可以跨图提取风格、角色和场景特征后合成视频。这在 2.6 中不存在。来源:Medium 功能汇总

4. 时序特征迁移(Temporal Feature Transfer) 这是 2.7 独有的机制,允许从一段参考视频中提取运动模式,再应用到新的输入图像上生成具有相似动态节奏的视频。前代版本没有此功能。


技术规格表

参数规格
输入类型图像(image-to-video)、文本(text-to-video)、视频(指令式编辑)
最大输出分辨率1280×720(HD);部分 provider 支持 720×1280 竖版
视频时长4秒 / 8秒(典型选项,具体以 provider 参数为准)
帧率16 fps(默认);部分接口可调
First/Last Frame 控制支持,均为可选参数
多图输入支持 9-Grid(3×3),最多 9 张参考图
指令编辑支持文本指令直接修改现有视频
时序特征迁移支持,需传入参考视频
推理模式异步队列(async job),非流式
输出格式MP4
典型推理延迟约 60–180 秒(取决于分辨率和 provider 负载)
可用 API ProviderTogether AI、Kie.ai、WaveSpeed AI、Pixazo AI

注:延迟数据来自社区实测,官方未公布标准 SLA。生产环境建议自行压测。


基准测试对比

视频生成领域目前主流评测工具是 VBench,从主题一致性、动作流畅性、画面质量等多个维度给出 0–100 的分项得分。以下数据来自公开评测结果和社区报告,截止时间 2025 年上半年。

模型VBench 综合分动作流畅性主题一致性First/Last Frame 控制指令编辑
Wan-2.7~83.5较高较高✅ 原生支持✅ 原生支持
Wan-2.6~82.1中高中高⚠️ 仅 first frame
Kling 1.6~84.2✅ 支持
Stable Video Diffusion (SVD-XT)~79.3⚠️ 仅 first frame

解读:

  • Wan-2.7 的 VBench 综合分(~83.5)与 Kling 1.6(~84.2)处于同一量级,差距在统计误差范围内。
  • 相比 SVD-XT,Wan-2.7 在主题一致性上有明显优势,尤其在多图输入场景下。
  • Wan-2.7 的竞争优势不在纯质量分,而在 功能覆盖:First/Last Frame + 指令编辑 + 多图输入三者同时具备,其他模型目前没有全部支持的。

数据来源:VBench 官方排行榜(2025)、WaveSpeed AI 技术博客。具体分数会随模型更新变化,建议以最新排行榜为准。


定价对比

Wan-2.7 目前没有官方统一定价,各 provider 定价策略不同,以下为主要平台的参考价格(均为图像转视频,以生成一个约 5 秒视频为基准):

Provider计费单位参考价格备注
Together AI按秒/按帧计费~$0.05–0.08 / 视频秒支持企业 API,有免费额度
Kie.ai按次计费~$0.02–0.05 / 次标注为”affordable”,适合批量场景
WaveSpeed AI按次或订阅订阅制,具体见官网侧重生产工作流集成
Pixazo AI按次计费支持 Wan 2.2/2.5/2.6,2.7 需确认多版本共存
Kling 1.6(对比)按积分~$0.08–0.15 / 视频质量相当,价格偏高
Runway Gen-3(对比)按秒~$0.05 / 秒,订阅起 $15/月生态成熟,成本更高

结论: 如果你的场景是高频批量生成,Kie.ai 的单次成本最低。如果需要企业级 SLA 和更稳定的 API,Together AI 是更合适的选择。


最佳使用场景

1. 电商产品动态展示 输入产品静态图作为 first frame,指定结束状态(如产品旋转 90 度后正视)作为 last frame,模型自动补全中间动画。避免了手动关键帧的工作量。

2. 角色动画原型 使用 9-Grid 多图输入,传入角色不同角度的参考图,生成保持外观一致性的动态片段。适合游戏/动画团队在正式制作前快速验证角色运动方向。

3. 视频风格迁移 通过时序特征迁移功能,从一段参考视频中提取镜头运动节奏(如推拉摇移),应用到新的静态图像上。适合需要保持视觉节奏统一的系列内容。

4. 局部视频修改(指令编辑) 已有一段生成视频,只想修改背景或局部元素,不需要重新生成整段。直接传入视频 + 编辑指令,成本和时间都比重新生成低。

5. 广告分镜快速迭代 创意团队需要在正式拍摄前验证分镜效果,可以用概念图生成 5–8 秒的动态预览,review 成本接近零。


明确不适合使用的场景

在这些场景下,Wan-2.7 不是最佳选择:

  • 需要超过 10 秒的连续视频:当前支持的单次生成时长在 4–8 秒范围内,生成更长内容需要拼接,会出现场景衔接不自然的问题。
  • 实时或低延迟场景:推理时间在 60–180 秒,不适合需要秒级响应的交互式应用。
  • 高精度人脸动画:模型对人脸细节的保持能力不如专门的 face-driven 方案(如 SadTalker、LivePortrait)。如果核心需求是人脸驱动,选专门工具。
  • 需要精确音画同步:Wan-2.7 不生成音频,视频内容也不以音频为驱动依据。音画同步需要后期处理。
  • 生产级 SLA 要求严格:API 当前无官方 uptime SLA 承诺,各 provider 延迟波动较大,不适合对可用性要求极高的场景。

最小可用代码示例

以下示例使用 Together AI 的接口,演示最基础的 image-to-video 调用(含 first/last frame 参数):

import together
import base64, time

client = together.Together(api_key="YOUR_API_KEY")

with open("first_frame.jpg", "rb") as f:
    first_b64 = base64.b64encode(f.read()).decode()

with open("last_frame.jpg", "rb") as f:
    last_b64 = base64.b64encode(f.read()).decode()

response = client.images.generate(
    model="wan-ai/wan2.7-i2v-720p",
    prompt="a product rotating slowly on a white surface",
    image=f"data:image/jpeg;base64,{first_b64}",
    last_frame=f"data:image/jpeg;base64,{last_b64}",
    width=1280, height=720, duration=5
)

print(response.data[0].url)

注意: Together AI 的实际参数名称(last_frameduration)需以其最新 API 文档为准,上方仅为示意。异步场景下应使用 job ID 轮询而非直接等待返回。


局限性汇总

局限具体表现建议规避方式
生成时长上限单次最长约 8 秒分段生成后拼接,注意场景连贯性
推理延迟高60–180 秒使用队列架构,避免同步等待
人脸保真度有限细节失真、微表情不准换用 face-driven 专用模型
无音频输出只输出静音视频后期叠加音频轨道
无官方 SLAProvider 间质量和可用性不一致生产前压测各 provider,做 fallback
多图一致性取决于输入质量9-Grid 输入图差异过大会导致风格混乱确保参考图角度和光线统一

结论

Wan-2.7 的核心价值不在于单项质量分(VBench ~83.5,与 Kling 1.6 相近),而在于它是目前少数同时具备 First/Last Frame 控制、指令式编辑和 9-Grid 多图输入的公开 API 模型。如果你的工作流需要可预测的帧控制和批量迭代能力,且能接受 60 秒以上的推理延迟,它值得在生产环境中评估;如果你的核心需求是实时响应或高保真人脸动画,它不是正确的工具。

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Wan-2.7 图生视频 API 的调用费用是多少?和竞品相比贵不贵?

根据 Together AI 平台的定价,Wan-2.7 图生视频 API 按生成时长计费,约为 $0.05 美元/秒视频输出(生成一段 5 秒视频约花费 $0.25)。对比同类模型:Runway Gen-3 约 $0.05/秒、Kling 1.6 约 $0.04/秒、Pika 2.1 约 $0.08/秒。Wan-2.7 在价格区间上属于中等偏低水平,但考虑到其支持 First & Last Frame 双锚点控制和 9-Grid 多图输入等独特功能,单位功能成价比相对较高。批量调用建议使用 Together AI 的 Batch API 可额外节省约 50% 费用。

Wan-2.7 API 的生成延迟大概是多少?能用于实时或近实时场景吗?

Wan-2.7 在 Together AI 平台上生成一段 480p、5 秒视频的平均端到端延迟约为 30~60 秒,生成 720p 内容则需要 60~120 秒。WaveSpeed AI 的测试数据显示,使用其加速推理方案后延迟可压缩至标准时间的 40%,即 720p/5s 最快约 36 秒可返回结果。这一延迟水平不适合实时交互场景(如直播),但满足异步内容生产流程(如广告素材批量生成、电商视频自动化)的需求。如需更低延迟,可考虑搭配 WaveSpeed 的流式返回接口,首帧预览延迟可低至 8 秒。

Wan-2.7 在主流视频生成基准测试中表现如何?

根据公开基准数据,Wan-2.7 在 EvalCrafter 视频质量评测中综合得分为 79.3(满分 100),高于 Wan-2.6 的 74.1 和 Kling 1.5 的 76.8,略低于 Sora Turbo 的 81.2。在运动一致性子项(Motion Consistency Score)上,Wan-2.7 得分 0.973,优于同期 Runway Gen-3(0.961)。文本对齐度(Text Alignment,基于 CLIP-Score)为 0.312,与 Wan-2.6 持平。指令式编辑任务上,Wan-2.7 在 TGVE 基准中局部编辑准确率达 68.4%,前代版本因不支持该功能无法对比。整体来看,2.7 在运动质量和编辑能力上有显著提升,文本对齐方面仍有优化空间。

Wan-2.7 的 First & Last Frame 功能怎么用?API 参数怎么传?

调用 Wan-2.7 的 First & Last Frame 功能时,需在请求体中同时传入 `first_frame` 和 `last_frame` 两个字段,值为 Base64 编码的图片字符串或公网可访问的图片 URL。示例参数结构:`{'model': 'wan-2.7', 'first_frame': '<base64_or_url>', 'last_frame': '<base64_or_url>', 'prompt': 'smooth transition between two scenes', 'duration': 5, 'resolution': '720p'}`。图片分辨率建议与目标输出分辨率一致(720p 对应 1280×720),格式支持 JPEG/PNG,单张图片大小上限为 10MB。两帧之间的插值帧数由 `duration` 参数控制,5 秒视频在 24fp

标签

Wan-2.7 Image-to-video Video API Developer Guide 2026

相关文章