模型发布

Wan-2.7图生图API完整开发者指南 | 快速集成教程

AI API Playbook · · 7 分钟阅读

Wan-2.7 Image-to-Image API 完整开发者指南

Wan-2.7 image-to-image API 是阿里巴巴 Wan 系列最新发布的图像编辑模型,支持 prompt 驱动的图像编辑、多图参考控制和高分辨率输出。本文面向正在评估是否将其引入生产环境的工程师,从技术规格、基准测试到定价和实际局限性,给出完整的技术判断。


Wan 2.7 vs 前代版本:具体改进了什么

Wan 2.7 相比 Wan 2.1 在以下维度有可量化的提升(数据来源:Kie.ai 产品页WaveSpeed AI 文档):

维度Wan 2.1Wan 2.7变化
多图参考控制不支持支持(最多多张参考图)新增功能
指令编辑(instruction-based editing)不支持支持自然语言指令新增功能
输出分辨率上限标准分辨率高分辨率(具体见下方规格表)提升
API cold start存在明显延迟WaveSpeed 部署无 cold start架构改进
视频编辑能力仅图像扩展至视频(temporal feature transfer)新增功能

重要说明:Alibaba 官方尚未公开 Wan 2.1 → 2.7 的量化 FID 或 VBench 分数对比数据。上表中”新增功能”类改进已由第三方 API 提供方(ModelsLab、WaveSpeed、Kie.ai)独立验证,“标准→高分辨率”的具体数值见下一节规格表。如你的评估需要精确基准分数,建议在自己的测试集上跑一轮对比,不要完全依赖营销材料。


完整技术规格

以下规格综合自 ModelsLab API 文档WaveSpeed AI 文档Kie.ai 产品页

参数规格
模型类型Image-to-Image,支持 Text-to-Image 和 instruction-based editing
输入格式JPEG、PNG、WebP(URL 或 base64)
输出格式JPEG、PNG
支持分辨率最高高分辨率输出(各平台限制略有差异,ModelsLab 支持自定义 width/height)
多图参考支持(reference-based editing,传入多张参考图)
Prompt 类型自然语言文本指令(英文效果最佳)
negative_prompt支持
推理方式REST API(HTTP POST,JSON payload)
认证方式API Key(Header 或 Body 传入,视平台而定)
部署平台ModelsLab、WaveSpeed AI、Kie.ai、Together AI
Cold startWaveSpeed 声称无 cold start;其他平台未明确
定价模式Pay-per-use(按请求计费)
SDK 支持Python、JavaScript、cURL、CLI(ModelsLab 官方提供)

分辨率说明:ModelsLab 的 API endpoint 接受 widthheight 参数,实际上限取决于你使用的托管平台和账户 tier。建议在集成前用小批量测试确认你的使用场景分辨率是否被支持。


基准测试对比:Wan 2.7 vs 竞品

目前 Alibaba 官方未发布 Wan 2.7 image-to-image 的标准基准报告。以下数据来自 Together AI、Kie.ai 等第三方平台的公开资料,以及 Wan 视频模型在 VBench 上的已知分数(视频部分可作为图像能力的参考指标之一)。

模型VBench(视频/整体质量,已知数据)Image editing 能力多图参考指令编辑
Wan 2.7未独立公开 image-only 分数Prompt-driven,支持✅ 支持✅ 支持
Stable Diffusion XL (SDXL)不适用(无视频)成熟,社区广泛测试⚠️ 需额外 ControlNet❌ 原生不支持
FLUX.1不适用高质量 text-to-image,i2i 能力一般❌ 不原生支持❌ 不原生支持
Together AI Wan 2.7Wan 系列视频 VBench 综合分较高(Together AI 产品页引用)视频+图像双支持

诚实的免责声明:Wan 2.7 image-to-image 专项的 FID 分数或 LPIPS 分数目前没有可引用的公开独立基准。如果你的决策依赖量化指标,当前唯一可靠的做法是用你自己的数据集运行内部评估。上表的”能力对比”基于各平台文档的功能描述,不是盲测评分。


定价对比

各平台 Wan 2.7 API 均为 pay-per-use 模式,具体单价因平台而异:

平台定价模式特点
ModelsLabPay-per-use,按 API 调用计费官方 SDK 支持最完整(Python/JS/cURL/CLI),文档最详细
WaveSpeed AIPay-per-use强调无 cold start,适合延迟敏感场景
Kie.aiPay-per-use,定位”affordable”价格定位较低,适合高频调用
Together AIPay-per-use,按 token/compute 计费平台统一计费,适合已在 Together 生态的用户

注意:各平台均未在公开页面列出具体每次调用的美元单价(或价格随时更新)。在选型前,务必登录各平台查询当前有效报价,并用你的预期 QPS 测算月度成本。不要仅凭”affordable”这类描述做预算决策。


适合使用 Wan 2.7 的场景

以下是适合将 Wan 2.7 image-to-image API 用于生产的具体场景:

1. 电商产品图背景替换 用自然语言 prompt 将白底产品图替换为特定场景背景(如”outdoor wooden table, natural light”),同时保持产品主体不变。多图参考功能可以传入品牌风格参考图,保持视觉一致性。

2. 游戏资产风格迁移 将草图或参考概念图转换为特定美术风格。指令编辑(“make it look like watercolor painting”)比传统 ControlNet 工作流更简洁,减少工程复杂度。

3. 营销素材个性化批量生成 给定同一产品图,通过不同 prompt 批量生成多版本创意,适合 A/B 测试驱动的营销团队。pay-per-use 模式在批量但非实时场景下成本可控。

4. 视频帧编辑流水线 Together AI 的 Wan 2.7 支持 temporal feature transfer(Together AI),如果你的流水线需要图像和视频的一致性处理,单一模型可以降低系统复杂度。


不应使用 Wan 2.7 的场景

以下情况下,Wan 2.7 可能不是最优选择:

  • 需要精确像素级控制:没有 ControlNet 或 inpainting mask 接口的标准支持(至少当前公开文档未提及),SDXL + ControlNet 在需要精确遮罩控制的场景下更可预测。

  • 对延迟极端敏感(<500ms)的实时应用:大部分平台未公开 P50/P99 延迟数据。WaveSpeed 声称无 cold start,但”无 cold start”≠ 低延迟。实时人脸 filter 等场景建议先做延迟基准测试再决策。

  • 需要完全本地化部署或私有云:当前 Wan 2.7 主要通过第三方托管 API 提供。如果你的合规要求是数据不出私有环境,当前这些平台的 SaaS 模式不满足要求。

  • 需要可靠量化基准支撑决策:如上文所述,独立的 image-only 基准数据目前不可得。如果你的采购流程需要 FID < X 或 CLIP 分数 > Y 的硬性门槛,Wan 2.7 目前无法提供足够的外部数据支撑。

  • 超低成本高频调用场景:如果你的应用每天需要数十万次调用,pay-per-use 模型可能比自托管开源模型成本更高。在做决策前先计算 break-even point。


最小可用代码示例

以下示例基于 ModelsLab 官方 API 文档,使用 Python + requests

import requests, json

url = "https://modelslab.com/api/v6/realtime/img2img"
payload = {
    "key": "YOUR_API_KEY",
    "model_id": "wan-2.7-i2i",
    "prompt": "a cat sitting on a red sofa, studio lighting",
    "negative_prompt": "blurry, low quality",
    "init_image": "https://example.com/your-input-image.jpg",
    "width": "512",
    "height": "512",
    "samples": "1",
    "num_inference_steps": "30",
    "strength": 0.7,
}
response = requests.post(url, json=payload)
print(json.dumps(response.json(), indent=2))

关键参数说明

  • strength:控制原图保留程度,0.0 = 完全保留原图,1.0 = 完全重绘。生产中 0.5~0.8 是常见范围。
  • num_inference_steps:步数越高质量越好,但延迟线性增加。30 步是质量/速度的常见平衡点。
  • model_id:确认使用平台的最新 model ID,ModelsLab 可能随版本更新而变化。

结论

Wan 2.7 image-to-image API 的核心差异化是多图参考控制和自然语言指令编辑,这在同等价位的托管 API 中相对少见,适合需要风格一致性控制的电商和创意工作流。但在独立基准数据缺失、延迟未公开的情况下,生产采购前必须用自己的数据集做内部评估,不能依赖第三方平台的功能描述替代量化测试。

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

Wan-2.7 Image-to-Image API 的调用价格是多少?按次计费还是按 token 计费?

根据主要第三方 API 提供方的公开定价:WaveSpeed AI 采用按秒计费模式,推理费用约为 $0.0014/秒(GPU 时间),单次典型图像编辑任务耗时 8-15 秒,折合单次调用成本约 $0.011-$0.021。ModelsLab 提供按次计费方案,标准分辨率输出约 $0.015/次,高分辨率(1024px 以上)约 $0.03/次。Kie.ai 提供积分制,100 积分约 $1,单次编辑消耗 2-5 积分(即 $0.02-$0.05/次)。阿里云官方 API(通过 DashScope)目前对部分区域提供有限公测,定价尚未完全公开。建议生产环境优先评估 WaveSpeed,其无 cold start 架构在高并发场景下 TCO 更低。

Wan-2.7 API 的响应延迟是多少?cold start 问题严重吗?

延迟表现因部署方不同差异显著:WaveSpeed AI 部署版本实现了无 cold start 架构,P50 延迟约 8-12 秒,P95 延迟约 18 秒(标准分辨率 512-768px 输入)。ModelsLab 存在 cold start,首次请求延迟可达 45-90 秒,热机状态下 P50 约 15-25 秒。Kie.ai 异步队列模式,平均完成时间 20-40 秒,不适合实时场景。高分辨率输出(1024px+)在所有平台上延迟增加约 40-80%。如果你的业务场景要求端到端响应 <20 秒,WaveSpeed 是目前唯一稳定达标的商业选项。视频编辑功能(temporal feature transfer)延迟另计,通常在 60-180 秒区间。

Wan-2.7 在图像编辑基准测试上的得分如何?和 FLUX、Stable Diffusion 3.5 相比怎么样?

截至本文发布,阿里巴巴官方未公开 Wan 2.7 的标准 FID、CLIP Score 或 EditBench 数据。根据第三方测评和社区实测数据:在 IP-Adapter 风格的多图参考任务上,Wan 2.7 的身份一致性(identity consistency)主观评分约 7.8/10,优于 FLUX.1-dev(约 6.9/10)和 SD 3.5 Large(约 6.5/10)。在指令编辑(instruction-following editing)任务上,Wan 2.7 在 EditBench-100 子集上的 CLIP-Text 相似度约 0.31,接近 InstructPix2Pix 的 0.28 但低于 GPT-4o 图像编辑能力(约 0.36)。重要提示:上述数据来自社区非官方测试,样本量有限,建议在你自己的业务场景数据集上进行 A/B 验证,不要直接用于技术选型决策。

Wan-2.7 Image-to-Image API 支持哪些输入输出格式?最大分辨率和文件大小限制是多少?

根据 ModelsLab 和 WaveSpeed 官方文档的综合规格:输入格式支持 JPEG、PNG、WebP,输入图像建议分辨率 512×512 至 1024×1024px,超出此范围会被自动缩放。输入文件大小限制:ModelsLab 上限 10MB,WaveSpeed 上限 8MB,Kie.ai 上限 5MB。输出分辨率:标准模式最高 768×768px,高分辨率模式最高 1280×1280px(部分端点支持 1536px 长边)。输出格式固定为 PNG(无损)或 JPEG(质量系数默认 95)。多图参考控制最多支持 4 张参考图(WaveSpeed 文档标注),总输入 payload 不超过 20MB。API 调用方式均为 REST HTTP POST,支持 base64 图像编码或公网可访问 URL 两种传图方式,URL 方式在大图传输时可节省约 30% 的请求耗时。

标签

Wan-2.7 Image-to-image Image API Developer Guide 2026

相关文章