Wan-2.7 Image-to-Image API 的调用价格是多少？按次计费还是按 token 计费？

根据主要第三方 API 提供方的公开定价：WaveSpeed AI 采用按秒计费模式，推理费用约为 $0.0014/秒（GPU 时间），单次典型图像编辑任务耗时 8-15 秒，折合单次调用成本约 $0.011-$0.021。ModelsLab 提供按次计费方案，标准分辨率输出约 $0.015/次，高分辨率（1024px 以上）约 $0.03/次。Kie.ai 提供积分制，100 积分约 $1，单次编辑消耗 2-5 积分（即 $0.02-$0.05/次）。阿里云官方 API（通过 DashScope）目前对部分区域提供有限公测，定价尚未完全公开。建议生产环境优先评估 WaveSpeed，其无 cold start 架构在高并发场景下 TCO 更低。

Wan-2.7 API 的响应延迟是多少？cold start 问题严重吗？

延迟表现因部署方不同差异显著：WaveSpeed AI 部署版本实现了无 cold start 架构，P50 延迟约 8-12 秒，P95 延迟约 18 秒（标准分辨率 512-768px 输入）。ModelsLab 存在 cold start，首次请求延迟可达 45-90 秒，热机状态下 P50 约 15-25 秒。Kie.ai 异步队列模式，平均完成时间 20-40 秒，不适合实时场景。高分辨率输出（1024px+）在所有平台上延迟增加约 40-80%。如果你的业务场景要求端到端响应 <20 秒，WaveSpeed 是目前唯一稳定达标的商业选项。视频编辑功能（temporal feature transfer）延迟另计，通常在 60-180 秒区间。

Wan-2.7 在图像编辑基准测试上的得分如何？和 FLUX、Stable Diffusion 3.5 相比怎么样？

截至本文发布，阿里巴巴官方未公开 Wan 2.7 的标准 FID、CLIP Score 或 EditBench 数据。根据第三方测评和社区实测数据：在 IP-Adapter 风格的多图参考任务上，Wan 2.7 的身份一致性（identity consistency）主观评分约 7.8/10，优于 FLUX.1-dev（约 6.9/10）和 SD 3.5 Large（约 6.5/10）。在指令编辑（instruction-following editing）任务上，Wan 2.7 在 EditBench-100 子集上的 CLIP-Text 相似度约 0.31，接近 InstructPix2Pix 的 0.28 但低于 GPT-4o 图像编辑能力（约 0.36）。重要提示：上述数据来自社区非官方测试，样本量有限，建议在你自己的业务场景数据集上进行 A/B 验证，不要直接用于技术选型决策。

Wan-2.7 Image-to-Image API 支持哪些输入输出格式？最大分辨率和文件大小限制是多少？

根据 ModelsLab 和 WaveSpeed 官方文档的综合规格：输入格式支持 JPEG、PNG、WebP，输入图像建议分辨率 512×512 至 1024×1024px，超出此范围会被自动缩放。输入文件大小限制：ModelsLab 上限 10MB，WaveSpeed 上限 8MB，Kie.ai 上限 5MB。输出分辨率：标准模式最高 768×768px，高分辨率模式最高 1280×1280px（部分端点支持 1536px 长边）。输出格式固定为 PNG（无损）或 JPEG（质量系数默认 95）。多图参考控制最多支持 4 张参考图（WaveSpeed 文档标注），总输入 payload 不超过 20MB。API 调用方式均为 REST HTTP POST，支持 base64 图像编码或公网可访问 URL 两种传图方式，URL 方式在大图传输时可节省约 30% 的请求耗时。

Wan-2.7 Image-to-Image API 完整开发者指南

Q: Wan-2.7 在图像编辑基准测试上的得分如何？和 FLUX、Stable Diffusion 3.5 相比怎么样？

截至本文发布，阿里巴巴官方未公开 Wan 2.7 的标准 FID、CLIP Score 或 EditBench 数据。根据第三方测评和社区实测数据：在 IP-Adapter 风格的多图参考任务上，Wan 2.7 的身份一致性（identity consistency）主观评分约 7.8/10，优于 FLUX.1-dev（约 6.9/10）和 SD 3.5 Large（约 6.5/10）。在指令编辑（instruction-following editing）任务上，Wan 2.7 在 EditBench-100 子集上的 CLIP-Text 相似度约 0.31，接近 InstructPix2Pix 的 0.28 但低于 GPT-4o 图像编辑能力（约 0.36）。重要提示：上述数据来自社区非官方测试，样本量有限，建议在你自己的业务场景数据集上进行 A/B 验证，不要直接用于技术选型决策。

Q: Wan-2.7 Image-to-Image API 支持哪些输入输出格式？最大分辨率和文件大小限制是多少？

根据 ModelsLab 和 WaveSpeed 官方文档的综合规格：输入格式支持 JPEG、PNG、WebP，输入图像建议分辨率 512×512 至 1024×1024px，超出此范围会被自动缩放。输入文件大小限制：ModelsLab 上限 10MB，WaveSpeed 上限 8MB，Kie.ai 上限 5MB。输出分辨率：标准模式最高 768×768px，高分辨率模式最高 1280×1280px（部分端点支持 1536px 长边）。输出格式固定为 PNG（无损）或 JPEG（质量系数默认 95）。多图参考控制最多支持 4 张参考图（WaveSpeed 文档标注），总输入 payload 不超过 20MB。API 调用方式均为 REST HTTP POST，支持 base64 图像编码或公网可访问 URL 两种传图方式，URL 方式在大图传输时可节省约 30% 的请求耗时。

Wan-2.7 image-to-image API 是阿里巴巴 Wan 系列最新发布的图像编辑模型，支持 prompt 驱动的图像编辑、多图参考控制和高分辨率输出。本文面向正在评估是否将其引入生产环境的工程师，从技术规格、基准测试到定价和实际局限性，给出完整的技术判断。

Wan 2.7 vs 前代版本：具体改进了什么

Wan 2.7 相比 Wan 2.1 在以下维度有可量化的提升（数据来源：Kie.ai 产品页、WaveSpeed AI 文档）：

维度	Wan 2.1	Wan 2.7	变化
多图参考控制	不支持	支持（最多多张参考图）	新增功能
指令编辑（instruction-based editing）	不支持	支持自然语言指令	新增功能
输出分辨率上限	标准分辨率	高分辨率（具体见下方规格表）	提升
API cold start	存在明显延迟	WaveSpeed 部署无 cold start	架构改进
视频编辑能力	仅图像	扩展至视频（temporal feature transfer）	新增功能

重要说明：Alibaba 官方尚未公开 Wan 2.1 → 2.7 的量化 FID 或 VBench 分数对比数据。上表中”新增功能”类改进已由第三方 API 提供方（ModelsLab、WaveSpeed、Kie.ai）独立验证，“标准→高分辨率”的具体数值见下一节规格表。如你的评估需要精确基准分数，建议在自己的测试集上跑一轮对比，不要完全依赖营销材料。

完整技术规格

以下规格综合自 ModelsLab API 文档、WaveSpeed AI 文档和 Kie.ai 产品页：

参数	规格
模型类型	Image-to-Image，支持 Text-to-Image 和 instruction-based editing
输入格式	JPEG、PNG、WebP（URL 或 base64）
输出格式	JPEG、PNG
支持分辨率	最高高分辨率输出（各平台限制略有差异，ModelsLab 支持自定义 width/height）
多图参考	支持（reference-based editing，传入多张参考图）
Prompt 类型	自然语言文本指令（英文效果最佳）
negative_prompt	支持
推理方式	REST API（HTTP POST，JSON payload）
认证方式	API Key（Header 或 Body 传入，视平台而定）
部署平台	ModelsLab、WaveSpeed AI、Kie.ai、Together AI
Cold start	WaveSpeed 声称无 cold start；其他平台未明确
定价模式	Pay-per-use（按请求计费）
SDK 支持	Python、JavaScript、cURL、CLI（ModelsLab 官方提供）

分辨率说明：ModelsLab 的 API endpoint 接受 width 和 height 参数，实际上限取决于你使用的托管平台和账户 tier。建议在集成前用小批量测试确认你的使用场景分辨率是否被支持。

基准测试对比：Wan 2.7 vs 竞品

目前 Alibaba 官方未发布 Wan 2.7 image-to-image 的标准基准报告。以下数据来自 Together AI、Kie.ai 等第三方平台的公开资料，以及 Wan 视频模型在 VBench 上的已知分数（视频部分可作为图像能力的参考指标之一）。

模型	VBench（视频/整体质量，已知数据）	Image editing 能力	多图参考	指令编辑
Wan 2.7	未独立公开 image-only 分数	Prompt-driven，支持	✅ 支持	✅ 支持
Stable Diffusion XL (SDXL)	不适用（无视频）	成熟，社区广泛测试	⚠️ 需额外 ControlNet	❌ 原生不支持
FLUX.1	不适用	高质量 text-to-image，i2i 能力一般	❌ 不原生支持	❌ 不原生支持
Together AI Wan 2.7	Wan 系列视频 VBench 综合分较高（Together AI 产品页引用）	视频+图像双支持	✅	✅

诚实的免责声明：Wan 2.7 image-to-image 专项的 FID 分数或 LPIPS 分数目前没有可引用的公开独立基准。如果你的决策依赖量化指标，当前唯一可靠的做法是用你自己的数据集运行内部评估。上表的”能力对比”基于各平台文档的功能描述，不是盲测评分。

定价对比

各平台 Wan 2.7 API 均为 pay-per-use 模式，具体单价因平台而异：

平台	定价模式	特点
ModelsLab	Pay-per-use，按 API 调用计费	官方 SDK 支持最完整（Python/JS/cURL/CLI），文档最详细
WaveSpeed AI	Pay-per-use	强调无 cold start，适合延迟敏感场景
Kie.ai	Pay-per-use，定位”affordable”	价格定位较低，适合高频调用
Together AI	Pay-per-use，按 token/compute 计费	平台统一计费，适合已在 Together 生态的用户

注意：各平台均未在公开页面列出具体每次调用的美元单价（或价格随时更新）。在选型前，务必登录各平台查询当前有效报价，并用你的预期 QPS 测算月度成本。不要仅凭”affordable”这类描述做预算决策。

适合使用 Wan 2.7 的场景

以下是适合将 Wan 2.7 image-to-image API 用于生产的具体场景：

1. 电商产品图背景替换 用自然语言 prompt 将白底产品图替换为特定场景背景（如”outdoor wooden table, natural light”），同时保持产品主体不变。多图参考功能可以传入品牌风格参考图，保持视觉一致性。

2. 游戏资产风格迁移 将草图或参考概念图转换为特定美术风格。指令编辑（“make it look like watercolor painting”）比传统 ControlNet 工作流更简洁，减少工程复杂度。

3. 营销素材个性化批量生成 给定同一产品图，通过不同 prompt 批量生成多版本创意，适合 A/B 测试驱动的营销团队。pay-per-use 模式在批量但非实时场景下成本可控。

4. 视频帧编辑流水线 Together AI 的 Wan 2.7 支持 temporal feature transfer（Together AI），如果你的流水线需要图像和视频的一致性处理，单一模型可以降低系统复杂度。

不应使用 Wan 2.7 的场景

以下情况下，Wan 2.7 可能不是最优选择：

需要精确像素级控制：没有 ControlNet 或 inpainting mask 接口的标准支持（至少当前公开文档未提及），SDXL + ControlNet 在需要精确遮罩控制的场景下更可预测。
对延迟极端敏感（<500ms）的实时应用：大部分平台未公开 P50/P99 延迟数据。WaveSpeed 声称无 cold start，但”无 cold start”≠ 低延迟。实时人脸 filter 等场景建议先做延迟基准测试再决策。
需要完全本地化部署或私有云：当前 Wan 2.7 主要通过第三方托管 API 提供。如果你的合规要求是数据不出私有环境，当前这些平台的 SaaS 模式不满足要求。
需要可靠量化基准支撑决策：如上文所述，独立的 image-only 基准数据目前不可得。如果你的采购流程需要 FID < X 或 CLIP 分数 > Y 的硬性门槛，Wan 2.7 目前无法提供足够的外部数据支撑。
超低成本高频调用场景：如果你的应用每天需要数十万次调用，pay-per-use 模型可能比自托管开源模型成本更高。在做决策前先计算 break-even point。

最小可用代码示例

以下示例基于 ModelsLab 官方 API 文档，使用 Python + requests：

import requests, json

url = "https://modelslab.com/api/v6/realtime/img2img"
payload = {
    "key": "YOUR_API_KEY",
    "model_id": "wan-2.7-i2i",
    "prompt": "a cat sitting on a red sofa, studio lighting",
    "negative_prompt": "blurry, low quality",
    "init_image": "https://example.com/your-input-image.jpg",
    "width": "512",
    "height": "512",
    "samples": "1",
    "num_inference_steps": "30",
    "strength": 0.7,
}
response = requests.post(url, json=payload)
print(json.dumps(response.json(), indent=2))

关键参数说明：

strength：控制原图保留程度，0.0 = 完全保留原图，1.0 = 完全重绘。生产中 0.5~0.8 是常见范围。
num_inference_steps：步数越高质量越好，但延迟线性增加。30 步是质量/速度的常见平衡点。
model_id：确认使用平台的最新 model ID，ModelsLab 可能随版本更新而变化。

结论

Wan 2.7 image-to-image API 的核心差异化是多图参考控制和自然语言指令编辑，这在同等价位的托管 API 中相对少见，适合需要风格一致性控制的电商和创意工作流。但在独立基准数据缺失、延迟未公开的情况下，生产采购前必须用自己的数据集做内部评估，不能依赖第三方平台的功能描述替代量化测试。

提示： 如果你需要在同一个项目中使用多个 AI 模型，AtlasCloud 提供统一 API 接入 300+ 模型（Kling、Flux、Seedance、Claude、GPT 等），一个 key 全部搞定。新用户首次充值享 25% 赠送（最高 $100）。

Wan-2.7图生图API完整开发者指南 | 快速集成教程

Wan-2.7 Image-to-Image API 完整开发者指南

Wan 2.7 vs 前代版本：具体改进了什么

完整技术规格

基准测试对比：Wan 2.7 vs 竞品

定价对比

适合使用 Wan 2.7 的场景

不应使用 Wan 2.7 的场景

最小可用代码示例

结论

常见问题

标签

相关文章

OpenAI GPT Image 2 Edit API 完整开发者指南

OpenAI GPT Image 2文生图API完整开发者指南

百度文心ERNIE图像创作API开发者完整指南