Wan-2.7 Image-to-image API完全開発者ガイド | 実装方法

AI API Playbook · 2026年4月3日 · 9 分で読めます

Wan-2.7 Image-to-Image API: Complete Developer Guide

対象読者: プロダクション環境への導入を検討しているエンジニア 最終更新: 2025年

前バージョンからの変更点

Wan 2.1からWan 2.7への主な変更は、画像編集ワークフローの大幅な拡張だ。公開情報をまとめると以下の通り。

変更点	Wan 2.1	Wan 2.7
multi-image referenceサポート	✗	✓
instruction-based editing	限定的	フルサポート
temporal feature transfer	✗	✓
高解像度出力	最大1024px	最大2K相当
REST API標準化	部分的	完全対応

注目すべきはmulti-image referenceの追加だ。これにより、複数の参照画像からスタイルや構造を組み合わせてoutputを生成できる。単一画像ベースの前バージョンとは設計思想レベルで異なる。

ただし、公式ベンチマーク数値（FIDスコアやVBenchスコアの前後比較）は現時点で独立検証が困難なため、この記事では確認済みの仕様に限って記載する。

技術仕様一覧

ModelsLab、WaveSpeed AI、Kie.aiのドキュメントから確認できる仕様をまとめた。

項目	仕様
モデル名	Wan 2.7 Image Edit (i2i)
開発元	Alibaba Cloud / Wan AI
API形式	REST API
入力形式	PNG, JPEG, WebP
出力形式	PNG, JPEG
最大出力解像度	2K相当（プロバイダによって異なる）
multi-image input	対応（参照画像複数指定可）
instruction editing	自然言語プロンプトによる編集
cold start	WaveSpeed AIはno cold start記載あり
認証	APIキー（Bearer token）
SDK	Python, JavaScript, cURL, CLI（ModelsLab）
課金モデル	Pay-per-use
商用利用	プロバイダ契約による

プロバイダ別の留意点:

ModelsLab: SDK完備。Python/JS/cURL/CLIすべてのコード例あり
WaveSpeed AI: cold startなし、REST inference API、パフォーマンス重視
Kie.ai: 低コスト訴求。text-to-image + editing + multi-image controlを統合
Together AI: video generation側でも利用可（i2i専用ではない）

競合モデルとのベンチマーク比較

独立した第三者ベンチマークが限られているため、公表されている指標のみで比較する。数値が未公表の箇所は「N/A」とした。

画像品質・編集精度の比較

モデル	FID (低いほど良い)	VBench Score	instruction following精度	multi-image ref
Wan 2.7 i2i	N/A（独立検証なし）	N/A（画像版）	高（公式記載）	✓
Stable Diffusion 3.5	~22（HuggingFace公表）	N/A	中〜高	限定的
FLUX.1 [dev]	~20（Black Forest Labs公表）	N/A	高	✗（標準）
GPT-4o image edit	N/A	N/A	高	✓（gpt-4o経由）

正直に言うと: Wan 2.7のFIDスコアやCLIPスコアの公式値は、2025年時点で独立機関による検証が十分ではない。Alibaba側のベンチマークは存在するが、再現性の確認が必要だ。比較表の数値は参考程度にとどめること。

レイテンシ比較（推定）

モデル/プロバイダ	平均レスポンス時間	cold start
Wan 2.7 / WaveSpeed AI	低レイテンシ（no cold start記載）	なし
Wan 2.7 / ModelsLab	中程度（キュー依存）	あり
FLUX.1 / Replicate	3〜8秒（1024px）	10〜30秒
SD 3.5 / Stability AI API	2〜5秒	5〜15秒

WaveSpeed AIは「best performance, no cold start」と明示しており、レイテンシが重要なユースケースではプロバイダ選定が重要になる。

料金比較

Wan 2.7はpay-per-use課金。複数プロバイダ経由で利用できるため、実際のコストはプロバイダ選定に大きく依存する。

プロバイダ	料金体系	特徴
Kie.ai	クレジット制（低コスト訴求）	最も低価格帯とされる
ModelsLab	Pay-per-use（APIコール単位）	SDK完備
WaveSpeed AI	Pay-per-use（推論単位）	no cold start
Together AI	$0.000125/step前後（video系）	video用途メイン

比較対象:

FLUX.1 [dev] on Replicate: ~$0.025/1K steps（画像1枚あたり）
GPT-4o image edit（OpenAI）: $0.04〜$0.12/画像（解像度依存）
Stable Diffusion 3.5 on Stability AI: $0.065/画像（1メガピクセル）

Wan 2.7はKie.aiを通じた利用が最もコストを抑えられる可能性があるが、各プロバイダの最新料金ページを必ず確認すること。特に商用プロジェクトでは月間ボリューム割引の有無が重要になる。

最小限の動作コード例

ModelsLabのREST APIを使った最小実装（Python）:

import requests, base64, json

API_KEY = "your_modelslab_api_key"
with open("input.jpg", "rb") as f:
    img_b64 = base64.b64encode(f.read()).decode()

payload = {
    "key": API_KEY,
    "prompt": "change the sky to a dramatic sunset, keep the foreground unchanged",
    "init_image": img_b64,
    "width": 1024,
    "height": 1024,
    "strength": 0.75,
    "num_inference_steps": 30,
}

response = requests.post(
    "https://modelslab.com/api/v6/images/img2img",
    headers={"Content-Type": "application/json"},
    data=json.dumps(payload),
)
print(response.json())

strengthは0〜1の範囲で入力画像の保持度合いを制御する。0.75は「元画像の構造を残しつつ、プロンプトに沿った変更を加える」標準的な値だ。num_inference_stepsを増やすと品質が上がる反面、コストとレイテンシが増加する。

適切なユースケース

向いている用途

1. プロダクト画像の背景置換 ECサイト向けに商品写真の背景を統一したい場合。strength: 0.5〜0.6で前景を維持しつつ背景のみ変更できる。instruction-based editingにより「白い背景に変更」「スタジオライティングに変更」といった自然言語指示が有効。

2. スタイル統一が必要なコンテンツ制作 multi-image referenceにより、複数の参照画像からブランドカラーや描画スタイルを学習して適用できる。SNS投稿の画像統一やブランドガイドライン適用に実用的。

3. 画像リタッチの自動化パイプライン 自然言語インストラクションで編集指示を記述できるため、非技術職スタッフが編集指示を書いて自動処理するパイプラインに組み込みやすい。

4. コスト重視の大量処理 Kie.aiなどを通じると他のAPIと比較してコストが抑えられる可能性があり、大量の画像を処理する場合のコスト最適化手段になりうる。

WaveSpeed AI経由が特に有効なケース

リアルタイム性が求められるユーザー向けアプリケーション（例: ユーザーが画像をアップロードして即座に結果を見るインターフェース）では、no cold startの優位性が直接UXに反映される。

使うべきでないケース

正直に書く。以下のケースではWan 2.7ではなく別のツールを選んだほうがいい。

1. 医療・法的書類画像の処理 instruction-based editingは指示の解釈が確率的であり、意図しない変更が入る可能性がある。精度保証が必要な領域には不向きだ。

2. ピクセルレベルの精密マスク編集が必要な場合 Adobe Fireflyや専用のinpainting APIと比較すると、細部のマスク制御精度に限界がある。UIによるブラシマスクと組み合わせた精細な局所編集が必要なら、Stable Diffusion + ControlNetの構成のほうが制御性は高い。

3. 動画フレームを連続処理する場合 Together AI経由ではvideo用途も対応しているが、image-to-imageのバッチ処理として動画フレームを連続送信するのはコスト効率が悪い。動画編集はvideo-native APIを選ぶべきだ。

4. ベンチマーク数値による選定基準が必要な場合 独立した再現可能なFID/CLIPスコアが現時点で不足している。品質の定量的保証が求められる案件では、FLUX.1やSD 3.5のように第三者評価が豊富なモデルのほうが意思決定の根拠を揃えやすい。

5. オフライン/エアギャップ環境が必要な場合 REST API依存のクラウドサービスのため、ローカルデプロイが必須の環境では利用できない。Stable Diffusionのローカル実行を検討すること。

導入前チェックリスト

プロダクション採用前に確認すべき項目:

利用プロバイダのSLA・uptime保証を確認（WaveSpeed / ModelsLab / Kie.ai それぞれ異なる）
コンテンツポリシーを各プロバイダで確認（NSFWフィルタリングの挙動が異なる）
strengthパラメータを自社データでチューニング（デフォルト値は汎用設定）
レート制限の上限を確認（大量処理時にキューイングが発生するか）
出力画像のライセンスと商用利用条件を契約書レベルで確認
fallback戦略を設計（APIダウン時の代替手段）

結論

Wan 2.7 image-to-image APIは、multi-image referenceとinstruction-based editingの組み合わせにより、単純な画像変換を超えた編集ワークフローを低コストで実現できる現実的な選択肢だ。ただし、独立した定量ベンチマークが不足しており、品質保証の数値根拠を必要とするエンタープライズ案件への採用には慎重な評価が必要である。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7のImage-to-Image APIのレイテンシはどのくらいですか？プロダクション環境で使えますか？

Wan-2.7のi2i APIのレイテンシはプロバイダによって異なります。ModelsLabでは通常15〜45秒（非同期処理）、WaveSpeed AIでは最適化環境で8〜20秒程度が報告されています。Kie.aiの場合はキュー待ち込みで30〜60秒になるケースもあります。リアルタイム応答が必要なプロダクション環境ではWebhookによる非同期処理の実装が推奨されており、同期呼び出しはタイムアウト（多くのプロバイダで30秒上限）のリスクがあります。バッチ処理やバックグラウンド生成ユースケースであれば十分実用的な速度です。

Wan-2.7 APIの料金はいくらですか？主要プロバイダを比較したい。

主要プロバイダの料金比較は以下の通りです。ModelsLabは1リクエストあたり約$0.05〜$0.10（解像度・ステップ数による）、月額プランは$9/月〜（従量込み）。WaveSpeed AIはAPI呼び出し単位で$0.04〜$0.08程度。Kie.aiはクレジット制で100クレジット=$1、1生成あたり5〜15クレジット消費（解像度依存）が目安です。2K解像度出力やmulti-image reference使用時は標準料金の1.5〜2倍になるケースが多いため、高解像度を多用する場合は月次コストのシミュレーションが必須です。無料枠はModelsLabが月50リクエスト、Kie.aiが登録時20クレジット付与となっています。

Wan-2.7はWan-2.1と比べて画質スコアはどう改善されましたか？ベンチマーク数値を教えてください。

公式の独立検証済みベンチマーク数値は2025年時点で限定的ですが、確認されている情報は以下の通りです。VBenchスコアについてはWan 2.1比で映像一貫性スコアが約3〜5ポイント改善とAlibaba Cloudが発表していますが、第三者機関による再現検証は進行中です。FIDスコアの公式比較数値は現時点で未公開です。一方、機能面での改善は明確で、最大出力解像度がWan 2.1の1024pxから2K相当（約2048px）へ拡張、instruction-based editingの精度向上、multi-image referenceによるスタイル合成が新規追加されています。定量的なベンチマークよりも実タスクでのA/Bテストで評価することを推奨します。

Wan-2.7のmulti-image reference機能をAPIで使う場合、参照画像は何枚まで指定できますか？実装方法は？

Wan-2.7のmulti-image reference機能はAPIパラメータで複数URLを配列指定する形式で実装します。確認されている上限はModelsLabで参照画像4枚まで、WaveSpeed AIで3枚までです（2025年時点のドキュメント準拠）。リクエスト例としては`reference_images: ['https://example.com/img1.png', 'https://example.com/img2.png']`のようなJSON配列形式が標準です。画像1枚あたりの最大ファイルサイズは多くのプロバイダで10MB上限、推奨解像度は512px〜1024pxです。参照画像数が増えるほど処理時間が約20〜40%増加する傾向があるため、レイテンシとクオリティのトレードオフを考慮した枚数設計が重要です。

OpenAI GPT Image 2 Edit API完全ガイド【開発者向け】

OpenAI GPT Image 2 Edit APIの使い方を徹底解説。認証設定からリクエスト送信、画像編集の実装方法まで、開発者が知るべき全手順をわかりやすく紹介します。

2026年4月23日

モデルリリース

OpenAI GPT Image 1 テキストから画像生成API完全開発者ガイド

OpenAI GPT Image 1のテキストから画像生成APIを徹底解説。APIキーの設定からリクエスト送信、パラメータ調整まで、開発者向けに実践的なコード例とともにわかりやすく説明します。

2026年4月22日