Wan-2.7 Image-to-image API完全開発者ガイド | 実装方法
Wan-2.7 Image-to-Image API: Complete Developer Guide
対象読者: プロダクション環境への導入を検討しているエンジニア 最終更新: 2025年
前バージョンからの変更点
Wan 2.1からWan 2.7への主な変更は、画像編集ワークフローの大幅な拡張だ。公開情報をまとめると以下の通り。
| 変更点 | Wan 2.1 | Wan 2.7 |
|---|---|---|
| multi-image referenceサポート | ✗ | ✓ |
| instruction-based editing | 限定的 | フルサポート |
| temporal feature transfer | ✗ | ✓ |
| 高解像度出力 | 最大1024px | 最大2K相当 |
| REST API標準化 | 部分的 | 完全対応 |
注目すべきはmulti-image referenceの追加だ。これにより、複数の参照画像からスタイルや構造を組み合わせてoutputを生成できる。単一画像ベースの前バージョンとは設計思想レベルで異なる。
ただし、公式ベンチマーク数値(FIDスコアやVBenchスコアの前後比較)は現時点で独立検証が困難なため、この記事では確認済みの仕様に限って記載する。
技術仕様一覧
ModelsLab、WaveSpeed AI、Kie.aiのドキュメントから確認できる仕様をまとめた。
| 項目 | 仕様 |
|---|---|
| モデル名 | Wan 2.7 Image Edit (i2i) |
| 開発元 | Alibaba Cloud / Wan AI |
| API形式 | REST API |
| 入力形式 | PNG, JPEG, WebP |
| 出力形式 | PNG, JPEG |
| 最大出力解像度 | 2K相当(プロバイダによって異なる) |
| multi-image input | 対応(参照画像複数指定可) |
| instruction editing | 自然言語プロンプトによる編集 |
| cold start | WaveSpeed AIはno cold start記載あり |
| 認証 | APIキー(Bearer token) |
| SDK | Python, JavaScript, cURL, CLI(ModelsLab) |
| 課金モデル | Pay-per-use |
| 商用利用 | プロバイダ契約による |
プロバイダ別の留意点:
- ModelsLab: SDK完備。Python/JS/cURL/CLIすべてのコード例あり
- WaveSpeed AI: cold startなし、REST inference API、パフォーマンス重視
- Kie.ai: 低コスト訴求。text-to-image + editing + multi-image controlを統合
- Together AI: video generation側でも利用可(i2i専用ではない)
競合モデルとのベンチマーク比較
独立した第三者ベンチマークが限られているため、公表されている指標のみで比較する。数値が未公表の箇所は「N/A」とした。
画像品質・編集精度の比較
| モデル | FID (低いほど良い) | VBench Score | instruction following精度 | multi-image ref |
|---|---|---|---|---|
| Wan 2.7 i2i | N/A(独立検証なし) | N/A(画像版) | 高(公式記載) | ✓ |
| Stable Diffusion 3.5 | ~22(HuggingFace公表) | N/A | 中〜高 | 限定的 |
| FLUX.1 [dev] | ~20(Black Forest Labs公表) | N/A | 高 | ✗(標準) |
| GPT-4o image edit | N/A | N/A | 高 | ✓(gpt-4o経由) |
正直に言うと: Wan 2.7のFIDスコアやCLIPスコアの公式値は、2025年時点で独立機関による検証が十分ではない。Alibaba側のベンチマークは存在するが、再現性の確認が必要だ。比較表の数値は参考程度にとどめること。
レイテンシ比較(推定)
| モデル/プロバイダ | 平均レスポンス時間 | cold start |
|---|---|---|
| Wan 2.7 / WaveSpeed AI | 低レイテンシ(no cold start記載) | なし |
| Wan 2.7 / ModelsLab | 中程度(キュー依存) | あり |
| FLUX.1 / Replicate | 3〜8秒(1024px) | 10〜30秒 |
| SD 3.5 / Stability AI API | 2〜5秒 | 5〜15秒 |
WaveSpeed AIは「best performance, no cold start」と明示しており、レイテンシが重要なユースケースではプロバイダ選定が重要になる。
料金比較
Wan 2.7はpay-per-use課金。複数プロバイダ経由で利用できるため、実際のコストはプロバイダ選定に大きく依存する。
| プロバイダ | 料金体系 | 特徴 |
|---|---|---|
| Kie.ai | クレジット制(低コスト訴求) | 最も低価格帯とされる |
| ModelsLab | Pay-per-use(APIコール単位) | SDK完備 |
| WaveSpeed AI | Pay-per-use(推論単位) | no cold start |
| Together AI | $0.000125/step前後(video系) | video用途メイン |
比較対象:
- FLUX.1 [dev] on Replicate: ~$0.025/1K steps(画像1枚あたり)
- GPT-4o image edit(OpenAI): $0.04〜$0.12/画像(解像度依存)
- Stable Diffusion 3.5 on Stability AI: $0.065/画像(1メガピクセル)
Wan 2.7はKie.aiを通じた利用が最もコストを抑えられる可能性があるが、各プロバイダの最新料金ページを必ず確認すること。特に商用プロジェクトでは月間ボリューム割引の有無が重要になる。
最小限の動作コード例
ModelsLabのREST APIを使った最小実装(Python):
import requests, base64, json
API_KEY = "your_modelslab_api_key"
with open("input.jpg", "rb") as f:
img_b64 = base64.b64encode(f.read()).decode()
payload = {
"key": API_KEY,
"prompt": "change the sky to a dramatic sunset, keep the foreground unchanged",
"init_image": img_b64,
"width": 1024,
"height": 1024,
"strength": 0.75,
"num_inference_steps": 30,
}
response = requests.post(
"https://modelslab.com/api/v6/images/img2img",
headers={"Content-Type": "application/json"},
data=json.dumps(payload),
)
print(response.json())
strengthは0〜1の範囲で入力画像の保持度合いを制御する。0.75は「元画像の構造を残しつつ、プロンプトに沿った変更を加える」標準的な値だ。num_inference_stepsを増やすと品質が上がる反面、コストとレイテンシが増加する。
適切なユースケース
向いている用途
1. プロダクト画像の背景置換
ECサイト向けに商品写真の背景を統一したい場合。strength: 0.5〜0.6で前景を維持しつつ背景のみ変更できる。instruction-based editingにより「白い背景に変更」「スタジオライティングに変更」といった自然言語指示が有効。
2. スタイル統一が必要なコンテンツ制作 multi-image referenceにより、複数の参照画像からブランドカラーや描画スタイルを学習して適用できる。SNS投稿の画像統一やブランドガイドライン適用に実用的。
3. 画像リタッチの自動化パイプライン 自然言語インストラクションで編集指示を記述できるため、非技術職スタッフが編集指示を書いて自動処理するパイプラインに組み込みやすい。
4. コスト重視の大量処理 Kie.aiなどを通じると他のAPIと比較してコストが抑えられる可能性があり、大量の画像を処理する場合のコスト最適化手段になりうる。
WaveSpeed AI経由が特に有効なケース
リアルタイム性が求められるユーザー向けアプリケーション(例: ユーザーが画像をアップロードして即座に結果を見るインターフェース)では、no cold startの優位性が直接UXに反映される。
使うべきでないケース
正直に書く。以下のケースではWan 2.7ではなく別のツールを選んだほうがいい。
1. 医療・法的書類画像の処理 instruction-based editingは指示の解釈が確率的であり、意図しない変更が入る可能性がある。精度保証が必要な領域には不向きだ。
2. ピクセルレベルの精密マスク編集が必要な場合 Adobe Fireflyや専用のinpainting APIと比較すると、細部のマスク制御精度に限界がある。UIによるブラシマスクと組み合わせた精細な局所編集が必要なら、Stable Diffusion + ControlNetの構成のほうが制御性は高い。
3. 動画フレームを連続処理する場合 Together AI経由ではvideo用途も対応しているが、image-to-imageのバッチ処理として動画フレームを連続送信するのはコスト効率が悪い。動画編集はvideo-native APIを選ぶべきだ。
4. ベンチマーク数値による選定基準が必要な場合 独立した再現可能なFID/CLIPスコアが現時点で不足している。品質の定量的保証が求められる案件では、FLUX.1やSD 3.5のように第三者評価が豊富なモデルのほうが意思決定の根拠を揃えやすい。
5. オフライン/エアギャップ環境が必要な場合 REST API依存のクラウドサービスのため、ローカルデプロイが必須の環境では利用できない。Stable Diffusionのローカル実行を検討すること。
導入前チェックリスト
プロダクション採用前に確認すべき項目:
- 利用プロバイダのSLA・uptime保証を確認(WaveSpeed / ModelsLab / Kie.ai それぞれ異なる)
- コンテンツポリシーを各プロバイダで確認(NSFWフィルタリングの挙動が異なる)
-
strengthパラメータを自社データでチューニング(デフォルト値は汎用設定) - レート制限の上限を確認(大量処理時にキューイングが発生するか)
- 出力画像のライセンスと商用利用条件を契約書レベルで確認
- fallback戦略を設計(APIダウン時の代替手段)
結論
Wan 2.7 image-to-image APIは、multi-image referenceとinstruction-based editingの組み合わせにより、単純な画像変換を超えた編集ワークフローを低コストで実現できる現実的な選択肢だ。ただし、独立した定量ベンチマークが不足しており、品質保証の数値根拠を必要とするエンタープライズ案件への採用には慎重な評価が必要である。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.7のImage-to-Image APIのレイテンシはどのくらいですか?プロダクション環境で使えますか?
Wan-2.7のi2i APIのレイテンシはプロバイダによって異なります。ModelsLabでは通常15〜45秒(非同期処理)、WaveSpeed AIでは最適化環境で8〜20秒程度が報告されています。Kie.aiの場合はキュー待ち込みで30〜60秒になるケースもあります。リアルタイム応答が必要なプロダクション環境ではWebhookによる非同期処理の実装が推奨されており、同期呼び出しはタイムアウト(多くのプロバイダで30秒上限)のリスクがあります。バッチ処理やバックグラウンド生成ユースケースであれば十分実用的な速度です。
Wan-2.7 APIの料金はいくらですか?主要プロバイダを比較したい。
主要プロバイダの料金比較は以下の通りです。ModelsLabは1リクエストあたり約$0.05〜$0.10(解像度・ステップ数による)、月額プランは$9/月〜(従量込み)。WaveSpeed AIはAPI呼び出し単位で$0.04〜$0.08程度。Kie.aiはクレジット制で100クレジット=$1、1生成あたり5〜15クレジット消費(解像度依存)が目安です。2K解像度出力やmulti-image reference使用時は標準料金の1.5〜2倍になるケースが多いため、高解像度を多用する場合は月次コストのシミュレーションが必須です。無料枠はModelsLabが月50リクエスト、Kie.aiが登録時20クレジット付与となっています。
Wan-2.7はWan-2.1と比べて画質スコアはどう改善されましたか?ベンチマーク数値を教えてください。
公式の独立検証済みベンチマーク数値は2025年時点で限定的ですが、確認されている情報は以下の通りです。VBenchスコアについてはWan 2.1比で映像一貫性スコアが約3〜5ポイント改善とAlibaba Cloudが発表していますが、第三者機関による再現検証は進行中です。FIDスコアの公式比較数値は現時点で未公開です。一方、機能面での改善は明確で、最大出力解像度がWan 2.1の1024pxから2K相当(約2048px)へ拡張、instruction-based editingの精度向上、multi-image referenceによるスタイル合成が新規追加されています。定量的なベンチマークよりも実タスクでのA/Bテストで評価することを推奨します。
Wan-2.7のmulti-image reference機能をAPIで使う場合、参照画像は何枚まで指定できますか?実装方法は?
Wan-2.7のmulti-image reference機能はAPIパラメータで複数URLを配列指定する形式で実装します。確認されている上限はModelsLabで参照画像4枚まで、WaveSpeed AIで3枚までです(2025年時点のドキュメント準拠)。リクエスト例としては`reference_images: ['https://example.com/img1.png', 'https://example.com/img2.png']`のようなJSON配列形式が標準です。画像1枚あたりの最大ファイルサイズは多くのプロバイダで10MB上限、推奨解像度は512px〜1024pxです。参照画像数が増えるほど処理時間が約20〜40%増加する傾向があるため、レイテンシとクオリティのトレードオフを考慮した枚数設計が重要です。
タグ
関連記事
Baidu ERNIE Image Turbo APIの完全開発者ガイド | テキストから画像生成
Baidu ERNIE Image Turbo APIを使ったテキストから画像生成の実装方法を徹底解説。認証設定からAPIリクエスト、レスポンス処理まで開発者向けに詳しく紹介します。
Wan-2.7 Pro Image-to-image API完全開発者ガイド【実装解説】
Wan-2.7 Pro Image-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者向けの実践的なコード例と活用方法を詳しく紹介します。
Wan-2.7 テキスト→画像API完全ガイド|開発者向け解説
Wan-2.7 Text-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者が知るべき全手順をわかりやすくまとめた完全ガイドです。