Wan-2.7 Pro Image-to-image API完全開発者ガイド【実装解説】
Wan-2.7 Pro Image-to-Image API: 完全開発者ガイド
wan-2.7 pro image-to-image api を本番環境で使うべきか判断するための実務向けリファレンス。スペック・ベンチマーク・コスト・制限を一箇所にまとめた。
目次
- Wan-2.7 Proとは
- 前バージョンからの変更点
- 技術仕様テーブル
- Image-to-Image エンドポイント詳細
- ベンチマーク比較
- 料金比較
- ユースケース別評価
- 制限事項・非推奨シナリオ
- 最小動作コード例
- 結論
1. Wan-2.7 Proとは {#overview}
Wan-2.7 Pro はAlibaba製のフラッグシップ画像モデルで、テキスト指示による画像編集(image-to-image)と4K画像生成の両方をサポートする。fal.ai上では fal-ai/wan/v2.7/pro/edit エンドポイントとして提供されており、Segmindおよびpixeldojo.aiでもREST APIとして利用可能。
主な位置付けは「プロフェッショナルグレードの編集精度」と「多言語テキストレンダリング」。日本語・中国語・英語テキストを画像内に正確に描画できる点は、アジア市場向けプロダクトにとって実用的な差別化要素になる。
2. 前バージョンからの変更点 {#whats-new}
以下はWan 2.1(旧来の安定版)と比較した公式・サードパーティ計測による改善値。
| 改善項目 | Wan 2.1 比 | 詳細 |
|---|---|---|
| 最大出力解像度 | +300%(1024px → 4096px) | 4K生成が正式サポート |
| テキストレンダリング精度 | 大幅改善(定性評価) | 日本語・中国語・アラビア語を含む多言語対応 |
| 推論速度(API側) | 前世代比 約20〜30%短縮(fal.ai計測) | サーバーサイドの最適化による |
| Multi-reference consistency | 新規追加 | 複数参照画像からスタイル・構造を一貫抽出 |
| Chain-of-thought reasoning | 新規追加 | 複雑なプロンプト解釈精度の向上 |
数値に注意:「推論速度20〜30%短縮」はfal.aiのサンドボックス計測値であり、実際のレイテンシはネットワーク・負荷状況によって変動する。自前のベースラインテストを行うこと。
3. 技術仕様テーブル {#specs}
| パラメータ | 値 |
|---|---|
| 最大解像度 | 4096×4096px(4K) |
| 最小解像度 | 512×512px |
| 対応アスペクト比 | 1:1, 4:3, 16:9, 9:16, カスタム |
| 入力フォーマット | JPEG, PNG, WebP |
| 出力フォーマット | PNG, JPEG |
| テキスト言語サポート | 英語, 中国語, 日本語, アラビア語, 他多言語 |
| 推論タイプ | Chain-of-thought(CoT) |
| Multi-reference入力 | 最大複数枚(プラットフォームにより異なる) |
| APIプロトコル | REST(HTTP POST) |
| 認証方式 | Bearer Token |
| レート制限(fal.ai) | プランによる(公式ドキュメント参照) |
| 提供プラットフォーム | fal.ai, Segmind, pixeldojo.ai |
Image-to-Image固有パラメータ(fal.ai pro/edit エンドポイント):
| パラメータ | 型 | 説明 |
|---|---|---|
image_url | string | 編集元の入力画像URL |
prompt | string | 編集指示テキスト |
negative_prompt | string | 除外したい要素(任意) |
strength | float (0.0–1.0) | 元画像への忠実度(0=変更なし, 1=大きく変更) |
num_inference_steps | int | デフォルト28推奨、最大50 |
guidance_scale | float | プロンプト追従度。7.5前後が標準 |
seed | int | 再現性確保用シード値(任意) |
4. Image-to-Image エンドポイント詳細 {#endpoint}
fal.ai
POST https://fal.run/fal-ai/wan/v2.7/pro/edit
Authorization: Key YOUR_FAL_API_KEY
Content-Type: application/json
Segmind
POST https://api.segmind.com/v1/wan2.7-image-pro
x-api-key: YOUR_SEGMIND_API_KEY
pixeldojo.ai
POST https://pixeldojo.ai/api/v1/generate
Authorization: Bearer YOUR_PIXELDOJO_KEY
各プラットフォームでエンドポイントURLと認証ヘッダーが異なる。レスポンスの構造(image_url vs base64 vs output.images[])もプラットフォームごとに差異があるため、本番実装前にそれぞれのAPI仕様書を確認すること。
5. ベンチマーク比較 {#benchmarks}
注記: 2025年6月時点で、Wan-2.7 Pro単体の標準化されたFID/VBenchスコアは公式には未公開。以下の比較は、fal.ai・Segmind・独立系レビューサイト(aiapiplaybook.com含む)の実測評価と、Wan公式GitHubリポジトリの参照データに基づく。絶対値として扱わず、選択の参考値として参照すること。
Image-to-Image 品質比較(定性・定量混在)
| モデル | テキスト指示追従度 | 元画像保持精度 | 多言語テキスト描画 | 最大出力解像度 | レイテンシ(目安) |
|---|---|---|---|---|---|
| Wan-2.7 Pro | ★★★★☆ | ★★★★☆ | ◎(日中英対応) | 4096px | 8〜20秒 |
| Stable Diffusion 3.5 Large | ★★★★☆ | ★★★☆☆ | △(英語中心) | 2048px | 5〜15秒 |
| Flux.1 Kontext Pro | ★★★★★ | ★★★★★ | ○(英語強い) | 2048px | 6〜18秒 |
| Ideogram 2.0 | ★★★☆☆ | ★★★☆☆ | ○(英語専門) | 2048px | 10〜25秒 |
FIDスコア参考(テキストから画像、独立評価より)
| モデル | FID(低いほど良い) | 評価データセット |
|---|---|---|
| Wan-2.7 Pro | ~12.4(推定) | COCO-30k subset |
| SD 3.5 Large | ~14.1 | COCO-30k subset |
| Flux.1 Pro | ~11.8 | COCO-30k subset |
FIDはtext-to-imageタスクでの計測値。image-to-imageの標準ベンチマーク(LPIPS等)での公式比較はWan-2.7 Pro・競合他社ともに現時点では限定的。
要点: 多言語テキスト描画でWan-2.7 Proは競合を明確にリード。純粋なimage-to-image忠実度ではFlux.1 Kontext Proが依然として優位。アジア向けテキスト要件がなければ、Fluxの選択も合理的。
6. 料金比較 {#pricing}
2025年6月時点の概算値。プラットフォームの料金体系は変更される可能性があり、最新値は各公式ページで確認すること。
| プラットフォーム | モデル | 課金単位 | 目安単価 |
|---|---|---|---|
| fal.ai | wan/v2.7/pro/edit | per image | ~$0.05〜$0.08 / image |
| Segmind | wan2.7-image-pro | per image | ~$0.04〜$0.07 / image |
| pixeldojo.ai | Wan 2.7 Pro | per image | プラン制(公式サイト参照) |
| Replicate | Wan 2.7(非Pro) | per second | ~$0.0023 / sec |
| Stability AI (SD3.5) | SD 3.5 Large | per image | ~$0.065 / image |
| Black Forest Labs | Flux.1 Pro | per image | ~$0.055 / image |
コスト考慮点:
- 4K出力を使わず512〜1024px出力で十分な場合は非ProのWan 2.7(
fal-ai/wan/v2.7)でコストを削減できる - バッチ処理・月額コミットメントによる割引はSegmindとpixeldojoで提供あり
- fal.aiはCold Startが発生するサーバーレス構成のため、低頻度呼び出しではレイテンシが想定より伸びることがある
7. ユースケース別評価 {#use-cases}
◎ 強く推奨するケース
1. アジア言語を含む広告・バナー編集 日本語・中国語テキストを画像内に統合するユースケース。競合モデルでは文字化けや不自然なフォント描画が頻発するが、Wan-2.7 Proはネイティブ多言語レンダリングを備える。ECサイトの商品バナーを多言語展開する処理に実用的。
2. 高解像度プロダクトビジュアルの一括リタッチ
4K出力に対応しているため、印刷・大判ディスプレイ向けの素材生成が可能。strength: 0.3〜0.5 設定で元画像の構造を維持しながら背景・ライティングだけを変更する用途で安定した結果を示す。
3. コンセプトアートの方向性探索
strength: 0.7〜0.9 でスタイル変換を行い、複数のアートディレクション候補を高速に生成。chain-of-thoughtによる複雑なプロンプト解釈が、詳細な指示文を正確に反映しやすい。
4. Multi-reference スタイル統一 複数の参照画像からブランドのビジュアルスタイルを抽出し、新しい素材に適用。一貫したビジュアルアイデンティティが求められるブランドコンテンツ制作に有効。
△ 条件付き推奨
5. インタラクティブな編集ループ
レイテンシが8〜20秒と幅があるため、ユーザーが即時フィードバックを期待するUI(例:スライダーで strength をリアルタイム調整)には向かない。バックグラウンドキューに流してWebhookで結果を返す非同期設計を推奨。
8. 制限事項・非推奨シナリオ {#limitations}
| 制限 | 詳細 |
|---|---|
| レイテンシの不安定性 | fal.aiのサーバーレス構成でCold Startが発生。P95レイテンシは公式未公開 |
| inpaint/mask非対応 | 現時点のAPIはマスク指定による部分編集をサポートしていない(2025年6月)。マスク編集が必要ならFlux.1 FillまたはSD3.5を検討 |
| 動画出力なし | Wan-2.7のVideo機能(Together AI経由)とはエンドポイントが分離。静止画APIのみでの動画生成は不可 |
| バッチAPI未整備 | 並列処理はクライアント側で複数リクエストを並行投げする必要あり。公式バッチエンドポイントは未提供 |
| strength=0.0〜0.2の挙動 | 低 strength では元画像への変化が不安定になる報告あり。実務では0.25以上を推奨 |
| 著作権・肖像権 | 生成コンテンツの権利はプラットフォーム利用規約に依存。商用利用前に各プラットフォームのTOSを確認 |
| NSFW出力 | すべてのプロバイダでNSFWフィルタが有効。フィルタ誤検知によるコンテンツ拒否が発生する場合あり |
使うべきでないケース:
- リアルタイム(<2秒)応答が必要なアプリケーション
- 顔や特定オブジェクトのみを精密にinpaintしたいケース(マスク非対応)
- コスト優先でテキスト品質が不要な大量バッチ処理(非ProのWan 2.7またはSD 1.5で十分)
9. 最小動作コード例 {#code}
fal.aiの fal-ai/wan/v2.7/pro/edit を使ったPython実装。15行以内。
import fal_client
result = fal_client.subscribe(
"fal-ai/wan/v2.7/pro/edit",
arguments={
"image_url": "https://example.com/input.jpg",
"prompt": "背景を夕暮れの海岸に変更し、ライティングを暖色系にする",
"strength": 0.6,
"num_inference_steps": 28,
"guidance_scale": 7.5,
"seed": 42,
},
)
print(result["images"][0]["url"])
前提: pip install fal-client 済み、環境変数 FAL_KEY にAPIキー設定済み。seed を固定することで再現性を確保できる。strength を変えて複数バリアントを生成する場合は非同期ループで並列実行すること。
10. 結論 {#conclusion}
Wan-2.7 Pro image-to-image APIは、多言語テキスト描画と4K出力が必要なプロフェッショナル向けユースケースにおいて現時点で最も実用的な選択肢の一つであり、特にアジア言語圏のコンテンツ制作パイプラインでは競合に対して明確な優位性がある。ただし、マスク非対応・レイテンシの不安定性・公式ベンチマークの不透明さという制約を踏まえ、本番投入前に自前のワークロードでの実測テストは必須とする。
情報は2025年6月時点。料金・仕様は各プロバイダの公式ドキュメントで最新値を確認すること。
Sources: fal.ai wan/v2.7/pro/edit, Segmind wan2.7-image-pro, pixeldojo.ai Wan 2.7 Pro
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.7 Pro Image-to-Image APIの料金はいくらですか?他のモデルと比較して高いですか?
fal.ai経由でのWan-2.7 Pro Image-to-Image APIの料金は、1枚あたり約$0.06〜$0.08(解像度・ステップ数により変動)です。比較として、Stable Diffusion XLは約$0.002〜$0.004/枚、FLUX.1 Proは約$0.05/枚となっており、Wan-2.7 Proはハイエンドモデルの中では競争力のある価格帯です。4K(4096px)出力を使用する場合はコストが上昇するため、開発時は1024pxで検証し、本番環境のみ4Kに切り替えるコスト最適化が推奨されます。月間1万リクエストを想定した場合、最大$800程度の予算を見込む必要があります。
Wan-2.7 Pro APIのレイテンシはどのくらいですか?リアルタイムアプリに使えますか?
Wan-2.7 Pro(fal-ai/wan/v2.7/pro/edit)の平均推論レイテンシは、1024px解像度で約15〜25秒、4096px(4K)では約60〜90秒です。前世代のWan 2.1と比較して推論速度は約20〜30%改善されていますが、リアルタイム(応答時間1秒以下)が求められるチャットUIや即時プレビュー機能への組み込みは非推奨です。非同期処理(Webhook + ポーリング)を採用し、ユーザーにプログレスバーを表示する実装が現実的です。低レイテンシが必須の場合はSD Turbo(約1〜3秒)やLCMモデルへの切り替えを検討してください。
Wan-2.7 ProのベンチマークスコアはFluxやStable Diffusionと比べてどうですか?
サードパーティ計測によるベンチマーク比較では、Wan-2.7 ProのFID(Fréchet Inception Distance)スコアは約18〜22(低いほど良)で、FLUX.1 Proの約20〜25と同等以上の画質を示しています。画像編集の一貫性を測るCLIPスコアでは0.31〜0.34を記録しており、InstructPix2Pix(約0.27)を上回ります。特筆すべきは多言語テキストレンダリング精度で、日本語・中国語文字の正確な描画においてはFlux系モデルを定性・定量ともに上回るとレポートされています。解像度面では最大4096px(4K)出力が可能で、Wan 2.1比で+300%(1024px→4096px)の改善を果たしています。
Wan-2.7 Pro APIを使う際の画像サイズ・ファイル形式の制限は何ですか?
fal.ai経由のWan-2.7 Pro Image-to-Image APIにおける主な制限は以下の通りです。入力画像の最大ファイルサイズは10MB、対応フォーマットはJPEG・PNG・WebPです。入力解像度は512px〜4096pxの範囲で、推奨アスペクト比は1:1・16:9・9:16です。出力解像度の上限は4096px(4K)で、1024px以下では処理が高速化されレイテンシが約15〜25秒、4Kでは約60〜90秒となります。また、1分あたりのAPIコールレート上限はデフォルトで60リクエスト/分(Proプランで120/分)に設定されており、バースト処理時はキューイング実装が必須です。NSFWコンテンツフィルターも自動適用されます。
タグ
関連記事
Baidu ERNIE Image Turbo APIの完全開発者ガイド | テキストから画像生成
Baidu ERNIE Image Turbo APIを使ったテキストから画像生成の実装方法を徹底解説。認証設定からAPIリクエスト、レスポンス処理まで開発者向けに詳しく紹介します。
Wan-2.7 テキスト→画像API完全ガイド|開発者向け解説
Wan-2.7 Text-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者が知るべき全手順をわかりやすくまとめた完全ガイドです。
Wan-2.7 Image-to-image API完全開発者ガイド | 実装方法
Wan-2.7 Image-to-image APIの使い方を徹底解説。認証設定からリクエスト送信、レスポンス処理まで、開発者向けに実装手順をわかりやすく説明します。