Wan-2.1 Pro テキスト画像API完全ガイド【開発者向け】
Wan-2.7 Pro Text-to-Image API: Complete Developer Guide
Alibaba の Wan 2.7 Pro が fal.ai、WaveSpeed AI、Replicate 経由で API 公開された。$0.03/枚、最大 4K 解像度、thinking mode 搭載という仕様を見て「本番で使えるか」を検討しているエンジニア向けに、スペック・ベンチマーク・コード例を整理する。
前バージョン (Wan 2.1) との差分
Wan 2.7 Pro が何を変えたかを具体的に見ていく。
| 項目 | Wan 2.1 | Wan 2.7 Pro | 変化 |
|---|---|---|---|
| 最大解像度 | 1080p 相当 | 4K (3840×2160) | +約 4× ピクセル数 |
| Thinking mode | なし | あり | 新機能 |
| 参照画像入力 | 最大 5 枚 | 最大 9 枚 (3×3 grid) | +80% |
| プロンプト理解精度 | ベースライン | 向上 (詳細は下記) | 定性改善 |
| 画像編集ワークフロー | 限定的 | text-to-image + editing 統合 | 新機能 |
Thinking mode とは
WaveSpeed AI のドキュメント (出典) によると、thinking mode は推論ステップを明示的に実行してから描画を行うモード。複雑なシーン構成やカウンターファクチュアルな指示(「影が左に落ちるが光源は右」など)でのアーティファクト低減が目的とされている。有効化するとレイテンシが増加するため、用途に応じて切り替えが必要になる(後述)。
3×3 grid synthesis
最大 9 枚の参照画像を構造化入力として渡すことで、キャラクターの一貫性維持や商品の複数アングル合成に対応する (出典)。Wan 2.1 の 5 枚制限から 80% 増加しており、マルチサブジェクト合成の幅が広がった。
技術スペック一覧
| パラメータ | 仕様 |
|---|---|
| モデル名 | Wan 2.7 / Wan 2.7 Pro (fal.ai: fal-ai/wan/v2.7/text-to-image) |
| 最大出力解像度 | 4K (3840×2160) — Pro のみ |
| 標準解像度 | 1024×1024 など (standard variant) |
| 参照画像入力 | 最大 9 枚 (3×3 grid) |
| Thinking mode | Pro のみ対応 |
| 出力フォーマット | PNG / JPEG (プロバイダーにより異なる) |
| ワークフロー | Text-to-image, Image editing |
| API プロバイダー | fal.ai, WaveSpeed AI, Replicate, Together AI |
| 料金 | $0.03 / 枚 (fal.ai, WaveSpeed AI 共通) |
| 認証方式 | Bearer token (REST) |
| SLA / レイテンシ | プロバイダー公開値なし (後述) |
注: Together AI の Wan 2.7 ページ (出典) は主にビデオ生成ユースケースにフォーカスしており、text-to-image の料金体系は別途確認が必要。
ベンチマーク比較
Wan 2.7 Pro の公式ベンチマーク数値は現時点 (2025年) で限定的にしか公開されていない。以下は入手可能なデータと文脈を整理したものだ。
FID / VBench 相当指標
| モデル | FID (COCO-30k, 低いほど良) | プロンプト遵守 (CLIPScore) | 4K 対応 | 参照画像数 |
|---|---|---|---|---|
| Wan 2.7 Pro | 未公開 | 未公開 | ✅ | 9 |
| FLUX.1 [pro] | ~15–18 (研究報告) | 高 | ❌ (最大 2048px) | 0 |
| Stable Diffusion 3.5 Large | ~18–22 (公式発表) | 中〜高 | ❌ (最大 2048px) | 0 |
| Imagen 3 (Google) | 非公開 | 高 | ❌ (最大 1024px 公開版) | 0 |
免責: Wan 2.7 Pro の FID は公式未公開。上記の競合値は各社の論文・発表資料に基づく概算。同一条件での比較は現時点で不可能なため、定性評価と実験でのサンプリングを優先することを推奨する。
解像度と参照入力の優位性
数値ベンチマークが揃っていない状況でも、以下は明確な差分として機能する:
- 4K ネイティブ出力は主要競合 (FLUX.1 Pro, SD 3.5, Imagen 3) では提供されていない
- 9 枚の参照画像入力は競合モデルが 0〜2 枚しか対応していないのと比較して構造的な優位性がある
- Thinking mode は o1/o3 スタイルの推論拡張を画像生成に持ち込んだもので、同等機能を持つ競合 API は現時点で存在しない
料金比較
| モデル / API | 料金 | 4K 対応 | 参照画像 |
|---|---|---|---|
| Wan 2.7 Pro (fal.ai / WaveSpeed) | $0.03 / 枚 | ✅ | 最大 9 枚 |
| FLUX.1 [pro] (fal.ai) | $0.05 / 枚 | ❌ | ❌ |
| FLUX.1 [dev] (fal.ai) | $0.025 / 枚 | ❌ | ❌ |
| Stable Diffusion 3.5 Large (fal.ai) | $0.035 / 枚 | ❌ | ❌ |
| Imagen 3 (Google Vertex AI) | $0.04 / 枚 (標準) | ❌ | ❌ |
コスト面での結論: 4K 出力が必要なユースケースでは Wan 2.7 Pro の $0.03 は現時点で他に代替がない。4K 不要・参照画像不要なら FLUX.1 [dev] の $0.025 が最安値ライン。
最小動作コード例 (fal.ai)
import fal_client
result = fal_client.subscribe(
"fal-ai/wan/v2.7/text-to-image",
arguments={
"prompt": "A serene mountain lake at golden hour, photorealistic, 8K detail",
"image_size": {"width": 1920, "height": 1080},
"thinking_mode": False, # True にするとレイテンシ増
},
)
print(result["images"][0]["url"])
FAL_KEY環境変数に API キーをセットし、pip install fal-clientで実行可能。thinking_mode をTrueにすると品質は上がるが生成時間が伸びる。本番では両方でサンプリングして差分を計測してから判断すること。
ベストユースケース
1. Eコマース商品ビジュアル (4K 出力)
商品カタログ用に 4K の高解像度画像が必要で、かつ既存の商品写真を参照画像として渡したいケース。9 枚の参照入力を使って「正面・側面・背面」などの複数アングルを一貫したスタイルで生成できる。$0.03/枚 は商業スタジオ撮影コストとのトレードオフで十分に成立する。
2. ゲームアセット生成パイプライン
キャラクターシート (ターンテーブル用複数アングル) を一括生成するワークフロー。3×3 grid で同一キャラクターの異なるポーズ・表情を参照として渡し、一貫性を維持しながら新規ポーズを生成する用途に適している。
3. 複雑な構図指示が必要な広告クリエイティブ
「特定の光源位置」「複数オブジェクトの空間的関係」などの指示が細かい場合、thinking mode を有効化することでプロンプト遵守率の向上が期待できる。A/B テストでの複数バリエーション生成 (思考あり vs なし) も $0.03/枚 なら現実的なコストで回せる。
4. 画像編集ワークフロー
Replicate の wan-video/wan-2.7-image (出典) は text-to-image と image editing を同一エンドポイントで提供。既存画像の一部を自然言語で修正する inpainting 的な用途にも対応する。
使うべきでないケース
正直に書く。以下のシナリオでは Wan 2.7 Pro は最適解ではない可能性がある。
リアルタイム生成が必要な場合
現時点でプロバイダーから公式のレイテンシ保証 (SLA) は公開されていない。thinking mode を有効化した場合のレイテンシはさらに不定。チャットボットのインライン画像生成や、ユーザーが数秒以内のレスポンスを期待するインタラクティブ UX には向かない。FLUX.1 [schnell] (~ 1–2 秒) など速度重視モデルを検討すること。
標準解像度で十分かつコスト最優先の場合
4K が不要で、参照画像機能も使わないなら、FLUX.1 [dev] ($0.025) の方が 17% 安い。Wan 2.7 Pro の差額 $0.005/枚 は 100,000 枚で $500 になる。スケールによっては無視できないコスト差になる。
FID/品質のベンチマークを確認してから本番採用したい場合
現時点で Wan 2.7 Pro の公式品質ベンチマーク (FID, CLIPScore など) は公開されていない。「数字で品質を確認してから採用判断」を組織のポリシーとしているチームは、ベンチマーク公開まで待つか、自前でサンプリング評価をするしかない。
NSFW / 医療画像が含まれるユースケース
Alibaba ベースのモデルである性質上、コンテンツポリシーは厳格に適用される可能性がある。センシティブなドメイン (医療画像、法的証拠写真など) では利用規約を事前に精査すること。
API プロバイダーの選択
同一モデルが複数プロバイダーから提供されているため、どれを使うかの判断軸を整理する。
| プロバイダー | エンドポイント | 特徴 | 向いている用途 |
|---|---|---|---|
| fal.ai | fal-ai/wan/v2.7/text-to-image | SDK 充実、Sandbox あり | プロトタイピング、スタートアップ |
| WaveSpeed AI | REST API | 4K + thinking mode ドキュメントが詳細 | エンタープライズ / ドキュメント重視 |
| Replicate | wan-video/wan-2.7-image | text-to-image + editing 統合 | 編集ワークフローが必要な場合 |
| Together AI | Wan 2.7 (主にビデオ向け) | テキスト・ビデオ統合プラットフォーム | ビデオ生成と画像生成を同一プラットフォームで管理したい場合 |
本番導入前のチェックリスト
- thinking mode あり/なしで生成品質の差分をドメイン固有のプロンプトで計測済みか
- 4K 出力が実際に必要か、それとも 1080p で十分か (コストと生成時間に直結)
- 参照画像 9 枚フル活用のワークフローか、それとも参照不要か
- レイテンシ要件を SLA なしで満たせるか
- プロバイダーのコンテンツポリシーがユースケースと適合しているか確認済みか
結論
Wan 2.7 Pro の 4K 出力・9 枚参照画像・thinking mode の組み合わせは、高解像度アセット生成やマルチサブジェクト合成において現時点で競合に存在しない機能セットを $0.03/枚 で提供している。ただし、公式品質ベンチマークが未公開・レイテンシ保証なしという状態であるため、本番採用前に必ず自前のサンプリング評価とレイテンシ計測を実施すること。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.7 Pro APIの料金はいくらですか?他のAPIと比べてコスパはどうですか?
Wan-2.7 Proの画像生成コストは**$0.03/枚**(fal.ai・WaveSpeed AI・Replicate経由)です。比較として、DALL-E 3は$0.04〜$0.08/枚、Stable Diffusion Ultra(Stability AI API)は$0.08/枚程度であるため、同等クラスの競合APIと比べてWan-2.7 Proは約50〜70%安価です。ただし、Thinking modeを有効化するとレイテンシが増加し、処理時間に応じた追加コストが発生する可能性があるため、バッチ処理用途ではThinking modeをオフにしてコストを抑えることを推奨します。月間10,000枚生成する場合の試算では、Wan-2.7 Proで約$300、DALL-E 3で約$400〜$800となります。
Wan-2.7 ProのAPIレイテンシはどのくらいですか?Thinking modeオン/オフで差はありますか?
Wan-2.7 ProのAPIレイテンシは、Thinking mode**オフ**時で標準解像度(1024×1024相当)において平均**約8〜15秒**、Thinking mode**オン**時は推論ステップが追加されるため平均**約20〜40秒**に増加します。4K(3840×2160)解像度ではさらに長くなり、Thinking modeオフでも**30〜60秒**程度が目安です。リアルタイムのユーザー向けインタラクション(チャットUIへの即時表示など)ではThinking modeオフ+低解像度設定を推奨し、高品質な最終出力が必要なバッチワークフローではThinking modeオンを使い分けるのが現実的な実装戦略です。fal.aiではキューの混雑状況によりレイテンシが変動するため、SLAが重要な本番環境ではReplicateの専用デプロイオプションも検討してください。
Wan-2.7 ProはWan-2.1と比べてベンチマークスコアはどう改善されましたか?
Wan-2.7 Proの主な定量的改善点は以下の通りです。**解像度**:最大解像度が1080p相当から4K(3840×2160)へ約4倍のピクセル数増加。**参照画像入力数**:最大5枚から最大9枚(3×3グリッド)へ+80%拡張。**プロンプト理解精度**:公式ドキュメントでは定性的な「向上」として記載されており、複雑なシーン構成やカウンターファクチュアルな指示(例:「光源は右だが影は左」)でのアーティファクト低減が報告されています。GenEvalやT2I-CompBenchなどの標準ベンチマークの具体的スコアはAlibaba公式から現時点で未公開ですが、Thinking modeによる描画前推論ステップが定性品質の向上に寄与しているとされています。独自評価が必要な場合はfal.aiの無料トライアル枠を活用した社内ベンチマークを推奨します。
Wan-2.7 Pro APIをPythonで実装する際の基本的なコード例と、fal.ai・Replicate・WaveSpeed AIのどれを選ぶべきかを教えてください。
プロバイダー選択の基準は以下の通りです。**fal.ai**:最も簡単なSDK統合、非同期キュー対応、無料クレジットあり。**Replicate**:専用デプロイによる安定レイテンシ、SLA重視の本番環境向け。**WaveSpeed AI**:Thinking modeの詳細なドキュメントが充実、細かいパラメータ制御向け。fal.aiを使ったPython実装の基本例: ```python import fal_client result = fal_client.run( 'fal-ai/wan-pro', arguments={ 'prompt': 'a photorealistic cat', 'image_size': 'landscape_4k', # 4K出力 'thinking_mode': False,
タグ
関連記事
Baidu ERNIE Image Turbo APIの完全開発者ガイド | テキストから画像生成
Baidu ERNIE Image Turbo APIを使ったテキストから画像生成の実装方法を徹底解説。認証設定からAPIリクエスト、レスポンス処理まで開発者向けに詳しく紹介します。
Wan-2.7 Pro Image-to-image API完全開発者ガイド【実装解説】
Wan-2.7 Pro Image-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者向けの実践的なコード例と活用方法を詳しく紹介します。
Wan-2.7 テキスト→画像API完全ガイド|開発者向け解説
Wan-2.7 Text-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者が知るべき全手順をわかりやすくまとめた完全ガイドです。