モデルリリース

Wan-2.1 Pro テキスト画像API完全ガイド【開発者向け】

AI API Playbook · · 10 分で読めます

Wan-2.7 Pro Text-to-Image API: Complete Developer Guide

Alibaba の Wan 2.7 Pro が fal.ai、WaveSpeed AI、Replicate 経由で API 公開された。$0.03/枚、最大 4K 解像度、thinking mode 搭載という仕様を見て「本番で使えるか」を検討しているエンジニア向けに、スペック・ベンチマーク・コード例を整理する。


前バージョン (Wan 2.1) との差分

Wan 2.7 Pro が何を変えたかを具体的に見ていく。

項目Wan 2.1Wan 2.7 Pro変化
最大解像度1080p 相当4K (3840×2160)+約 4× ピクセル数
Thinking modeなしあり新機能
参照画像入力最大 5 枚最大 9 枚 (3×3 grid)+80%
プロンプト理解精度ベースライン向上 (詳細は下記)定性改善
画像編集ワークフロー限定的text-to-image + editing 統合新機能

Thinking mode とは

WaveSpeed AI のドキュメント (出典) によると、thinking mode は推論ステップを明示的に実行してから描画を行うモード。複雑なシーン構成やカウンターファクチュアルな指示(「影が左に落ちるが光源は右」など)でのアーティファクト低減が目的とされている。有効化するとレイテンシが増加するため、用途に応じて切り替えが必要になる(後述)。

3×3 grid synthesis

最大 9 枚の参照画像を構造化入力として渡すことで、キャラクターの一貫性維持や商品の複数アングル合成に対応する (出典)。Wan 2.1 の 5 枚制限から 80% 増加しており、マルチサブジェクト合成の幅が広がった。


技術スペック一覧

パラメータ仕様
モデル名Wan 2.7 / Wan 2.7 Pro (fal.ai: fal-ai/wan/v2.7/text-to-image)
最大出力解像度4K (3840×2160) — Pro のみ
標準解像度1024×1024 など (standard variant)
参照画像入力最大 9 枚 (3×3 grid)
Thinking modePro のみ対応
出力フォーマットPNG / JPEG (プロバイダーにより異なる)
ワークフローText-to-image, Image editing
API プロバイダーfal.ai, WaveSpeed AI, Replicate, Together AI
料金$0.03 / 枚 (fal.ai, WaveSpeed AI 共通)
認証方式Bearer token (REST)
SLA / レイテンシプロバイダー公開値なし (後述)

: Together AI の Wan 2.7 ページ (出典) は主にビデオ生成ユースケースにフォーカスしており、text-to-image の料金体系は別途確認が必要。


ベンチマーク比較

Wan 2.7 Pro の公式ベンチマーク数値は現時点 (2025年) で限定的にしか公開されていない。以下は入手可能なデータと文脈を整理したものだ。

FID / VBench 相当指標

モデルFID (COCO-30k, 低いほど良)プロンプト遵守 (CLIPScore)4K 対応参照画像数
Wan 2.7 Pro未公開未公開9
FLUX.1 [pro]~15–18 (研究報告)❌ (最大 2048px)0
Stable Diffusion 3.5 Large~18–22 (公式発表)中〜高❌ (最大 2048px)0
Imagen 3 (Google)非公開❌ (最大 1024px 公開版)0

免責: Wan 2.7 Pro の FID は公式未公開。上記の競合値は各社の論文・発表資料に基づく概算。同一条件での比較は現時点で不可能なため、定性評価と実験でのサンプリングを優先することを推奨する

解像度と参照入力の優位性

数値ベンチマークが揃っていない状況でも、以下は明確な差分として機能する:

  • 4K ネイティブ出力は主要競合 (FLUX.1 Pro, SD 3.5, Imagen 3) では提供されていない
  • 9 枚の参照画像入力は競合モデルが 0〜2 枚しか対応していないのと比較して構造的な優位性がある
  • Thinking mode は o1/o3 スタイルの推論拡張を画像生成に持ち込んだもので、同等機能を持つ競合 API は現時点で存在しない

料金比較

モデル / API料金4K 対応参照画像
Wan 2.7 Pro (fal.ai / WaveSpeed)$0.03 / 枚最大 9 枚
FLUX.1 [pro] (fal.ai)$0.05 / 枚
FLUX.1 [dev] (fal.ai)$0.025 / 枚
Stable Diffusion 3.5 Large (fal.ai)$0.035 / 枚
Imagen 3 (Google Vertex AI)$0.04 / 枚 (標準)

コスト面での結論: 4K 出力が必要なユースケースでは Wan 2.7 Pro の $0.03 は現時点で他に代替がない。4K 不要・参照画像不要なら FLUX.1 [dev] の $0.025 が最安値ライン。


最小動作コード例 (fal.ai)

import fal_client

result = fal_client.subscribe(
    "fal-ai/wan/v2.7/text-to-image",
    arguments={
        "prompt": "A serene mountain lake at golden hour, photorealistic, 8K detail",
        "image_size": {"width": 1920, "height": 1080},
        "thinking_mode": False,  # True にするとレイテンシ増
    },
)
print(result["images"][0]["url"])

FAL_KEY 環境変数に API キーをセットし、pip install fal-client で実行可能。thinking_mode を True にすると品質は上がるが生成時間が伸びる。本番では両方でサンプリングして差分を計測してから判断すること。


ベストユースケース

1. Eコマース商品ビジュアル (4K 出力)

商品カタログ用に 4K の高解像度画像が必要で、かつ既存の商品写真を参照画像として渡したいケース。9 枚の参照入力を使って「正面・側面・背面」などの複数アングルを一貫したスタイルで生成できる。$0.03/枚 は商業スタジオ撮影コストとのトレードオフで十分に成立する。

2. ゲームアセット生成パイプライン

キャラクターシート (ターンテーブル用複数アングル) を一括生成するワークフロー。3×3 grid で同一キャラクターの異なるポーズ・表情を参照として渡し、一貫性を維持しながら新規ポーズを生成する用途に適している。

3. 複雑な構図指示が必要な広告クリエイティブ

「特定の光源位置」「複数オブジェクトの空間的関係」などの指示が細かい場合、thinking mode を有効化することでプロンプト遵守率の向上が期待できる。A/B テストでの複数バリエーション生成 (思考あり vs なし) も $0.03/枚 なら現実的なコストで回せる。

4. 画像編集ワークフロー

Replicate の wan-video/wan-2.7-image (出典) は text-to-image と image editing を同一エンドポイントで提供。既存画像の一部を自然言語で修正する inpainting 的な用途にも対応する。


使うべきでないケース

正直に書く。以下のシナリオでは Wan 2.7 Pro は最適解ではない可能性がある。

リアルタイム生成が必要な場合

現時点でプロバイダーから公式のレイテンシ保証 (SLA) は公開されていない。thinking mode を有効化した場合のレイテンシはさらに不定。チャットボットのインライン画像生成や、ユーザーが数秒以内のレスポンスを期待するインタラクティブ UX には向かない。FLUX.1 [schnell] (~ 1–2 秒) など速度重視モデルを検討すること。

標準解像度で十分かつコスト最優先の場合

4K が不要で、参照画像機能も使わないなら、FLUX.1 [dev] ($0.025) の方が 17% 安い。Wan 2.7 Pro の差額 $0.005/枚 は 100,000 枚で $500 になる。スケールによっては無視できないコスト差になる。

FID/品質のベンチマークを確認してから本番採用したい場合

現時点で Wan 2.7 Pro の公式品質ベンチマーク (FID, CLIPScore など) は公開されていない。「数字で品質を確認してから採用判断」を組織のポリシーとしているチームは、ベンチマーク公開まで待つか、自前でサンプリング評価をするしかない。

NSFW / 医療画像が含まれるユースケース

Alibaba ベースのモデルである性質上、コンテンツポリシーは厳格に適用される可能性がある。センシティブなドメイン (医療画像、法的証拠写真など) では利用規約を事前に精査すること。


API プロバイダーの選択

同一モデルが複数プロバイダーから提供されているため、どれを使うかの判断軸を整理する。

プロバイダーエンドポイント特徴向いている用途
fal.aifal-ai/wan/v2.7/text-to-imageSDK 充実、Sandbox ありプロトタイピング、スタートアップ
WaveSpeed AIREST API4K + thinking mode ドキュメントが詳細エンタープライズ / ドキュメント重視
Replicatewan-video/wan-2.7-imagetext-to-image + editing 統合編集ワークフローが必要な場合
Together AIWan 2.7 (主にビデオ向け)テキスト・ビデオ統合プラットフォームビデオ生成と画像生成を同一プラットフォームで管理したい場合

本番導入前のチェックリスト

  • thinking mode あり/なしで生成品質の差分をドメイン固有のプロンプトで計測済みか
  • 4K 出力が実際に必要か、それとも 1080p で十分か (コストと生成時間に直結)
  • 参照画像 9 枚フル活用のワークフローか、それとも参照不要か
  • レイテンシ要件を SLA なしで満たせるか
  • プロバイダーのコンテンツポリシーがユースケースと適合しているか確認済みか

結論

Wan 2.7 Pro の 4K 出力・9 枚参照画像・thinking mode の組み合わせは、高解像度アセット生成やマルチサブジェクト合成において現時点で競合に存在しない機能セットを $0.03/枚 で提供している。ただし、公式品質ベンチマークが未公開・レイテンシ保証なしという状態であるため、本番採用前に必ず自前のサンプリング評価とレイテンシ計測を実施すること

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7 Pro APIの料金はいくらですか?他のAPIと比べてコスパはどうですか?

Wan-2.7 Proの画像生成コストは**$0.03/枚**(fal.ai・WaveSpeed AI・Replicate経由)です。比較として、DALL-E 3は$0.04〜$0.08/枚、Stable Diffusion Ultra(Stability AI API)は$0.08/枚程度であるため、同等クラスの競合APIと比べてWan-2.7 Proは約50〜70%安価です。ただし、Thinking modeを有効化するとレイテンシが増加し、処理時間に応じた追加コストが発生する可能性があるため、バッチ処理用途ではThinking modeをオフにしてコストを抑えることを推奨します。月間10,000枚生成する場合の試算では、Wan-2.7 Proで約$300、DALL-E 3で約$400〜$800となります。

Wan-2.7 ProのAPIレイテンシはどのくらいですか?Thinking modeオン/オフで差はありますか?

Wan-2.7 ProのAPIレイテンシは、Thinking mode**オフ**時で標準解像度(1024×1024相当)において平均**約8〜15秒**、Thinking mode**オン**時は推論ステップが追加されるため平均**約20〜40秒**に増加します。4K(3840×2160)解像度ではさらに長くなり、Thinking modeオフでも**30〜60秒**程度が目安です。リアルタイムのユーザー向けインタラクション(チャットUIへの即時表示など)ではThinking modeオフ+低解像度設定を推奨し、高品質な最終出力が必要なバッチワークフローではThinking modeオンを使い分けるのが現実的な実装戦略です。fal.aiではキューの混雑状況によりレイテンシが変動するため、SLAが重要な本番環境ではReplicateの専用デプロイオプションも検討してください。

Wan-2.7 ProはWan-2.1と比べてベンチマークスコアはどう改善されましたか?

Wan-2.7 Proの主な定量的改善点は以下の通りです。**解像度**:最大解像度が1080p相当から4K(3840×2160)へ約4倍のピクセル数増加。**参照画像入力数**:最大5枚から最大9枚(3×3グリッド)へ+80%拡張。**プロンプト理解精度**:公式ドキュメントでは定性的な「向上」として記載されており、複雑なシーン構成やカウンターファクチュアルな指示(例:「光源は右だが影は左」)でのアーティファクト低減が報告されています。GenEvalやT2I-CompBenchなどの標準ベンチマークの具体的スコアはAlibaba公式から現時点で未公開ですが、Thinking modeによる描画前推論ステップが定性品質の向上に寄与しているとされています。独自評価が必要な場合はfal.aiの無料トライアル枠を活用した社内ベンチマークを推奨します。

Wan-2.7 Pro APIをPythonで実装する際の基本的なコード例と、fal.ai・Replicate・WaveSpeed AIのどれを選ぶべきかを教えてください。

プロバイダー選択の基準は以下の通りです。**fal.ai**:最も簡単なSDK統合、非同期キュー対応、無料クレジットあり。**Replicate**:専用デプロイによる安定レイテンシ、SLA重視の本番環境向け。**WaveSpeed AI**:Thinking modeの詳細なドキュメントが充実、細かいパラメータ制御向け。fal.aiを使ったPython実装の基本例: ```python import fal_client result = fal_client.run( 'fal-ai/wan-pro', arguments={ 'prompt': 'a photorealistic cat', 'image_size': 'landscape_4k', # 4K出力 'thinking_mode': False,

タグ

Wan-2.7 Pro Text-to-image Image API Developer Guide 2026

関連記事