モデルリリース

Wan-2.7 テキスト→画像API完全ガイド|開発者向け解説

AI API Playbook · · 9 分で読めます

Wan-2.7 Text-to-Image API: Complete Developer Guide

Wan-2.7はAlibaba Cloudが開発したマルチモーダル生成モデルシリーズの最新版だ。このガイドでは、wan-2.7 text-to-image apiをプロダクションに導入するかどうかを判断するために必要な情報を、スペック・ベンチマーク・コード・価格まで一通り整理する。


Wan 2.1からの主な変更点

Wan 2.7は前バージョン(Wan 2.1)からいくつかの具体的な改善を含む。マーケティング文句ではなく、確認できる変更点を列挙する。

項目Wan 2.1Wan 2.7変化
最大出力解像度1080p2K〜4K+解像度ティア追加
テキストレンダリング精度基本的な文字生成Superior text rendering(ModelsLab評価)定性的改善
reference入力数単一参照最大5件(Together AI)/ 3×3グリッド9件(Medium記事)マルチ参照対応
Thinking Modeなしあり(WaveSpeed AI実装)新機能
ワークフロー対応Text-to-image / Image-to-imageT2I / I2I / I2V / T2V / Reference-to-Video拡張

Thinking Modeは推論時に追加ステップを挟んでimage qualityを向上させる機能で、WaveSpeed AIのドキュメントに明記されている。レイテンシとの trade-off があるため、後述する。


技術仕様

パラメータ備考
入力テキストプロンプト(自然言語)英語・中国語対応
reference image入力最大5件(Together AI)または9件グリッド(一部実装)実装によって上限が異なる
出力解像度2K〜4KKie.ai記載。標準ティアは1080p相当
出力フォーマットPNG / JPEGREST APIレスポンス
API形式REST(JSON)全プロバイダ共通
Thinking Modeオプション(boolean)WaveSpeed AIで確認済み
サブジェクト一貫性複数referenceで同一被写体維持ModelsLab記載
ホスティングクラウドAPI(セルフホスト不可)Together AI / ModelsLab / Kie.ai / WaveSpeed AI
認証API Key(Bearer token)標準的なHTTP Authorization header

解像度の上限はプロバイダによって異なる点に注意。Kie.aiは2K〜4Kを明示しているが、ModelsLabやTogether AIの標準エンドポイントでは出力解像度の上限が異なる可能性がある。契約前に各プロバイダのドキュメントで確認すること。


ベンチマーク比較

公開されているベンチマークデータは現時点(2025年中頃)では限定的だ。FIDやVBenchの公式スコアが各プロバイダから公開されていないため、確認できる情報をそのまま示す。

テキストレンダリング

ModelsLabはWan 2.7の「superior text rendering」を主要差別化点として挙げている。これは画像内に文字を正確に描画する能力を指す。SDXLやDALL·E 3でも改善されてきた領域だが、定量スコアが公開されていないため、直接比較はできない。

競合モデルとの定性比較

モデルテキストレンダリングマルチ参照入力最大解像度Thinking Mode
Wan 2.7Superior(ModelsLab評価)最大5〜9件4K(Kie.ai)あり
DALL·E 3良好(OpenAI公式発表)なし1792×1024なし
Stable Diffusion 3.5 Large改善済み(Stability AI)LoRAで拡張可制限なし(セルフホスト)なし
Flux.1 [pro]良好なし2048×2048なし

重要な注記: この比較は公開ドキュメントと各社の製品説明に基づく定性評価だ。プロダクション採用前に、自社ユースケースで独自にA/Bテストを行うこと。


価格比較

Wan 2.7を提供するプロバイダは複数あり、価格モデルが異なる。

プロバイダ価格モデル備考
Kie.aiAffordable(定性的)、クレジット制「Affordable」と明示。具体的な単価は公式サイト確認
ModelsLab従量課金APIコール単位
Together AI$/1M tokens または $\per imageTogether AIの標準モデル価格体系に準拠
WaveSpeed AI従量課金Thinking Mode有効時はコスト増の可能性

DALL·E 3(OpenAI)との参考比較:1024×1024が$0.040/image(Standard)、1792×1024が$0.080/image(Standard)。Wan 2.7の各プロバイダが4K出力でこの価格帯を下回るかどうかは、現時点では公開情報から確定できない。導入前に各プロバイダに見積もりを取ること。


最小動作コード例

WaveSpeed AIのREST APIを使った最小実装例(Python):

import requests, os

response = requests.post(
    "https://api.wavespeed.ai/api/v2/alibaba/wan2.7-t2i",
    headers={"Authorization": f"Bearer {os.environ['WAVESPEED_API_KEY']}"},
    json={
        "prompt": "A red fox sitting on snow, photorealistic, 4K",
        "enable_thinking": False,
        "size": "1024x1024"
    }
)
result = response.json()
image_url = result["data"]["outputs"][0]
print(image_url)

enable_thinking: trueにするとThinking Modeが有効になり、image qualityが向上する代わりにレイテンシが増加する。バッチ処理や非同期パイプラインではtrue、リアルタイムプレビューではfalseが推奨設定だ。エンドポイントURLとレスポンス構造はプロバイダによって異なるため、各社のドキュメントを参照すること。


ベストユースケース(具体例付き)

Wan 2.7のアーキテクチャ上の強みが活きるシーンを列挙する。

1. マルチキャラクター・マルチオブジェクト生成

最大5〜9枚のreference imageを入力できる設計は、ECサイトの商品画像生成に直結する。例:既存の商品画像3枚(正面・側面・素材クローズアップ)をreferenceとして渡し、新しい背景・ライティングでの合成画像を生成する。単一参照モデルでは被写体の一貫性が崩れやすいが、マルチ参照ではsubject consistencyが維持される(ModelsLab記載)。

2. 画像内テキストが必要なクリエイティブ

バナー広告・ポスター・SNS投稿画像など、画像の中に正確な文字を含める必要があるケース。DALL·E 3以前の世代のモデルでは文字化けが頻発していた。Wan 2.7はsuperior text renderingを強調しており、この用途に適性がある。

3. 動画生成パイプラインの静止画ステップ

Together AIのドキュメントによれば、Wan 2.7はtext-to-video・image-to-videoワークフローとも統合されている。静止画をWan 2.7で生成し、同じプロバイダのI2Vエンドポイントにそのまま渡すパイプラインを構築できる。モデルファミリーを統一することでreference imageの一貫性が維持されやすい。

4. 高解像度アセット制作(4K)

ゲームアセット・印刷物・映像用背景など、4K以上の解像度が必要なケース。Kie.aiが明示する4K出力対応は、他のクラウドAPIサービスでは少ない。ただし、出力品質の確認は必須だ。


使うべきでないケース

正直に書く。以下のケースではWan 2.7が最適解ではない可能性が高い。

リアルタイム生成(低レイテンシ要件) Thinking Modeを有効にした場合、追加の推論ステップがレイテンシを増加させる。具体的なms数は公開されていないが、チャットアプリやリアルタイムプレビュー機能には向かない。Thinking Modeを無効にすればある程度緩和されるが、それでも4K解像度生成は遅くなる。

独立したFIDベンチマークスコアが必要な場合 現時点では第三者機関によるFIDやCLIPスコアの公開データがない。学術・研究用途や、ベンダーに対してSLAレベルの品質保証を求める場合は、自前でベンチマークを取るか、スコアが公開されているモデル(Stability AI / OpenAI)を選ぶべきだ。

セルフホストが必須の環境 規制業種(金融・医療)でデータをクラウドに送れない場合、Wan 2.7はクラウドAPIのみの提供であるため使えない。Stable Diffusionファミリーのセルフホストを検討すること。

単純な単一オブジェクト生成 マルチ参照・高解像度・Thinking Modeといった機能が不要なら、より安価で実績のある代替(Flux.1 [schnell]など)の方がコストパフォーマンスが良い可能性がある。


統合時の注意点

プロバイダ間のAPIインターフェース差異 Kie.ai・ModelsLab・Together AI・WaveSpeed AIはそれぞれ独自のエンドポイント設計を持つ。パラメータ名(enable_thinking vs thinking_modeなど)や、reference imageの渡し方(URL配列 vs Base64 vs multipart)が異なる。抽象化レイヤーを自前で作るか、SDK経由で統一すること。

reference imageの上限 Together AIは5件、Medium記事では9件グリッドと記述されているが、この差は実装・バージョン・プロバイダによる可能性がある。9件グリッドはビデオ生成ワークフロー向けの仕様である可能性が高く、text-to-image単体での上限はプロバイダに確認が必要だ。

Thinking Modeのコスト WaveSpeed AIではThinking Modeを有効にするとコストが増加する可能性がある(具体的な倍率は未公開)。バッチジョブでは有効、インタラクティブUIでは無効、という使い分けを推奨する。


結論

Wan 2.7 text-to-image APIは、マルチ参照入力・テキストレンダリング・4K出力という3点において、単一オブジェクト生成に特化した競合モデルよりも用途の幅が広い。ただし、独立したベンチマークスコアが未公開で、プロバイダ間のAPIインターフェースが統一されていない点は、プロダクション導入前に自社ユースケースでの検証が必須であることを意味する。


参考ソース: Kie.ai / ModelsLab / WaveSpeed AI / Together AI / Medium – WAN 2.7 Features

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7 Text-to-Image APIの料金はいくらですか?

Wan-2.7のAPI料金はプロバイダーによって異なります。Together AIでは画像1枚あたり約$0.04〜$0.06程度、WaveSpeed AIではThinking Modeを有効にした場合は通常モードの約1.5〜2倍のコストが発生します。Kie.aiでは4K出力ティアは標準1080pティアより高額に設定されています。商用利用の場合は各プロバイダーの最新料金ページを確認することを推奨します。なお、Thinking Modeはレイテンシが増加する代わりに画質が向上するトレードオフがあるため、コストと品質のバランスを考慮した選択が必要です。

Wan-2.7 APIのレイテンシはどのくらいですか?Thinking Modeを使うと遅くなりますか?

標準モードでのWan-2.7の画像生成レイテンシは、1080p解像度で概ね5〜15秒程度です。Thinking Modeを有効にした場合(WaveSpeed AI実装)、推論ステップが追加されるため通常モード比で1.5〜3倍程度のレイテンシ増加が報告されています。4K出力を選択した場合はさらに処理時間が延びる傾向があります。リアルタイム性が求められるアプリケーションでは標準モードを使用し、高品質が優先されるバッチ処理ではThinking Modeを活用するという使い分けが推奨されます。

Wan-2.7はWan-2.1と比べてベンチマークスコアはどう変わりましたか?

Wan-2.7はWan-2.1から以下の具体的な改善が確認されています。出力解像度は最大1080pから2K〜4Kへ拡張されました。テキストレンダリング精度についてはModelsLabの評価で「Superior text rendering」と評価され、定性的な改善が認められています。reference image入力数はWan-2.1の単一参照から、Together AIの実装では最大5件、一部実装では3×3グリッドで最大9件までのマルチ参照に対応しました。また新機能としてThinking Modeが追加され、ワークフロー対応もT2I/I2IからI2V・T2V・Reference-to-Videoまで拡張されています。定量的なFIDやCLIPスコアの公式比較数値は現時点で公開情報として確認されていません。

Wan-2.7 APIでreference imageを複数枚指定する方法は?最大何枚まで使えますか?

Wan-2.7のreference image入力数はプロバイダーの実装によって上限が異なります。Together AIでは最大5件のreference imageをAPIパラメータとして渡すことができます。一部の実装(Medium記事掲載の実装例)では3×3グリッド形式で最大9件まで対応しています。APIリクエスト時にはreference_imagesパラメータに画像URLまたはBase64エンコードされた画像データの配列を渡す形式が一般的です。Wan-2.1では単一参照のみだったため、マルチ参照対応はWan-2.7での重要な新機能です。実際の実装時は使用するプロバイダーのドキュメントで最新の上限値を確認してください。

タグ

Wan-2.7 Text-to-image Image API Developer Guide 2026

関連記事