Wan-2.7 テキスト→画像API完全ガイド|開発者向け解説
Wan-2.7 Text-to-Image API: Complete Developer Guide
Wan-2.7はAlibaba Cloudが開発したマルチモーダル生成モデルシリーズの最新版だ。このガイドでは、wan-2.7 text-to-image apiをプロダクションに導入するかどうかを判断するために必要な情報を、スペック・ベンチマーク・コード・価格まで一通り整理する。
Wan 2.1からの主な変更点
Wan 2.7は前バージョン(Wan 2.1)からいくつかの具体的な改善を含む。マーケティング文句ではなく、確認できる変更点を列挙する。
| 項目 | Wan 2.1 | Wan 2.7 | 変化 |
|---|---|---|---|
| 最大出力解像度 | 1080p | 2K〜4K | +解像度ティア追加 |
| テキストレンダリング精度 | 基本的な文字生成 | Superior text rendering(ModelsLab評価) | 定性的改善 |
| reference入力数 | 単一参照 | 最大5件(Together AI)/ 3×3グリッド9件(Medium記事) | マルチ参照対応 |
| Thinking Mode | なし | あり(WaveSpeed AI実装) | 新機能 |
| ワークフロー対応 | Text-to-image / Image-to-image | T2I / I2I / I2V / T2V / Reference-to-Video | 拡張 |
Thinking Modeは推論時に追加ステップを挟んでimage qualityを向上させる機能で、WaveSpeed AIのドキュメントに明記されている。レイテンシとの trade-off があるため、後述する。
技術仕様
| パラメータ | 値 | 備考 |
|---|---|---|
| 入力 | テキストプロンプト(自然言語) | 英語・中国語対応 |
| reference image入力 | 最大5件(Together AI)または9件グリッド(一部実装) | 実装によって上限が異なる |
| 出力解像度 | 2K〜4K | Kie.ai記載。標準ティアは1080p相当 |
| 出力フォーマット | PNG / JPEG | REST APIレスポンス |
| API形式 | REST(JSON) | 全プロバイダ共通 |
| Thinking Mode | オプション(boolean) | WaveSpeed AIで確認済み |
| サブジェクト一貫性 | 複数referenceで同一被写体維持 | ModelsLab記載 |
| ホスティング | クラウドAPI(セルフホスト不可) | Together AI / ModelsLab / Kie.ai / WaveSpeed AI |
| 認証 | API Key(Bearer token) | 標準的なHTTP Authorization header |
解像度の上限はプロバイダによって異なる点に注意。Kie.aiは2K〜4Kを明示しているが、ModelsLabやTogether AIの標準エンドポイントでは出力解像度の上限が異なる可能性がある。契約前に各プロバイダのドキュメントで確認すること。
ベンチマーク比較
公開されているベンチマークデータは現時点(2025年中頃)では限定的だ。FIDやVBenchの公式スコアが各プロバイダから公開されていないため、確認できる情報をそのまま示す。
テキストレンダリング
ModelsLabはWan 2.7の「superior text rendering」を主要差別化点として挙げている。これは画像内に文字を正確に描画する能力を指す。SDXLやDALL·E 3でも改善されてきた領域だが、定量スコアが公開されていないため、直接比較はできない。
競合モデルとの定性比較
| モデル | テキストレンダリング | マルチ参照入力 | 最大解像度 | Thinking Mode |
|---|---|---|---|---|
| Wan 2.7 | Superior(ModelsLab評価) | 最大5〜9件 | 4K(Kie.ai) | あり |
| DALL·E 3 | 良好(OpenAI公式発表) | なし | 1792×1024 | なし |
| Stable Diffusion 3.5 Large | 改善済み(Stability AI) | LoRAで拡張可 | 制限なし(セルフホスト) | なし |
| Flux.1 [pro] | 良好 | なし | 2048×2048 | なし |
重要な注記: この比較は公開ドキュメントと各社の製品説明に基づく定性評価だ。プロダクション採用前に、自社ユースケースで独自にA/Bテストを行うこと。
価格比較
Wan 2.7を提供するプロバイダは複数あり、価格モデルが異なる。
| プロバイダ | 価格モデル | 備考 |
|---|---|---|
| Kie.ai | Affordable(定性的)、クレジット制 | 「Affordable」と明示。具体的な単価は公式サイト確認 |
| ModelsLab | 従量課金 | APIコール単位 |
| Together AI | $/1M tokens または $\per image | Together AIの標準モデル価格体系に準拠 |
| WaveSpeed AI | 従量課金 | Thinking Mode有効時はコスト増の可能性 |
DALL·E 3(OpenAI)との参考比較:1024×1024が$0.040/image(Standard)、1792×1024が$0.080/image(Standard)。Wan 2.7の各プロバイダが4K出力でこの価格帯を下回るかどうかは、現時点では公開情報から確定できない。導入前に各プロバイダに見積もりを取ること。
最小動作コード例
WaveSpeed AIのREST APIを使った最小実装例(Python):
import requests, os
response = requests.post(
"https://api.wavespeed.ai/api/v2/alibaba/wan2.7-t2i",
headers={"Authorization": f"Bearer {os.environ['WAVESPEED_API_KEY']}"},
json={
"prompt": "A red fox sitting on snow, photorealistic, 4K",
"enable_thinking": False,
"size": "1024x1024"
}
)
result = response.json()
image_url = result["data"]["outputs"][0]
print(image_url)
enable_thinking: trueにするとThinking Modeが有効になり、image qualityが向上する代わりにレイテンシが増加する。バッチ処理や非同期パイプラインではtrue、リアルタイムプレビューではfalseが推奨設定だ。エンドポイントURLとレスポンス構造はプロバイダによって異なるため、各社のドキュメントを参照すること。
ベストユースケース(具体例付き)
Wan 2.7のアーキテクチャ上の強みが活きるシーンを列挙する。
1. マルチキャラクター・マルチオブジェクト生成
最大5〜9枚のreference imageを入力できる設計は、ECサイトの商品画像生成に直結する。例:既存の商品画像3枚(正面・側面・素材クローズアップ)をreferenceとして渡し、新しい背景・ライティングでの合成画像を生成する。単一参照モデルでは被写体の一貫性が崩れやすいが、マルチ参照ではsubject consistencyが維持される(ModelsLab記載)。
2. 画像内テキストが必要なクリエイティブ
バナー広告・ポスター・SNS投稿画像など、画像の中に正確な文字を含める必要があるケース。DALL·E 3以前の世代のモデルでは文字化けが頻発していた。Wan 2.7はsuperior text renderingを強調しており、この用途に適性がある。
3. 動画生成パイプラインの静止画ステップ
Together AIのドキュメントによれば、Wan 2.7はtext-to-video・image-to-videoワークフローとも統合されている。静止画をWan 2.7で生成し、同じプロバイダのI2Vエンドポイントにそのまま渡すパイプラインを構築できる。モデルファミリーを統一することでreference imageの一貫性が維持されやすい。
4. 高解像度アセット制作(4K)
ゲームアセット・印刷物・映像用背景など、4K以上の解像度が必要なケース。Kie.aiが明示する4K出力対応は、他のクラウドAPIサービスでは少ない。ただし、出力品質の確認は必須だ。
使うべきでないケース
正直に書く。以下のケースではWan 2.7が最適解ではない可能性が高い。
リアルタイム生成(低レイテンシ要件) Thinking Modeを有効にした場合、追加の推論ステップがレイテンシを増加させる。具体的なms数は公開されていないが、チャットアプリやリアルタイムプレビュー機能には向かない。Thinking Modeを無効にすればある程度緩和されるが、それでも4K解像度生成は遅くなる。
独立したFIDベンチマークスコアが必要な場合 現時点では第三者機関によるFIDやCLIPスコアの公開データがない。学術・研究用途や、ベンダーに対してSLAレベルの品質保証を求める場合は、自前でベンチマークを取るか、スコアが公開されているモデル(Stability AI / OpenAI)を選ぶべきだ。
セルフホストが必須の環境 規制業種(金融・医療)でデータをクラウドに送れない場合、Wan 2.7はクラウドAPIのみの提供であるため使えない。Stable Diffusionファミリーのセルフホストを検討すること。
単純な単一オブジェクト生成 マルチ参照・高解像度・Thinking Modeといった機能が不要なら、より安価で実績のある代替(Flux.1 [schnell]など)の方がコストパフォーマンスが良い可能性がある。
統合時の注意点
プロバイダ間のAPIインターフェース差異
Kie.ai・ModelsLab・Together AI・WaveSpeed AIはそれぞれ独自のエンドポイント設計を持つ。パラメータ名(enable_thinking vs thinking_modeなど)や、reference imageの渡し方(URL配列 vs Base64 vs multipart)が異なる。抽象化レイヤーを自前で作るか、SDK経由で統一すること。
reference imageの上限 Together AIは5件、Medium記事では9件グリッドと記述されているが、この差は実装・バージョン・プロバイダによる可能性がある。9件グリッドはビデオ生成ワークフロー向けの仕様である可能性が高く、text-to-image単体での上限はプロバイダに確認が必要だ。
Thinking Modeのコスト WaveSpeed AIではThinking Modeを有効にするとコストが増加する可能性がある(具体的な倍率は未公開)。バッチジョブでは有効、インタラクティブUIでは無効、という使い分けを推奨する。
結論
Wan 2.7 text-to-image APIは、マルチ参照入力・テキストレンダリング・4K出力という3点において、単一オブジェクト生成に特化した競合モデルよりも用途の幅が広い。ただし、独立したベンチマークスコアが未公開で、プロバイダ間のAPIインターフェースが統一されていない点は、プロダクション導入前に自社ユースケースでの検証が必須であることを意味する。
参考ソース: Kie.ai / ModelsLab / WaveSpeed AI / Together AI / Medium – WAN 2.7 Features
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.7 Text-to-Image APIの料金はいくらですか?
Wan-2.7のAPI料金はプロバイダーによって異なります。Together AIでは画像1枚あたり約$0.04〜$0.06程度、WaveSpeed AIではThinking Modeを有効にした場合は通常モードの約1.5〜2倍のコストが発生します。Kie.aiでは4K出力ティアは標準1080pティアより高額に設定されています。商用利用の場合は各プロバイダーの最新料金ページを確認することを推奨します。なお、Thinking Modeはレイテンシが増加する代わりに画質が向上するトレードオフがあるため、コストと品質のバランスを考慮した選択が必要です。
Wan-2.7 APIのレイテンシはどのくらいですか?Thinking Modeを使うと遅くなりますか?
標準モードでのWan-2.7の画像生成レイテンシは、1080p解像度で概ね5〜15秒程度です。Thinking Modeを有効にした場合(WaveSpeed AI実装)、推論ステップが追加されるため通常モード比で1.5〜3倍程度のレイテンシ増加が報告されています。4K出力を選択した場合はさらに処理時間が延びる傾向があります。リアルタイム性が求められるアプリケーションでは標準モードを使用し、高品質が優先されるバッチ処理ではThinking Modeを活用するという使い分けが推奨されます。
Wan-2.7はWan-2.1と比べてベンチマークスコアはどう変わりましたか?
Wan-2.7はWan-2.1から以下の具体的な改善が確認されています。出力解像度は最大1080pから2K〜4Kへ拡張されました。テキストレンダリング精度についてはModelsLabの評価で「Superior text rendering」と評価され、定性的な改善が認められています。reference image入力数はWan-2.1の単一参照から、Together AIの実装では最大5件、一部実装では3×3グリッドで最大9件までのマルチ参照に対応しました。また新機能としてThinking Modeが追加され、ワークフロー対応もT2I/I2IからI2V・T2V・Reference-to-Videoまで拡張されています。定量的なFIDやCLIPスコアの公式比較数値は現時点で公開情報として確認されていません。
Wan-2.7 APIでreference imageを複数枚指定する方法は?最大何枚まで使えますか?
Wan-2.7のreference image入力数はプロバイダーの実装によって上限が異なります。Together AIでは最大5件のreference imageをAPIパラメータとして渡すことができます。一部の実装(Medium記事掲載の実装例)では3×3グリッド形式で最大9件まで対応しています。APIリクエスト時にはreference_imagesパラメータに画像URLまたはBase64エンコードされた画像データの配列を渡す形式が一般的です。Wan-2.1では単一参照のみだったため、マルチ参照対応はWan-2.7での重要な新機能です。実際の実装時は使用するプロバイダーのドキュメントで最新の上限値を確認してください。
タグ
関連記事
Baidu ERNIE Image Turbo APIの完全開発者ガイド | テキストから画像生成
Baidu ERNIE Image Turbo APIを使ったテキストから画像生成の実装方法を徹底解説。認証設定からAPIリクエスト、レスポンス処理まで開発者向けに詳しく紹介します。
Wan-2.7 Pro Image-to-image API完全開発者ガイド【実装解説】
Wan-2.7 Pro Image-to-image APIの導入から実装まで徹底解説。認証設定、パラメータ調整、エラー処理など開発者向けの実践的なコード例と活用方法を詳しく紹介します。
Wan-2.7 Image-to-image API完全開発者ガイド | 実装方法
Wan-2.7 Image-to-image APIの使い方を徹底解説。認証設定からリクエスト送信、レスポンス処理まで、開発者向けに実装手順をわかりやすく説明します。