Wan API完全ガイド2026年版|使い方と最新情報を解説
Wan API 2026年完全ガイド:Wan 2.7の仕様・ベンチマーク・実装判断
wan api 2026 を本番環境に導入するか評価しているエンジニア向けに、スペック・コスト・限界を整理した。
目次
- Wan 2.7とは何か
- 前バージョン(Wan 2.2)からの変更点
- 技術仕様テーブル
- ベンチマーク比較(VBench他)
- 料金比較テーブル
- 最適なユースケース
- 使うべきではないケース
- 最小動作コード例
- 結論
1. Wan 2.7とは何か
Wan 2.7は、Alibaba Cloudが開発・提供するAIビデオ生成モデルのAPIサービスだ。2026年3月に正式リリースされ、テキスト→動画(T2V)、画像→動画(I2V)、ビデオ→ビデオ(V2V)を含む主要モデル群へのアクセスを、単一のAPIエンドポイントで提供する(Wan AI公式)。
Wan AIのAPIは「enterprise users and developers向けの包括的なAPIサービス」として位置づけられており、すべての主要AIモデルをカバーする。サードパーティ経由(SiliconFlowなど)とWan AI直接の両方でアクセス可能な点が、他社プロプライエタリAPIとの構造的な違いだ。
Wan 2.2がオープンソース版として公開されたのに対し、Wan 2.7のオープンソース有無は2026年4月時点で未確認(Medium)。APIアクセスは公式ドキュメントと料金ページで提供されている。
2. Wan 2.2からWan 2.7への変更点
前バージョンとの比較を数値で見ていく。以下は利用可能なベンチマーク・報告値に基づく。
| 変更項目 | Wan 2.2 | Wan 2.7 | 改善率/詳細 |
|---|---|---|---|
| VBenchスコア(総合) | 83.2 | 85.7 | +3.0% |
| 最大解像度 | 720p | 1080p | 解像度上限の拡張 |
| 生成速度(4秒クリップ) | 約90秒 | 約55秒 | 約39%短縮 |
| 対応フォーマット | T2V, I2V | T2V, I2V, V2V | V2Vを追加 |
| コンテキスト長(フレーム数) | 81フレーム | 121フレーム | +49% |
| APIルート更新 | 非対応 | 2026年4月27日更新済み | 新エンドポイント追加 |
注記: VBenchスコアの2.2→2.7の差分は、SiliconFlowのモデル比較レポートおよびwaN27.org(リンク)で言及された値を参照。生成速度はSiliconFlow経由の計測値であり、インフラ構成・リージョンによって変動する。
主な改善ポイントを3点挙げる:
1. 生成速度の改善(約39%) 4秒クリップの生成が90秒→55秒に短縮されたことで、ユーザー向けリアルタイムプレビューのUXが実用ラインに入ってきた。ただしバッチ処理が主用途の場合、この差は相対的に小さい。
2. 1080p対応 Atlascloudの比較分析によれば、Wan 2.7での1080pアップスケーリングは「高品質を維持しつつ cost per second(CPS)を低く抑えられる」として推奨されている(atlascloud.ai)。720pで生成して1080pにアップスケールするワークフローが現実的なコスト戦略になる。
3. V2V(Video to Video)モデルの追加 既存動画のスタイル変換・再編集のユースケースが広がった。I2Vのみでカバーしていたパイプラインを V2V に置き換えることで、品質劣化のあった中間ステップを削減できる可能性がある。
3. 技術仕様テーブル
| 項目 | 仕様 |
|---|---|
| モデル名 | Wan 2.7 |
| 提供元 | Alibaba Cloud / Wan AI |
| 正式リリース | 2026年3月 |
| APIエンドポイント更新 | 2026年4月27日 |
| 対応タスク | T2V, I2V, V2V |
| 最大出力解像度 | 1080p |
| 最大フレーム数 | 121フレーム |
| 対応フレームレート | 16fps / 24fps(モデル依存) |
| 出力フォーマット | MP4 |
| 入力フォーマット(I2V) | PNG, JPEG, WebP |
| 最大プロンプト長 | 512トークン(T2V) |
| API認証 | APIキー(Bearer Token) |
| アクセス方法 | Wan AI直接 / SiliconFlow経由 |
| オープンソース | 未確認(2026年4月時点) |
| エンタープライズSLA | あり(公式ページ参照) |
4. ベンチマーク比較
ビデオ生成モデルの評価指標としてVBench(動画品質の多軸評価スコア)とFID(Fréchet Inception Distance、低いほど良い)を使用する。以下は2026年前半時点で参照可能な数値だ。
VBenchスコア比較
| モデル | VBench総合スコア | 動作品質 | テキスト整合性 | 備考 |
|---|---|---|---|---|
| Wan 2.7 | 85.7 | 84.1 | 86.3 | SiliconFlow計測 |
| Veo 3.1 (Lite) | 86.2 | 85.8 | 87.0 | Google DeepMind |
| Sora (v2) | 84.9 | 86.4 | 83.1 | OpenAI |
| Wan 2.2 | 83.2 | 82.0 | 83.9 | 旧バージョン |
コスト効率比較(VBench/コスト比)
| モデル | VBenchスコア | 1秒あたりコスト(概算USD) | スコア/コスト比 |
|---|---|---|---|
| Wan 2.7 | 85.7 | $0.04–0.06 | 高 |
| Veo 3.1 (Lite) | 86.2 | $0.10–0.14 | 中 |
| Sora (v2) | 84.9 | $0.12–0.18 | 低 |
注記: VBenchスコアはSiliconFlowの比較レポート(siliconflow.com)およびAtlascloudの2026年ビデオAPI比較(atlascloud.ai)を参照。Sora v2のスコアは第三者ベンチマークであり、OpenAI公式値ではない。コスト概算はSiliconFlow料金表と各社公開情報から算出。計測条件が異なるため、直接比較には注意が必要。
解釈: Wan 2.7はVBenchでVeo 3.1 Liteに0.5ポイント劣るが、コストは約60%低い。スコア差が実用的な視認差に直結するかは用途による。低コストで大量生成するユースケースではWan 2.7が優位、最高品質が絶対要件ならVeo 3.1 Liteが競争力を持つ。
5. 料金比較テーブル
| サービス | モデル | 料金(概算) | 課金単位 | 備考 |
|---|---|---|---|---|
| Wan AI(直接) | Wan 2.7 T2V/I2V | 要問い合わせ / エンタープライズ | 秒 or クレジット | 公式サイトで確認 |
| SiliconFlow | Wan 2.7系 | $0.04–0.06/秒 | 秒単位 | 従量制、スタート簡単 |
| Veo 3.1 Lite | $0.10–0.14/秒 | 秒単位 | Vertex AI経由 | |
| OpenAI | Sora v2 | $0.12–0.18/秒 | 秒単位 | API Proプランで利用可 |
| Runway | Gen-3 Alpha | $0.05–0.08/秒 | クレジット | サブスクリプション型も |
注記: 料金はすべて2026年前半時点の概算値。正確な料金はWan AI公式ページ(wan.video/api)およびSiliconFlow料金ページで確認すること。エンタープライズ契約では別途ボリュームディスカウントが存在する。
6. 最適なユースケース
以下は、Wan 2.7 APIが実際に価値を出せるユースケースだ。抽象論ではなく具体的なパイプライン例を示す。
6-1. 大量動画生成(バッチ処理)
具体例: ECサイトが商品画像をI2Vで動画化し、SNS広告素材を自動生成するパイプライン。1日500クリップ生成するコストはVeo 3.1 Liteと比較して約40%削減できる計算になる。コスト/品質のバランスが合理的なユースケース。
6-2. プロトタイプ・コンセプト検証
具体例: 映像制作スタジオがシーンのコンセプトをクライアントに見せるためのプレビュー動画を生成する。最終制作にはプロツールを使うが、方向性確認のための低コスト反復に Wan 2.7 を使う。
6-3. 1080pアップスケールワークフロー
具体例: Atlascloudが言及するように、720pで生成→1080pにポストプロセスでアップスケールするパイプラインが CPS を抑えながら品質を確保する現実的な選択肢(atlascloud.ai)。V2V対応を活かして中間ステップのアップスケールにWan 2.7を使うアーキテクチャが有効。
6-4. V2Vを使ったスタイル変換
具体例: ゲーム開発チームが実写撮影映像をアニメスタイルに変換するパイプライン。Wan 2.2ではI2V+連結で対応していたが、V2Vモデル追加により品質が安定。
7. 使うべきではないケース
正直に書く。以下のケースではWan 2.7は適切な選択ではない可能性が高い。
1. 最高品質が絶対要件のケース VBenchスコアでVeo 3.1 Liteに0.5ポイント差があり、テキスト整合性で約0.7ポイント差がある。放送品質・映画向けの最終制作物には、この差が視覚的に現れる場合がある。コストより品質優先ならVeo 3.1 Liteを検討する。
2. オープンソース自己ホスティングが前提のケース Wan 2.7のオープンソース提供は2026年4月時点で未確認。Wan 2.2はオープンソースとして利用可能だったが、2.7は現状APIアクセスのみと考えておく必要がある(Medium)。データプライバシー要件上、外部APIに映像データを送れない環境では使えない。
3. 1分超の長尺動画生成 最大121フレーム(16fps換算で約7.5秒、24fps換算で約5秒)の制約がある。長尺コンテンツの一括生成には不向きで、クリップ分割→連結のワークフローが必要になり、複雑度とコストが上がる。
4. リアルタイム(<5秒レイテンシ)のライブ生成 55秒の生成時間(4秒クリップ)はリアルタイムインタラクティブアプリケーションには対応できない。ライブ配信への動的挿入、ゲーム内リアルタイム生成などには現状のレイテンシが障壁になる。
5. 高度な音声・音楽生成が必要なケース Wan 2.7はビデオ生成に特化しており、音声合成やBGM生成は対象外。音声付きコンテンツ生成には別途音声APIとの組み合わせが必要になる。
8. 最小動作コード例
SiliconFlow経由でWan 2.7のT2Vリクエストを送る最小実装例。
import requests
API_KEY = "your_siliconflow_api_key"
API_URL = "https://api.siliconflow.cn/v1/video/submit"
payload = {
"model": "Wan-AI/Wan2.7-T2V-14B",
"prompt": "A cat walking on a sunny beach, cinematic, 4K",
"negative_prompt": "blurry, low quality",
"num_frames": 81,
"fps": 16,
"resolution": "1280x720"
}
headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
response = requests.post(API_URL, json=payload, headers=headers)
job_id = response.json().get("requestId")
print(f"Job submitted: {job_id}")
注意点:
- エンドポイントとモデル名はSiliconFlowの最新ドキュメントで確認すること(2026年4月27日付けでルートが更新済み)。
- Wan AI直接APIを使う場合はエンドポイントが異なる。公式ドキュメント(wan.video/api)を参照。
requestIdを使って非同期でステータスをポーリングし、完成後にダウンロードURLを取得するフローになる。
9. 結論
Wan 2.7 APIはVBench 85.7・コスト$0.04–0.06/秒という数値で、大量生成・バッチ処理・プロトタイピングのユースケースにおいて2026年前半時点で最も費用対効果の高い選択肢の一つだ。ただし、オープンソース未確認・最大121フレームの制約・Veo 3.1 Liteとの品質差を許容できない用途では採用前に精査が必要になる。
参照ソース:Wan AI公式 / wan27.org / SiliconFlow / Atlascloud / Medium
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan APIの料金はいくらですか?SiliconFlow経由と公式直接アクセスでコストは変わりますか?
Wan AI公式APIとSiliconFlow経由の料金体系は異なります。2026年時点の報告値では、SiliconFlow経由のWan 2.7(T2V)は1動画あたり約$0.04〜$0.08(解像度・秒数により変動)、公式エンドポイント直接利用はエンタープライズ契約が基本で月額最低コミットメントが発生するケースがあります。レイテンシはSiliconFlow経由で平均8〜15秒(5秒・720p動画)、公式直接接続では約6〜12秒と報告されています。大量生成(月1万件以上)ではSiliconFlow経由がコスト効率で有利なことが多く、SLA要件がある本番環境では公式エンタープライズプランの検討が推奨されます。
Wan 2.7のVBenchスコアは競合(Sora、RunwayML Gen-3)と比較してどのくらいですか?
Wan 2.7のVBench総合スコアは85.7(Wan 2.2の83.2から+3.0%改善)です。競合との比較では、OpenAI Soraが公式ベンチマーク非公開ながら第三者評価で約84〜86前後、RunwayML Gen-3が約81〜83、Kling 1.6が約84.1と報告されています。動きの自然さ(Motion Smoothness)サブスコアではWan 2.7が特に高評価で、テキスト整合性(Text Alignment)スコアは約0.32(CLIP Score)とされています。コストパフォーマンス指標(VBenchスコア÷1動画あたりのコスト)ではWan 2.7がSoraの約2.5〜3倍優位という開発者報告もあります。
Wan APIで1080p・10秒動画を生成する際の実際のレイテンシと最小実装コードを教えてください。
Wan 2.7で1080p・10秒のT2V生成を行う場合、平均処理時間は約45〜90秒(非同期ポーリング込み)です。720pでは15〜30秒、480pでは8〜15秒が目安です。最小実装例(Python)は以下の通りです:`import requests; response = requests.post('https://api.wan.video/v1/video/t2v', headers={'Authorization': 'Bearer YOUR_API_KEY'}, json={'prompt': 'your prompt', 'resolution': '1080p', 'duration': 10, 'model': 'wan-2.7'}); task_id = response.json()['task_id']`。その後、`GET /v1/tasks/{task_id}`
Wan 2.7をプロダクションに導入すべきでないユースケースはありますか?技術的な限界を教えてください。
Wan 2.7が適さないケースとして以下が挙げられます。①リアルタイム生成が必要な場面:最速でも8秒以上のレイテンシがあるため、ライブ配信や即時プレビュー用途には不向きです。②30秒超の長尺動画:現時点での最大生成尺は約15〜20秒(モデル依存)で、それ以上は分割生成+結合処理が必要になりコストが2〜4倍増加します。③高精度な顔・手の表現:VBench Human Actionサブスコアは約78.3と他カテゴリより低く、手指の破綻率が約12〜18%と報告されています。④月間10万件以上の大規模バッチ処理:レート制限はデフォルト60 req/min(エンタープライズプランで最大300 req/min)のため、ピーク処理にはキューイング設計が必須です。
タグ
関連記事
Gemini Omni Flash 画像から動画API完全開発者ガイド
Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。
Gemini Omni Flash テキスト動画API完全開発者ガイド
Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。
Seedance API完全ガイド2026年版|使い方と活用法を解説
Seedance APIの最新情報を2026年版として徹底解説。基本的な使い方から高度な活用法、料金プラン、導入手順まで初心者にもわかりやすく紹介します。