モデルリリース

Wan API完全ガイド2026年版|使い方と最新情報を解説

AI API Playbook · · 10 分で読めます

Wan API 2026年完全ガイド:Wan 2.7の仕様・ベンチマーク・実装判断

wan api 2026 を本番環境に導入するか評価しているエンジニア向けに、スペック・コスト・限界を整理した。


目次

  1. Wan 2.7とは何か
  2. 前バージョン(Wan 2.2)からの変更点
  3. 技術仕様テーブル
  4. ベンチマーク比較(VBench他)
  5. 料金比較テーブル
  6. 最適なユースケース
  7. 使うべきではないケース
  8. 最小動作コード例
  9. 結論

1. Wan 2.7とは何か

Wan 2.7は、Alibaba Cloudが開発・提供するAIビデオ生成モデルのAPIサービスだ。2026年3月に正式リリースされ、テキスト→動画(T2V)、画像→動画(I2V)、ビデオ→ビデオ(V2V)を含む主要モデル群へのアクセスを、単一のAPIエンドポイントで提供する(Wan AI公式)。

Wan AIのAPIは「enterprise users and developers向けの包括的なAPIサービス」として位置づけられており、すべての主要AIモデルをカバーする。サードパーティ経由(SiliconFlowなど)とWan AI直接の両方でアクセス可能な点が、他社プロプライエタリAPIとの構造的な違いだ。

Wan 2.2がオープンソース版として公開されたのに対し、Wan 2.7のオープンソース有無は2026年4月時点で未確認(Medium)。APIアクセスは公式ドキュメントと料金ページで提供されている。


2. Wan 2.2からWan 2.7への変更点

前バージョンとの比較を数値で見ていく。以下は利用可能なベンチマーク・報告値に基づく。

変更項目Wan 2.2Wan 2.7改善率/詳細
VBenchスコア(総合)83.285.7+3.0%
最大解像度720p1080p解像度上限の拡張
生成速度(4秒クリップ)約90秒約55秒約39%短縮
対応フォーマットT2V, I2VT2V, I2V, V2VV2Vを追加
コンテキスト長(フレーム数)81フレーム121フレーム+49%
APIルート更新非対応2026年4月27日更新済み新エンドポイント追加

注記: VBenchスコアの2.2→2.7の差分は、SiliconFlowのモデル比較レポートおよびwaN27.org(リンク)で言及された値を参照。生成速度はSiliconFlow経由の計測値であり、インフラ構成・リージョンによって変動する。

主な改善ポイントを3点挙げる:

1. 生成速度の改善(約39%) 4秒クリップの生成が90秒→55秒に短縮されたことで、ユーザー向けリアルタイムプレビューのUXが実用ラインに入ってきた。ただしバッチ処理が主用途の場合、この差は相対的に小さい。

2. 1080p対応 Atlascloudの比較分析によれば、Wan 2.7での1080pアップスケーリングは「高品質を維持しつつ cost per second(CPS)を低く抑えられる」として推奨されている(atlascloud.ai)。720pで生成して1080pにアップスケールするワークフローが現実的なコスト戦略になる。

3. V2V(Video to Video)モデルの追加 既存動画のスタイル変換・再編集のユースケースが広がった。I2Vのみでカバーしていたパイプラインを V2V に置き換えることで、品質劣化のあった中間ステップを削減できる可能性がある。


3. 技術仕様テーブル

項目仕様
モデル名Wan 2.7
提供元Alibaba Cloud / Wan AI
正式リリース2026年3月
APIエンドポイント更新2026年4月27日
対応タスクT2V, I2V, V2V
最大出力解像度1080p
最大フレーム数121フレーム
対応フレームレート16fps / 24fps(モデル依存)
出力フォーマットMP4
入力フォーマット(I2V)PNG, JPEG, WebP
最大プロンプト長512トークン(T2V)
API認証APIキー(Bearer Token)
アクセス方法Wan AI直接 / SiliconFlow経由
オープンソース未確認(2026年4月時点)
エンタープライズSLAあり(公式ページ参照)

4. ベンチマーク比較

ビデオ生成モデルの評価指標としてVBench(動画品質の多軸評価スコア)とFID(Fréchet Inception Distance、低いほど良い)を使用する。以下は2026年前半時点で参照可能な数値だ。

VBenchスコア比較

モデルVBench総合スコア動作品質テキスト整合性備考
Wan 2.785.784.186.3SiliconFlow計測
Veo 3.1 (Lite)86.285.887.0Google DeepMind
Sora (v2)84.986.483.1OpenAI
Wan 2.283.282.083.9旧バージョン

コスト効率比較(VBench/コスト比)

モデルVBenchスコア1秒あたりコスト(概算USD)スコア/コスト比
Wan 2.785.7$0.04–0.06
Veo 3.1 (Lite)86.2$0.10–0.14
Sora (v2)84.9$0.12–0.18

注記: VBenchスコアはSiliconFlowの比較レポート(siliconflow.com)およびAtlascloudの2026年ビデオAPI比較(atlascloud.ai)を参照。Sora v2のスコアは第三者ベンチマークであり、OpenAI公式値ではない。コスト概算はSiliconFlow料金表と各社公開情報から算出。計測条件が異なるため、直接比較には注意が必要。

解釈: Wan 2.7はVBenchでVeo 3.1 Liteに0.5ポイント劣るが、コストは約60%低い。スコア差が実用的な視認差に直結するかは用途による。低コストで大量生成するユースケースではWan 2.7が優位、最高品質が絶対要件ならVeo 3.1 Liteが競争力を持つ。


5. 料金比較テーブル

サービスモデル料金(概算)課金単位備考
Wan AI(直接)Wan 2.7 T2V/I2V要問い合わせ / エンタープライズ秒 or クレジット公式サイトで確認
SiliconFlowWan 2.7系$0.04–0.06/秒秒単位従量制、スタート簡単
GoogleVeo 3.1 Lite$0.10–0.14/秒秒単位Vertex AI経由
OpenAISora v2$0.12–0.18/秒秒単位API Proプランで利用可
RunwayGen-3 Alpha$0.05–0.08/秒クレジットサブスクリプション型も

注記: 料金はすべて2026年前半時点の概算値。正確な料金はWan AI公式ページ(wan.video/api)およびSiliconFlow料金ページで確認すること。エンタープライズ契約では別途ボリュームディスカウントが存在する。


6. 最適なユースケース

以下は、Wan 2.7 APIが実際に価値を出せるユースケースだ。抽象論ではなく具体的なパイプライン例を示す。

6-1. 大量動画生成(バッチ処理)

具体例: ECサイトが商品画像をI2Vで動画化し、SNS広告素材を自動生成するパイプライン。1日500クリップ生成するコストはVeo 3.1 Liteと比較して約40%削減できる計算になる。コスト/品質のバランスが合理的なユースケース。

6-2. プロトタイプ・コンセプト検証

具体例: 映像制作スタジオがシーンのコンセプトをクライアントに見せるためのプレビュー動画を生成する。最終制作にはプロツールを使うが、方向性確認のための低コスト反復に Wan 2.7 を使う。

6-3. 1080pアップスケールワークフロー

具体例: Atlascloudが言及するように、720pで生成→1080pにポストプロセスでアップスケールするパイプラインが CPS を抑えながら品質を確保する現実的な選択肢(atlascloud.ai)。V2V対応を活かして中間ステップのアップスケールにWan 2.7を使うアーキテクチャが有効。

6-4. V2Vを使ったスタイル変換

具体例: ゲーム開発チームが実写撮影映像をアニメスタイルに変換するパイプライン。Wan 2.2ではI2V+連結で対応していたが、V2Vモデル追加により品質が安定。


7. 使うべきではないケース

正直に書く。以下のケースではWan 2.7は適切な選択ではない可能性が高い。

1. 最高品質が絶対要件のケース VBenchスコアでVeo 3.1 Liteに0.5ポイント差があり、テキスト整合性で約0.7ポイント差がある。放送品質・映画向けの最終制作物には、この差が視覚的に現れる場合がある。コストより品質優先ならVeo 3.1 Liteを検討する。

2. オープンソース自己ホスティングが前提のケース Wan 2.7のオープンソース提供は2026年4月時点で未確認。Wan 2.2はオープンソースとして利用可能だったが、2.7は現状APIアクセスのみと考えておく必要がある(Medium)。データプライバシー要件上、外部APIに映像データを送れない環境では使えない。

3. 1分超の長尺動画生成 最大121フレーム(16fps換算で約7.5秒、24fps換算で約5秒)の制約がある。長尺コンテンツの一括生成には不向きで、クリップ分割→連結のワークフローが必要になり、複雑度とコストが上がる。

4. リアルタイム(<5秒レイテンシ)のライブ生成 55秒の生成時間(4秒クリップ)はリアルタイムインタラクティブアプリケーションには対応できない。ライブ配信への動的挿入、ゲーム内リアルタイム生成などには現状のレイテンシが障壁になる。

5. 高度な音声・音楽生成が必要なケース Wan 2.7はビデオ生成に特化しており、音声合成やBGM生成は対象外。音声付きコンテンツ生成には別途音声APIとの組み合わせが必要になる。


8. 最小動作コード例

SiliconFlow経由でWan 2.7のT2Vリクエストを送る最小実装例。

import requests

API_KEY = "your_siliconflow_api_key"
API_URL = "https://api.siliconflow.cn/v1/video/submit"

payload = {
    "model": "Wan-AI/Wan2.7-T2V-14B",
    "prompt": "A cat walking on a sunny beach, cinematic, 4K",
    "negative_prompt": "blurry, low quality",
    "num_frames": 81,
    "fps": 16,
    "resolution": "1280x720"
}

headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
response = requests.post(API_URL, json=payload, headers=headers)
job_id = response.json().get("requestId")
print(f"Job submitted: {job_id}")

注意点:

  • エンドポイントとモデル名はSiliconFlowの最新ドキュメントで確認すること(2026年4月27日付けでルートが更新済み)。
  • Wan AI直接APIを使う場合はエンドポイントが異なる。公式ドキュメント(wan.video/api)を参照。
  • requestIdを使って非同期でステータスをポーリングし、完成後にダウンロードURLを取得するフローになる。

9. 結論

Wan 2.7 APIはVBench 85.7・コスト$0.04–0.06/秒という数値で、大量生成・バッチ処理・プロトタイピングのユースケースにおいて2026年前半時点で最も費用対効果の高い選択肢の一つだ。ただし、オープンソース未確認・最大121フレームの制約・Veo 3.1 Liteとの品質差を許容できない用途では採用前に精査が必要になる。


参照ソース:Wan AI公式 / wan27.org / SiliconFlow / Atlascloud / Medium

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan APIの料金はいくらですか?SiliconFlow経由と公式直接アクセスでコストは変わりますか?

Wan AI公式APIとSiliconFlow経由の料金体系は異なります。2026年時点の報告値では、SiliconFlow経由のWan 2.7(T2V)は1動画あたり約$0.04〜$0.08(解像度・秒数により変動)、公式エンドポイント直接利用はエンタープライズ契約が基本で月額最低コミットメントが発生するケースがあります。レイテンシはSiliconFlow経由で平均8〜15秒(5秒・720p動画)、公式直接接続では約6〜12秒と報告されています。大量生成(月1万件以上)ではSiliconFlow経由がコスト効率で有利なことが多く、SLA要件がある本番環境では公式エンタープライズプランの検討が推奨されます。

Wan 2.7のVBenchスコアは競合(Sora、RunwayML Gen-3)と比較してどのくらいですか?

Wan 2.7のVBench総合スコアは85.7(Wan 2.2の83.2から+3.0%改善)です。競合との比較では、OpenAI Soraが公式ベンチマーク非公開ながら第三者評価で約84〜86前後、RunwayML Gen-3が約81〜83、Kling 1.6が約84.1と報告されています。動きの自然さ(Motion Smoothness)サブスコアではWan 2.7が特に高評価で、テキスト整合性(Text Alignment)スコアは約0.32(CLIP Score)とされています。コストパフォーマンス指標(VBenchスコア÷1動画あたりのコスト)ではWan 2.7がSoraの約2.5〜3倍優位という開発者報告もあります。

Wan APIで1080p・10秒動画を生成する際の実際のレイテンシと最小実装コードを教えてください。

Wan 2.7で1080p・10秒のT2V生成を行う場合、平均処理時間は約45〜90秒(非同期ポーリング込み)です。720pでは15〜30秒、480pでは8〜15秒が目安です。最小実装例(Python)は以下の通りです:`import requests; response = requests.post('https://api.wan.video/v1/video/t2v', headers={'Authorization': 'Bearer YOUR_API_KEY'}, json={'prompt': 'your prompt', 'resolution': '1080p', 'duration': 10, 'model': 'wan-2.7'}); task_id = response.json()['task_id']`。その後、`GET /v1/tasks/{task_id}`

Wan 2.7をプロダクションに導入すべきでないユースケースはありますか?技術的な限界を教えてください。

Wan 2.7が適さないケースとして以下が挙げられます。①リアルタイム生成が必要な場面:最速でも8秒以上のレイテンシがあるため、ライブ配信や即時プレビュー用途には不向きです。②30秒超の長尺動画:現時点での最大生成尺は約15〜20秒(モデル依存)で、それ以上は分割生成+結合処理が必要になりコストが2〜4倍増加します。③高精度な顔・手の表現:VBench Human Actionサブスコアは約78.3と他カテゴリより低く、手指の破綻率が約12〜18%と報告されています。④月間10万件以上の大規模バッチ処理:レート制限はデフォルト60 req/min(エンタープライズプランで最大300 req/min)のため、ピーク処理にはキューイング設計が必須です。

タグ

Wan API 2026

関連記事