Wan-2.7 テキスト動画API完全ガイド【開発者向け】
Wan-2.7 Text-to-Video API: Complete Developer Guide
Wan-2.7 text-to-video APIは2026年3月にAlibaba Tongyi Labがリリースした動画生成モデルです。270億パラメータのMixture-of-Experts(MoE)アーキテクチャを採用し、VBenchベンチマークでSoraを超えるスコアを記録しています。本ガイドでは、プロダクション導入を検討するエンジニア向けに、スペック・ベンチマーク・価格・制限事項を網羅的に解説します。
Wan-2.1からの主な変更点
Wan-2.7は前バージョン(Wan-2.1)から以下の点で強化されています。
| 項目 | Wan-2.1 | Wan-2.7 | 変化 |
|---|---|---|---|
| パラメータ数 | 14B(推定) | 27B MoE | +約93% |
| 最大解像度 | 720p | 1080p | +50%(縦軸比) |
| 動画長 | 最大8秒 | 最大15秒 | +87.5% |
| reference input数 | 1 | 最大5 | +400% |
| first/last-frame制御 | 非対応 | 対応 | 新機能 |
| 3×3グリッドI2V | 非対応 | 対応 | 新機能 |
アーキテクチャの変更として、密なTransformerからMoEに切り替えたことで、推論時に全パラメータを使わず計算コストを抑えつつ表現力を高めています。first/last-frame制御は、生成動画の開始フレームと終了フレームを画像で指定できる機能で、シーン遷移の精度が大幅に向上しました。
技術スペック
| パラメータ | 詳細 |
|---|---|
| アーキテクチャ | 27B Mixture-of-Experts (MoE) |
| 最大解像度 | 1080p |
| 動画長 | 2〜15秒 |
| 対応ワークフロー | text-to-video / image-to-video / reference-to-video |
| reference入力数 | 最大5(マルチサブジェクト合成) |
| first/last-frame制御 | 対応 |
| 3×3グリッドI2V | 対応 |
| ライセンス | Apache 2.0(オープンソース) |
| 主な配信プラットフォーム | Replicate / Together AI / WaveSpeed |
対応ワークフローの補足:
- text-to-video(T2V):テキストプロンプトのみから動画生成
- image-to-video(I2V):静止画を起点に動きを生成
- reference-to-video:最大5枚の参照画像を使いマルチサブジェクトを合成。例えば複数人物・複数オブジェクトを同時に動かしたいシーンで有効です
- first/last-frame:開始フレームと終了フレームを指定して補間。ストーリーボードが固まっているプロジェクトで特に役立ちます
ベンチマーク比較
VBenchは動画生成モデルの品質を複数の軸(subject consistency、motion smoothness、aesthetic quality など)で評価するベンチマークです。
| モデル | VBench総合スコア | ライセンス | 最大解像度 |
|---|---|---|---|
| Wan-2.7 | 86.22% | Apache 2.0 | 1080p |
| Sora(OpenAI) | 84.28% | クローズド | 1080p |
| Kling 1.6(Kuaishou) | 〜83%台 | クローズド | 1080p |
| CogVideoX-5B | 〜82%台 | Apache 2.0 | 720p |
出典: VBenchスコアはZen Creator Proのガイド(zencreator.pro)に記載されたデータを参照。Kling/CogVideoXのスコアは公開ベンチマーク集計値であり、バージョンにより変動する可能性があります。
注目すべき点は、Wan-2.7がクローズドモデルのSoraを1.94ptポイント上回りながら、Apache 2.0でオープンソース提供されていることです。セルフホストやファインチューニングの自由度がSoraにはない差別化要因です。
ただし、VBenchはあくまで指標の一つです。motion complexityや特定ドメイン(医療・技術製品など)での品質はプロジェクトごとに実測することを推奨します。
価格比較
主要な配信プラットフォームごとの料金体系を示します(2026年時点の公開情報ベース)。
| プラットフォーム | 課金モデル | 目安価格 | 備考 |
|---|---|---|---|
| Replicate | 実行時間課金 | $0.016/秒(GPU時間) | セルフホスト不可、スケール容易 |
| Together AI | トークン/フレーム課金 | 要確認(公式サイト参照) | バッチ処理向けAPIあり |
| WaveSpeed | リクエスト課金 | 要確認(公式サイト参照) | 低レイテンシ最適化済み |
| セルフホスト(Apache 2.0) | インフラ実費 | GPU費用のみ | A100×2以上推奨 |
| Sora API(OpenAI) | クレジット制 | $0.12/秒(720p相当) | クローズド、ファインチューニング不可 |
コスト判断の目安:
- 月間生成量が少ない(〜1,000本以下):ReplicateやWaveSpeedのAPI課金が初期コスト0で始めやすい
- 月間生成量が多い(10,000本以上):セルフホストでGPUコストを直接制御する方が長期的に安くなる場合が多い
- Soraとの比較:同解像度でWan-2.7は約65〜75%安価になるケースがあり(プラットフォームによる)、かつVBenchスコアは上回っている
最小動作コードサンプル(Replicate経由)
import replicate
output = replicate.run(
"wan-video/wan-2.7-t2v",
input={
"prompt": "A red panda climbing a bamboo tree, cinematic lighting, 4K",
"duration": 5, # seconds (2–15)
"resolution": "1080p",
"num_inference_steps": 30,
}
)
# output is a URL to the generated video
print(output)
replicate パッケージは pip install replicate で導入、REPLICATE_API_TOKEN 環境変数にAPIキーを設定してください。duration を伸ばすほど生成時間と課金額が比例して増加します。first/last-frame制御を使う場合は first_frame_image と last_frame_image パラメータに画像URLを渡します(Replicate固有のパラメータ名は公式ドキュメントで確認してください)。
主なユースケースと具体例
1. マルチサブジェクト合成(reference-to-video)
具体例: ECサイトで複数商品を同時に登場させるプロモーション動画の自動生成。例えば「バッグ・シューズ・サングラス」の3商品画像を参照入力し、“A stylish model walking in a park with the bag, shoes, and sunglasses” のプロンプトで一貫した動画を生成する。
最大5参照入力は競合の多くが1〜2入力にとどまる中で明確な優位点です。
2. ストーリーボード補間(first/last-frame)
具体例: アニメーションスタジオのコンテ作業。開始フレーム(キャラクターが立っている静止画)と終了フレーム(走り出した静止画)を指定し、その間のモーションをAPIに生成させる。人手によるキーフレーム補間の工数削減に直結します。
3. 長尺T2V(〜15秒)
具体例: SNS広告やYouTubeショートのイントロ映像。15秒は多くのSNSフォーマット(Instagram Reels、TikTok冒頭)に直接対応できる長さです。前バージョン(最大8秒)ではカバーできなかったフォーマットに対応可能になりました。
4. オープンソース特性を活かしたファインチューニング
具体例: 特定の映像スタイル(ブランドカラー・カメラワークの癖)をLoRAでファインチューニングし、社内APIとして運用する。Apache 2.0ライセンスのため商用利用・モデル改変が可能です。
制限事項と使うべきでないケース
Wan-2.7が適さない場面を正直に列挙します。
① リアルタイム生成が必要なケース 動画生成はプロンプト複雑度・解像度・秒数に応じて数十秒〜数分の推論時間がかかります。ライブストリームへのリアルタイム挿入や、ユーザーが数秒で結果を求めるUXには向きません。
② 60秒以上の長尺動画 最大15秒という制限は変わりません。1分以上の動画が必要な場合はセグメント分割生成→編集ソフト結合というワークフローが必要で、シームレスな長尺生成には向きません。
③ 特定ドメインの高精度テキスト描写 VBenchの総合スコアは高いものの、動画内に正確なテキスト(ロゴ・字幕)を配置する用途は苦手です。これはWan-2.7に限らず現行の動画生成モデル全般の課題です。
④ 極めて低遅延・高スループットのAPIコール(セルフホストなし) クラウドAPI経由ではコールドスタートや輻輳による遅延が生じます。SLAが厳格なプロダクション環境ではセルフホストを前提にインフラ設計してください。
⑤ 規制の厳しいコンテンツ領域 医療・法律・金融など、映像の正確性に法的責任が伴う領域での無監査生成は避けてください。生成物の品質チェックパイプラインを必ず組み込む必要があります。
プラットフォーム選定の指針
| 優先条件 | 推奨プラットフォーム |
|---|---|
| 最速でプロトタイプを試したい | Replicate |
| バッチ処理・コスト最適化 | Together AI |
| 低レイテンシAPIが必要 | WaveSpeed |
| ファインチューニング・完全制御 | セルフホスト(Apache 2.0) |
| Soraから乗り換え検討中 | どれでも可(VBenchスコアは上回る) |
結論
Wan-2.7 text-to-video APIは、270億パラメータMoE・VBench 86.22%・最大15秒1080p・5参照入力という仕様を、Apache 2.0ライセンスで提供する現時点で最もコストパフォーマンスの高いオープン動画生成モデルです。リアルタイム生成や15秒超の長尺が必要なユースケース以外では、SoraやKlingの代替候補として実測評価する価値があります。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.7 APIの料金はいくらですか?Wan-2.1と比べてコストはどう変わりましたか?
Wan-2.7のAPIは27B MoEアーキテクチャを採用しているため、Wan-2.1(14B推定)と比べてパラメータ数が約93%増加していますが、MoE構造により推論時に全パラメータを使用しないため計算コストが抑制されています。具体的な料金についてはAlibaba Cloud(通義)の公式APIページで最新情報を確認してください。なお、Wan-2.1から最大解像度が720p→1080p、動画長が8秒→15秒に向上しているため、同等品質の出力であればコストパフォーマンスは大幅に改善されています。
Wan-2.7のVBenchスコアはどのくらいで、Soraと比較してどちらが優れていますか?
Wan-2.7はVBenchベンチマークにおいてOpenAIのSoraを上回るスコアを記録しており、2026年3月時点で公開モデルの中でトップクラスの評価を受けています。27B MoEアーキテクチャにより、1080p解像度・最大15秒の動画生成に対応しながらSoraを超える品質指標を達成しています。具体的なスコア数値はAlibaba Tongyi Labが公開している技術レポートおよびVBench公式リーダーボードで確認できます。
Wan-2.7 APIの動画生成レイテンシはどのくらいですか?プロダクション用途に耐えられますか?
Wan-2.7は27B MoEアーキテクチャを採用しており、推論時に全パラメータを起動しないMoE設計により計算コストが最適化されています。最大解像度1080p・最大15秒の動画生成という仕様上、リアルタイム生成は想定されておらず、バッチ処理やキュー型の非同期ワークフローでの利用が推奨されます。具体的なレイテンシ(例:480p・5秒動画で約X秒など)はAPIプロバイダーのSLAドキュメントに依存するため、Alibaba Cloud公式のベンチマーク資料またはAPIダッシュボードのメトリクスを参照してください。プロダクション導入時はタイムアウト値を60秒以上に設定することが推奨されます。
Wan-2.7のreference-to-video機能で最大何枚の画像を入力できますか?マルチキャラクター合成に使えますか?
Wan-2.7はreference入力を最大5枚までサポートしており、Wan-2.1の1枚から400%増加しています。これにより複数キャラクターや複数オブジェクトを1つの動画に合成するマルチサブジェクト合成が可能になりました。また新機能としてfirst/last-frame制御(開始・終了フレームを画像で指定)と3×3グリッドI2V(9分割グリッドによる画像から動画生成)も追加されています。対応ワークフローはtext-to-video・image-to-video・reference-to-videoの3種類で、最大解像度1080p・最大15秒の動画に対してこれらの機能をフル活用できます。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。