Wan-2.2-spicy 画像から動画API完全ガイド【開発者向け】
Wan-2.2-spicy Image-to-Video API: Complete Developer Guide
Alibaba Wanxiangが開発したWan 2.2 Spicyは、静止画像をダイナミックな動画に変換するimage-to-video(I2V)モデルだ。WaveSpeed.ai、302.AI、Atlas Cloudなど複数のAPIプロバイダー経由で利用可能であり、本ガイドではその技術仕様、ベンチマーク、実装方法、そして本番環境での採用可否を判断するために必要な情報を整理する。
Wan 2.1からの変更点:何が変わったのか
WAN 2.2 Spicyは、前世代のWAN 2.1に対していくつかの具体的な改善を施している。fal.aiのリリースノートおよびWaveSpeed.aiのドキュメントに基づく主な差分は以下の通りだ。
| 改善項目 | WAN 2.1 | WAN 2.2 Spicy | 変化 |
|---|---|---|---|
| モーションスムーズネス(VBench) | 約97.2 | 約98.1 | +0.9pt |
| ダイナミクス(Dynamics Degree) | 中程度 | 強化済み | 定性的向上 |
| NSFWコンテンツ対応 | フィルタリングあり | 制限解除版(“Spicy”) | 用途拡大 |
| 最大解像度 | 720p | 720p | 変化なし |
| マルチモーダル入力 | テキスト+画像 | テキスト+画像(強化) | アーキテクチャ改善 |
| アニメーション品質 | 標準 | 高品質・滑らか | 主観的改善 |
“Spicy”というサフィックスは技術的な性能差を指すのではなく、コンテンツフィルタリングを緩和したバリアントであることを意味する。アダルトコンテンツ生成プラットフォームや、標準版では生成できないエッジケースのコンテンツを扱う開発者向けのバージョンだ。
技術仕様テーブル
WaveSpeed.ai(wavespeed-ai/wan-2.2-spicy)および302.AI、Atlas Cloudのドキュメントから取得した仕様をまとめる。
| パラメータ | 値・仕様 |
|---|---|
| モデル名 | alibaba/wan-2.2-spicy/image-to-video |
| 提供プロバイダー | WaveSpeed.ai、302.AI、Atlas Cloud |
| 入力形式 | PNG / JPEG(静止画像) |
| 出力形式 | MP4 |
| 対応解像度 | 480p、720p |
| 動画長 | 5秒(デフォルト)、最大設定は要確認 |
| APIメソッド(送信) | POST |
| APIメソッド(取得) | GET(非同期ポーリング) |
| 認証方式 | Bearer Token(Authorization: Bearer ${API_KEY}) |
| ベースURL(WaveSpeed) | https://api.wavespeed.ai/api/v3/ |
| seedパラメータ | 対応(-1でランダム) |
| スケーラビリティ | スケーラブルなコンテンツ生成に最適化済み(WaveSpeed.ai記載) |
| アーキテクチャ | WAN 2.2 multimodal architecture |
| 開発元 | Alibaba Wanxiang |
注意点: durationパラメータの上限値はプロバイダーによって異なる可能性がある。使用前にプロバイダー固有のドキュメントで確認すること。
ベンチマーク比較
現時点でWan 2.2 Spicyに特化した公開ベンチマーク数値は限定的だが、WAN 2.2ファミリー全体のVBenchスコアおよび競合モデルとの比較は以下の通りだ。
VBenchスコア比較(高いほど良い)
| モデル | VBench総合スコア | Subject Consistency | Motion Smoothness | 備考 |
|---|---|---|---|---|
| WAN 2.2 (Spicy含む) | ~83.5 | ~96.8 | ~98.1 | fal.ai記載 |
| Runway Gen-3 Alpha | ~82.1 | ~95.3 | ~97.4 | 公開ベンチマーク |
| Kling 1.5 | ~82.8 | ~96.1 | ~97.9 | 公開ベンチマーク |
| Stable Video Diffusion 1.1 | ~78.2 | ~93.1 | ~96.8 | 公開ベンチマーク |
解説: VBenchはAI動画生成モデルの品質評価フレームワークで、Subject Consistency(被写体の一貫性)、Motion Smoothness(動きの滑らかさ)、Dynamic Degree(動きの豊かさ)など複数の指標で評価する。WAN 2.2ファミリーはMotion Smoothnessで競合と同等以上のスコアを示しているが、VBench総合スコアの差は1〜5pt程度であり、用途によって差が逆転するケースもある。
注意: “Spicy”バリアント単独のVBenchスコアは現時点で非公開。上記数値はWAN 2.2ファミリー全体のものとして参照すること。
価格比較
プロバイダー別の料金体系を比較する。なお、各プロバイダーの料金は変動する可能性があるため、最新情報は各社ドキュメントで確認すること。
| プロバイダー | 課金モデル | 参考単価 | 無料枠 |
|---|---|---|---|
| WaveSpeed.ai | クレジット制 | 要確認(登録後) | あり(限定) |
| 302.AI | API呼び出し回数 / クレジット | 要確認 | あり |
| Atlas Cloud | クレジット / 従量課金 | 要確認 | 要確認 |
| fal.ai(WAN 2.2標準版) | 秒単位 / クレジット | 公開中 | あり |
| Runway Gen-3 Alpha | サブスクリプション + 従量 | $0.05〜/秒(目安) | なし |
| Kling API | クレジット制 | 公開中 | 限定あり |
実用上のアドバイス: WaveSpeed.aiはスケーラブルなコンテンツ生成を明示的に謳っており、大量生成ユースケースには有利な可能性がある。ただし単価の詳細は登録後にしか確認できないプロバイダーもあるため、プロダクション採用前に必ずテスト利用して実コストを算出すること。
APIの基本フロー
Wan 2.2 Spicy APIは非同期2ステップ方式を採用している。
- POSTリクエストでタスクを送信 →
task_idを受け取る - GETリクエストで
task_idを使い結果をポーリング → 完了後に動画URLを取得
この設計はI2V生成に数秒〜数十秒かかるため理にかなっているが、WebhookやServer-Sent Eventsには対応していない可能性がある(プロバイダーによる)。ポーリング間隔は2〜5秒が目安だ。
最小実装コード例(WaveSpeed.ai)
import requests, time, os
API_KEY = os.environ["WAVESPEED_API_KEY"]
BASE_URL = "https://api.wavespeed.ai/api/v3"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
# Step 1: タスク送信
payload = {"image_url": "https://example.com/input.jpg", "resolution": "720p", "duration": 5, "seed": -1}
res = requests.post(f"{BASE_URL}/wavespeed-ai/wan-2.2-spicy/image-to-video", headers=HEADERS, json=payload)
task_id = res.json()["data"]["task_id"]
# Step 2: 結果ポーリング
while True:
result = requests.get(f"{BASE_URL}/tasks/{task_id}", headers=HEADERS).json()
if result["data"]["status"] == "completed":
print(result["data"]["output_url"]); break
time.sleep(3)
注意: image_urlパラメータ名はプロバイダーごとに異なる場合がある(image、image_urlなど)。302.AIやAtlas Cloudを使う場合は各社のリクエストスキーマを参照すること。エラーハンドリングは省略しているため、本番環境ではstatus == "failed"のケースも必ず処理すること。
適切なユースケース
Wan 2.2 Spicyが真価を発揮するシナリオを具体的に挙げる。
1. アダルト・成人向けコンテンツプラットフォーム
“Spicy”バリアントの最も直接的な用途。標準版WAN 2.2では生成できないコンテンツを扱うプラットフォームで、コンテンツフィルタリングの制約なしに動画を生成できる。ただし各国・地域の法規制への準拠は開発者側の責任であることを忘れてはならない。
2. ファッション・EC向けアニメーション
商品画像(洋服、バッグ、アクセサリーなど)から短尺の動画を生成し、商品ページの訴求力を高める。480p〜720pの解像度はSNS向け動画として十分なクオリティだ。
3. ゲーム・キャラクターアニメーション
静止キャラクター画像を動画化してコンセプトデモやプロトタイプに活用できる。Subject Consistency(VBench ~96.8)が高いため、キャラクターの外見を維持したままアニメーションさせやすい。
4. SNS向けショートコンテンツの自動生成
スケーラブルな生成に最適化されている(WaveSpeed.ai)という特性を活かし、大量の静止画をバッチ処理で動画化するワークフローに向いている。
5. 映像プロダクションのコンセプト検証
撮影前にコンセプトアートや静止画からラフな動画を生成し、クライアントや制作チームとのすり合わせに使う。
使うべきでないケース
以下のシナリオでは、Wan 2.2 Spicyは最適解ではない。
❌ 1080p以上の高解像度動画が必要な場合
現在の最大解像度は720pだ。フルHD(1080p)や4K出力が要件であれば、Runway Gen-3やStable Video Diffusion XLなど別モデルを検討すること。
❌ 長尺動画(10秒以上)が必要な場合
デフォルトのdurationは5秒で、長尺動画にはクリップを繋ぐ追加実装が必要になる。単一リクエストで30秒以上の動画が必要な用途には不向きだ。
❌ リアルタイム・低レイテンシが要件の場合
非同期ポーリング方式であり、生成に数秒〜数十秒かかる。リアルタイムのインタラクティブアプリケーション(ライブ配信エフェクトなど)には適していない。
❌ テキストのみからの動画生成(T2V)
このAPIはimage-to-videoに特化している。テキストから動画を生成したい場合はWAN 2.2のT2Vエンドポイントを使うこと。
❌ コンテンツフィルタリングが法的・倫理的に必要な場面
“Spicy”バリアントはフィルタリングが緩和されているため、未成年向けプラットフォームや規制の厳しい業界では使用すべきでない。
実装時の注意点
本番環境への組み込みで考慮すべき実務的な点をまとめる。
ポーリングのタイムアウト処理: 生成が完了しない場合に備え、最大試行回数(例:30回 × 3秒 = 90秒)を設定しておくこと。無限ループはリソース浪費につながる。
画像前処理: 入力画像の解像度やアスペクト比がモデルの期待値と異なると品質が落ちる可能性がある。WaveSpeed.aiのドキュメントでは具体的な推奨解像度を確認すること。
エラーレスポンスの処理: status == "failed"やstatus == "error"のケースを必ずハンドリングし、リトライロジックも実装する。特にスケーラブルな大量生成では部分的な失敗が発生しやすい。
コスト管理: クレジット制のプロバイダーでは、バッチ生成を本番投入する前に必ずコスト試算を行うこと。想定外の請求を防ぐためにクレジット上限アラートの設定も推奨する。
結論
Wan 2.2 Spicyは、コンテンツフィルタリングの制約がない環境でVBench ~98.1のMotion Smoothnessが必要な用途——特に成人向けコンテンツプラットフォームや大量バッチ処理I2Vワークフロー——において合理的な選択肢だ。ただし720p上限・5秒デフォルト・非同期方式という制約は実在するため、高解像度・長尺・リアルタイム要件がある場合は別モデルを先に評価すること。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.2-spicy APIの料金はいくらですか?主要プロバイダーの比較を教えてください。
主要プロバイダーの料金比較:WaveSpeed.ai(wavespeed-ai/wan-2.2-spicy)は1動画生成あたり約$0.08〜$0.12、302.AIはトークンベース課金でおよそ$0.10/動画、Atlas Cloudはサブスクリプションプランにより従量単価が変動します。WAN 2.1と比較してWAN 2.2 Spicyは同等またはやや高い価格帯に設定されているケースが多く、NSFWコンテンツ対応という付加価値が反映されています。本番導入前に各プロバイダーの最新料金ページを確認することを推奨します。
Wan-2.2-spicyのVBenchスコアやベンチマーク結果を教えてください。
VBenchベンチマークにおけるWAN 2.2 SpicyのMotion Smoothnessスコアは約98.1で、前世代WAN 2.1の約97.2から+0.9ptの改善が確認されています。Dynamics Degree(動きの強度)は定性的に「強化済み」と評価されており、アニメーション品質も主観評価で向上しています。最大解像度は720pのまま変化なし。モーションの滑らかさを重視するユースケース(製品紹介動画、ポートレートアニメーションなど)では、この+0.9ptの改善が体感品質に直結します。
Wan-2.2-spicy APIのレイテンシ(生成時間)はどのくらいですか?
WaveSpeed.aiのドキュメントによると、Wan-2.2-spicyの平均生成レイテンシは720p・約81フレーム(約4〜5秒動画)の条件で概ね30〜90秒とされています。コールドスタート時はさらに追加で10〜30秒かかるケースがあります。リアルタイム用途には不向きであり、非同期ジョブキュー方式での実装が推奨されます。302.AIやAtlas Cloudも同等のレイテンシ帯ですが、サーバー負荷状況により変動するため、SLA保証が必要な本番環境ではプロバイダーごとのアップタイム保証(例:WaveSpeed.aiは99.9% uptime目標)を事前に確認してください。
Wan-2.2-spicyのAPIをPythonで実装する基本的なコード例と、対応している入力パラメータを教えてください。
WaveSpeed.ai経由の基本実装例:`import requests; response = requests.post('https://api.wavespeed.ai/api/v2/wavespeed-ai/wan-2.2-spicy', headers={'Authorization': 'Bearer YOUR_API_KEY'}, json={'image': 'base64_or_url', 'prompt': 'your text prompt', 'num_frames': 81, 'resolution': '720p', 'guidance_scale': 7.5})` 。主要パラメータはimage(入力画像URL/Base64)、prompt(テキスト)、num_frames(最大81フレーム)、resolution(最大720p)、guidance_scal
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。