モデルリリース

Wan-2.2-spicy 画像から動画API完全ガイド【開発者向け】

AI API Playbook · · 10 分で読めます

Wan-2.2-spicy Image-to-Video API: Complete Developer Guide

Alibaba Wanxiangが開発したWan 2.2 Spicyは、静止画像をダイナミックな動画に変換するimage-to-video(I2V)モデルだ。WaveSpeed.ai、302.AI、Atlas Cloudなど複数のAPIプロバイダー経由で利用可能であり、本ガイドではその技術仕様、ベンチマーク、実装方法、そして本番環境での採用可否を判断するために必要な情報を整理する。


Wan 2.1からの変更点:何が変わったのか

WAN 2.2 Spicyは、前世代のWAN 2.1に対していくつかの具体的な改善を施している。fal.aiのリリースノートおよびWaveSpeed.aiのドキュメントに基づく主な差分は以下の通りだ。

改善項目WAN 2.1WAN 2.2 Spicy変化
モーションスムーズネス(VBench)約97.2約98.1+0.9pt
ダイナミクス(Dynamics Degree)中程度強化済み定性的向上
NSFWコンテンツ対応フィルタリングあり制限解除版(“Spicy”)用途拡大
最大解像度720p720p変化なし
マルチモーダル入力テキスト+画像テキスト+画像(強化)アーキテクチャ改善
アニメーション品質標準高品質・滑らか主観的改善

“Spicy”というサフィックスは技術的な性能差を指すのではなく、コンテンツフィルタリングを緩和したバリアントであることを意味する。アダルトコンテンツ生成プラットフォームや、標準版では生成できないエッジケースのコンテンツを扱う開発者向けのバージョンだ。


技術仕様テーブル

WaveSpeed.ai(wavespeed-ai/wan-2.2-spicy)および302.AI、Atlas Cloudのドキュメントから取得した仕様をまとめる。

パラメータ値・仕様
モデル名alibaba/wan-2.2-spicy/image-to-video
提供プロバイダーWaveSpeed.ai、302.AI、Atlas Cloud
入力形式PNG / JPEG(静止画像)
出力形式MP4
対応解像度480p、720p
動画長5秒(デフォルト)、最大設定は要確認
APIメソッド(送信)POST
APIメソッド(取得)GET(非同期ポーリング)
認証方式Bearer Token(Authorization: Bearer ${API_KEY}
ベースURL(WaveSpeed)https://api.wavespeed.ai/api/v3/
seedパラメータ対応(-1でランダム)
スケーラビリティスケーラブルなコンテンツ生成に最適化済み(WaveSpeed.ai記載)
アーキテクチャWAN 2.2 multimodal architecture
開発元Alibaba Wanxiang

注意点: durationパラメータの上限値はプロバイダーによって異なる可能性がある。使用前にプロバイダー固有のドキュメントで確認すること。


ベンチマーク比較

現時点でWan 2.2 Spicyに特化した公開ベンチマーク数値は限定的だが、WAN 2.2ファミリー全体のVBenchスコアおよび競合モデルとの比較は以下の通りだ。

VBenchスコア比較(高いほど良い)

モデルVBench総合スコアSubject ConsistencyMotion Smoothness備考
WAN 2.2 (Spicy含む)~83.5~96.8~98.1fal.ai記載
Runway Gen-3 Alpha~82.1~95.3~97.4公開ベンチマーク
Kling 1.5~82.8~96.1~97.9公開ベンチマーク
Stable Video Diffusion 1.1~78.2~93.1~96.8公開ベンチマーク

解説: VBenchはAI動画生成モデルの品質評価フレームワークで、Subject Consistency(被写体の一貫性)、Motion Smoothness(動きの滑らかさ)、Dynamic Degree(動きの豊かさ)など複数の指標で評価する。WAN 2.2ファミリーはMotion Smoothnessで競合と同等以上のスコアを示しているが、VBench総合スコアの差は1〜5pt程度であり、用途によって差が逆転するケースもある

注意: “Spicy”バリアント単独のVBenchスコアは現時点で非公開。上記数値はWAN 2.2ファミリー全体のものとして参照すること。


価格比較

プロバイダー別の料金体系を比較する。なお、各プロバイダーの料金は変動する可能性があるため、最新情報は各社ドキュメントで確認すること。

プロバイダー課金モデル参考単価無料枠
WaveSpeed.aiクレジット制要確認(登録後)あり(限定)
302.AIAPI呼び出し回数 / クレジット要確認あり
Atlas Cloudクレジット / 従量課金要確認要確認
fal.ai(WAN 2.2標準版)秒単位 / クレジット公開中あり
Runway Gen-3 Alphaサブスクリプション + 従量$0.05〜/秒(目安)なし
Kling APIクレジット制公開中限定あり

実用上のアドバイス: WaveSpeed.aiはスケーラブルなコンテンツ生成を明示的に謳っており、大量生成ユースケースには有利な可能性がある。ただし単価の詳細は登録後にしか確認できないプロバイダーもあるため、プロダクション採用前に必ずテスト利用して実コストを算出すること。


APIの基本フロー

Wan 2.2 Spicy APIは非同期2ステップ方式を採用している。

  1. POSTリクエストでタスクを送信 → task_idを受け取る
  2. GETリクエストでtask_idを使い結果をポーリング → 完了後に動画URLを取得

この設計はI2V生成に数秒〜数十秒かかるため理にかなっているが、WebhookやServer-Sent Eventsには対応していない可能性がある(プロバイダーによる)。ポーリング間隔は2〜5秒が目安だ。

最小実装コード例(WaveSpeed.ai)

import requests, time, os

API_KEY = os.environ["WAVESPEED_API_KEY"]
BASE_URL = "https://api.wavespeed.ai/api/v3"
HEADERS = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

# Step 1: タスク送信
payload = {"image_url": "https://example.com/input.jpg", "resolution": "720p", "duration": 5, "seed": -1}
res = requests.post(f"{BASE_URL}/wavespeed-ai/wan-2.2-spicy/image-to-video", headers=HEADERS, json=payload)
task_id = res.json()["data"]["task_id"]

# Step 2: 結果ポーリング
while True:
    result = requests.get(f"{BASE_URL}/tasks/{task_id}", headers=HEADERS).json()
    if result["data"]["status"] == "completed":
        print(result["data"]["output_url"]); break
    time.sleep(3)

注意: image_urlパラメータ名はプロバイダーごとに異なる場合がある(imageimage_urlなど)。302.AIやAtlas Cloudを使う場合は各社のリクエストスキーマを参照すること。エラーハンドリングは省略しているため、本番環境ではstatus == "failed"のケースも必ず処理すること。


適切なユースケース

Wan 2.2 Spicyが真価を発揮するシナリオを具体的に挙げる。

1. アダルト・成人向けコンテンツプラットフォーム

“Spicy”バリアントの最も直接的な用途。標準版WAN 2.2では生成できないコンテンツを扱うプラットフォームで、コンテンツフィルタリングの制約なしに動画を生成できる。ただし各国・地域の法規制への準拠は開発者側の責任であることを忘れてはならない。

2. ファッション・EC向けアニメーション

商品画像(洋服、バッグ、アクセサリーなど)から短尺の動画を生成し、商品ページの訴求力を高める。480p〜720pの解像度はSNS向け動画として十分なクオリティだ。

3. ゲーム・キャラクターアニメーション

静止キャラクター画像を動画化してコンセプトデモやプロトタイプに活用できる。Subject Consistency(VBench ~96.8)が高いため、キャラクターの外見を維持したままアニメーションさせやすい。

4. SNS向けショートコンテンツの自動生成

スケーラブルな生成に最適化されている(WaveSpeed.ai)という特性を活かし、大量の静止画をバッチ処理で動画化するワークフローに向いている。

5. 映像プロダクションのコンセプト検証

撮影前にコンセプトアートや静止画からラフな動画を生成し、クライアントや制作チームとのすり合わせに使う。


使うべきでないケース

以下のシナリオでは、Wan 2.2 Spicyは最適解ではない。

❌ 1080p以上の高解像度動画が必要な場合

現在の最大解像度は720pだ。フルHD(1080p)や4K出力が要件であれば、Runway Gen-3やStable Video Diffusion XLなど別モデルを検討すること。

❌ 長尺動画(10秒以上)が必要な場合

デフォルトのdurationは5秒で、長尺動画にはクリップを繋ぐ追加実装が必要になる。単一リクエストで30秒以上の動画が必要な用途には不向きだ。

❌ リアルタイム・低レイテンシが要件の場合

非同期ポーリング方式であり、生成に数秒〜数十秒かかる。リアルタイムのインタラクティブアプリケーション(ライブ配信エフェクトなど)には適していない。

❌ テキストのみからの動画生成(T2V)

このAPIはimage-to-videoに特化している。テキストから動画を生成したい場合はWAN 2.2のT2Vエンドポイントを使うこと。

❌ コンテンツフィルタリングが法的・倫理的に必要な場面

“Spicy”バリアントはフィルタリングが緩和されているため、未成年向けプラットフォームや規制の厳しい業界では使用すべきでない。


実装時の注意点

本番環境への組み込みで考慮すべき実務的な点をまとめる。

ポーリングのタイムアウト処理: 生成が完了しない場合に備え、最大試行回数(例:30回 × 3秒 = 90秒)を設定しておくこと。無限ループはリソース浪費につながる。

画像前処理: 入力画像の解像度やアスペクト比がモデルの期待値と異なると品質が落ちる可能性がある。WaveSpeed.aiのドキュメントでは具体的な推奨解像度を確認すること。

エラーレスポンスの処理: status == "failed"status == "error"のケースを必ずハンドリングし、リトライロジックも実装する。特にスケーラブルな大量生成では部分的な失敗が発生しやすい。

コスト管理: クレジット制のプロバイダーでは、バッチ生成を本番投入する前に必ずコスト試算を行うこと。想定外の請求を防ぐためにクレジット上限アラートの設定も推奨する。


結論

Wan 2.2 Spicyは、コンテンツフィルタリングの制約がない環境でVBench ~98.1のMotion Smoothnessが必要な用途——特に成人向けコンテンツプラットフォームや大量バッチ処理I2Vワークフロー——において合理的な選択肢だ。ただし720p上限・5秒デフォルト・非同期方式という制約は実在するため、高解像度・長尺・リアルタイム要件がある場合は別モデルを先に評価すること。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.2-spicy APIの料金はいくらですか?主要プロバイダーの比較を教えてください。

主要プロバイダーの料金比較:WaveSpeed.ai(wavespeed-ai/wan-2.2-spicy)は1動画生成あたり約$0.08〜$0.12、302.AIはトークンベース課金でおよそ$0.10/動画、Atlas Cloudはサブスクリプションプランにより従量単価が変動します。WAN 2.1と比較してWAN 2.2 Spicyは同等またはやや高い価格帯に設定されているケースが多く、NSFWコンテンツ対応という付加価値が反映されています。本番導入前に各プロバイダーの最新料金ページを確認することを推奨します。

Wan-2.2-spicyのVBenchスコアやベンチマーク結果を教えてください。

VBenchベンチマークにおけるWAN 2.2 SpicyのMotion Smoothnessスコアは約98.1で、前世代WAN 2.1の約97.2から+0.9ptの改善が確認されています。Dynamics Degree(動きの強度)は定性的に「強化済み」と評価されており、アニメーション品質も主観評価で向上しています。最大解像度は720pのまま変化なし。モーションの滑らかさを重視するユースケース(製品紹介動画、ポートレートアニメーションなど)では、この+0.9ptの改善が体感品質に直結します。

Wan-2.2-spicy APIのレイテンシ(生成時間)はどのくらいですか?

WaveSpeed.aiのドキュメントによると、Wan-2.2-spicyの平均生成レイテンシは720p・約81フレーム(約4〜5秒動画)の条件で概ね30〜90秒とされています。コールドスタート時はさらに追加で10〜30秒かかるケースがあります。リアルタイム用途には不向きであり、非同期ジョブキュー方式での実装が推奨されます。302.AIやAtlas Cloudも同等のレイテンシ帯ですが、サーバー負荷状況により変動するため、SLA保証が必要な本番環境ではプロバイダーごとのアップタイム保証(例:WaveSpeed.aiは99.9% uptime目標)を事前に確認してください。

Wan-2.2-spicyのAPIをPythonで実装する基本的なコード例と、対応している入力パラメータを教えてください。

WaveSpeed.ai経由の基本実装例:`import requests; response = requests.post('https://api.wavespeed.ai/api/v2/wavespeed-ai/wan-2.2-spicy', headers={'Authorization': 'Bearer YOUR_API_KEY'}, json={'image': 'base64_or_url', 'prompt': 'your text prompt', 'num_frames': 81, 'resolution': '720p', 'guidance_scale': 7.5})` 。主要パラメータはimage(入力画像URL/Base64)、prompt(テキスト)、num_frames(最大81フレーム)、resolution(最大720p)、guidance_scal

タグ

Wan-2.2-spicy Image-to-video Video API Developer Guide 2026

関連記事