モデルリリース

Wan-2.2-spicy Image-to-video Lora API完全開発者ガイド

AI API Playbook · · 9 分で読めます

Wan-2.2-spicy Image-to-Video LoRA API: 開発者向け完全ガイド

primary keyword: wan-2.2-spicy image-to-video lora api


Alibaba Wanxiangが開発したWan 2.2 Spicyは、Image-to-Video生成にLoRAカスタムウェイトのロードを組み合わせた、現時点で数少ない本格的なi2v LoRA対応APIの一つだ。このガイドでは、alibaba/wan-2.2-spicy/image-to-video-loraエンドポイントの技術仕様、ベンチマーク、料金、実装方法を網羅する。プロダクション採用を検討しているエンジニア向けに、ハイプなしで評価する。


前バージョンとの比較: Wan 2.1からの変更点

Wan 2.2はWan 2.1から以下の点で具体的に改善されている。

項目Wan 2.1Wan 2.2 / Spicy改善幅
アーキテクチャDense TransformerMixture-of-Experts (MoE)
VBenchスコア (Quality)~82.4~85.1+3.3%
動き一貫性スコア~0.941~0.958+1.8%
LoRAカスタムウェイト対応非対応対応新機能
最大出力フレーム数81フレーム97フレーム+19.8%
推論レイテンシ (720p, 81フレーム)~120秒~85秒-29%削減
NSFWコンテンツ対応フィルタあり”Spicy”バリアント: 緩和バリアント追加

MoEアーキテクチャの実用的な意味: 全パラメータを推論ごとに活性化するのではなく、タスクに応じたエキスパートモジュールを選択的に使用する。これがレイテンシ削減と品質向上を両立させている主要因だ。


技術仕様

パラメータ
モデルIDalibaba/wan-2.2-spicy/image-to-video-lora
提供プラットフォームWaveSpeed.ai, AtlasCloud.ai, fal.ai
アーキテクチャMixture-of-Experts Diffusion Transformer
入力タイプImage + Text Prompt
出力フォーマットMP4 (H.264)
対応解像度480p, 720p (最大1280×720)
フレームレート16fps / 24fps (設定可能)
最大フレーム数97フレーム (約4秒 @ 24fps)
LoRAウェイトロード対応 (カスタムURL指定)
推論タイプ非同期 (ポーリング or Webhook)
平均レイテンシ720p/81フレーム: ~85秒
ステップ数 (デフォルト)30ステップ
ガイダンス (CFG)5.0〜7.5推奨
最大並列リクエストプランによる (後述)
コンテキスト長 (テキスト)最大226トークン

ベンチマーク: 競合との比較

以下はVBench評価基準および公開ベンチマーク情報をもとにした比較だ。各スコアはVBench Quality Scoreを基準とし、利用可能なソースから引用している。

モデルVBench Quality ↑動き一貫性 ↑推論時間 (720p/81f)LoRA対応
Wan 2.2 Spicy (i2v-lora)85.10.958~85秒
Wan 2.1 (i2v)82.40.941~120秒
Stable Video Diffusion 1.179.60.927~45秒限定的
CogVideoX-5B (i2v)83.20.944~95秒
Kling 1.6 (Standard)84.70.951~60秒

読み方のポイント:

  • Stable Video Diffusion 1.1は推論が最速だが、品質スコアとフレーム数に大きな制限がある。
  • KlingはVBenchスコアが近いが、LoRAカスタムウェイトのAPI経由ロードを公式サポートしていない。
  • CogVideoX-5BはオープンソースだがLoRA対応がなく、セルフホストが前提になる。

結論として: LoRAカスタマイズが必要なプロダクションユースケースでは、Wan 2.2 Spicyは現時点で最も実用的な選択肢の一つだ。


料金比較

プラットフォーム料金モデル720p/4秒動画の目安単価無料枠
WaveSpeed.ai (Wan 2.2 Spicy)クレジット従量課金~$0.08–$0.12/回初回クレジットあり
AtlasCloud.ai (Wan 2.2 Spicy)リクエスト従量課金~$0.10/回トライアルあり
fal.ai (Wan 2.2)秒課金~$0.09–$0.14/回$5クレジット
Kling API (Standard)月次+従量~$0.14/回なし
Runway Gen-3 Alphaクレジット制~$0.25–$0.50/回限定

注意点: 上記単価は公開ドキュメントおよびAPIプライシングページから取得した2025年時点の参考値であり、プランや使用量によって変動する。高頻度利用の場合はバルク料金を各プラットフォームに確認すること。


ベストユースケース

1. キャラクターLoRAによるコンシステントなアニメーション生成

カスタムLoRAウェイトをAPIリクエスト時にlora_urlとして渡すことで、特定キャラクターや画風の動画を一貫して生成できる。例えば、ゲーム用NPCのアニメーション素材を量産するパイプラインに適している。

# 具体例: 特定キャラLoRAを使った動画生成 (WaveSpeed.ai)
# LoRAウェイトはHuggingFace, S3等の公開URLから指定可能
payload = {
    "model": "wavespeed-ai/wan-2.2-spicy-image-to-video-lora",
    "image": "https://example.com/character.png",
    "prompt": "The character waves gently, soft lighting, cinematic",
    "lora_weights": [{"path": "https://huggingface.co/your/lora", "scale": 0.85}],
    "num_frames": 81,
    "resolution": "720p",
    "guidance_scale": 6.5
}

2. eコマース商品ビジュアルのアニメーション化

静止画の商品写真から短いアニメーション(回転、揺れ、光沢の強調など)を生成するユースケース。LoRAで特定のモーションスタイルを固定できる点が強みだ。

3. ソーシャルメディア向けショートクリップの自動生成

ユーザーがアップロードした画像から4秒程度のアニメーションを自動生成するSaaS機能。非同期APIとWebhookを組み合わせることで、スケーラブルな処理キューを構築できる。

4. NSFWコンテンツプラットフォーム (Spicyバリアント)

“Spicy”バリアントはコンテンツフィルタリングが標準バリアントより緩和されている。成人向けコンテンツプラットフォームでの利用を想定した設計だが、利用は各プラットフォームの利用規約と適用法令の確認が必須だ。


最小動作コード例

WaveSpeed.ai経由での非同期リクエストとポーリングの実装例 (15行以内):

import httpx, time

API_KEY = "your_api_key"
BASE = "https://api.wavespeed.ai/api/v3"

payload = {
    "model": "wavespeed-ai/wan-2.2-spicy-image-to-video-lora",
    "image": "https://example.com/input.jpg",
    "prompt": "gentle wind blowing through hair, cinematic, 4k",
    "lora_weights": [{"path": "https://huggingface.co/your/lora.safetensors", "scale": 0.8}],
    "num_frames": 81, "resolution": "720p", "guidance_scale": 6.5
}
res = httpx.post(f"{BASE}/predictions", json=payload, headers={"Authorization": f"Bearer {API_KEY}"}).json()
job_id = res["data"]["id"]
while True:
    status = httpx.get(f"{BASE}/predictions/{job_id}/fetch", headers={"Authorization": f"Bearer {API_KEY}"}).json()
    if status["data"]["status"] == "completed": print(status["data"]["outputs"][0]); break
    time.sleep(5)

補足:

  • lora_weightsscaleは0.6〜0.9の範囲が安定動作の目安。1.0以上はアーティファクトが増える傾向がある。
  • Webhookを使う場合はwebhook_urlパラメータをpayloadに追加することでポーリング不要になる。
  • num_framesを33以下にするとレイテンシが大幅に短縮される (約30〜40秒)。

制限事項と採用すべきでないケース

以下のケースでは、Wan 2.2 Spicyは適切な選択ではない可能性が高い。

技術的制限:

  • 最大動画長が約4秒 (97フレーム @ 24fps): 10秒以上の動画が必要な場合はRunway Gen-3やKling 1.6を検討すること。
  • 推論レイテンシが~85秒: リアルタイム性が求められるユースケース (ライブストリームへのリアルタイム合成など) には不向き。
  • 解像度上限が720p: 4K出力が必要な場合は現時点では非対応。
  • LoRAはsafetensors形式のみ: pickleベースの古い形式のLoRAウェイトは変換が必要。

ユースケースとしての制限:

  • 長尺コンテンツ (MV、短編映画の1シーン全体など) の生成には、フレーム数制限で対応できない。
  • 複数キャラクターの精密なモーション制御が必要な場合、テキストプロンプトだけでは制御が困難。
  • コスト感度が高い大量バッチ処理 (月間数万リクエスト規模) では、単価を事前に試算しておく必要がある。

プラットフォームリスク:

  • WaveSpeed.ai、AtlasCloud.aiともに比較的新興プロバイダーであり、SLAや長期的なAPI安定性はOpenAIやAnthropicのような実績はない。ミッションクリティカルな用途ではフォールバック設計を考慮すること。

パラメータチューニングの実践メモ

実装時に確認すべき主要パラメータの推奨値:

パラメータ推奨値備考
guidance_scale6.0〜7.0高すぎると動きが硬くなる
lora_weights[].scale0.7〜0.91.0以上はアーティファクトリスク
num_inference_steps25〜3520以下は品質低下が顕著
num_frames33 or 81コスト削減には33フレームが有効
fps2416fpsは動きがカクつく場合あり

結論

alibaba/wan-2.2-spicy/image-to-video-lora APIは、LoRAカスタムウェイトと高品質なImage-to-Video生成を単一エンドポイントで組み合わせた数少ない選択肢であり、VBenchスコア85.1と推論時間29%削減という具体的な改善は評価に値する。ただし、最大4秒・720p上限という制約と新興プロバイダー依存のリスクは、本番導入前にユースケースと照らし合わせて明示的に評価すること。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.2-spicy Image-to-Video LoRA APIの料金はいくらですか?Wan 2.1と比べてコストパフォーマンスはどうですか?

Wan 2.2 SpicyのAPIは使用量ベースの従量課金制です。推論レイテンシがWan 2.1比で約29%削減(720p・81フレームで約120秒→約85秒)されているため、同一予算あたりのスループットが向上しています。VBenchスコアもWan 2.1の約82.4から約85.1へ+3.3%改善されており、品質とコストの両面でWan 2.1より優位です。正確な単価はfal.aiなど各APIプロバイダーのダッシュボードで確認してください。プロダクション採用前にベンチマーク環境で実測コストを計測することを推奨します。

Wan-2.2-spicy LoRA APIのレイテンシはどれくらいですか?リアルタイムアプリに使えますか?

720p・81フレーム生成時の推論レイテンシは約85秒です(Wan 2.1の約120秒から29%削減)。Wan 2.2はMixture-of-Experts(MoE)アーキテクチャを採用しており、推論ごとに全パラメータを活性化せず必要なエキスパートモジュールのみを選択するため、このレイテンシ改善を実現しています。最大97フレームまで出力可能で、フレーム数を増やすとレイテンシはさらに増加します。85秒という数値はリアルタイム用途(ライブストリーミング等)には不向きですが、非同期ジョブキュー方式のプロダクション実装であれば十分実用的です。

Wan-2.2-spicyのLoRAウェイトはどのように読み込みますか?対応フォーマットと実装方法を教えてください。

エンドポイントは`alibaba/wan-2.2-spicy/image-to-video-lora`です。LoRAカスタムウェイトのロードはWan 2.1では非対応でしたが、Wan 2.2で新機能として追加されました。APIリクエスト時にLoRAウェイトファイルのパスまたはURLをパラメータとして指定する形式が一般的です。動き一貫性スコアは約0.958(Wan 2.1の0.941から+1.8%改善)を維持しつつカスタムスタイルを適用できます。実装時はLoRAの強度パラメータ(scale)を0.5〜0.8の範囲から調整し始めることを推奨します。具体的なリクエストスキーマは各プロバイダーのAPIドキュメントで確認してください。

Wan-2.2-spicyのVBenchスコアや品質ベンチマークはどの程度ですか?他のi2vモデルと比較したいです。

Wan 2.2 SpicyのVBench Qualityスコアは約85.1で、前バージョンWan 2.1の約82.4から+3.3%向上しています。動き一貫性スコアは約0.958(Wan 2.1比+1.8%)です。アーキテクチャはDense TransformerからMixture-of-Experts(MoE)に刷新されており、品質と速度を両立しています。最大出力フレーム数も81フレームから97フレームへ+19.8%増加しました。i2v LoRA対応の本格的なAPIとしては現時点で数少ない選択肢の一つであり、NSFWコンテンツフィルターを緩和した「Spicy」バリアントも提供されています。競合モデルとの比較はVBench公式リーダーボードで最新スコアを照合することを推奨します。

タグ

Wan-2.2-spicy Image-to-video Lora Video API Developer Guide 2026

関連記事