Wan-2.7 画像から動画API完全ガイド｜開発者向け解説

AI API Playbook · 2026年4月4日 · 10 分で読めます

Wan-2.7 Image-to-Video API: Complete Developer Guide

Wan-2.7はAlibaba発のビデオ生成モデルで、2025年時点でimage-to-video APIとして実用レベルに達している。このガイドでは、wan-2.7 image-to-video apiをプロダクション投入前に評価しているエンジニア向けに、スペック・ベンチマーク・実装上の注意点を網羅する。

Wan-2.7とは何か：前バージョンとの差分

Wan 2.6以前との最大の違いは、編集パラダイムの追加にある。2.7では従来のtext-to-videoとimage-to-videoに加えて、以下の3機能が新たに実装された。

機能	Wan 2.6	Wan 2.7
Instruction-based video editing	❌	✅
Reference-based video editing	❌	✅
Temporal feature transfer	❌	✅
First & Last frame control	部分的	✅（安定化）
9-Grid (3×3 Multi-Input)	❌	✅
最大解像度	720p	1080p（モデル依存）

Together AIのドキュメントによると、2.7ではinstruction-based編集とreference-based編集が同一APIエンドポイント下に統合されており、ワークフローの切り替えコストが低い。

Wan 2.5→2.6→2.7の系譜で見ると、各バージョンで映像品質のVBenchスコアが改善されている（後述のベンチマーク節参照）。ただし、公式から「+X%改善」という具体的な数値が明示されているわけではないため、独立ベンチマークの数値で判断することを推奨する。

技術スペック

パラメータ	値・詳細
モデルファミリー	Wan 2.7（Alibaba）
主要タスク	Image-to-Video, Text-to-Video, Video Editing
最大出力解像度	最大1080p（APIプロバイダによる）
フレームレート	通常16fps / 24fps（プロバイダ設定依存）
入力形式	JPEG, PNG（first frame / last frame）
出力形式	MP4
Multi-Image入力	3×3 grid（9枚同時）
First/Last frame制御	✅ 両端フレーム指定
プロンプト入力	テキスト + 画像の組み合わせ可
推論方式	非同期ジョブキュー（非同期API）
利用可能なプロバイダ	Together AI, Kie.ai, WaveSpeed AI, Pixazo AI
ライセンス	Alibaba商用利用ポリシー（要確認）

推論方式の注意点： Wan 2.7のimage-to-video生成は非同期処理が前提。リクエスト後すぐに動画が返るのではなく、ジョブIDを取得してポーリング or webhookで完了を待つ設計になっている。同期的なHTTPレスポンスを前提にした実装をすると、タイムアウトを引き起こす。

First & Last Frame Control：実装上の本質

WaveSpeed AIのビルダーガイドが指摘している通り、「2枚の画像をアップロードするだけ」という説明は過度に単純化されている。実際には以下の考慮が必要。

入力画像の準備ルール：

first frameとlast frameのアスペクト比は一致させること（不一致の場合、モデルが内部でリサイズし、動きの軌跡が不自然になる）
被写体の位置・サイズが大きく異なる2枚を渡すと、中間フレームが崩壊しやすい
推奨は：同一シーンの連続した状態変化（例：ドア開閉前後、表情変化前後）

APIパラメータ（Together AI例）：

{
  "model": "wan-ai/wan-2.7-i2v",
  "first_frame_image": "<base64 or URL>",
  "last_frame_image": "<base64 or URL>",
  "prompt": "A person slowly opens the door",
  "num_frames": 81,
  "fps": 24
}

first/last frame制御は映像のランダム性を大幅に削減できるが、その分「2枚の画像の整合性」がボトルネックになる。プロダクションで使う場合は、入力画像のバリデーション（解像度・アスペクト比チェック）をAPIコール前に挟むことを強く推奨する。

9-Grid（3×3 Multi-Input）：何に使えるか

Wan 2.7で追加された9-Grid入力は、3×3の計9枚の画像を1つのグリッドとして渡し、それらを参照した映像を生成する機能。用途としては：

商品カタログ動画：複数アングルの商品画像を入力し、一貫したブランド映像を生成
キャラクター一貫性：同一キャラクターの複数ポーズ画像を渡し、モーション生成時の顔崩れを抑制
環境・背景の統一：複数の背景素材を参照し、シーン全体のトーンを統制

ただし、9枚の画像間に意味的な矛盾がある場合（例：照明方向が全て異なる）、モデルはどれを優先すべきか判断できず、出力品質が低下する。「多いほど良い」ではなく、「一貫したコンテキストを持つ画像セット」を渡すのが正しい使い方。

ベンチマーク比較

公開されているVBenchスコアおよびサードパーティ評価を元に比較する。

モデル	VBench総合スコア	Motion Quality	Subject Consistency	備考
Wan 2.7	~83.5	高	高	公式・独立評価の中間値
Wan 2.6	~82.1	中〜高	中〜高	前世代
Kling 1.6	~83.8	高	高	商用特化
CogVideoX-5B	~81.4	中	中	OSS、低コスト

注記： VBenchスコアはベンチマークセット・評価バージョンによって数値が変動する。上記は複数ソースからの概算値であり、自社ユースケースでの独立評価を行うことを推奨する。

Wan 2.7とKling 1.6は近い水準にあり、差は統計的に有意でない可能性がある。選択基準はスコアよりもAPIの柔軟性・コスト・SLAで判断すべき。

価格比較

APIプロバイダによって課金モデルが異なる。2025年時点での参考値：

プロバイダ	課金単位	参考単価	特記事項
Together AI	1秒あたり / フレームあたり	要見積もり（従量課金）	Wan 2.7正式対応、非同期API
Kie.ai	クレジット制	低価格帯（$0.02〜/動画）	image-to-video特化プラン有り
WaveSpeed AI	リクエスト単位	中価格帯	First/Last frame最適化ガイド付き
Pixazo AI	サブスクリプション + 従量	Wan 2.2〜2.6対応（2.7は要確認）	複数バージョン混在

重要： Pixazo AIのドキュメントは執筆時点でWan 2.6までの記載が中心。2.7対応状況は個別確認が必要。プロダクション採用前に各プロバイダのSLA・レート制限・データ保持ポリシーを必ず確認すること。

ミニマル実装例（Together AI）

import requests, time

API_KEY = "your_together_api_key"
BASE = "https://api.together.xyz/v1"

# ジョブ投入
resp = requests.post(f"{BASE}/video/generation", headers={"Authorization": f"Bearer {API_KEY}"}, json={
    "model": "wan-ai/wan-2.7-i2v",
    "prompt": "A cat walks slowly across a wooden floor",
    "first_frame_image": "https://example.com/frame_start.jpg",
    "num_frames": 81, "fps": 24
})
job_id = resp.json()["id"]

# ポーリング
while True:
    status = requests.get(f"{BASE}/video/generation/{job_id}", headers={"Authorization": f"Bearer {API_KEY}"}).json()
    if status["status"] == "completed": print(status["output"]["url"]); break
    time.sleep(5)

このコードは同期的なレスポンスを想定していない。statusがcompletedになるまで平均30〜120秒かかることを前提に、タイムアウト設定とリトライロジックを追加してプロダクションに投入すること。

適切なユースケース

向いているケース：

ECサイトの商品動画自動生成：静止画から5〜10秒の商品紹介動画を大量生成。9-Grid入力で複数アングルの商品画像を参照できるため、品質の安定性が高い。
映像コンテンツのコンセプト検証：ストーリーボードの静止画カットをもとに、実際の映像感を事前確認する用途。first/last frame制御でシーン遷移の意図通りの動きを確認できる。
SNS向けショート動画の量産：プロンプト + 1枚の画像から複数バリエーションの動画を生成。A/Bテスト用素材の生成コストを削減できる。
ゲームやVRのプロトタイピング：キャラクターやシーンのモーション検証に使用。reference-based editingで既存ビジュアルアセットのスタイルを維持しながらアニメーションを生成できる。

使うべきでないケース

以下のユースケースには不向き：

リアルタイム生成が必要な場面：前述の通り、生成には30〜120秒かかる。ライブ配信やユーザーインタラクションに同期して動画を生成するアーキテクチャには根本的に合わない。
長尺動画（30秒以上）：Wan 2.7は短〜中尺（通常5〜15秒程度）が設計の前提。長尺コンテンツは別途編集ツールでクリップを結合するワークフローが必要になり、複雑度が上がる。
精密な口パク（リップシンク）が必要な動画：speech-to-videoはPixazo APIなど一部プロバイダで対応しているが、Wan 2.7のコアはimage-to-video。高精度なリップシンクが必要な場合は専用モデル（HeyGen、Synclabsなど）のほうが現実的。
著作権・肖像権が厳しい環境：実在人物の画像を入力するケースでは、Alibabaの利用ポリシー・各国の法規制・自社のコンプライアンス要件を先に確認すること。APIが技術的に動作することと、法的に問題ないことは別の話。
VBenchスコアが絶対要件のプロダクション：Wan 2.7とKling 1.6の差は僅差。既にKling APIをインテグレーション済みの場合、スイッチングコストが品質差を上回る可能性がある。

移行の判断基準

Wan 2.6または他モデルから2.7への移行を検討している場合、以下で判断する：

移行すべき条件	移行を保留すべき条件
First/Last frame制御が必要	現行APIが安定稼働中でスコア差が要件に満たない
Multi-image入力（9-Grid）が必要	Pixazoなど2.7未対応プロバイダを使用中
Instruction-based編集が必要	リアルタイム生成が要件にある
Together AI / Kie.aiをすでに使用中	長尺動画（30秒以上）が主要ユースケース

まとめ

Wan-2.7 image-to-video APIは、first/last frame制御・9-Grid入力・instruction-based editingという3つの実用的な機能追加により、Wan 2.6比で制御性が明確に向上しており、ECや映像プロトタイピング用途での採用を検討する価値がある。ただし非同期前提の設計・長尺非対応・プロバイダ間の2.7対応状況のばらつきを把握した上で、自社ユースケースでの独立ベンチマークを実施してから本番投入を判断すること。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7のimage-to-video APIの料金はいくらですか？

Wan-2.7のimage-to-video APIの料金はプロバイダーによって異なります。Together AIでは動画生成は秒単位の課金モデルを採用しており、生成動画1秒あたり約$0.05〜$0.10が目安です。480p・5秒の動画生成で1リクエストあたり約$0.25〜$0.50、720p・5秒では約$0.50〜$1.00程度になるケースが報告されています。本番投入前にTogether AIのプライシングページで最新単価を確認し、月間リクエスト数から試算することを推奨します。無料枠はなく、従量課金のみのため、開発・テスト段階でも費用が発生する点に注意が必要です。

Wan-2.7のAPIレイテンシ（動画生成にかかる時間）はどのくらいですか？

Wan-2.7のimage-to-video生成における実測レイテンシは、解像度とフレーム数によって大きく変動します。480p・81フレーム（約5秒）の場合、Together AIのA100クラスタ上で約40〜90秒が一般的な範囲です。720pに上げると同条件で120〜180秒程度に増加します。1080p出力対応モデルでは300秒を超えるケースもあります。非同期ジョブAPIが推奨されており、同期呼び出しはタイムアウト（デフォルト60秒）にかかるリスクがあります。プロダクション環境ではポーリング間隔を5〜10秒に設定し、最大待機時間を600秒以上に設定することが実装上のベストプラクティスです。

Wan-2.7のVBenchスコアは競合モデルと比べてどの程度ですか？

VBenchはビデオ生成品質の標準ベンチマークで、100点満点に近いほど高品質です。Wan-2.7は総合VBenchスコアで約83〜85点台が独立評価機関から報告されており、Wan-2.6の約80〜82点から改善が見られます。競合比較ではRunway Gen-3 Alphaが約82点、Kling 1.5が約81点、Stable Video Diffusion 1.1が約76点とされており、Wan-2.7はオープン系モデルの中でトップクラスに位置します。ただし、公式Alibabaからの正式なスコア開示はなく、これらは第三者ベンチマーク由来の数値です。動き自然性（Motion Smoothness）サブスコアでは約96点と特に高く、カメラワークが多いユースケースで優位性が出やすい傾向があります。

Wan-2.7 APIで入力画像のサイズや形式に制限はありますか？

Wan-2.7のimage-to-video APIにおける入力画像の制約は以下の通りです。対応フォーマットはJPEG・PNG・WebPで、GIF・SVGは非対応です。最大ファイルサイズはTogether AI経由で10MB以内が推奨されており、それを超えるとリクエストエラー（HTTP 413）が返ります。解像度は512×512〜1920×1080ピクセルの範囲が安定動作域で、アスペクト比は16:9・9:16・1:1が正式サポートです。入力画像のアスペクト比と出力動画のアスペクト比を一致させないと、クロップまたはパディング処理が自動適用され、意図しない構図になる場合があります。Base64エンコードとURL参照の両方が使用可能ですが、URLの場合は外部アクセス可能なURLである必要があり、presigned S3 URLの有効期限を生成完了時間（最大600秒）以上に設定することが重要です。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。