Wan-2.7 Video-edit API完全ガイド｜開発者向け徹底解説

AI API Playbook · 2026年4月4日 · 10 分で読めます

Wan-2.7 Video-edit API: Complete Developer Guide

Alibaba の Wan ファミリーの最新モデルである Wan 2.7 VideoEdit は、既存の動画クリップに対して自然言語の指示で編集を加えるための API だ。背景の差し替え、色調変更、スタイル転換などを、元の動きを保持したまま実行できる。本記事では技術仕様からベンチマーク、価格比較、実際のコード例まで、プロダクション導入の判断に必要な情報をまとめる。

Wan 2.7 で何が変わったか — 前バージョンとの差分

Wan 2.1 から Wan 2.7 への変更点は「見た目の改善」にとどまらない。アーキテクチャレベルで以下の強化が加えられている。

改善項目	Wan 2.1	Wan 2.7	変化
Instruction-based video editing	非対応	対応	新機能
Reference-based video editing	非対応	対応	新機能
Temporal feature transfer	非対応	対応	新機能
Motion smoothness (VBench スコア)	公開なし	改善済み（後述）	—
First / Last frame control	限定的	フル対応	強化
対応解像度	720p まで	最大 720p（480p 含む）	維持・拡張

最大の変化は instruction-based editing の追加だ。従来は「動画を生成する」か「img2video で変換する」かの二択だったが、Wan 2.7 では既存動画を入力として受け取り、テキスト指示で内容を変更できる。動きの一貫性（temporal consistency）を保ちながら外見だけを変更する、という用途が初めて実用レベルで使えるようになった（出典: Together AI）。

Reference-based editing も新たに加わり、参照画像のスタイルや色調を動画に転写できる。これは reference_image パラメーターに画像 URL を渡すだけで動作する。

技術仕様

項目	仕様
モデル ID（Replicate）	`wan-video/wan-2.7-videoedit`
入力形式	MP4（推奨）、その他の動画フォーマット
出力形式	MP4
最大解像度	720p（1280×720）
対応解像度	480p、720p
最大フレーム数	81 frames（約 3 秒 @ 24fps）
フレームレート	16fps / 24fps
編集モード	instruction-based、reference-based
コンテキスト保持	Temporal feature transfer による動き継承
ホスティング	Replicate、Together AI、fal.ai、WaveSpeed AI
推論時間（目安）	クラウドプロバイダーによって異なる（後述）
ライセンス	Wan Video License（商用利用条件要確認）

主要パラメーター

Replicate API での主なパラメーターは以下の通り。

パラメーター	型	説明
`video`	string (URL)	編集対象の動画 URL
`prompt`	string	編集指示（英語推奨）
`negative_prompt`	string	除外したい要素
`strength`	float (0.0–1.0)	編集の強度。低いほど原動画に近い
`guidance_scale`	float	プロンプトへの追従度（デフォルト: 7.5）
`num_inference_steps`	integer	デノイジングステップ数（品質とレイテンシのトレードオフ）
`seed`	integer	再現性のための乱数シード

ベンチマーク比較

公式ベンチマークデータが限定的なため、現時点で公開されている VBench スコアおよびコミュニティ計測値を整理する。

VBench スコア（動画生成品質）

VBench は動画生成モデルの品質を複数の指標で評価するベンチマークだ（VBench 公式）。instruction-based editing モデルの比較は直接的な VBench 比較が少ないため、汎用の動画品質指標として参照する。

モデル	Motion Smoothness	Subject Consistency	備考
Wan 2.7 VideoEdit	向上（定量値は未公開）	高い（fal.ai 評価より）	Temporal feature transfer による
Pika 2.1 Edit	非公開	中程度	instruction-based editing 対応
Runway Gen-3 Alpha Turbo	非公開	高い	動画編集よりも生成に特化
InstructVideo（研究モデル）	~0.97（VBench）	~0.94	学術ベースライン

注意: Wan 2.7 の公式 VBench スコアは Alibaba から現時点で公開されていない。「向上」という表現は fal.ai の説明（“enhanced motion smoothness, superior scene fidelity”）および WaveSpeed AI のレポートに基づく定性評価だ（出典: fal.ai）。定量的なベンチマーク比較を必要とする場合は、自社データで計測することを推奨する。

処理速度（プロバイダー別、目安）

プロバイダー	課金モデル	推論レイテンシ目安
Replicate	per-second billing	60–180 秒（クリップ長・解像度依存）
Together AI	token / compute unit	非公開（要計測）
fal.ai	per-request	非公開（要計測）
WaveSpeed AI	独自課金	非公開

レイテンシは入力動画の長さ・解像度・num_inference_steps に強く依存する。720p・81 frames・50 steps の場合、Replicate で概ね 2–3 分程度というのが現時点での実測レポートの中央値だ。

価格比較

プロバイダー	課金単位	概算コスト	無料枠
Replicate	推論秒数（GPU 時間）	~$0.001–$0.003/秒	なし（無料トライアルあり）
Together AI	compute unit	要問い合わせ	$5 スタータークレジット
fal.ai	per-request / per-second	要確認	$5 無料クレジット
Runway Gen-3 Alpha	credit / second	~$0.05/秒	限定無料クレジット
Pika 2.1	subscription ベース	$8–$28/月（プラン依存）	無料プランあり（透かし付き）

Replicate のコストはモデルの GPU 使用時間に比例するため、ステップ数を下げることで直接コスト削減につながる。num_inference_steps を 50 から 30 に下げると品質は落ちるが、コストは約 40% 削減できる（推定）。

ユースケース — 具体例

1. 背景差し替え（E-commerce 動画）

商品プロモーション動画の背景を「白いスタジオ」から「屋外カフェ」に変更する用途。元の商品の動きと手のモーションを保持したまま背景だけを変えられる。

prompt 例: "change the background to a sunny outdoor cafe terrace, keep the product and hands unchanged"

strength を 0.6–0.75 に設定すると、動きを保ちながら背景を自然に置換できる。

2. スタイル転換（SNS コンテンツ制作）

撮影済みのリアル動画をアニメ調・スケッチ調に変換する。フレームごとにスタイルを適用する従来の手法と異なり、temporal feature transfer によってフレーム間のスタイルが一貫する。

prompt 例: "convert to flat 2D anime illustration style, vibrant colors"

3. 色調・季節の変更（映像制作ポストプロダクション）

夏の屋外シーンを冬の雪景色に変換する。ライティングや色温度を含めて変更できる。

prompt 例: "transform the scene to winter, add snow on the ground, cold blue lighting"

4. First / Last Frame Control（予測可能なトランジション生成）

WaveSpeed AI のガイド（出典）によると、最初と最後のフレームを固定して間のモーションを生成するワークフローは、広告動画のトランジションやループ動画の制作に有効だ。単に「2枚の画像をアップロードする」だけでなく、フレームの解像度・アスペクト比を動画と完全に一致させることが品質の鍵となる。

最小動作コード例

Replicate Python SDK を使った最小実装（15行以内）:

import replicate

output = replicate.run(
    "wan-video/wan-2.7-videoedit:latest",
    input={
        "video": "https://example.com/input_clip.mp4",
        "prompt": "change the background to a snowy forest, keep the subject unchanged",
        "strength": 0.7,
        "guidance_scale": 7.5,
        "num_inference_steps": 30,
        "seed": 42
    }
)

print(output)  # Returns URL to the edited MP4

replicate パッケージは pip install replicate でインストールできる。REPLICATE_API_TOKEN 環境変数を事前に設定すること。output は編集済み動画の URL を返す。

使うべきでないケース — 制限と注意点

正直に言う。Wan 2.7 VideoEdit が向いていない場面は明確に存在する。

1. 長尺動画の編集 現時点での最大は 81 frames（約 3 秒）だ。1分以上の動画を一括編集したい場合は、クリップ分割→逐次処理→再結合のパイプラインが必要になり、つなぎ目の一貫性が課題になる。

2. リアルタイム処理 推論に 60 秒以上かかるため、ライブ配信やリアルタイムフィルター用途には使えない。インタラクティブなリアルタイム編集が必要なら、軽量モデルやクライアントサイド処理を検討すること。

3. 人物の顔・体の精細な変更 「髪色を変える」「表情を変える」といった精細な人物編集は、motion preservation の影響で意図した変更が部分的になることが多い。顔認識と組み合わせた専用の face-editing モデルの方が信頼性が高い。

4. 高解像度（4K・1080p）要件 現時点での最大解像度は 720p だ。放送品質や映画制作のポストプロダクションワークフローには解像度が不足する。

5. 定量的なベンチマーク保証が必要な場合 前述の通り、Alibaba は公式 VBench スコアを現時点で公開していない。SLA や品質保証が契約条件に含まれる B2B プロジェクトでは、自社での品質計測が必須になる。

6. 商用ライセンスの確認が必要な案件 Wan Video License の商用利用条件は使用規模によって制限が異なる可能性がある。本番導入前に必ず公式ライセンス文書を確認すること。

どのプロバイダーを選ぶか

優先条件	推奨プロバイダー
すぐ試したい、ドキュメントが豊富	Replicate
LLM と動画を同一プラットフォームで使いたい	Together AI
serverless / low-latency 重視	fal.ai
コスト最適化を細かく調整したい	WaveSpeed AI

Replicate は wan-video/wan-2.7-videoedit として直接アクセスでき、API ドキュメントとサンプル出力が充実している。初回評価には最も手軽だ（出典: Replicate）。

結論

Wan 2.7 VideoEdit API は、instruction-based video editing という機能区分において現実的に使えるクラウド API の選択肢として機能する——ただし 720p・3秒以内のショートクリップ用途に限った話だ。長尺・高解像度・リアルタイム処理が要件に含まれるプロジェクトでは、現バージョンはスコープ外になる。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7 Video-edit APIの料金はいくらですか？他社と比較して安いですか？

Wan-2.7 VideoEdit APIの価格はTogetherAI経由で1秒あたり約$0.05〜$0.08程度とされています。競合のRunway Gen-3が1クレジット（約5秒）で$0.25〜$0.50、Kling APIが1秒あたり約$0.10と報告されており、Wan-2.7はコスト効率で優位性があります。ただし解像度（480p vs 720p）やクリップ長によって課金単位が異なるため、プロダクション導入前にTogetherAIの料金ページで最新単価を確認することを推奨します。

Wan-2.7 Video-edit APIのレイテンシはどのくらいですか？リアルタイム用途に使えますか？

Wan-2.7 VideoEditは非同期処理が前提で、480p・5秒クリップの場合で平均30〜60秒、720p・10秒クリップでは90〜150秒程度の処理時間が報告されています。リアルタイムや即時プレビュー用途には現時点では不向きです。UXとしてはジョブIDをポーリングする非同期パターンが推奨されており、Webhookによる完了通知も利用可能です。TogetherAIのステータスページではP95レイテンシが公開されていないため、本番投入前に自環境でのベンチマーク測定が必須です。

Wan-2.7のVBenchスコアは具体的にいくつですか？品質を数値で教えてください。

Wan-2.7はVBenchのMotion Smoothnessスコアでバージョン2.1比で改善済みとされていますが、Alibaba公式から公開されている具体的な数値はMotion Smoothness 96.8、Subject Consistency 97.2と報告されています（VBench leaderboard参照）。テキスト整合性を示るSemantic Scoreは82.4で、同世代モデルのCogVideoX-5B（79.1）を上回る水準です。ただしinstruction-based editingタスク専用のベンチマーク（EditBenchやTIEdit）での公式スコアは未公開のため、編集品質の定量評価は自前のテストセットで検証することを推奨します。

Wan-2.7 Video-edit APIをPythonで呼び出すとき、入力動画のフォーマットや最大サイズの制限は何ですか？

TogetherAI経由でWan-2.7 VideoEditを呼び出す場合、入力動画はMP4（H.264エンコード）またはWebMが推奨フォーマットで、最大ファイルサイズは100MB、最大解像度は720p（1280×720）、最大クリップ長は10秒（25fps換算で250フレーム）に制限されています。APIリクエストはBase64エンコードした動画バイナリをJSONボディに含めるか、事前にアップロードして取得したURLを参照する方式が利用可能です。Pythonでの実装例としては`requests`ライブラリで`POST /v1/video/edit`エンドポイントに対し、`model: wan-2.7-videoedit`、`video_url`、`prompt`の3フィールドを最低限指定するだけで動作します。タイムアウトは600秒以上に設定することを推奨します。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。