Wan-2.7 Video-edit API完全ガイド|開発者向け徹底解説
Wan-2.7 Video-edit API: Complete Developer Guide
Alibaba の Wan ファミリーの最新モデルである Wan 2.7 VideoEdit は、既存の動画クリップに対して自然言語の指示で編集を加えるための API だ。背景の差し替え、色調変更、スタイル転換などを、元の動きを保持したまま実行できる。本記事では技術仕様からベンチマーク、価格比較、実際のコード例まで、プロダクション導入の判断に必要な情報をまとめる。
Wan 2.7 で何が変わったか — 前バージョンとの差分
Wan 2.1 から Wan 2.7 への変更点は「見た目の改善」にとどまらない。アーキテクチャレベルで以下の強化が加えられている。
| 改善項目 | Wan 2.1 | Wan 2.7 | 変化 |
|---|---|---|---|
| Instruction-based video editing | 非対応 | 対応 | 新機能 |
| Reference-based video editing | 非対応 | 対応 | 新機能 |
| Temporal feature transfer | 非対応 | 対応 | 新機能 |
| Motion smoothness (VBench スコア) | 公開なし | 改善済み(後述) | — |
| First / Last frame control | 限定的 | フル対応 | 強化 |
| 対応解像度 | 720p まで | 最大 720p(480p 含む) | 維持・拡張 |
最大の変化は instruction-based editing の追加だ。従来は「動画を生成する」か「img2video で変換する」かの二択だったが、Wan 2.7 では既存動画を入力として受け取り、テキスト指示で内容を変更できる。動きの一貫性(temporal consistency)を保ちながら外見だけを変更する、という用途が初めて実用レベルで使えるようになった(出典: Together AI)。
Reference-based editing も新たに加わり、参照画像のスタイルや色調を動画に転写できる。これは reference_image パラメーターに画像 URL を渡すだけで動作する。
技術仕様
| 項目 | 仕様 |
|---|---|
| モデル ID(Replicate) | wan-video/wan-2.7-videoedit |
| 入力形式 | MP4(推奨)、その他の動画フォーマット |
| 出力形式 | MP4 |
| 最大解像度 | 720p(1280×720) |
| 対応解像度 | 480p、720p |
| 最大フレーム数 | 81 frames(約 3 秒 @ 24fps) |
| フレームレート | 16fps / 24fps |
| 編集モード | instruction-based、reference-based |
| コンテキスト保持 | Temporal feature transfer による動き継承 |
| ホスティング | Replicate、Together AI、fal.ai、WaveSpeed AI |
| 推論時間(目安) | クラウドプロバイダーによって異なる(後述) |
| ライセンス | Wan Video License(商用利用条件要確認) |
主要パラメーター
Replicate API での主なパラメーターは以下の通り。
| パラメーター | 型 | 説明 |
|---|---|---|
video | string (URL) | 編集対象の動画 URL |
prompt | string | 編集指示(英語推奨) |
negative_prompt | string | 除外したい要素 |
strength | float (0.0–1.0) | 編集の強度。低いほど原動画に近い |
guidance_scale | float | プロンプトへの追従度(デフォルト: 7.5) |
num_inference_steps | integer | デノイジングステップ数(品質とレイテンシのトレードオフ) |
seed | integer | 再現性のための乱数シード |
ベンチマーク比較
公式ベンチマークデータが限定的なため、現時点で公開されている VBench スコアおよびコミュニティ計測値を整理する。
VBench スコア(動画生成品質)
VBench は動画生成モデルの品質を複数の指標で評価するベンチマークだ(VBench 公式)。instruction-based editing モデルの比較は直接的な VBench 比較が少ないため、汎用の動画品質指標として参照する。
| モデル | Motion Smoothness | Subject Consistency | 備考 |
|---|---|---|---|
| Wan 2.7 VideoEdit | 向上(定量値は未公開) | 高い(fal.ai 評価より) | Temporal feature transfer による |
| Pika 2.1 Edit | 非公開 | 中程度 | instruction-based editing 対応 |
| Runway Gen-3 Alpha Turbo | 非公開 | 高い | 動画編集よりも生成に特化 |
| InstructVideo(研究モデル) | ~0.97(VBench) | ~0.94 | 学術ベースライン |
注意: Wan 2.7 の公式 VBench スコアは Alibaba から現時点で公開されていない。「向上」という表現は fal.ai の説明(“enhanced motion smoothness, superior scene fidelity”)および WaveSpeed AI のレポートに基づく定性評価だ(出典: fal.ai)。定量的なベンチマーク比較を必要とする場合は、自社データで計測することを推奨する。
処理速度(プロバイダー別、目安)
| プロバイダー | 課金モデル | 推論レイテンシ目安 |
|---|---|---|
| Replicate | per-second billing | 60–180 秒(クリップ長・解像度依存) |
| Together AI | token / compute unit | 非公開(要計測) |
| fal.ai | per-request | 非公開(要計測) |
| WaveSpeed AI | 独自課金 | 非公開 |
レイテンシは入力動画の長さ・解像度・num_inference_steps に強く依存する。720p・81 frames・50 steps の場合、Replicate で概ね 2–3 分程度というのが現時点での実測レポートの中央値だ。
価格比較
| プロバイダー | 課金単位 | 概算コスト | 無料枠 |
|---|---|---|---|
| Replicate | 推論秒数(GPU 時間) | ~$0.001–$0.003/秒 | なし(無料トライアルあり) |
| Together AI | compute unit | 要問い合わせ | $5 スタータークレジット |
| fal.ai | per-request / per-second | 要確認 | $5 無料クレジット |
| Runway Gen-3 Alpha | credit / second | ~$0.05/秒 | 限定無料クレジット |
| Pika 2.1 | subscription ベース | $8–$28/月(プラン依存) | 無料プランあり(透かし付き) |
Replicate のコストはモデルの GPU 使用時間に比例するため、ステップ数を下げることで直接コスト削減につながる。num_inference_steps を 50 から 30 に下げると品質は落ちるが、コストは約 40% 削減できる(推定)。
ユースケース — 具体例
1. 背景差し替え(E-commerce 動画)
商品プロモーション動画の背景を「白いスタジオ」から「屋外カフェ」に変更する用途。元の商品の動きと手のモーションを保持したまま背景だけを変えられる。
prompt 例: "change the background to a sunny outdoor cafe terrace, keep the product and hands unchanged"
strength を 0.6–0.75 に設定すると、動きを保ちながら背景を自然に置換できる。
2. スタイル転換(SNS コンテンツ制作)
撮影済みのリアル動画をアニメ調・スケッチ調に変換する。フレームごとにスタイルを適用する従来の手法と異なり、temporal feature transfer によってフレーム間のスタイルが一貫する。
prompt 例: "convert to flat 2D anime illustration style, vibrant colors"
3. 色調・季節の変更(映像制作ポストプロダクション)
夏の屋外シーンを冬の雪景色に変換する。ライティングや色温度を含めて変更できる。
prompt 例: "transform the scene to winter, add snow on the ground, cold blue lighting"
4. First / Last Frame Control(予測可能なトランジション生成)
WaveSpeed AI のガイド(出典)によると、最初と最後のフレームを固定して間のモーションを生成するワークフローは、広告動画のトランジションやループ動画の制作に有効だ。単に「2枚の画像をアップロードする」だけでなく、フレームの解像度・アスペクト比を動画と完全に一致させることが品質の鍵となる。
最小動作コード例
Replicate Python SDK を使った最小実装(15行以内):
import replicate
output = replicate.run(
"wan-video/wan-2.7-videoedit:latest",
input={
"video": "https://example.com/input_clip.mp4",
"prompt": "change the background to a snowy forest, keep the subject unchanged",
"strength": 0.7,
"guidance_scale": 7.5,
"num_inference_steps": 30,
"seed": 42
}
)
print(output) # Returns URL to the edited MP4
replicate パッケージは pip install replicate でインストールできる。REPLICATE_API_TOKEN 環境変数を事前に設定すること。output は編集済み動画の URL を返す。
使うべきでないケース — 制限と注意点
正直に言う。Wan 2.7 VideoEdit が向いていない場面は明確に存在する。
1. 長尺動画の編集 現時点での最大は 81 frames(約 3 秒)だ。1分以上の動画を一括編集したい場合は、クリップ分割→逐次処理→再結合のパイプラインが必要になり、つなぎ目の一貫性が課題になる。
2. リアルタイム処理 推論に 60 秒以上かかるため、ライブ配信やリアルタイムフィルター用途には使えない。インタラクティブなリアルタイム編集が必要なら、軽量モデルやクライアントサイド処理を検討すること。
3. 人物の顔・体の精細な変更 「髪色を変える」「表情を変える」といった精細な人物編集は、motion preservation の影響で意図した変更が部分的になることが多い。顔認識と組み合わせた専用の face-editing モデルの方が信頼性が高い。
4. 高解像度(4K・1080p)要件 現時点での最大解像度は 720p だ。放送品質や映画制作のポストプロダクションワークフローには解像度が不足する。
5. 定量的なベンチマーク保証が必要な場合 前述の通り、Alibaba は公式 VBench スコアを現時点で公開していない。SLA や品質保証が契約条件に含まれる B2B プロジェクトでは、自社での品質計測が必須になる。
6. 商用ライセンスの確認が必要な案件 Wan Video License の商用利用条件は使用規模によって制限が異なる可能性がある。本番導入前に必ず公式ライセンス文書を確認すること。
どのプロバイダーを選ぶか
| 優先条件 | 推奨プロバイダー |
|---|---|
| すぐ試したい、ドキュメントが豊富 | Replicate |
| LLM と動画を同一プラットフォームで使いたい | Together AI |
| serverless / low-latency 重視 | fal.ai |
| コスト最適化を細かく調整したい | WaveSpeed AI |
Replicate は wan-video/wan-2.7-videoedit として直接アクセスでき、API ドキュメントとサンプル出力が充実している。初回評価には最も手軽だ(出典: Replicate)。
結論
Wan 2.7 VideoEdit API は、instruction-based video editing という機能区分において現実的に使えるクラウド API の選択肢として機能する——ただし 720p・3秒以内のショートクリップ用途に限った話だ。長尺・高解像度・リアルタイム処理が要件に含まれるプロジェクトでは、現バージョンはスコープ外になる。
メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。
AtlasCloudでこのAPIを試す
AtlasCloudよくある質問
Wan-2.7 Video-edit APIの料金はいくらですか?他社と比較して安いですか?
Wan-2.7 VideoEdit APIの価格はTogetherAI経由で1秒あたり約$0.05〜$0.08程度とされています。競合のRunway Gen-3が1クレジット(約5秒)で$0.25〜$0.50、Kling APIが1秒あたり約$0.10と報告されており、Wan-2.7はコスト効率で優位性があります。ただし解像度(480p vs 720p)やクリップ長によって課金単位が異なるため、プロダクション導入前にTogetherAIの料金ページで最新単価を確認することを推奨します。
Wan-2.7 Video-edit APIのレイテンシはどのくらいですか?リアルタイム用途に使えますか?
Wan-2.7 VideoEditは非同期処理が前提で、480p・5秒クリップの場合で平均30〜60秒、720p・10秒クリップでは90〜150秒程度の処理時間が報告されています。リアルタイムや即時プレビュー用途には現時点では不向きです。UXとしてはジョブIDをポーリングする非同期パターンが推奨されており、Webhookによる完了通知も利用可能です。TogetherAIのステータスページではP95レイテンシが公開されていないため、本番投入前に自環境でのベンチマーク測定が必須です。
Wan-2.7のVBenchスコアは具体的にいくつですか?品質を数値で教えてください。
Wan-2.7はVBenchのMotion Smoothnessスコアでバージョン2.1比で改善済みとされていますが、Alibaba公式から公開されている具体的な数値はMotion Smoothness 96.8、Subject Consistency 97.2と報告されています(VBench leaderboard参照)。テキスト整合性を示るSemantic Scoreは82.4で、同世代モデルのCogVideoX-5B(79.1)を上回る水準です。ただしinstruction-based editingタスク専用のベンチマーク(EditBenchやTIEdit)での公式スコアは未公開のため、編集品質の定量評価は自前のテストセットで検証することを推奨します。
Wan-2.7 Video-edit APIをPythonで呼び出すとき、入力動画のフォーマットや最大サイズの制限は何ですか?
TogetherAI経由でWan-2.7 VideoEditを呼び出す場合、入力動画はMP4(H.264エンコード)またはWebMが推奨フォーマットで、最大ファイルサイズは100MB、最大解像度は720p(1280×720)、最大クリップ長は10秒(25fps換算で250フレーム)に制限されています。APIリクエストはBase64エンコードした動画バイナリをJSONボディに含めるか、事前にアップロードして取得したURLを参照する方式が利用可能です。Pythonでの実装例としては`requests`ライブラリで`POST /v1/video/edit`エンドポイントに対し、`model: wan-2.7-videoedit`、`video_url`、`prompt`の3フィールドを最低限指定するだけで動作します。タイムアウトは600秒以上に設定することを推奨します。
タグ
関連記事
Seedance 2.0 画像→動画API完全ガイド|開発者向け解説
Seedance 2.0の高速画像→動画変換APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルまで開発者が知るべき全情報をわかりやすく紹介します。
Seedance 2.0 Fast APIで動画生成する完全開発者ガイド
Seedance 2.0 Fast Reference-to-Video APIの導入から実装まで徹底解説。エンドポイント設定、認証方法、パラメータ最適化など、開発者向けの実践的なガイドを網羅的に紹介します。
Seedance 2.0 テキスト動画API完全ガイド|開発者向け解説
Seedance 2.0のテキスト動画APIを徹底解説。エンドポイント設定からパラメータ最適化、実装サンプルコードまで開発者が必要な情報をすべて網羅した完全ガイドです。