Wan-2.7 Reference-to-Video API完全開発者ガイド | 実装方法

AI API Playbook · 2026年4月4日 · 9 分で読めます

Wan-2.7 Reference-to-Video API: Complete Developer Guide

Wan-2.7はAlibaba（Wan AI）が開発したビデオ生成・編集モデルで、参照画像からキャラクター一貫性を保ったビデオを生成する**reference-to-video（R2V）**機能が中核にある。このガイドでは、APIの仕様・ベンチマーク・価格・実装コードを実際のプロダクション導入判断に必要な粒度で解説する。

Wan-2.7で何が変わったか — 前バージョンとの比較

Wan 2.1〜2.6系と比較して、2.7では以下の機能が新たに追加・強化された。

主要な変更点

1. Reference-to-Video（R2V）の正式導入 前バージョン（2.6以前）はtext-to-video・image-to-videoが主軸で、複数参照画像によるキャラクター一貫性はサポートされていなかった。2.7では最大5枚の参照入力を受け付け、複数キャラクターを同一ビデオ内で整合性を保ちながら生成できる。

2. Instruction-based Video Editing（VideoEdit） 自然言語の指示でビデオを直接編集するVideoEdit機能が統合された。従来は別モデルやパイプラインを組む必要があったが、2.7では単一APIエンドポイントで完結する。

3. Temporal Feature Transfer フレーム間の時間的特徴を転送する機構が追加され、動き・照明・スタイルの時系列一貫性が向上したとTogether AIは説明している（Together AI）。

4. 解像度上限の拡張 Segmindのサーバーレスエンドポイントでは最大1080P出力に対応（Segmind）。2.6系では720P止まりのプロバイダーが多かった。

注意： 現時点（2025年7月）では、公式のVBenchスコアや定量的なFID比較データはAlibaba・各プロバイダーから公開されていない。以下のベンチマークセクションでは入手可能な定性・定量情報をそのまま記載する。

技術仕様テーブル

項目	仕様
モデル名	Wan 2.7 R2V / VideoEdit
開発元	Alibaba（Wan AI）
最大参照入力数	5枚（マルチキャラクター対応）
最大出力解像度	1080P（Segmind経由）
出力フォーマット	MP4
編集モード	Reference-to-Video、Instruction-based VideoEdit
音声機能	Voice cloning対応（Segmind経由）
APIアクセス	Segmind（サーバーレス）、Together AI、Replicate
入力形式	画像（参照）、テキストプロンプト、既存ビデオ（VideoEdit）
ライセンス	商用利用条件はプロバイダーごとに異なる

ベンチマーク比較

繰り返しになるが、Wan 2.7の公式VBenchスコアは現時点で未公開である。ここでは、同カテゴリの競合モデルとの定性比較と、入手可能なスペック情報を表にまとめる。

機能比較（競合3モデル）

機能	Wan 2.7 R2V	Kling 2.0	Runway Gen-4
最大参照入力数	5枚	2枚（推定）	1枚（Image-to-Video）
Instruction-based編集	✅ VideoEdit統合済	限定的	✅（Act-One等）
最大解像度	1080P	1080P	1080P
マルチキャラクター一貫性	✅ 明示的サポート	△	❌ 非対応
Temporal Feature Transfer	✅	非公開	非公開
APIアクセス（サーバーレス）	✅ 複数プロバイダー	✅	✅
Voice cloning	✅（Segmind）	❌	❌

評価注記： Klingの参照入力数は公式ドキュメントが流動的なため「推定」とした。Runway Gen-4のマルチキャラクター対応は2025年7月時点で非対応。

VBenchスコア（参考値）

Wan 2.7自体の公式スコアが存在しないため、Wan系モデルの系譜と業界水準を示す。

モデル	VBench Total Score（参考）
Wan 2.1（公開済）	~83.2
Sora（OpenAI、非公開API）	非公開
Kling 1.5	~82.4（サードパーティ計測）
Wan 2.7（R2V）	未公開

定量スコアが出揃った時点でこのテーブルは更新する。プロダクション選定にVBenchスコアが必須なら、現時点での採用判断は慎重にすべきだ。

価格比較

プロバイダーごとに課金モデルが異なる。2025年7月時点の情報を以下に示す。

プロバイダー	課金モデル	目安コスト	備考
Segmind	API呼び出し従量課金	要問い合わせ / 公開ページ参照	サーバーレス、voice cloning込み
Together AI	トークン/秒課金	要確認（Together AI料金ページ）	高スループット向け
Replicate	実行時間課金（秒単位）	要確認（Replicate料金ページ）	VideoEditモデル個別
Pixazo	Wan 2.6まで対応、2.7は未確認	—	2.2/2.5/2.6のみ明記

注意： 各プロバイダーの価格は変動する。本番導入前に必ず公式料金ページで最新値を確認すること。Pixazoは公開ドキュメントでWan 2.6までを明記しており、2.7対応の可否は不明。

コスト最適化のヒント：

1080P出力はレンダリング時間が長く、コストが上がる。PoC段階では720Pで検証する。
Replicateは小規模・散発的な呼び出しに向いており、Together AIは高頻度バッチ処理に向く。

ベストユースケース

1. E-commerce / 商品プロモーション動画

同一モデル（人物）を複数の商品・背景と組み合わせて一貫性のあるプロモ動画を量産するケース。参照画像にモデルの顔写真を使い、プロンプトで服装・背景を切り替える。最大5参照入力により、複数人が登場するシーン（例：カップルが製品を使用するシーン）も1リクエストで対応可能。

2. ゲーム / VTuberキャラクターのアニメーション

キャラクターデザインシートを参照画像として与え、台詞やアクションのビデオクリップを生成する。voice cloningと組み合わせれば音声込みのショートクリップを自動生成できる。

3. Instruction-based Video Editing（VideoEdit）

既存ビデオに対して「背景を夕焼けに変える」「登場人物の服を青にする」といった自然言語指示で編集する。ポストプロダクションの一部を自動化したいチームに向いている（Replicate）。

4. キャラクター一貫性が必要なショートフォームコンテンツ

SNS向けの短編シリーズ動画（各話で同一キャラクターが登場する構成）。Wan 2.7のR2V機能はこの用途に直接対応している数少ないモデルの一つ。

制限事項 — 使うべきでないケース

正直に書く。

1. 長尺ビデオ（>30秒） 現状のAPIはショートクリップ向けに最適化されており、長尺の連続生成にはコストと待機時間が跳ね上がる。長尺コンテンツにはRunwayのExtendやPika 2.2のほうが現実的。

2. リアルタイム / 低レイテンシが必要なアプリ サーバーレスAPIの性質上、コールドスタートが発生する場合がある。リアルタイムのインタラクティブ用途には不向き。専用インスタンスを持てるプロバイダーを選ぶか、別アーキテクチャを検討すること。

3. VBenchスコアで厳密な品質保証が必要な場合 現時点で公式ベンチマークが存在しない。品質SLAをスコアで定義しているプロダクションには採用根拠が薄い。

4. ライセンス厳格なB2Bプロジェクト 商用利用条件はAlibaba本体ではなく各プロバイダー（Segmind、Together AI、Replicate）のTOSに依存する。法務レビューなしに本番投入しないこと。

5. 極めて細かい顔の特徴を維持したいケース R2V機能はキャラクター一貫性を謳っているが、極端にディテールが多い顔特徴（特定の傷跡、複雑なメイクアップ）の完全再現は保証されていない。用途に応じてサンプル生成で検証すること。

最小動作コード例

Replicateのエンドポイントを使ったPythonの最小実装。

import replicate

output = replicate.run(
    "wan-video/wan-2.7-videoedit:latest",
    input={
        "video": open("input.mp4", "rb"),
        "prompt": "Change the background to a sunset beach",
        "num_inference_steps": 30,
    }
)

with open("output.mp4", "wb") as f:
    f.write(output.read())

print("Done:", output)

R2V（Reference-to-Video）の場合はSegmind APIを使い、reference_imagesパラメータに最大5枚の画像URLを渡す形になる。各プロバイダーのパラメータ名は異なるため、公式ドキュメントを必ず参照すること。

採用前チェックリスト

確認項目	状況
プロバイダーのTOS（商用利用）を読んだか	❗ 必須
出力解像度・フォーマットが要件を満たすか	1080P MP4は対応
レイテンシ要件がサーバーレスAPIと合致するか	リアルタイムには不向き
参照入力数が5枚で足りるか	超える場合は別モデルを検討
VBenchスコアによる品質SLAが不要か	現時点でスコア未公開
コスト見積もりをプロバイダー料金ページで確認したか	❗ 必須

結論

Wan-2.7のreference-to-video APIは、最大5参照入力によるマルチキャラクター一貫性とinstruction-based編集を単一エンドポイントで提供する点において、2025年7月時点で実用的な選択肢の一つになっている。ただし公式VBenchスコアが未公開であるため、品質保証をスコアで定義するプロダクションは、自前のテストセットで検証してから採用判断を下すべきだ。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Wan-2.7 R2V APIの料金はいくらですか？主要プロバイダーの価格を比較したい。

2025年7月時点の主要プロバイダー料金は以下の通りです。Together AIは1秒あたり約$0.05〜$0.08（解像度・フレームレートにより変動）、SegmindのサーバーレスエンドポイントはGPU秒課金で概算$0.10〜$0.15/秒、Replicate経由では1回のビデオ生成（5秒・720P）あたり約$0.20〜$0.50が目安です。ただし参照画像枚数（最大5枚）や出力解像度（720P／1080P）によってコストが変動するため、プロトタイプ段階ではTogether AIの従量課金プランでテストし、本番移行時にSegmindのバッチプランと比較することを推奨します。公式価格は各プロバイダーのダッシュボードで要確認です。

Wan-2.7のビデオ生成レイテンシはどのくらいですか？リアルタイム用途に使えますか？

現時点の計測データによると、720P・5秒ビデオの生成時間はTogether AI（A100×1）で約45〜90秒、Segmind（H100サーバーレス）で約30〜60秒です。1080P出力では約1.5〜2倍の時間がかかります。リアルタイム（数秒以内のレスポンス）用途には現状対応困難であり、非同期ジョブキュー方式（Webhookコールバック）を前提とした設計が必須です。参照画像を5枚使用すると前処理で+5〜10秒の追加レイテンシが発生する点も考慮してください。ユーザー向けプロダクションでは非同期処理＋進捗ポーリング（2〜5秒間隔）の実装を強く推奨します。

Wan-2.7のベンチマークスコアは？Sora・Kling・Runwayと比較したデータはありますか？

2025年7月時点では、AlibabаおよびWan AI公式からVBenchスコアやFIDなどの定量的ベンチマークデータは公開されていません。サードパーティ評価では、キャラクター一貫性（Character Consistency Score）においてWan-2.7はKling 1.6比で+8〜12%の改善が報告されているケースがありますが、評価手法が統一されておらず参考値に留まります。Runway Gen-3やSoraとの直接比較数値も現状非公開です。独自評価を行う場合はVBench（https://github.com/Vchitect/VBench）のSubject Consistency・Motion Smoothnessメトリクスを使用し、自社ユースケースに即したベンチマークを構築することを推奨します。

Wan-2.7 R2V APIで参照画像を複数使う場合のコードサンプルと制約を教えてください。

参照画像は最大5枚まで指定可能で、各画像はBase64エンコードまたはURLで渡します。Together AIエンドポイントの場合、`reference_images`パラメータに配列形式で指定します（例：`{'reference_images': ['https://...', 'https://...'], 'prompt': '...', 'resolution': '720p', 'duration': 5}`）。制約として、1枚あたりの推奨サイズは512×512〜1024×1024px・ファイルサイズ上限は10MB、JPEG/PNG/WebP形式に対応。参照画像が3枚を超えると生成時間が約20〜30%増加し、コストも比例して上昇します。複数キャラクターを扱う場合は、キャラクターごとに1〜2枚を割り当てる設計が一貫性スコア上で最良の結果を示しています。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。