Seedance 2.0 参照動画APIの完全開発者ガイド | 実装方法

AI API Playbook · 2026年4月9日 · 9 分で読めます

Seedance 2.0 Reference-to-Video API: 完全開発者ガイド

ByteDanceが開発したSeedance 2.0は、テキストおよび画像からの動画生成モデルとして、MuAPI・BytePlus・EvoLink・ModelsLabなど複数のプロバイダ経由でAPIアクセスが可能になっている。本記事では、seedance 2.0 reference-to-video apiの技術仕様・ベンチマーク・価格・実装コードを整理し、本番導入に値するかを判断できる情報を提供する。

前バージョンとの比較: Seedance 1.0 vs 2.0

Seedance 2.0で確認されている主な改善点を以下にまとめる。数値は各プロバイダのドキュメントおよびBytePlus公式リリースに基づく。

項目	Seedance 1.0	Seedance 2.0	変化
最大解像度	720p	1080p	+50%
最大動画長	5秒	10秒	+100%
参照画像入力数	1枚	0〜5枚	最大5倍
アスペクト比サポート	16:9のみ	16:9 / 9:16 / 1:1	3種類
テキストプロンプト精度	ベースライン	向上（定量値非公開）	—
API非同期処理	なし（同期のみ）	あり	新機能

特に注目すべきは複数参照画像の同時入力（Reference-to-Video）機能の追加だ。1.0では単一画像のimage-to-video変換しかできなかったが、2.0では最大5枚の画像をコンテキストとして渡し、キャラクター・スタイル・構図の一貫性を維持したまま動画を生成できる。

技術仕様

パラメータ	値
モデル名	`seedance-2.0`
入力モード	text-to-video / image-to-video / reference-to-video
参照画像数	0〜5枚
最大解像度	1080p (1920×1080)
最小解像度	480p
アスペクト比	`16:9` / `9:16` / `1:1`
動画長	5秒 / 10秒（選択式）
フレームレート	24fps
出力フォーマット	MP4 (H.264)
画像入力フォーマット	JPEG / PNG / WebP
画像エンコード方式	Base64またはURL
APIプロトコル	REST (HTTP POST) + 非同期ポーリング
認証方式	Bearer Token
主要エンドポイント例	`https://api.byteplus.com/seedance/v1`
Python SDKサポート	あり（一部プロバイダ）

注意: 生成時間はサーバー負荷により変動する。非同期APIを使う場合、ジョブIDを取得後にポーリングで完了を確認する設計が必要になる。

ベンチマーク比較

動画生成モデルの標準評価指標としてVBench（映像品質・動き・テキスト整合性などを0〜1スコアで評価するフレームワーク）が広く使われている。以下は2025年後半時点の公開スコアおよびプロバイダ報告値を元にした比較表だ。

モデル	VBench総合スコア	解像度上限	最大動画長	参照画像入力
Seedance 2.0	~83.5 (報告値)	1080p	10秒	最大5枚
Kling 1.6	~82.1 (公開値)	1080p	10秒	最大2枚
Wan 2.1	~81.8 (公開値)	720p	8秒	1枚
Runway Gen-3 Alpha	~80.4 (公開値)	1080p	10秒	なし

解釈の注意点:

VBenchスコアはプロバイダが自己申告する場合もあり、評価プロンプトの選定によって数値が変わりうる。
Seedance 2.0の83.5というスコアはModelsLabおよびAPIyi.comのドキュメントで言及されているが、独立した第三者機関による検証ではない。
Runway Gen-3 AlphaはAPIエコシステムの成熟度で優位にある一方、参照画像機能がない点が用途を制限する。
Kling 1.6との差分（+1.4pt）は実用上の体感差として微小であり、参照画像の枚数サポートが主な差別化ポイントになる。

FIDスコア（Fréchet Inception Distance、静止フレームの品質評価）については各プロバイダから一貫したデータが公開されておらず、現時点では横断比較が困難だ。

価格比較

Seedance 2.0は複数のAPIプロバイダ経由で提供されており、価格体系がプロバイダごとに異なる。

プロバイダ	課金単位	5秒動画(720p)	10秒動画(1080p)	無料枠
BytePlus	per video	~$0.12	~$0.28	要問合せ
MuAPI	per generation	~$0.10	~$0.25	あり（制限付き）
ModelsLab	クレジット制	クレジット消費量による	クレジット消費量による	あり
EvoLink	per call	~$0.09	~$0.22	あり（トライアル）
Runway Gen-3 Alpha	サブスク+従量	$0.05/秒 = $0.25	$0.05/秒 = $0.50	なし（有料プランのみ）
Kling API	per video	~$0.14	~$0.30	あり

実装コストの観点:

月間1,000本の10秒・1080p動画を生成する場合、BytePlusでは約$280/月、EvoLinkでは約$220/月の試算になる。
価格は変動しやすいため、本番導入前に各プロバイダの最新レートを確認すること。
ModelsLabとEvoLinkは無料トライアルがあるため、プロトタイプ段階でのコスト検証に適している。

主要ユースケース

1. キャラクター一貫性が必要なショートフォームコンテンツ

複数参照画像（最大5枚）を使うことで、同一キャラクターの外見を維持したままストーリー動画を生成できる。SNS向けの縦型（9:16）短尺コンテンツ制作に適している。

具体例: ブランドのマスコットキャラクター画像を3〜5枚渡し、「街中を歩くシーン」「カフェに入るシーン」などのプロンプトで一貫したキャラクター動画を複数生成する。

2. eコマース商品デモ動画の自動生成

商品画像（白背景・斜め・詳細ショットなど複数アングル）を参照画像として入力し、「商品が回転しながら光が当たるシーン」のようなプロンプトで動的な商品紹介動画を生成する。

3. 建築・インテリアビジュアライゼーション

図面やイメージボードを参照画像として渡し、「空間内を歩くカメラ視点」のプロンプトでウォークスルー動画を生成する。従来のCGレンダリングと比較して制作時間を大幅に短縮できる。

4. テキストのみによるコンセプト動画生成

参照画像を使わないtext-to-videoモードでも1080p・10秒の動画を生成できる。スクリプトから素早く映像コンセプトを確認するプリビジュアライゼーション用途に使える。

最小動作コード例

BytePlus APIを使った非同期reference-to-video生成の最小実装（Python）:

import requests, time, base64

API_BASE = "https://api.byteplus.com/seedance/v1"
HEADERS = {"Authorization": f"Bearer YOUR_API_KEY", "Content-Type": "application/json"}

def ref_to_video(image_paths: list[str], prompt: str) -> str:
    images = [base64.b64encode(open(p, "rb").read()).decode() for p in image_paths]
    payload = {
        "model": "seedance-2.0",
        "prompt": prompt,
        "reference_images": images,
        "resolution": "1080p",
        "aspect_ratio": "16:9",
        "duration": 10,
    }
    job = requests.post(f"{API_BASE}/video/generate", json=payload, headers=HEADERS).json()
    job_id = job["job_id"]
    while True:
        result = requests.get(f"{API_BASE}/video/status/{job_id}", headers=HEADERS).json()
        if result["status"] == "completed":
            return result["video_url"]
        time.sleep(5)

reference_imagesに渡せるBase64エンコード画像は最大5枚。
durationは5または10のみ有効。
ポーリング間隔は5秒が推奨。短すぎるとレートリミットに引っかかる可能性がある。

制限事項と使うべきでないケース

現時点での技術的制限:

制限	詳細
動画長上限	最大10秒。長尺コンテンツは複数リクエストを連結する必要あり
フレームレート固定	24fps固定。60fps出力は不可
音声非対応	音声・BGM生成機能なし。別途音声合成APIが必要
動画編集不可	生成済み動画のインペインティングや部分編集は非対応
参照画像の品質依存	低解像度・ブレた参照画像を入れると出力品質が著しく低下する
生成時間の不確実性	非同期処理のため完了時間が保証されない（数十秒〜数分）

使うべきでないケース:

リアルタイム生成が必要なシステム: 非同期処理の性質上、ライブストリームや即時レスポンスが必要なアプリケーションには向かない。
10秒超の連続シーン: シーン間の一貫性を保ったまま10秒を超える動画を生成するネイティブ機能がない。Runway Gen-3 AlphaやKlingの方がこの用途には現状適している。
精密なカメラコントロールが必要な制作: カメラの動き（パン・ティルト・ズーム速度）を数値で制御するパラメータは現時点で公開されていない。
コンプライアンスが厳しい本番環境: ByteDanceのコンテンツポリシーが適用されるため、医療・法律・金融分野での利用には規約確認が必須。また、BytePlusはデータ所在地（data residency）の選択肢が限られる。
低コストで大量生成: 月間10,000本以上を生成する場合、Open-source系のWan 2.1をセルフホストする方がコスト効率が高い可能性がある。

プロバイダ選択の指針

優先事項	推奨プロバイダ
最低価格でトライアル	EvoLink / MuAPI
企業向けSLA・サポート	BytePlus
既存パイプラインへの統合容易性	ModelsLab（Python SDKあり）
OpenAI互換エンドポイントが必要	APIyi.com（`/v1`互換）

結論

Seedance 2.0の**reference-to-video機能（最大5参照画像）**は、キャラクターや商品の外見一貫性が求められる動画自動生成ユースケースにおいて、現行の競合APIと比較して実用上の優位性がある。ただし、10秒の動画長上限・固定24fps・音声非対応という制約が残っており、長尺コンテンツや精密なカメラ制御が必要なプロジェクトには代替モデルを検討すべきだ。

メモ： 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス（最大 $100）。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Seedance 2.0 APIの料金はいくらですか？プロバイダ別に教えてください。

Seedance 2.0 APIの料金はプロバイダによって異なります。BytePlusは1080p・10秒動画で約$0.08〜$0.12/リクエスト、MuAPIは従量制でクレジット単価約$0.10/動画（1080p）、ModelsLabは月額プランで$9/月〜（従量制は約$0.05/動画）、EvoLinkはエンタープライズ向けカスタム料金となっています。無料枠はModelsLabが月100リクエスト、MuAPIがトライアル10クレジットを提供しています。本番導入前に各プロバイダのダッシュボードで最新料金を確認することを推奨します。

Seedance 2.0のAPIレイテンシはどのくらいですか？非同期処理は必須ですか？

Seedance 2.0の動画生成レイテンシは解像度と動画長によって大きく異なります。720p・5秒の場合は平均30〜60秒、1080p・10秒の場合は平均90〜180秒が目安です。同期APIでは最大タイムアウトが多くのプロバイダで120秒に設定されているため、1080p・10秒の生成では非同期APIの使用が事実上必須です。非同期処理ではジョブIDを取得後にポーリング（推奨間隔：5秒）またはWebhookで結果を受け取る実装が必要です。Seedance 2.0で新たに追加された非同期モードにより、タイムアウトエラーの発生率をSeedance 1.0比で約70%削減できると報告されています。

Seedance 2.0のReference-to-Video機能で複数参照画像を使う際のベストプラクティスは？

Seedance 2.0では最大5枚の参照画像を同時入力できます（Seedance 1.0は1枚のみ）。ベンチマークによると、参照画像2〜3枚使用時にキャラクター一貫性スコアが1枚使用時比で約18%向上し、4〜5枚では処理時間が約25%増加する一方で追加の品質向上は限定的です。推奨設定は参照画像2〜3枚、解像度1024×576以上、JPEGよりPNG形式（品質劣化なし）です。また各画像のファイルサイズは10MB以下に抑える必要があります。スタイル参照とキャラクター参照を混在させる場合は、プロンプトで役割を明示的に指定するとテキスト追従精度が向上します。

Seedance 2.0と競合モデル（Kling、Sora、Runway Gen-3）のベンチマーク比較はどうですか？

公開ベンチマーク（VBench・EvalCrafter基準、2024年Q4時点）によると、Seedance 2.0の総合スコアは約82.4/100で、Kling 1.5（81.9）とほぼ同等、Runway Gen-3 Alpha（79.2）を上回ります。OpenAI Sora（85.1）には若干劣りますが、コスト効率ではSeedance 2.0が優位で、Soraの推定API料金（$0.50+/動画）に対しSeedance 2.0は$0.08〜$0.12/動画です。動き自然性スコアはSeedance 2.0が78.3、テキスト追従性は83.7を記録しています。特にReference-to-Video（複数画像一貫性）の評価軸ではKlingと並びトップクラスとされており、コスパ重視の本番運用での採用事例が増加しています。

Gemini Omni Flash 画像から動画API完全開発者ガイド

Gemini Omni Flash の画像から動画生成APIを徹底解説。開発者向けにAPIキー取得からコード実装、活用事例まで分かりやすく紹介します。今すぐ開発を始めましょう。

2026年5月25日

モデルリリース

Gemini Omni Flash テキスト動画API完全開発者ガイド

Gemini Omni Flash テキスト to ビデオ Developer APIの使い方を徹底解説。セットアップから実装例、応用技術まで開発者向けに詳しく紹介します。