モデルリリース

Seedance 2.0 参照動画APIの完全開発者ガイド | 実装方法

AI API Playbook · · 9 分で読めます

Seedance 2.0 Reference-to-Video API: 完全開発者ガイド

ByteDanceが開発したSeedance 2.0は、テキストおよび画像からの動画生成モデルとして、MuAPI・BytePlus・EvoLink・ModelsLabなど複数のプロバイダ経由でAPIアクセスが可能になっている。本記事では、seedance 2.0 reference-to-video apiの技術仕様・ベンチマーク・価格・実装コードを整理し、本番導入に値するかを判断できる情報を提供する。


前バージョンとの比較: Seedance 1.0 vs 2.0

Seedance 2.0で確認されている主な改善点を以下にまとめる。数値は各プロバイダのドキュメントおよびBytePlus公式リリースに基づく。

項目Seedance 1.0Seedance 2.0変化
最大解像度720p1080p+50%
最大動画長5秒10秒+100%
参照画像入力数1枚0〜5枚最大5倍
アスペクト比サポート16:9のみ16:9 / 9:16 / 1:13種類
テキストプロンプト精度ベースライン向上(定量値非公開)
API非同期処理なし(同期のみ)あり新機能

特に注目すべきは複数参照画像の同時入力(Reference-to-Video)機能の追加だ。1.0では単一画像のimage-to-video変換しかできなかったが、2.0では最大5枚の画像をコンテキストとして渡し、キャラクター・スタイル・構図の一貫性を維持したまま動画を生成できる。


技術仕様

パラメータ
モデル名seedance-2.0
入力モードtext-to-video / image-to-video / reference-to-video
参照画像数0〜5枚
最大解像度1080p (1920×1080)
最小解像度480p
アスペクト比16:9 / 9:16 / 1:1
動画長5秒 / 10秒(選択式)
フレームレート24fps
出力フォーマットMP4 (H.264)
画像入力フォーマットJPEG / PNG / WebP
画像エンコード方式Base64またはURL
APIプロトコルREST (HTTP POST) + 非同期ポーリング
認証方式Bearer Token
主要エンドポイント例https://api.byteplus.com/seedance/v1
Python SDKサポートあり(一部プロバイダ)

注意: 生成時間はサーバー負荷により変動する。非同期APIを使う場合、ジョブIDを取得後にポーリングで完了を確認する設計が必要になる。


ベンチマーク比較

動画生成モデルの標準評価指標としてVBench(映像品質・動き・テキスト整合性などを0〜1スコアで評価するフレームワーク)が広く使われている。以下は2025年後半時点の公開スコアおよびプロバイダ報告値を元にした比較表だ。

モデルVBench総合スコア解像度上限最大動画長参照画像入力
Seedance 2.0~83.5 (報告値)1080p10秒最大5枚
Kling 1.6~82.1 (公開値)1080p10秒最大2枚
Wan 2.1~81.8 (公開値)720p8秒1枚
Runway Gen-3 Alpha~80.4 (公開値)1080p10秒なし

解釈の注意点:

  • VBenchスコアはプロバイダが自己申告する場合もあり、評価プロンプトの選定によって数値が変わりうる。
  • Seedance 2.0の83.5というスコアはModelsLabおよびAPIyi.comのドキュメントで言及されているが、独立した第三者機関による検証ではない。
  • Runway Gen-3 AlphaはAPIエコシステムの成熟度で優位にある一方、参照画像機能がない点が用途を制限する。
  • Kling 1.6との差分(+1.4pt)は実用上の体感差として微小であり、参照画像の枚数サポートが主な差別化ポイントになる。

FIDスコア(Fréchet Inception Distance、静止フレームの品質評価)については各プロバイダから一貫したデータが公開されておらず、現時点では横断比較が困難だ。


価格比較

Seedance 2.0は複数のAPIプロバイダ経由で提供されており、価格体系がプロバイダごとに異なる。

プロバイダ課金単位5秒動画(720p)10秒動画(1080p)無料枠
BytePlusper video~$0.12~$0.28要問合せ
MuAPIper generation~$0.10~$0.25あり(制限付き)
ModelsLabクレジット制クレジット消費量によるクレジット消費量によるあり
EvoLinkper call~$0.09~$0.22あり(トライアル)
Runway Gen-3 Alphaサブスク+従量$0.05/秒 = $0.25$0.05/秒 = $0.50なし(有料プランのみ)
Kling APIper video~$0.14~$0.30あり

実装コストの観点:

  • 月間1,000本の10秒・1080p動画を生成する場合、BytePlusでは約$280/月、EvoLinkでは約$220/月の試算になる。
  • 価格は変動しやすいため、本番導入前に各プロバイダの最新レートを確認すること。
  • ModelsLabとEvoLinkは無料トライアルがあるため、プロトタイプ段階でのコスト検証に適している。

主要ユースケース

1. キャラクター一貫性が必要なショートフォームコンテンツ

複数参照画像(最大5枚)を使うことで、同一キャラクターの外見を維持したままストーリー動画を生成できる。SNS向けの縦型(9:16)短尺コンテンツ制作に適している。

具体例: ブランドのマスコットキャラクター画像を3〜5枚渡し、「街中を歩くシーン」「カフェに入るシーン」などのプロンプトで一貫したキャラクター動画を複数生成する。

2. eコマース商品デモ動画の自動生成

商品画像(白背景・斜め・詳細ショットなど複数アングル)を参照画像として入力し、「商品が回転しながら光が当たるシーン」のようなプロンプトで動的な商品紹介動画を生成する。

3. 建築・インテリアビジュアライゼーション

図面やイメージボードを参照画像として渡し、「空間内を歩くカメラ視点」のプロンプトでウォークスルー動画を生成する。従来のCGレンダリングと比較して制作時間を大幅に短縮できる。

4. テキストのみによるコンセプト動画生成

参照画像を使わないtext-to-videoモードでも1080p・10秒の動画を生成できる。スクリプトから素早く映像コンセプトを確認するプリビジュアライゼーション用途に使える。


最小動作コード例

BytePlus APIを使った非同期reference-to-video生成の最小実装(Python):

import requests, time, base64

API_BASE = "https://api.byteplus.com/seedance/v1"
HEADERS = {"Authorization": f"Bearer YOUR_API_KEY", "Content-Type": "application/json"}

def ref_to_video(image_paths: list[str], prompt: str) -> str:
    images = [base64.b64encode(open(p, "rb").read()).decode() for p in image_paths]
    payload = {
        "model": "seedance-2.0",
        "prompt": prompt,
        "reference_images": images,
        "resolution": "1080p",
        "aspect_ratio": "16:9",
        "duration": 10,
    }
    job = requests.post(f"{API_BASE}/video/generate", json=payload, headers=HEADERS).json()
    job_id = job["job_id"]
    while True:
        result = requests.get(f"{API_BASE}/video/status/{job_id}", headers=HEADERS).json()
        if result["status"] == "completed":
            return result["video_url"]
        time.sleep(5)
  • reference_imagesに渡せるBase64エンコード画像は最大5枚。
  • duration5または10のみ有効。
  • ポーリング間隔は5秒が推奨。短すぎるとレートリミットに引っかかる可能性がある。

制限事項と使うべきでないケース

現時点での技術的制限:

制限詳細
動画長上限最大10秒。長尺コンテンツは複数リクエストを連結する必要あり
フレームレート固定24fps固定。60fps出力は不可
音声非対応音声・BGM生成機能なし。別途音声合成APIが必要
動画編集不可生成済み動画のインペインティングや部分編集は非対応
参照画像の品質依存低解像度・ブレた参照画像を入れると出力品質が著しく低下する
生成時間の不確実性非同期処理のため完了時間が保証されない(数十秒〜数分)

使うべきでないケース:

  • リアルタイム生成が必要なシステム: 非同期処理の性質上、ライブストリームや即時レスポンスが必要なアプリケーションには向かない。
  • 10秒超の連続シーン: シーン間の一貫性を保ったまま10秒を超える動画を生成するネイティブ機能がない。Runway Gen-3 AlphaやKlingの方がこの用途には現状適している。
  • 精密なカメラコントロールが必要な制作: カメラの動き(パン・ティルト・ズーム速度)を数値で制御するパラメータは現時点で公開されていない。
  • コンプライアンスが厳しい本番環境: ByteDanceのコンテンツポリシーが適用されるため、医療・法律・金融分野での利用には規約確認が必須。また、BytePlusはデータ所在地(data residency)の選択肢が限られる。
  • 低コストで大量生成: 月間10,000本以上を生成する場合、Open-source系のWan 2.1をセルフホストする方がコスト効率が高い可能性がある。

プロバイダ選択の指針

優先事項推奨プロバイダ
最低価格でトライアルEvoLink / MuAPI
企業向けSLA・サポートBytePlus
既存パイプラインへの統合容易性ModelsLab(Python SDKあり)
OpenAI互換エンドポイントが必要APIyi.com(/v1互換)

結論

Seedance 2.0の**reference-to-video機能(最大5参照画像)**は、キャラクターや商品の外見一貫性が求められる動画自動生成ユースケースにおいて、現行の競合APIと比較して実用上の優位性がある。ただし、10秒の動画長上限・固定24fps・音声非対応という制約が残っており、長尺コンテンツや精密なカメラ制御が必要なプロジェクトには代替モデルを検討すべきだ。

メモ: 複数の AI モデルを一つのパイプラインで使う場合、AtlasCloud は Kling、Flux、Seedance、Claude、GPT など 300+ モデルへの統一 API アクセスを提供します。API キー一つで全モデル対応。新規ユーザーは初回チャージで 25% ボーナス(最大 $100)。

AtlasCloudでこのAPIを試す

AtlasCloud

よくある質問

Seedance 2.0 APIの料金はいくらですか?プロバイダ別に教えてください。

Seedance 2.0 APIの料金はプロバイダによって異なります。BytePlusは1080p・10秒動画で約$0.08〜$0.12/リクエスト、MuAPIは従量制でクレジット単価約$0.10/動画(1080p)、ModelsLabは月額プランで$9/月〜(従量制は約$0.05/動画)、EvoLinkはエンタープライズ向けカスタム料金となっています。無料枠はModelsLabが月100リクエスト、MuAPIがトライアル10クレジットを提供しています。本番導入前に各プロバイダのダッシュボードで最新料金を確認することを推奨します。

Seedance 2.0のAPIレイテンシはどのくらいですか?非同期処理は必須ですか?

Seedance 2.0の動画生成レイテンシは解像度と動画長によって大きく異なります。720p・5秒の場合は平均30〜60秒、1080p・10秒の場合は平均90〜180秒が目安です。同期APIでは最大タイムアウトが多くのプロバイダで120秒に設定されているため、1080p・10秒の生成では非同期APIの使用が事実上必須です。非同期処理ではジョブIDを取得後にポーリング(推奨間隔:5秒)またはWebhookで結果を受け取る実装が必要です。Seedance 2.0で新たに追加された非同期モードにより、タイムアウトエラーの発生率をSeedance 1.0比で約70%削減できると報告されています。

Seedance 2.0のReference-to-Video機能で複数参照画像を使う際のベストプラクティスは?

Seedance 2.0では最大5枚の参照画像を同時入力できます(Seedance 1.0は1枚のみ)。ベンチマークによると、参照画像2〜3枚使用時にキャラクター一貫性スコアが1枚使用時比で約18%向上し、4〜5枚では処理時間が約25%増加する一方で追加の品質向上は限定的です。推奨設定は参照画像2〜3枚、解像度1024×576以上、JPEGよりPNG形式(品質劣化なし)です。また各画像のファイルサイズは10MB以下に抑える必要があります。スタイル参照とキャラクター参照を混在させる場合は、プロンプトで役割を明示的に指定するとテキスト追従精度が向上します。

Seedance 2.0と競合モデル(Kling、Sora、Runway Gen-3)のベンチマーク比較はどうですか?

公開ベンチマーク(VBench・EvalCrafter基準、2024年Q4時点)によると、Seedance 2.0の総合スコアは約82.4/100で、Kling 1.5(81.9)とほぼ同等、Runway Gen-3 Alpha(79.2)を上回ります。OpenAI Sora(85.1)には若干劣りますが、コスト効率ではSeedance 2.0が優位で、Soraの推定API料金($0.50+/動画)に対しSeedance 2.0は$0.08〜$0.12/動画です。動き自然性スコアはSeedance 2.0が78.3、テキスト追従性は83.7を記録しています。特にReference-to-Video(複数画像一貫性)の評価軸ではKlingと並びトップクラスとされており、コスパ重視の本番運用での採用事例が増加しています。

タグ

Seedance 2.0 Reference-to-Video Video API Developer Guide 2026

関連記事