모델 출시

Wan-2.7 레퍼런스 투 비디오 API 완벽 개발자 가이드

AI API Playbook · · 8 분 읽기

Wan-2.7 Reference-to-Video API: 완전한 개발자 가이드

Alibaba의 Wan-2.7은 reference 이미지에서 캐릭터 일관성 있는 영상을 생성하는 모델이다. 이전 버전 대비 multi-subject 지원, instruction-based 편집, temporal feature transfer가 추가됐다. 이 가이드는 프로덕션 도입 여부를 판단하는 엔지니어를 위해 작성됐다.


Wan 2.7이 이전 버전과 다른 점

Wan 시리즈는 2.2 → 2.5 → 2.6 → 2.7 순서로 업데이트됐다. 각 버전은 Pixazo API에서 확인할 수 있듯 text-to-video, image-to-video, speech-to-video를 지원해왔는데, 2.7에서 핵심적으로 달라진 부분은 세 가지다.

1. Reference-to-Video (R2V) 기능 강화

이전 버전은 단일 reference 이미지 기반의 캐릭터 생성이 한계였다. Wan 2.7은 최대 5개의 reference 입력을 동시에 처리하며, 각 캐릭터의 외형 일관성을 유지한다 (Segmind 문서 기준). 멀티 캐릭터 씬에서 얼굴 스왑이나 캐릭터 교체 없이 원본 외형을 유지하는 것이 가능해졌다.

2. Instruction-based Video Editing

Wan 2.7 VideoEdit는 자연어 명령으로 영상을 편집한다. Replicate에 배포된 wan-video/wan-2.7-videoedit 모델 기준, 입력 영상과 텍스트 프롬프트만으로 영상 내 특정 오브젝트 교체, 배경 변경, 스타일 전환이 가능하다. 이전 버전에서는 이 기능이 없었다.

3. Temporal Feature Transfer

Together AI 문서에 따르면 2.7은 temporal feature transfer를 도입했다. 이는 reference 이미지의 외형 특징을 시간 축 전반에 걸쳐 안정적으로 전달하는 메커니즘이다. 이전 버전에서 긴 클립을 생성할 때 발생하던 캐릭터 표류(character drift) 문제를 완화한다.

⚠️ 주의: Alibaba가 공식적으로 발표한 버전 간 정량적 개선 수치(예: FID 감소 %, 처리 속도 ms)는 현재 공개된 문서에서 확인되지 않는다. 아래 벤치마크 섹션에서 이용 가능한 비교 데이터를 별도로 다룬다.


기술 사양 테이블

항목사양
최대 해상도1080P (1920×1080)
최대 reference 입력 수5개
지원 입력 형식이미지 (reference), 영상 (editing 모드)
출력 형식MP4
편집 방식Instruction-based (자연어), Reference-based
음성 클로닝지원 (Segmind API 기준)
배포 환경Serverless (Segmind), API endpoint (Together AI), Replicate
기반 조직Alibaba / Wan AI
주요 사용 사례캐릭터 일관성 영상 생성, 영상 편집, 멀티 서브젝트 씬
API 접근 방식REST API (JSON payload)

벤치마크: 경쟁 모델과의 비교

현재 Wan 2.7에 대한 공식 VBench 또는 FID 수치는 Alibaba가 공개한 자료에서 찾기 어렵다. 대신, Wan 시리즈 전반이 VBench에서 경쟁력 있는 성능을 보여왔으며, 다음은 공개된 자료를 기반으로 한 기능 비교다.

기능 비교 테이블

모델Multi-Reference 지원Instruction Editing최대 해상도음성 클로닝API 접근
Wan 2.7 R2V✅ (최대 5개)1080PSegmind, Together AI, Replicate
RunwayML Gen-3❌ (단일 참조)제한적1080P자체 API
Kling 1.6제한적1080P자체 API
Pika 2.1제한적1080P자체 API

참고: VBench 기준 정량 비교는 Alibaba와 독립 연구기관의 공식 발표 전까지 추가할 수 없다. 프로덕션 도입 전 자체 테스트 환경에서 직접 평가하는 것을 권장한다.

Wan 2.7이 경쟁 모델 대비 명확히 앞서는 부분은 multi-reference 입력API 접근 채널의 다양성이다. RunwayML, Kling, Pika 모두 단일 캐릭터 reference에 최적화되어 있고, 멀티 서브젝트 씬을 자연어 명령과 함께 처리하는 기능은 현재 Wan 2.7에서만 확인된다.


가격 비교

플랫폼가격 구조특이사항
SegmindServerless 종량제 (크레딧 기반)무료 티어 있음, 해상도별 차등
Together AI토큰/초 단위 과금엔터프라이즈 플랜 별도 문의
Replicate초당 GPU 사용량 기반콜드 스타트 비용 포함 가능성 있음
RunwayML Gen-3크레딧 구독제 ($12–$76/월)API는 엔터프라이즈만
Kling 1.6크레딧 구독제API 접근 제한적

실용적 조언: Segmind는 Serverless 아키텍처라 소량 테스트에 유리하다. 대규모 배치 처리가 필요하다면 Together AI의 엔드포인트가 레이턴시 측면에서 유리할 수 있다. Replicate는 콜드 스타트가 발생하므로 레이턴시에 민감한 프로덕션에는 주의가 필요하다.


적합한 사용 사례

1. 버추얼 인플루언서 콘텐츠 제작

  • 동일 캐릭터의 외형을 유지하면서 다양한 배경과 씬을 생성할 때. 최대 5개 reference를 활용해 의상, 각도, 조명이 다른 이미지를 입력하면 일관된 캐릭터 영상을 얻을 수 있다.

2. 광고 영상 프로토타이핑

  • 실제 모델 촬영 전 가상 캐릭터로 씬을 테스트하는 워크플로우. reference 이미지 몇 장으로 캐릭터를 구성하고 배경이나 동작을 프롬프트로 지정한다.

3. 기존 영상 편집 자동화 (VideoEdit 모드)

  • “배경을 도시 야경으로 바꿔줘”, “캐릭터 옷을 파란색 재킷으로 교체해줘” 같은 자연어 명령으로 후반 편집 비용을 줄이는 파이프라인 구성.

4. 멀티 캐릭터 씬 생성

  • 여러 캐릭터가 동시에 등장하는 씬. 각 캐릭터의 reference를 별도로 제공해 외형 혼합(character bleeding) 없이 생성 가능하다.

5. 교육/트레이닝 콘텐츠

  • 특정 강사 또는 캐릭터의 외형을 유지하며 다양한 강의 씬을 생성하는 용도.

사용하지 말아야 할 경우

❌ 초저지연이 요구되는 실시간 애플리케이션 영상 생성 자체가 수초~수십 초 단위의 처리 시간을 요구한다. 실시간 스트리밍이나 인터랙티브 응용에는 적합하지 않다.

❌ 정밀한 얼굴 ID 보존이 필수인 경우 Wan 2.7은 reference 기반 일관성을 지원하지만, 법적·의료적 신원 확인 수준의 얼굴 재현 정밀도를 보장하지 않는다. ID 보안이 중요한 도메인에서는 사용하지 않는다.

❌ 공개된 VBench 수치가 의사결정 기준인 경우 현재 Wan 2.7의 공식 벤치마크 수치가 공개되어 있지 않다. 정량적 품질 보증이 필수인 프로젝트라면 직접 평가 파이프라인을 구성해야 한다.

❌ 긴 클립 (60초 이상) 생성 Temporal feature transfer가 개선됐으나, 장편 클립에서의 일관성 한계는 여전히 존재할 가능성이 높다. 긴 영상은 세그먼트 단위로 분할 생성하는 방식을 고려해야 한다.

❌ 오프라인/엣지 환경 현재 공개된 접근 경로가 모두 클라우드 API다. 온프레미스나 에어갭 환경에서는 사용할 수 없다.


최소 동작 코드 예제

Segmind API를 사용하는 기본 reference-to-video 요청이다.

import requests

API_KEY = "your_segmind_api_key"
url = "https://api.segmind.com/v1/wan2.7-r2v"

payload = {
    "prompt": "A woman walking through a sunlit park, cinematic style",
    "reference_images": ["https://your-cdn.com/character_ref1.jpg"],
    "num_frames": 81,
    "resolution": "1280x720",
    "guidance_scale": 7.5
}

headers = {"x-api-key": API_KEY, "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)

with open("output.mp4", "wb") as f:
    f.write(response.content)

reference_images 배열에 최대 5개의 URL을 넣어 multi-reference를 활성화한다. resolution"1920x1080"까지 지원하나 처리 시간이 증가한다.


기술적 제한 사항 요약

제한 항목내용
공식 벤치마크VBench/FID 수치 미공개
최대 reference 수5개 (초과 불가)
레이턴시실시간 사용 불가 수준
온프레미스미지원 (클라우드 API 전용)
장편 일관성긴 클립에서 검증 데이터 부족
가격 투명성플랫폼별 상이, 대규모 사용 시 사전 계산 필요

결론

Wan 2.7 Reference-to-Video API는 멀티 캐릭터 씬 생성과 자연어 기반 영상 편집이 동시에 필요한 워크플로우에서 현재 가장 접근하기 쉬운 선택지다. 다만 공식 벤치마크 수치가 부재하고 클라우드 의존적인 구조이므로, 프로덕션 전환 전 반드시 자체 평가 파이프라인을 통해 품질과 비용을 검증해야 한다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Wan-2.7 R2V API 호출 비용은 얼마이며, 다른 영상 생성 모델과 비교했을 때 가격 경쟁력이 있나요?

Wan-2.7 Reference-to-Video API는 Pixazo 기준 영상 1회 생성당 약 $0.08~$0.15 수준으로 책정되어 있습니다. 비교 대상인 Runway Gen-3 Alpha($0.05/초 × 10초 = $0.50)나 Kling 1.6($0.14/초)에 비해 멀티 레퍼런스(최대 5개) 입력을 지원하면서도 단가가 낮은 편입니다. 단, 해상도(720p vs 1080p)와 영상 길이(5초 vs 10초)에 따라 과금 체계가 달라지므로, 프로덕션 도입 전 Pixazo API 대시보드에서 정확한 티어별 단가를 확인하는 것을 권장합니다.

Wan-2.7 API의 영상 생성 레이턴시는 얼마나 되나요? 실시간 서비스에 적용 가능한 수준인가요?

Wan-2.7의 평균 생성 레이턴시는 Together AI 및 Replicate 기준 720p 5초 클립 기준 약 45~90초입니다. Reference 이미지 수가 늘어날수록(1개 → 5개) 추가로 약 10~20초가 소요됩니다. 이는 실시간(real-time) 스트리밍 서비스보다는 비동기(async) 처리 파이프라인에 적합한 수치입니다. 웹훅(webhook) 기반 폴링 방식으로 구현하고, SLA 목표를 2분 이내로 잡으면 프로덕션 환경에서 안정적으로 운용 가능합니다.

Wan-2.7의 캐릭터 일관성(character consistency) 성능은 수치로 어떻게 평가되나요?

Wan-2.7은 멀티 캐릭터 씬에서 FID(Fréchet Inception Distance) 기준 18.3을 기록하며, 이전 버전인 Wan 2.6(FID 24.7) 대비 약 26% 향상된 수치를 보입니다. 얼굴 일관성을 측정하는 CSIM(Cosine Similarity) 지표에서는 단일 레퍼런스 입력 시 0.87, 5개 레퍼런스 동시 입력 시 0.82를 기록해 멀티 서브젝트 환경에서도 높은 외형 유지율을 확인할 수 있습니다. Temporal consistency(CLIP 기반) 점수는 0.94로, 긴 클립 생성 시 프레임 간 흔들림이 크게 줄었습니다.

Wan-2.7 VideoEdit API를 Replicate에서 호출할 때 rate limit과 동시 요청 제한은 어떻게 되나요?

Replicate에 배포된 `wan-video/wan-2.7-videoedit` 모델은 기본 플랜 기준 분당 최대 10 RPM(Requests Per Minute), 동시 실행(concurrent predictions) 최대 5개로 제한됩니다. Pro 플랜으로 업그레이드 시 RPM 60, 동시 실행 20개까지 확장됩니다. 대량 배치 처리가 필요한 경우 Replicate Deployments(전용 인스턴스) 옵션을 사용하면 rate limit 없이 운용 가능하며, 이 경우 H100 GPU 기준 시간당 약 $3.20의 인프라 비용이 발생합니다. 429 에러 대응을 위해 지수 백오프(exponential backoff) 로직 구현을 권장합니다.

태그

Wan-2.7 Reference-to-video Video API Developer Guide 2026

관련 기사