Wan-2.1 텍스트-비디오 API 완벽 개발자 가이드

AI API Playbook · 2026년 4월 4일 · 9 분 읽기

Wan-2.7 Text-to-Video API: 완전한 개발자 가이드

Wan-2.7 text-to-video API를 프로덕션에 도입할지 검토 중인 엔지니어를 위한 실무 중심 가이드다. 벤치마크 수치, API 동작 방식, 실제 제한사항까지 정리했다.

Wan 2.7이란?

Wan 2.7은 Alibaba의 Tongyi Lab이 개발한 오픈소스 비디오 생성 모델이다. 2026년 3월 출시됐으며, Apache 2.0 라이선스로 배포된다. 27B(270억) 파라미터 규모의 Mixture-of-Experts(MoE) 아키텍처를 기반으로 하며, text-to-video(T2V), image-to-video(I2V), reference-to-video 워크플로를 단일 모델에서 처리한다.

오픈소스임에도 VBench 벤치마크에서 86.22% 를 기록해 OpenAI Sora(84.28%)를 상회한다. 자체 호스팅이 가능하고, Together AI·WaveSpeed·Replicate 같은 API 플랫폼을 통해서도 호출할 수 있다.

Wan 2.1 대비 주요 변경 사항

Wan 2.7은 이전 버전인 Wan 2.1과 비교해 아래 영역에서 측정 가능한 개선이 있다.

항목	Wan 2.1	Wan 2.7	변화
모델 파라미터	14B	27B (MoE)	+93%
최대 해상도	720p	1080p	해상도 1단계 상승
최대 영상 길이	5초	15초	+200%
Reference 입력 수	없음	최대 5개 동시	신규 기능
First/Last frame 제어	없음	지원	신규 기능
3×3 grid I2V	없음	지원	신규 기능
VBench 점수	공개 수치 없음	86.22%	측정 기준 확립

가장 눈에 띄는 변화는 multi-subject reference 입력과 first/last-frame 제어다. 이전 버전은 텍스트 프롬프트만으로 구성을 제어해야 했지만, 2.7에서는 시작 프레임과 종료 프레임을 별도 이미지로 지정할 수 있어 모션 방향과 구도를 명시적으로 통제할 수 있다.

전체 기술 스펙

스펙	값
아키텍처	27B Mixture-of-Experts
라이선스	Apache 2.0
최대 해상도	1080p
영상 길이	2초 ~ 15초
입력 모달리티	Text, Image, Video reference
Reference 입력	최대 5개 동시
지원 워크플로	T2V, I2V, first/last-frame, 3×3 grid I2V, reference-to-video
출력 포맷	MP4
오디오 생성	지원 (Replicate 엔드포인트 기준)
API 제공사	wan.video, Together AI, WaveSpeed, Replicate
자체 호스팅	가능 (Apache 2.0)
출시 시점	2026년 3월

주의: 해상도와 생성 속도는 호스팅 제공사별로 다르다. 예를 들어, Replicate와 WaveSpeed는 서로 다른 GPU 인프라를 사용하기 때문에 레이턴시 편차가 있다.

경쟁 모델 벤치마크 비교

VBench는 텍스트-비디오 정합성, 모션 일관성, 화질 등 16개 차원을 평가하는 표준 벤치마크다.

모델	VBench 전체 점수	최대 해상도	오픈소스 여부	최대 영상 길이
Wan 2.7	86.22%	1080p	✅ Apache 2.0	15초
OpenAI Sora	84.28%	1080p	❌	20초
Runway Gen-3 Alpha	~83% (추정)	1080p	❌	10초
Kling 1.6	공개 수치 없음	1080p	❌	10초

Sora 대비 +1.94%p 우위는 수치만 보면 크지 않다. 하지만 오픈소스라는 점과 가격 구조를 함께 고려하면 의미가 달라진다. Sora는 ChatGPT Pro 구독 또는 엔터프라이즈 계약이 필요한 반면, Wan 2.7은 자체 호스팅이 가능하다.

한계: VBench 점수는 자동화 지표이며, 실제 프로덕션 품질은 프롬프트 복잡도와 사용 도메인에 따라 크게 달라진다. 최종 의사결정 전에 실제 유스케이스로 직접 테스트할 것을 권장한다.

가격 비교

가격은 제공사별로 청구 단위가 다르다(프레임 수, 초, 크레딧 등). 직접 비교를 위해 10초 1080p 영상 1편 기준 추정 비용으로 정리했다.

제공사	요금 체계	10초 1080p 추정 비용	비고
wan.video (공식)	API 종량제	공식 문서 확인 필요	엔터프라이즈 협의 가능
Replicate	컴퓨팅 시간 기반	$0.05 ~ $0.15 (GPU 종류에 따라 상이)	초당 과금
Together AI	토큰/요청 기반	공식 요금표 확인 필요	배치 할인 있음
WaveSpeed	요청 기반	공식 요금표 확인 필요	빠른 추론 최적화
자체 호스팅	GPU 직접 비용	H100 기준 $24/hr 인프라 비용	볼륨 큰 경우 유리
OpenAI Sora	구독제 (Pro $200/mo)	정확한 단가 불투명	API 미공개
Runway Gen-3	크레딧 기반 ($12~/mo)	초당 $0.05 ~ $0.10 수준	스탠다드 플랜 기준

실무 조언: 월 생성량이 100편 이하면 Replicate 종량제, 그 이상이면 Together AI 또는 WaveSpeed와 볼륨 협의를 권장한다. 1,000편 이상이면 자체 호스팅의 단가가 역전된다.

최소 동작 코드 예제

WaveSpeed API 기준 T2V 요청 예제다. 다른 제공사도 REST 구조는 유사하다.

import requests, time

headers = {"Authorization": f"Bearer {YOUR_API_KEY}", "Content-Type": "application/json"}
payload = {
    "model": "wavespeed-ai/wan-2.7-t2v-480p",
    "input": {
        "prompt": "A red fox running through a snowy forest, cinematic, slow motion",
        "duration": 5,
        "resolution": "480p"
    }
}
resp = requests.post("https://api.wavespeed.ai/api/v3/predictions", json=payload, headers=headers)
prediction_id = resp.json()["data"]["id"]

while True:
    result = requests.get(f"https://api.wavespeed.ai/api/v3/predictions/{prediction_id}", headers=headers).json()
    if result["data"]["status"] == "completed":
        print(result["data"]["outputs"][0])  # video URL
        break
    time.sleep(3)

비동기 폴링 패턴이 기본이다. status가 completed가 될 때까지 루프를 돌린다. 타임아웃 처리는 프로덕션 코드에서 반드시 추가해야 한다.

실제 유스케이스: 이럴 때 쓰면 된다

1. 광고·마케팅 콘텐츠 자동화 제품 이미지를 reference input으로 넣고, 텍스트 설명으로 배경과 모션을 지정한다. 5개까지 동시 reference를 쓸 수 있으므로 제품 + 모델 + 배경 세트를 한 번에 합성할 수 있다.

2. 게임/엔터테인먼트 프로토타이핑 first-frame과 last-frame을 지정해 캐릭터 등장/퇴장 씬을 명시적으로 제어한다. 스토리보드 이미지를 그대로 입력으로 사용할 수 있다.

3. 교육 콘텐츠 제작 텍스트 설명에서 15초 내 설명 영상을 자동 생성한다. 오디오 생성 기능(Replicate 엔드포인트)을 함께 쓰면 내레이션 포함 영상을 단일 파이프라인으로 생성할 수 있다.

4. 오픈소스 기반 자체 파이프라인 구축 Apache 2.0 라이선스이므로 상업적 사용이 가능하고, 모델 가중치를 직접 fine-tuning할 수 있다. 도메인 특화 비디오(의료 시뮬레이션, 산업 교육 등)에서 오픈소스 제어가 필요한 경우에 적합하다.

쓰지 말아야 할 상황

솔직하게 말하면, Wan 2.7이 모든 유스케이스에 최선은 아니다.

❌ 20초 이상의 영상이 필요한 경우 현재 최대 15초다. 장편 시퀀스가 필요하다면 여러 클립을 이어붙이는 파이프라인이 필요하며, 이음매 처리가 별도 작업이 된다. Sora는 최대 20초를 지원한다.

❌ 실시간 또는 초저지연이 요구되는 경우 비디오 생성은 근본적으로 무거운 추론이다. 5초 영상도 수십 초의 추론 시간이 필요하다. 인터랙티브 앱에서 “즉시 응답”이 필요하다면 현재 아키텍처로는 불가능하다.

❌ 정밀한 얼굴 일관성이 필요한 경우 reference-to-video 기능이 있지만, 동일 인물의 얼굴을 여러 씬에 걸쳐 일관되게 유지하는 것은 여전히 어렵다. 얼굴 중심 영상(버추얼 인플루언서, 가상 인터뷰 등)에서는 별도 face-locking 파이프라인이 필요하다.

❌ 고해상도 + 긴 영상을 낮은 비용으로 대량 생성하는 경우 1080p·15초 영상을 대량으로 생성하면 GPU 비용이 빠르게 올라간다. 이 조합으로 월 수천 편을 생성할 계획이라면 비용 시뮬레이션을 먼저 돌려봐야 한다.

프로덕션 도입 체크리스트

실제 유스케이스 프롬프트로 직접 품질 검증 (VBench 점수 ≠ 도메인별 품질)
타임아웃 및 재시도 로직 구현 (비동기 폴링 패턴 필수)
월 예상 생성량 기반 제공사별 비용 시뮬레이션
자체 호스팅 vs. 관리형 API 의사결정 (월 1,000편 기준이 통상적 임계점)
first/last-frame 제어가 필요한 씬에 대해 별도 테스트
오디오 포함 여부 확인 (제공사별로 지원 범위 다름)

결론

Wan 2.7은 VBench 86.22%로 Sora를 수치상 앞서는 오픈소스 모델이며, 27B MoE 아키텍처·5개 reference 입력·first/last-frame 제어로 이전 버전 대비 실질적인 기능 확장이 있었다. 20초 이상의 영상이 필요하거나 실시간 처리가 요구되는 경우가 아니라면, 가격 대비 성능과 라이선스 유연성 측면에서 현재 시장에서 가장 실용적인 선택지 중 하나다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Wan-2.7 API 비용은 얼마이며, 경쟁 서비스와 비교하면 어떤가요?

Wan-2.7은 Together AI, WaveSpeed, Replicate 등 여러 플랫폼을 통해 제공됩니다. Together AI 기준으로 720p 5초 영상 생성 시 약 $0.05~$0.10 수준이며, OpenAI Sora API($0.12~$0.20/영상)나 Runway Gen-3($0.05/초, 최소 5초 = $0.25)에 비해 저렴합니다. 오픈소스(Apache 2.0)이므로 자체 호스팅 시 GPU 비용만 부담하면 되며, A100 80GB 1장 기준 720p 영상 생성에 약 30~60초 소요됩니다. VBench 86.22%로 Sora(84.28%)를 상회하는 품질을 더 낮은 비용에 이용할 수 있다는 점이 프로덕션 도입의 주요 이점입니다.

Wan-2.7 API의 영상 생성 레이턴시는 얼마나 되나요? 실시간 서비스에 적합한가요?

Wan-2.7은 27B MoE 파라미터 모델로 생성 레이턴시가 상당합니다. API 플랫폼(Together AI, WaveSpeed 등) 기준으로 720p 5초 영상은 약 30~90초, 1080p 15초 영상은 최대 3~5분이 소요됩니다. 자체 호스팅 시 A100 80GB에서 720p 5초 영상 생성에 약 30~60초가 걸립니다. 이러한 레이턴시 특성상 실시간(동기) 응답이 필요한 서비스에는 적합하지 않으며, 비동기 작업 큐(job queue) 방식으로 구현하는 것이 권장됩니다. 사용자에게는 생성 진행 상태를 폴링(polling) 방식으로 전달하고, 완료 후 결과를 제공하는 UX 설계가 필수적입니다.

Wan-2.7이 OpenAI Sora보다 실제로 더 좋은 모델인가요? 벤치마크 수치를 알고 싶습니다.

공개 벤치마크 기준으로 Wan-2.7은 VBench에서 86.22%를 기록해 OpenAI Sora의 84.28%를 약 1.94%p 상회합니다. 모델 규모는 27B MoE 파라미터로, Wan 2.1(14B) 대비 93% 증가했습니다. 주요 스펙을 비교하면 최대 해상도는 Wan-2.7이 1080p(Sora는 1080p 동일), 최대 영상 길이는 15초(Sora는 최대 60초로 Sora가 우위), multi-subject reference 입력(최대 5개 동시)과 first/last frame 제어는 Wan-2.7 고유 기능입니다. 단, VBench는 전체적인 영상 품질 지표이며 특정 도메인(예: 인물 동작, 물리 시뮬레이션)에서는 실제 체감 품질이 다를 수 있으므로 프로덕션 적용 전 실제 사용 케이스로 직접 평

Wan-2.7 API에서 지원하는 최대 해상도와 영상 길이 제한은 무엇인가요?

Wan-2.7은 최대 1080p 해상도와 최대 15초 길이의 영상 생성을 지원합니다. 이전 버전인 Wan 2.1(최대 720p, 5초) 대비 해상도 1단계 상승, 영상 길이 200% 증가한 수치입니다. API 플랫폼별로 제공 스펙이 다를 수 있으며, Together AI·WaveSpeed·Replicate 각 플랫폼의 최신 문서를 확인해야 합니다. 고해상도(1080p)·장시간(15초) 영상일수록 생성 시간이 급격히 증가하므로, 프로덕션 환경에서는 사용 목적에 맞는 해상도와 길이를 선택해 비용과 레이턴시를 최적화하는 것이 중요합니다. Image-to-Video(I2V) 모드에서는 3×3 grid 입력도 지원하며, reference 이미지를 최대 5개까지 동시에 입력할 수 있습니다.