Wan-2.7 이미지-비디오 API 완벽 개발자 가이드

AI API Playbook · 2026년 4월 4일 · 10 분 읽기

Wan-2.7 Image-to-Video API: 프로덕션 도입 완전 가이드

Wan-2.7 image-to-video API를 평가 중인 엔지니어를 위한 기술 중심 레퍼런스. 마케팅 문구 없이 스펙, 벤치마크, 실제 제약사항만 다룬다.

Wan 2.7이란 무엇인가

Wan 2.7은 Alibaba가 개발한 비디오 생성 모델 시리즈의 최신 버전으로, image-to-video, text-to-video, 그리고 instruction-based video editing을 단일 API에서 제공한다. Together AI에서 호스팅하며, Kie.ai, WaveSpeed AI, Pixazo 등 서드파티 API 프로바이더를 통해서도 접근할 수 있다.

이전 버전(Wan 2.5, 2.6)과의 가장 큰 차별점은 reference-based video editing과 temporal feature transfer 기능이다. 단순히 이미지를 영상으로 변환하는 것을 넘어, 기존 영상의 움직임 패턴을 다른 콘텐츠에 전이하거나, 텍스트 인스트럭션으로 영상을 편집하는 파이프라인을 구성할 수 있다.

2.5 / 2.6 대비 주요 변경사항

정확한 내부 벤치마크 수치를 Alibaba가 공개하지 않은 항목도 있지만, 확인된 스펙 변화는 다음과 같다.

기능	Wan 2.5 / 2.6	Wan 2.7
First & Last Frame Control	미지원 (2.5), 부분 지원 (2.6)	완전 지원
9-Grid Multi-Input (3×3)	미지원	신규 추가
Instruction-based Editing	미지원	신규 추가
Reference-based Editing	미지원	신규 추가
Temporal Feature Transfer	미지원	신규 추가
최대 출력 해상도	720p	1080p
지원 종횡비	16:9 고정	16:9, 9:16, 1:1

First & Last Frame Control은 단순히 “두 이미지 업로드”가 아니다. WaveSpeed AI의 기술 문서에 따르면, 두 프레임 사이의 모션 경로를 모델이 자율적으로 보간하되, 입력 이미지의 의미론적 컨텍스트(semantic context)를 유지한다. 프레임 일관성을 위해 입력 이미지의 해상도, 종횡비, 색온도를 일치시키지 않으면 아티팩트가 발생한다는 점은 주의해야 한다.

9-Grid Image-to-Video는 3×3 형태로 최대 9개의 이미지를 동시에 입력해 연속적인 멀티샷 영상을 생성하는 기능이다. 커머스 카탈로그나 제품 쇼케이스처럼 다수의 에셋을 일괄 처리해야 하는 워크플로에서 유효하다.

풀 스펙 테이블

항목	스펙
최대 출력 해상도	1080p (1920×1080)
지원 종횡비	16:9, 9:16, 1:1
최대 영상 길이	5초 (기본), 일부 프로바이더 10초 지원
프레임 레이트	24fps
입력 포맷	JPEG, PNG, WebP (image-to-video)
출력 포맷	MP4 (H.264)
최대 입력 이미지 수	9개 (9-Grid 모드)
First Frame Control	지원
Last Frame Control	지원
텍스트 프롬프트	지원 (영어 권장)
Instruction Editing	지원 (Wan 2.7 Edit 변형)
API 방식	REST, 비동기 (job queue)
지원 프로바이더	Together AI, Kie.ai, WaveSpeed AI, Pixazo

비동기 처리 방식이라는 점은 아키텍처 설계에서 중요하다. 요청 즉시 결과를 반환하지 않고 job_id를 돌려준 뒤, 폴링 또는 웹훅으로 완료 여부를 확인해야 한다. 실시간 응답이 필요한 인터랙티브 UI에 직접 연결하면 UX 문제가 생긴다.

벤치마크: 경쟁 모델과의 비교

비디오 생성 모델의 표준 평가 지표인 VBench 점수 기준으로 주요 경쟁 모델과 비교한다. 단, Wan 2.7의 공식 VBench 수치는 아직 Alibaba가 전면 공개하지 않았으며, 아래 수치 중 일부는 커뮤니티 측정값이다. 의사결정 기준으로 활용하되, 자체 검증을 병행할 것을 권장한다.

모델	VBench 종합	Motion Quality	Subject Consistency	최대 해상도
Wan 2.7	~83.2 (커뮤니티 측정)	높음	높음	1080p
Wan 2.1 (기준점)	80.6 (공식)	중간	중간	720p
Runway Gen-3 Alpha	84.1 (공식)	높음	매우 높음	1080p
Kling 1.6	83.8 (커뮤니티)	높음	높음	1080p

해석:

Runway Gen-3 Alpha가 subject consistency에서 여전히 우위이나, Wan 2.7은 오픈 API 접근성과 가격 측면에서 차별화된다.
Kling 1.6과는 VBench 기준 유사한 수준이며, 멀티 이미지 입력 기능은 Wan 2.7이 독보적이다.
Wan 2.1 대비 motion quality 향상이 두드러지며, 이는 temporal feature transfer 아키텍처 변경에서 비롯된 것으로 추정된다.

FID(Fréchet Inception Distance) 기준 이미지 품질 수치는 Wan 2.7 image 변형 기준 Kie.ai 문서에서 “Alibaba visual generation 베이스라인 대비 향상”으로만 기술되어 있어, 정량 수치를 이 가이드에서 제시하기 어렵다. 이미지 퀄리티가 핵심 판단 기준이라면 직접 A/B 테스트를 권장한다.

가격 비교

프로바이더별로 과금 모델이 다르다. 아래 표는 작성 시점 기준이며, 가격은 변동될 수 있다.

프로바이더	과금 단위	대략 단가	무료 티어	비고
Together AI	초당 (per second)	~$0.10–0.14/sec	없음	엔터프라이즈 볼륨 할인 있음
Kie.ai	크레딧 기반	플랜별 상이	제한적 제공	Wan 2.7 Image 별도 API
WaveSpeed AI	API 호출 기반	문의 필요	데모 제공	First/Last frame 특화
Pixazo	크레딧 기반	다중 버전 지원	있음	Wan 2.2–2.6 주력, 2.7 준비 중
Runway Gen-3	크레딧 기반	~$0.05/sec (Standard)	제한적	고품질 but 폐쇄적 에코시스템

비용 최적화 팁:

5초 영상 기준 Together AI에서 약 $0.50–0.70이 발생한다. 고볼륨 배치 처리를 계획한다면 엔터프라이즈 계약이 필수다.
9-Grid 모드는 단일 API 호출로 9개 이미지를 처리하므로, 개별 호출 대비 비용 효율이 높다.

최소 작동 코드 예시

Together AI 엔드포인트를 기준으로 한 image-to-video 요청이다. First Frame + 텍스트 프롬프트 조합 사용.

import requests, time, base64

API_KEY = "your_together_api_key"
IMAGE_PATH = "input_frame.jpg"

with open(IMAGE_PATH, "rb") as f:
    img_b64 = base64.b64encode(f.read()).decode()

payload = {
    "model": "wan-ai/wan2.7-i2v-720p",
    "prompt": "A person walks through a sunlit forest, camera slowly panning right",
    "first_frame_image": f"data:image/jpeg;base64,{img_b64}",
    "duration": 5,
    "fps": 24
}

resp = requests.post(
    "https://api.together.xyz/v1/video/generation",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json=payload
)
job_id = resp.json()["id"]

while True:
    status = requests.get(f"https://api.together.xyz/v1/video/generation/{job_id}",
                          headers={"Authorization": f"Bearer {API_KEY}"}).json()
    if status["status"] == "completed":
        print(status["output"]["url"]); break
    time.sleep(5)

주의: 모델 slug(wan-ai/wan2.7-i2v-720p)와 엔드포인트 경로는 Together AI가 정식 출시 시 변경될 수 있다. 프로덕션 배포 전 Together AI 공식 문서에서 최신 모델 ID를 확인할 것.

적합한 사용 사례

1. 커머스 제품 영상 자동화 단일 제품 이미지를 3–5초 영상으로 변환하는 파이프라인. 9-Grid 모드를 활용하면 카탈로그 전체를 배치 처리할 수 있다. 정적 이미지 대비 클릭률 향상이 일반적으로 보고되는 영역이다.

2. 스토리보드 → 애니매틱 변환 First/Last Frame Control을 활용해 특정 장면의 시작과 끝 포즈를 고정하고, 중간 모션을 자동 생성한다. 프리프로덕션 단계에서 비용을 줄이는 용도로 검증된 워크플로다.

3. SNS 숏폼 콘텐츠 제작 자동화 9:16 종횡비 지원으로 TikTok, Instagram Reels 포맷에 직접 맞는 출력을 생성할 수 있다. 텍스트 오버레이 등 후처리는 별도로 필요하다.

4. Instruction-based Video Editing 파이프라인 기존 영상을 업로드하고 자연어 인스트럭션으로 콘텐츠를 수정하는 워크플로. “배경을 야간 도시로 바꿔줘”와 같은 인스트럭션이 동작한다. 단, 복잡한 객체 교체보다는 스타일/배경 수정에서 결과가 안정적이다.

사용하면 안 되는 경우

이 섹션이 실제로 중요하다. 아래 케이스에서는 다른 솔루션을 검토할 것.

실시간 응답이 필요한 경우 비동기 job queue 구조상 최소 20–60초의 생성 시간이 소요된다. 사용자 인터랙션에 직접 연결되는 UI라면 Runway의 스트리밍 API나 별도의 프리렌더 캐싱 전략이 필요하다.

정밀한 얼굴 일관성이 핵심인 경우 인물 기반 콘텐츠에서 다수 프레임에 걸친 얼굴 동일성 유지는 Wan 2.7의 공식 강점이 아니다. subject consistency 지표에서 Runway Gen-3가 앞서며, 얼굴 왜곡 아티팩트가 보고된다.

10초 이상의 롱폼 클립이 필요한 경우 기본 최대 길이가 5초다. 일부 프로바이더에서 10초를 지원하지만, 후반부 프레임에서 모션 일관성이 떨어지는 경향이 있다. 롱폼 콘텐츠는 클립을 이어붙이는 파이프라인을 설계하거나, Kling처럼 긴 길이에 최적화된 모델을 사용하는 것이 낫다.

오프라인 또는 온프레미스 배포가 필요한 경우 현재 Wan 2.7은 클라우드 API 전용이다. 모델 웨이트의 자체 호스팅이 필요하다면 Wan 2.1 오픈소스 버전을 검토해야 한다.

엄격한 콘텐츠 심의 환경 의료, 법률, 금융 관련 영상에서 생성 결과의 정확성을 보장할 수 없다. 정보 전달 목적의 영상보다는 마케팅 및 엔터테인먼트 용도에 국한할 것을 권장한다.

프로덕션 도입 체크리스트

비동기 job polling 또는 webhook 수신 로직 구현
입력 이미지 전처리: 해상도 통일, 종횡비 고정, 색온도 일관성 확보
First/Last Frame 사용 시 두 입력 이미지의 해상도 및 종횡비 일치 검증
API 오류 코드 핸들링 (타임아웃, 콘텐츠 필터 거부 등)
생성된 영상의 자동 품질 검증 파이프라인 (예: VMAF 스코어링)
프로바이더 장애 시 폴백 로직 (Kie.ai ↔ Together AI 전환)

결론

Wan-2.7 image-to-video API는 first/last frame control, 9-Grid 멀티 입력, instruction-based editing이라는 세 가지 기능을 단일 API에서 제공하며, 커머스 자동화와 프리프로덕션 워크플로에서 실용적인 선택지다. 단, 실시간 응답, 얼굴 일관성, 롱폼 클립이 핵심 요구사항이라면 Runway Gen-3 또는 Kling을 먼저 검토하고 Wan 2.7은 보조 옵션으로 두는 것이 현실적인 아키텍처 판단이다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Wan-2.7 Image-to-Video API 가격은 얼마인가요?

Wan-2.7 API는 Together AI 기준으로 호스팅되며, 서드파티 프로바이더(Kie.ai, WaveSpeed AI, Pixazo)마다 요금 체계가 다릅니다. 공식 Together AI 플랫폼에서는 영상 생성 요청당 과금 방식을 채택하고 있으며, 출력 해상도(최대 1080p)와 영상 길이에 따라 비용이 달라집니다. 정확한 최신 단가는 각 프로바이더 공식 문서를 확인하는 것을 권장합니다. 참고로 Wan 2.5/2.6 대비 2.7은 1080p 출력 및 신규 기능(9-Grid Multi-Input, Instruction-based Editing 등) 지원으로 인해 요청당 처리 비용이 높아질 수 있습니다.

Wan-2.7 API 영상 생성 레이턴시(latency)는 어느 정도인가요?

Wan-2.7의 생성 레이턴시는 요청 해상도와 프로바이더 서버 부하에 따라 크게 달라집니다. 720p 기준 평균 응답 시간은 약 15~30초 수준이며, 신규 추가된 1080p 출력 모드에서는 30~60초 이상 소요될 수 있습니다. Instruction-based Editing이나 Temporal Feature Transfer와 같은 고복잡도 파이프라인은 단순 Image-to-Video 변환 대비 레이턴시가 약 1.5~2배 증가하는 경향이 있습니다. 프로덕션 환경에서는 비동기 처리(async polling) 방식으로 구현하는 것을 권장하며, 타임아웃은 최소 120초 이상으로 설정해야 안정적인 운영이 가능합니다.

Wan-2.7이 Wan-2.5/2.6보다 실제로 얼마나 성능이 향상되었나요?

Alibaba는 내부 벤치마크 수치 일부를 공개하지 않았으나, 확인된 스펙 변화는 명확합니다. 최대 출력 해상도가 720p에서 1080p로 향상되었고, Wan 2.5에서 미지원이었던 First & Last Frame Control이 2.7에서 완전 지원으로 전환되었습니다. 또한 9-Grid Multi-Input(3×3), Instruction-based Editing, Reference-based Editing, Temporal Feature Transfer 등 4가지 기능이 신규 추가되었습니다. 커뮤니티 평가에서는 모션 일관성과 텍스처 보존 품질이 2.6 대비 체감상 향상되었다는 리포트가 있으나, 공식 FVD(Fréchet Video Distance) 또는 CLIP 점수 등의 정량적 벤치마크는 현재 공개된

Wan-2.7 API를 프로덕션에 도입할 때 주의해야 할 기술적 제약사항은 무엇인가요?

프로덕션 도입 시 반드시 고려해야 할 제약사항은 다음과 같습니다. 첫째, 출력 해상도는 최대 1080p이며, 이 이상의 해상도는 지원되지 않습니다. 둘째, 9-Grid Multi-Input 기능은 정확히 3×3 형식의 입력을 요구하므로 입력 이미지 전처리 파이프라인 설계가 필요합니다. 셋째, Instruction-based Editing과 Reference-based Editing은 단순 I2V 대비 API 호출 구조가 다르므로 엔드포인트와 파라미터 스키마를 별도로 구현해야 합니다. 넷째, Together AI 외 서드파티 프로바이더(Kie.ai, WaveSpeed AI, Pixazo)는 기능 지원 범위와 SLA가 상이할 수 있으므로, 사용하려는 특정 기능이 해당 프로바이더에서 지원되는지 사전 확인이 필수입