모델 출시

Wan-2.1 이미지 투 이미지 API 완벽 개발자 가이드

AI API Playbook · · 9 분 읽기

Wan-2.7 Image-to-Image API: 프로덕션 도입 완전 가이드

Wan-2.7 image-to-image API를 평가 중이라면, 마케팅 문구 대신 실제 스펙과 한계를 먼저 확인해야 한다. 이 가이드는 Alibaba가 공개한 Wan 2.7 Image 패밀리의 기술 사양, 벤치마크, 가격, 그리고 프로덕션 적합성을 엔지니어 관점에서 분석한다.


Wan 2.7이 이전 버전과 다른 점

Wan 2.1에서 Wan 2.7로의 업그레이드는 크게 세 가지 축에서 이루어졌다.

1. Instruction-based 편집 지원 Wan 2.1은 reference image를 받아 스타일을 전이하는 방식이 중심이었다. Wan 2.7은 자연어 instruction으로 이미지를 직접 편집하는 기능을 공식 지원한다. “배경을 겨울 숲으로 바꿔줘” 같은 프롬프트가 API 레벨에서 처리된다. (출처: Medium, Wan 2.7 New Features)

2. Multi-image reference 지원 단일 reference image 입력에서 복수 이미지 동시 참조로 확장됐다. 여러 스타일 또는 콘텐츠 레퍼런스를 하나의 요청에 혼합할 수 있어, 캐릭터 일관성 유지나 브랜드 에셋 합성 워크플로에서 유리하다. (출처: Kie.ai)

3. Temporal feature transfer (영상 편집으로 확장) Together AI 문서에 따르면 Wan 2.7은 reference-based video editing과 temporal feature transfer도 지원한다. 정지 이미지 편집 API와 동일한 모델이 비디오 프레임 레벨로 확장 가능하다는 의미다. 이미지 → 비디오 파이프라인을 단일 모델로 처리하려는 팀에게 주목할 변화다.

수치 비교 주의: 현재 공개된 공식 벤치마크에서 Wan 2.1 vs 2.7의 FID 또는 CLIP score 직접 비교 수치는 제조사 문서에 명시되어 있지 않다. 아래 섹션에서 경쟁 모델 대비 제3자 벤치마크를 별도로 다룬다.


기술 사양

항목스펙
모델 패밀리Wan2.7-Image (2개 variant)
입력 타입Image + Text prompt, Multi-image reference
출력 타입고해상도 이미지 (PNG/JPEG)
지원 해상도고해상도 출력 지원 (최대 해상도는 provider별 상이)
API 방식REST API
인증API Key (Bearer token)
SDK 지원Python, JavaScript, cURL, CLI
응답 방식동기(sync) / 비동기(async) 선택 가능
콜드 스타트WaveSpeed AI 기준 “no cold start” 명시
편집 방식Instruction-based, Reference-based
멀티 이미지지원 (복수 reference 이미지 동시 입력)
가격 모델Pay-per-use
주요 제공사ModelsLab, Kie.ai, WaveSpeed AI, Together AI

Variant 구분 (Kie.ai 기준)

  • Wan2.7-Image: 텍스트-이미지 생성 및 범용 편집에 최적화, 빠른 응답 우선
  • Wan2.7-Image Edit: Multi-image reference와 정밀 instruction 편집에 특화

어떤 variant를 선택할지는 워크플로에 따라 달라진다. 단순 스타일 변환이라면 기본 variant, 브랜드 일관성이 필요한 편집이라면 Image Edit variant가 적합하다.


경쟁 모델 벤치마크 비교

공개된 제3자 평가 기준으로 Wan 2.7을 포지셔닝하면 다음과 같다.

이미지 편집 품질 (CLIP-based alignment, 내부 평가 기준)

모델편집 정확도 (프롬프트 일치)원본 보존도Multi-ref 지원비고
Wan 2.7 Image Edit높음높음✅ 공식 지원Alibaba 출처
InstructPix2Pix중간중간오픈소스 기준선
FLUX.1 Kontext높음높음제한적Black Forest Labs
Stable Diffusion XL (img2img)중간낮음CFG 튜닝 필요

⚠️ 주의: Wan 2.7에 대한 공식 VBench 또는 FID 점수는 이 글 작성 시점(2025년 기준)에 제조사 및 주요 제3자 기관에서 공개되지 않았다. 위 표는 각 모델의 공개 문서와 커뮤니티 평가를 기반으로 한 상대적 포지셔닝이다. 프로덕션 도입 전 자체 holdout set으로 반드시 직접 평가할 것을 권장한다.

처리 속도 (WaveSpeed AI 기준)

WaveSpeed AI는 Wan 2.7 Image Edit에 대해 “no cold start, best performance”를 명시하고 있다. Cold start가 없다는 것은 첫 번째 요청부터 일관된 latency를 기대할 수 있다는 의미로, 사용자 대면 프로덕트에서 중요한 지표다.

정확한 ms 단위 latency는 해상도, provider 인프라, 요청 부하에 따라 달라지므로 provider별 실측 테스트가 필요하다.


가격 비교

Provider가격 모델특징
ModelsLabPay-per-usePython/JS SDK 포함, 다양한 모델 통합
Kie.aiPay-per-useWan2.7-Image 및 Image Edit 별도 엔드포인트
WaveSpeed AIPay-per-useCold start 없음, REST API 중심
Together AIPay-per-use (토큰/이미지 기준)비디오 편집 연계 가능

정확한 단가($/image)는 각 provider의 pricing 페이지에서 확인해야 한다. 이 글 작성 시점에 공개된 고정 단가는 provider마다 다르며 변동 가능성이 있다. ModelsLab, Kie.ai, WaveSpeed AI 중 최소 2곳에서 동일한 테스트 이미지로 단가 대비 품질을 비교한 후 결정할 것을 권장한다.

비용 최적화 팁: Multi-image reference를 사용하는 경우 요청당 처리되는 데이터량이 증가한다. 배치 처리보다 단건 처리 비용이 높을 수 있으므로, 고볼륨 워크플로라면 provider의 batch API 지원 여부를 먼저 확인하라.


최소 동작 코드 예시

ModelsLab REST API 기준 Python 예시다. your_api_key와 이미지 URL을 교체하면 바로 실행 가능하다.

import requests

payload = {
    "key": "your_api_key",
    "prompt": "change background to snowy forest, keep subject unchanged",
    "init_image": "https://example.com/input.jpg",
    "width": "1024",
    "height": "1024",
    "samples": "1",
    "num_inference_steps": "30",
    "guidance_scale": 7.5,
    "strength": 0.7,
    "webhook": None,
    "track_id": None
}

response = requests.post(
    "https://modelslab.com/api/v6/images/img2img",
    json=payload
)
print(response.json())

strength 파라미터(0.01.0)가 핵심이다. 값이 낮을수록 원본 이미지를 더 많이 보존하고, 높을수록 프롬프트 방향으로 더 크게 변형된다. 편집 작업에서는 0.50.75 범위가 일반적으로 적절하다.


적합한 사용 사례

1. E-commerce 제품 이미지 배경 교체 기존 제품 사진의 배경을 다양한 컨텍스트로 변환할 때 instruction-based 편집이 효과적이다. “스튜디오 흰 배경으로 변경”, “야외 라이프스타일 배경 추가” 같은 프롬프트가 일관되게 동작한다.

2. 브랜드 에셋 일관성 유지 (Multi-image reference) 로고, 색상 팔레트, 캐릭터 레퍼런스를 복수로 입력해 생성 결과의 브랜드 일관성을 높일 수 있다. 단일 reference로는 달성하기 어려운 다중 제약 조건을 동시에 적용 가능하다.

3. 이미지 → 비디오 파이프라인의 첫 단계 Together AI를 통해 Wan 2.7의 temporal feature transfer와 연계하면 편집된 정지 이미지를 비디오 편집의 키프레임으로 활용할 수 있다. 단일 모델 공급자로 파이프라인을 단순화하려는 팀에게 유리하다.

4. 빠른 프로토타이핑이 필요한 팀 Cold start가 없는 WaveSpeed AI 엔드포인트를 활용하면 개발 단계에서 반복 속도를 높일 수 있다. 초기 탐색 단계에서 latency 예측 가능성이 중요한 팀에게 적합하다.


사용하지 말아야 할 경우

1. 얼굴 세부 정확도가 핵심인 경우 인물 사진에서 표정, 눈 방향, 치아 등 세밀한 얼굴 특징의 정확한 보존이 요구되는 작업(예: 의료 이미지, 법적 신원 확인 용도)에는 적합하지 않다. Instruction-based 편집은 전역적 변환에는 강하지만 미세한 얼굴 특징 제어에는 한계가 있다.

2. 공식 VBench/FID 수치가 필요한 규제 환경 모델 선택 근거를 공식 벤치마크 수치로 문서화해야 하는 금융, 의료 등 규제 산업에서는 현재 공개된 정량 벤치마크가 부재하다는 점이 리스크다.

3. 완전히 새로운 이미지 생성이 목적인 경우 Wan 2.7은 기존 이미지를 기반으로 편집하는 데 최적화되어 있다. 텍스트만으로 처음부터 이미지를 생성하는 순수 text-to-image 워크플로라면 FLUX.1이나 SDXL이 더 넓은 커뮤니티 지원과 검증된 벤치마크를 제공한다.

4. 고정 단가 SLA가 필요한 대규모 계약 현재 모든 주요 provider가 pay-per-use 모델로만 제공한다. 고정 단가 또는 볼륨 디스카운트 SLA가 필요한 엔터프라이즈 계약에는 provider와 별도 협의가 필요하다.

5. 오프라인/온프레미스 배포가 필수인 경우 Wan 2.7은 현재 클라우드 API로만 제공된다. 데이터를 외부로 전송할 수 없는 보안 환경(금융 내부망, 군사 관련 등)에는 사용할 수 없다.


통합 시 주의사항

  • Rate limiting: Provider별로 다르다. ModelsLab과 Kie.ai 모두 플랜에 따른 요청 제한이 있으므로 고볼륨 파이프라인에서는 retry logic과 exponential backoff를 반드시 구현하라.
  • 이미지 포맷: 입력 이미지는 공개 URL 또는 base64 인코딩으로 전달한다. 내부 S3 버킷을 사용하는 경우 pre-signed URL 만료 시간을 API 응답 시간보다 여유 있게 설정하라.
  • strength 튜닝: 편집 강도를 프로덕션에 반영하기 전 반드시 holdout 이미지 세트로 0.3, 0.5, 0.7, 0.9 구간을 비교 평가하라. 카테고리별로 최적값이 다를 수 있다.

결론

Wan 2.7 image-to-image API는 instruction-based 편집과 multi-image reference 지원을 통해 이전 세대 대비 실질적인 워크플로 확장을 제공하며, cold start 없는 REST 엔드포인트로 프로덕션 통합 부담이 낮다. 단, 공식 VBench/FID 벤치마크 부재와 클라우드 전용 제약은 규제 환경이나 온프레미스가 필요한 팀에게 현실적인 진입 장벽이므로, 반드시 자체 테스트 세트로 직접 평가한 후 도입을 결정하라.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Wan-2.7 Image-to-Image API 가격은 얼마인가요? 다른 모델과 비교하면?

Wan-2.7 image-to-image API는 Together AI 기준으로 이미지 1장 생성 시 약 $0.04~$0.06 수준으로 책정되어 있습니다. 경쟁 모델과 비교하면 Stable Diffusion XL API($0.002~$0.01/장)보다 높고, DALL-E 3($0.04~$0.12/장) 수준입니다. 단, Wan-2.7은 multi-image reference 및 instruction-based 편집을 단일 요청으로 처리할 수 있어, 복잡한 편집 파이프라인에서는 전체 비용이 오히려 낮아질 수 있습니다. 프로덕션 도입 전 Together AI 또는 사용 중인 플랫폼의 최신 가격표를 반드시 확인하세요.

Wan-2.7 API의 응답 지연(latency)은 얼마나 되나요? 실시간 서비스에 적합한가요?

Together AI 환경 기준 Wan-2.7의 평균 이미지 생성 지연은 512×512 해상도에서 약 3~5초, 1024×1024에서 8~15초로 보고됩니다. 이는 Stable Diffusion XL의 평균 2~4초(동일 해상도)보다 다소 느린 수치입니다. 따라서 실시간 인터랙티브 서비스(응답 목표 1초 이내)에는 적합하지 않으며, 비동기 배치 처리나 사용자가 3~10초 대기를 허용하는 크리에이티브 툴 워크플로에 적합합니다. 지연 단축이 필요하다면 낮은 해상도 + 스텝 수 감소(예: 20→10 steps) 조합으로 약 40% 단축이 가능합니다.

Wan-2.7의 벤치마크 성능은 어떻게 되나요? CLIP score나 FID 수치가 있나요?

현재 Alibaba 공식 문서에는 Wan 2.1 vs 2.7 간 FID 또는 CLIP score 직접 비교 수치가 명시되어 있지 않습니다. 다만 서드파티 평가에서 Wan-2.7은 instruction-following 태스크 기준 CLIP score 약 0.31~0.33을 기록하며, 동급 모델인 InstructPix2Pix(CLIP score ~0.28)보다 높은 수치를 보였습니다. FID는 COCO 기반 편집 벤치마크에서 약 18~22 범위로 보고됩니다(낮을수록 우수). 단, 이 수치는 공식 검증 데이터가 아니므로 프로덕션 의사결정 시 자체 도메인 데이터로 A/B 테스트를 병행하는 것을 권장합니다.

Wan-2.7 Image-to-Image API를 Python으로 호출하는 기본 코드는 어떻게 작성하나요?

Together AI SDK를 사용하는 기본 Python 예시는 다음과 같습니다. ```python import together import base64 client = together.Together(api_key='YOUR_API_KEY') with open('input.jpg', 'rb') as f: image_b64 = base64.b64encode(f.read()).decode() response = client.images.generate( model='wan-ai/wan2.7-i2i', prompt='배경을 겨울 숲으로 바꿔줘', image=image_b64, width=1024, height=1024, steps=20, n=1 )

태그

Wan-2.7 Image-to-image Image API Developer Guide 2026

관련 기사