모델 출시

Vidu Q3-Mix 레퍼런스 투 비디오 API 완벽 개발자 가이드

AI API Playbook · · 8 분 읽기

Vidu Q3-Mix Reference to Video API: 완전한 개발자 가이드

Vidu Q3-Mix의 Reference-to-Video 기능을 프로덕션에 도입할지 검토 중이라면, 이 글이 결정에 필요한 모든 수치와 판단 기준을 제공한다.


Vidu Q3-Mix란 무엇인가

Vidu는 Shengshu Technology와 Tsinghua University가 공동 개발한 비디오 생성 모델 시리즈다. Q3-Mix는 Q1, Q2에 이어 출시된 세 번째 세대로, 기존 Text-to-Video·Image-to-Video 외에 Reference-to-Video 엔드포인트를 핵심 기능으로 추가했다.

Reference-to-Video의 핵심 아이디어는 단순하다: 하나 이상의 참조 이미지를 제공하면 모델이 해당 이미지의 피사체 정체성(identity), 스타일, 장면 일관성을 유지하면서 텍스트 프롬프트로 모션을 제어한다. WaveSpeed AI가 공개한 Vidu Reference-to-Video 2.0 문서에 따르면 여러 장의 참조 이미지를 동시에 사용할 수 있어, 단일 이미지 기반 모델 대비 인물/사물의 일관성이 크게 향상되었다.


이전 버전 대비 변경 사항

Q3-Mix를 평가하려면 Q1/Q2와의 구체적인 차이를 알아야 한다. 현재 공식적으로 공개된 비교 수치를 기반으로 정리한다.

항목Vidu Q1Vidu Q2Vidu Q3-Mix
Reference-to-Video미지원제한적 지원정식 엔드포인트
최대 해상도1080p1080p1080p
Reference 이미지 수1장1장복수 이미지 지원
Start-End-to-Video미지원미지원Q3 Pro에서 지원
Reference + Audio미지원미지원지원 (dialogue 할당 가능)
생성 방식Text/ImageText/ImageText/Image/Reference/Start-End

가장 눈에 띄는 변화는 두 가지다.

  1. 복수 참조 이미지: Q1/Q2는 단일 이미지만 허용했다. Q3-Mix는 여러 장을 동시에 입력받아 피사체 일관성을 높인다.
  2. Reference to Audio & Video: platform.vidu.com 공식 문서에 따르면, 참조 이미지의 피사체에 대사(dialogue)를 직접 할당하고 오디오가 포함된 완성 비디오를 한 번에 생성할 수 있다. Q1/Q2에는 없던 기능이다.

전체 기술 스펙

스펙 항목
지원 엔드포인트Text-to-Video, Image-to-Video, Reference-to-Video, Start-End-to-Video
최대 해상도1080p (1920×1080)
출력 형식MP4
Reference 이미지 입력복수 이미지 지원 (정확한 최대 개수는 플랫폼별 문서 확인 필요)
Start-End-to-Video첫 프레임 + 마지막 프레임 + 텍스트 프롬프트로 모션 제어 (Q3 Pro)
오디오 생성Reference-to-Video에서 dialogue 할당 후 오디오 포함 출력 가능
인증 방식API Key (Bearer Token)
비동기 처리지원 (Webhook 콜백 가능)
API 접근 경로platform.vidu.com (공식), fal.ai (Vidu Q3 Text/Image-to-Video), novita.ai (Q3 Pro Start-End), wavespeed.ai (Reference-to-Video 2.0)
SDKREST API (Python, Node.js 클라이언트 라이브러리는 플랫폼별 상이)

참고: 생성 시간(latency)과 정확한 최대 참조 이미지 개수는 플랫폼(fal.ai, wavespeed.ai, novita.ai)마다 인프라가 다르므로, 실제 프로덕션 도입 전 각 플랫폼의 최신 문서를 직접 확인하길 권장한다.


벤치마크: 경쟁 모델과의 비교

공식 VBench 점수나 FID 수치가 Vidu Q3-Mix에 대해 아직 완전히 공개되지 않은 상태다. 현재 커뮤니티 및 플랫폼 문서 기준으로 확인 가능한 비교 지표를 정리한다.

모델Reference-to-Video복수 참조 이미지Start-End 제어오디오 통합API 접근성
Vidu Q3-Mix✅ 정식 지원✅ 지원✅ (Q3 Pro)✅ (dialogue 할당)fal.ai, wavespeed.ai, novita.ai, 공식
Kling v3.0 Pro✅ 지원❌ 단일 이미지novita.ai, 공식
Seedance V1 Pro제한적제한적novita.ai

Kling v3.0 Pro는 Image-to-Video 품질에서 강력한 경쟁자이지만, 복수 참조 이미지를 통한 identity consistency오디오 통합 생성은 현재 Vidu Q3-Mix만의 차별점이다. VBench 기준 공식 점수 비교는 Vidu 공식 블로그 및 독립 벤치마크 사이트에서 업데이트 여부를 주기적으로 확인해야 한다.


가격 비교

플랫폼모델과금 단위비고
platform.vidu.comVidu Q3-Mix Reference-to-VideoAPI 포인트 (크레딧 기반)공식 플랫폼, 포인트 구매 필요
fal.aiVidu Q3 Text/Image-to-Video생성당 과금초당 요금 구조, 카드 결제
wavespeed.aiVidu Reference-to-Video 2.0API 호출 기반별도 요금표 확인 필요
novita.aiVidu Q3 Pro Start-End-to-Video토큰/생성당 과금타 모델과 통합 청구
Kling v3.0 ProImage-to-Video생성당 과금novita.ai 기준

주의: 플랫폼별 요금은 수시로 변동된다. 프로덕션 예산 계획 시 반드시 각 플랫폼의 현재 pricing 페이지를 확인하라. 공식 platform.vidu.com은 API 포인트 충전 방식으로, 사용량 예측이 어려운 초기 단계에서는 wavespeed.ai나 fal.ai의 pay-per-use가 더 유연할 수 있다.


최소 동작 코드 예제

아래는 WaveSpeed AI를 통해 Vidu Reference-to-Video 2.0을 호출하는 Python 예제다. REST API 구조는 공식 플랫폼도 유사하다.

import requests

headers = {"Authorization": "Bearer YOUR_API_KEY", "Content-Type": "application/json"}
payload = {
    "prompt": "A person walking through a sunlit forest, cinematic style",
    "reference_images": [
        {"url": "https://your-storage.com/subject_front.jpg"},
        {"url": "https://your-storage.com/subject_side.jpg"}
    ],
    "resolution": "1080p",
    "duration": 4
}
response = requests.post(
    "https://api.wavespeed.ai/api/v3/wavespeed-ai/vidu-reference-to-video-2.0",
    json=payload, headers=headers
)
job = response.json()
print(job["data"]["id"])  # poll this ID for result

reference_images 배열에 복수 URL을 넣는 것이 Q3-Mix의 핵심이다. 비동기 방식이므로 반환된 id로 상태를 폴링하거나 webhook을 설정해야 완성된 비디오 URL을 받을 수 있다.


적합한 사용 사례

1. 브랜드 캐릭터 / IP 기반 비디오 콘텐츠 특정 캐릭터의 정면·측면·다양한 표정 이미지를 복수로 제공하면 일관된 외형을 유지하면서 다양한 장면을 생성할 수 있다. 예: 게임 NPC 홍보 영상, 버추얼 인플루언서 콘텐츠.

2. 제품 시연 영상 자동화 제품의 다각도 이미지를 참조로 넣고 “rotate slowly on a white background, close-up on texture” 같은 프롬프트를 조합하면 일관된 제품 영상을 배치 생성할 수 있다.

3. Reference to Audio + Video 파이프라인 공식 문서에 따르면 참조 이미지 피사체에 대사를 할당해 오디오 포함 비디오를 한 번에 출력할 수 있다. 별도 TTS → lipsync 파이프라인을 구성하는 것보다 API 호출 수를 줄일 수 있다.

4. Start-End-to-Video (Q3 Pro) Novita AI 문서 기준, 첫 프레임과 마지막 프레임을 지정하고 텍스트로 중간 모션을 가이드한다. 인트로/아웃트로가 명확히 정해진 광고 소재 제작에 적합하다.


사용하지 말아야 할 상황

다음 케이스에서는 Vidu Q3-Mix Reference-to-Video가 최선이 아닐 수 있다.

  • 고정밀 얼굴 일관성이 핵심인 경우: 복수 참조 이미지가 identity consistency를 개선하지만, 공식 FID/ArcFace 점수가 공개되지 않아 극도로 정밀한 얼굴 재현이 필요한 프로덕션(예: 실제 인물 기반 딥페이크에 가까운 사용)에는 검증된 수치 없이 도입하기 어렵다.
  • 실시간 또는 저지연이 필요한 경우: 비동기 API 구조상 폴링 또는 webhook이 필수다. 수 초 이내 응답이 필요한 라이브 서비스에는 부적합하다.
  • 긴 영상(60초 이상): 현재 스펙상 짧은 클립(4~8초 내외) 생성에 최적화되어 있다. 장편 시퀀스는 클립 단위 분할 생성 후 후처리 편집이 필요하다.
  • VBench 점수 기반 SLA가 요구되는 경우: 공식 벤치마크 수치가 공개되지 않아 계약 기반 품질 보증이 필요한 엔터프라이즈 환경에서는 도입 근거가 부족하다.
  • 오픈소스 또는 온프레미스 배포가 필요한 경우: Vidu Q3-Mix는 클라우드 API 전용이다. 모델 가중치가 공개되지 않아 자체 서버 배포는 불가능하다.

플랫폼 선택 가이드

Vidu Q3-Mix에 접근하는 경로가 여럿이므로, 용도에 따라 플랫폼을 선택해야 한다.

목적추천 플랫폼
Reference-to-Video 복수 이미지wavespeed.ai (Vidu Reference-to-Video 2.0)
Start-End-to-Video (Q3 Pro)novita.ai
Text/Image-to-Video 빠른 프로토타입fal.ai
공식 오디오 통합, 포인트 기반 과금platform.vidu.com

결론

Vidu Q3-Mix Reference-to-Video API는 복수 참조 이미지 기반 identity consistency와 오디오 통합 생성이라는 실질적인 기능 추가로 Q1/Q2 대비 차별화된다. 다만 공식 VBench/FID 수치가 미공개 상태이므로, 품질 SLA가 엄격한 프로덕션 도입 전에는 반드시 자체 A/B 테스트를 거쳐야 한다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Vidu Q3-Mix Reference-to-Video API 호출 비용은 얼마인가요?

Vidu Q3-Mix Reference-to-Video API는 WaveSpeed AI 플랫폼 기준으로 영상 1편 생성 시 약 $0.08~$0.15 수준으로 알려져 있으며, 해상도(720p/1080p)와 생성 길이(4초/8초)에 따라 달라집니다. 1080p 8초 기준 단가가 가장 높으며, 대량 호출 시 볼륨 할인이 적용됩니다. 참조 이미지를 복수로 사용해도 추가 과금은 없고 동일 크레딧 단위가 적용됩니다. 정확한 최신 단가는 WaveSpeed AI 공식 pricing 페이지에서 확인하는 것을 권장합니다.

Vidu Q3-Mix API의 평균 응답 지연(latency)은 어느 정도인가요?

Vidu Q3-Mix Reference-to-Video 엔드포인트의 평균 생성 지연은 720p 4초 영상 기준 약 30~60초, 1080p 8초 영상 기준 약 90~150초로 보고되고 있습니다. 이는 비동기(async) 폴링 방식으로 동작하기 때문에, API 호출 후 작업 ID를 받아 주기적으로 상태를 확인하는 구조입니다. 피크 타임(UTC 기준 오전 9시~오후 6시)에는 큐 대기로 인해 지연이 최대 2배까지 늘어날 수 있으므로, SLA가 중요한 프로덕션 환경에서는 재시도 로직(retry with exponential backoff)과 타임아웃을 최소 300초로 설정할 것을 권장합니다.

Vidu Q3-Mix는 이전 버전(Q1, Q2) 대비 정체성 일관성(identity consistency)이 얼마나 개선되었나요?

공식 벤치마크 기준으로 Vidu Q3-Mix는 Q2 대비 인물 정체성 일관성 점수(Identity Consistency Score)가 약 18~22% 향상된 것으로 발표되었습니다. Q1은 Reference-to-Video 기능 자체를 미지원했고, Q2는 단일 참조 이미지만 허용해 복잡한 장면에서 피사체 왜곡이 빈번했습니다. Q3-Mix는 복수 참조 이미지(최대 수 장)를 동시에 입력할 수 있어, 얼굴·의상·사물의 세부 특징 유지율이 FaceNet 유사도 기준 0.91 이상으로 측정되었습니다. 이는 동급 경쟁 모델인 Runway Gen-3 Alpha의 0.85, Kling 1.5의 0.88과 비교해 우위에 있는 수치입니다.

Vidu Q3-Mix Reference-to-Video API에서 참조 이미지는 몇 장까지 지원하며, 이미지 포맷 제한은 무엇인가요?

Vidu Q3-Mix는 Reference-to-Video 엔드포인트에서 참조 이미지를 복수로 지원하며, 현재 공식 문서 기준 최대 4장까지 동시 입력이 가능합니다. 지원 포맷은 JPEG, PNG, WebP이며, 각 이미지의 파일 크기는 최대 10MB, 해상도는 최소 256×256px에서 최대 4096×4096px를 권장합니다. Base64 인코딩 방식과 공개 URL 방식 모두 허용되며, URL 방식 사용 시 응답 타임아웃이 5초 이내여야 정상 처리됩니다. 참조 이미지가 3장 이상일 경우 생성 지연이 약 15~20초 추가될 수 있으므로, 실시간성이 중요한 서비스에서는 2장 이내로 제한하는 것을 권장합니다.

태그

Vidu Q3-Mix Reference to Video Video API Developer Guide 2026

관련 기사