Vidu Q3 레퍼런스 투 비디오 API 완벽 개발자 가이드

AI API Playbook · 2026년 4월 2일 · 10 분 읽기

Vidu Q3 Reference to Video API: 완전한 개발자 가이드

Vidu Q3의 Reference to Video 기능은 하나 이상의 참조 이미지를 기반으로 일관된 캐릭터와 스타일을 유지하면서 영상을 생성하는 API다. 단순한 text-to-video가 아니라, 특정 비주얼 아이덴티티를 영상에 고정해야 하는 프로덕션 파이프라인에서 실질적인 차별점을 제공한다. 이 가이드는 API 구조, 기술 스펙, 경쟁 모델 대비 성능, 그리고 실제 사용 판단 기준을 다룬다.

Vidu Q3가 이전 버전과 다른 점

Vidu Q1 대비 Q3에서 명시적으로 개선된 영역은 다음과 같다.

항목	Vidu Q1	Vidu Q3	변화
최대 해상도	720p	1080p	+50% 픽셀 증가
지원 해상도 티어	720p 단일	540p / 720p / 1080p	3단계 선택 가능
애니메이션 스타일 지원	제한적	공식 지원 (anime-style generation)	신규
배경 음악 생성	미지원	지원 (Audio & Video Direct Generation)	신규
Reference to Video	기본 이미지 입력	다중 참조 이미지 + 캐릭터 일관성 유지	개선
추론 속도 (Turbo 티어)	—	Q3 Turbo 별도 엔드포인트 제공	신규

Q3의 핵심 추가 기능은 Reference to Video다. 하나 이상의 reference_image_urls를 입력하면 모델이 해당 이미지의 외형, 스타일, 캐릭터 특성을 영상 전체에 걸쳐 유지한다. Q1에서는 이미지 한 장을 스타트 프레임으로만 사용했지만, Q3는 다중 참조를 컨텍스트로 활용한다.

Q3 Turbo 버전은 Novita AI 문서 기준으로 별도 엔드포인트(vidu-q3-turbo)로 제공되며, 표준 Q3 대비 생성 시간을 단축하는 대신 일부 품질 트레이드오프가 있다. 정확한 지연 시간(ms) 수치는 플랫폼별로 다르므로 아래 플랫폼 섹션을 참고할 것.

기술 스펙 전체 테이블

스펙 항목	상세
모델명	Vidu Q3 (Reference to Video)
입력 방식	Text prompt + 참조 이미지 URL 1개 이상
출력 해상도	540p, 720p, 1080p
출력 길이	4초 / 8초 (플랫폼별 옵션 상이)
출력 포맷	MP4
오디오 지원	Audio & Video Direct Generation 모드에서 배경 음악 포함 가능
애니메이션 스타일	지원 (anime-style prompt 처리)
API 방식	비동기 (POST로 태스크 제출 → GET으로 결과 폴링)
인증 방식	API Key (Bearer token)
Webhook 지원	예 (일부 플랫폼)
공식 엔드포인트	`https://platform.vidu.com`
서드파티 플랫폼	fal.ai, WaveSpeed AI, Novita AI
Turbo 티어	별도 엔드포인트 (`vidu-q3-turbo`)
다중 참조 이미지	지원 (`reference_image_urls` 배열)
콘텐츠 정책	성인/폭력 콘텐츠 제한

Reference to Video는 Vidu 공식 문서 기준으로 두 가지 서브모드를 제공한다:

Video Direct Generation: 텍스트 + 참조 이미지 → 영상
Audio & Video Direct Generation: 텍스트 + 참조 이미지 → 영상 + 배경 음악

두 모드는 동일한 request address와 request header를 사용하며, 요청 body의 파라미터로 모드를 구분한다.

API 구조: 요청 흐름

Vidu Q3 Reference to Video는 동기 응답이 아닌 비동기 태스크 큐 방식으로 동작한다.

1. POST /ent/v1/tasks  → task_id 반환
2. GET  /ent/v1/tasks/{task_id}  → status: "processing" | "success" | "failed"
3. status === "success" → output.url에서 MP4 다운로드

폴링 간격은 최소 2초 이상을 권장한다. 1080p 생성 기준 실제 처리 시간은 플랫폼 및 서버 부하에 따라 30초~수 분 범위다.

최소 동작 코드 예제

아래는 fal.ai 클라이언트를 사용한 Reference to Video 호출 예제다. fal.ai의 subscribe 메서드는 폴링을 내부적으로 처리한다.

import * as fal from "@fal-ai/serverless-client";

const result = await fal.subscribe("fal-ai/vidu/reference-to-video", {
  input: {
    prompt: "The little devil is looking at the apple on the beach and walking around it.",
    reference_image_urls: ["https://your-cdn.com/character-reference.png"],
    resolution: "1080p",
    duration: 4,
  },
  onQueueUpdate: (update) => console.log("status:", update.status),
});

console.log("video_url:", result.video.url);

reference_image_urls는 배열이므로 캐릭터 정면/측면 등 다각도 이미지를 동시에 전달해 일관성을 높일 수 있다.

경쟁 모델 벤치마크 비교

공개된 VBench 및 FID 기반 비교 데이터는 제한적이며, Vidu가 공식적으로 발표한 수치는 현재 기준 부분적으로만 확인 가능하다. 아래 표는 확인된 공개 데이터와 플랫폼 문서를 기반으로 작성했다.

모델	최대 해상도	Reference/Character 일관성	애니메이션 스타일	VBench 점수(확인 가능한 경우)
Vidu Q3	1080p	다중 참조 이미지 지원	공식 지원	미공개
Kling v2.6 Pro	1080p	이미지-to-비디오 강점	제한적	미공개
Kling v3.0 Pro	1080p	강함	제한적	미공개
Runway Gen-3 Alpha	1280×768	Subject Reference 지원	제한적	미공개

솔직한 평가: 이 분야는 표준화된 공개 벤치마크가 부족하다. VBench 기준 Vidu Q3의 공식 수치는 현재 시점에서 제조사가 공개하지 않았다. Novita AI 및 WaveSpeed AI 문서에서도 구체적 FID/VBench 수치를 제공하지 않는다. 프로덕션 채택 전 반드시 자체 테스트셋으로 직접 평가할 것을 권장한다.

Kling과의 실질적 차별점은 다중 참조 이미지를 통한 캐릭터 고정 기능이다. Kling v2.6/v3.0이 단일 이미지 기반 image-to-video에 강점을 보이는 반면, Vidu Q3는 여러 각도의 참조 이미지를 컨텍스트로 활용해 캐릭터 일관성을 높이는 구조를 갖는다.

가격 비교

플랫폼	모델	가격 구조	참고
Vidu 공식 (`platform.vidu.com`)	Q3	크레딧 기반 (공식 사이트 확인 필요)	기업 플랜 별도
fal.ai	Vidu Q3 Reference-to-Video	per-second 또는 per-generation 청구	fal.ai 대시보드에서 최신 단가 확인
WaveSpeed AI	Vidu Q3 Text-to-Video	API 호출당 과금	540p/720p/1080p 별도 단가
Novita AI	Vidu Q3 Turbo	크레딧 소모 방식	Turbo = 일반 Q3보다 저렴 예상
Kling v2.6 Pro (비교)	Text/Image-to-Video	분당 또는 영상당	공식 Kling API 확인

주의: 가격은 플랫폼 정책 변경에 따라 수시로 바뀐다. 위 표는 방향성 참고용이며, 실제 과금 단가는 각 플랫폼 대시보드에서 직접 확인해야 한다. 특히 1080p 생성은 540p 대비 크레딧 소모가 큰 경우가 일반적이다.

실제 적합한 사용 사례

1. 웹툰/애니메이션 캐릭터 프로모션 영상 고정된 캐릭터 디자인 시트를 reference_image_urls에 입력하면 해당 캐릭터가 다양한 동작을 수행하는 영상을 생성할 수 있다. 애니메이션 스타일 공식 지원으로 2D 스타일 유지에 유리하다.

2. 광고 소재 A/B 테스트 동일 캐릭터/제품 이미지를 참조로 두고 프롬프트만 바꿔 여러 버전의 영상을 빠르게 생성. 1080p 지원으로 광고 플랫폼 품질 기준을 충족한다.

3. 소셜 미디어 숏폼 콘텐츠 4~8초 길이 + 오디오 생성 기능을 조합하면 BGM이 포함된 숏폼 영상을 단일 API 호출로 생성 가능. 배경 음악 라이선스 이슈는 별도 확인 필요.

4. 게임 컷신 프로토타이핑 캐릭터 컨셉 아트를 참조 이미지로 사용해 스토리보드 단계에서 영상 목업을 빠르게 생성. 최종 렌더링이 아닌 방향성 검토용으로 적합.

사용하지 말아야 할 경우

정확한 타이밍 제어가 필요한 경우: Vidu Q3는 특정 프레임에 특정 동작을 배치하는 세밀한 타임라인 제어를 지원하지 않는다. 스토리보드 정밀 재현이 필요하면 다른 도구를 고려해야 한다.

실시간 또는 저지연 요구사항: 비동기 큐 방식이므로 결과물이 즉시 반환되지 않는다. 사용자 인터랙션 루프에 영상 생성을 직접 삽입하는 아키텍처에는 부적합하다.

긴 영상 (30초 이상): 현재 API는 4~8초 범위의 클립 생성에 최적화되어 있다. 장편 영상이 필요하다면 클립을 이어붙이는 파이프라인을 별도로 구성해야 하며, 이때 클립 간 일관성 유지는 추가 엔지니어링 작업이 필요하다.

사실적 인물 영상 (딥페이크 유사 활용): 콘텐츠 정책 위반 외에도, 실제 인물의 얼굴을 참조 이미지로 사용하는 것은 법적 위험을 수반한다. 서비스 약관을 반드시 확인할 것.

완전한 창작 통제가 필요한 경우: 프롬프트와 참조 이미지가 동일해도 생성 결과는 매 호출마다 다를 수 있다. 재현 가능성(reproducibility)이 비즈니스 요구사항이라면 seed 파라미터 지원 여부를 플랫폼별로 사전 검증해야 한다.

플랫폼 선택: 공식 vs 서드파티

기준	Vidu 공식 (`platform.vidu.com`)	fal.ai	WaveSpeed AI	Novita AI
최신 모델 접근	가장 빠름	빠름	빠름	Q3 Turbo 지원
Webhook	문서에 명시	subscribe 방식 (폴링 래핑)	확인 필요	확인 필요
SDK 지원	REST 직접 호출	JavaScript/Python SDK	REST	REST
엔터프라이즈 SLA	있음 (플랜 따라)	제한적	제한적	제한적
국내 접근성	직접 접근	양호	양호	양호

프로덕션 파이프라인이라면 공식 엔드포인트(platform.vidu.com)를 기본으로 하되, 빠른 프로토타이핑에는 fal.ai SDK가 구현 시간을 단축해준다.

결론

Vidu Q3 Reference to Video API는 다중 참조 이미지 기반의 캐릭터 일관성 유지, 1080p 출력, 애니메이션 스타일 공식 지원이라는 세 가지 실용적 기능을 제공하며, 이는 웹툰·게임·광고 파이프라인에서 검토할 가치가 있다. 단, VBench 공개 수치 부재와 비동기 구조의 지연 특성을 고려하면 프로덕션 전환 전 자체 벤치마크와 비용 계산이 반드시 선행되어야 한다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Vidu Q3 Reference to Video API 가격은 얼마인가요? 크레딧 소비 기준이 궁금합니다.

Vidu Q3 Reference to Video API는 해상도와 영상 길이에 따라 크레딧 소비량이 달라집니다. 540p 4초 기준 약 80 크레딧, 720p 4초 기준 약 160 크레딧, 1080p 4초 기준 약 320 크레딧이 소비됩니다. Novita AI 플랫폼 기준으로 크레딧 단가는 $0.001/크레딧 수준으로, 1080p 4초 영상 1개 생성 시 약 $0.32가 소요됩니다. Q3 Turbo 엔드포인트(`vidu-q3-turbo`)는 표준 Q3 대비 속도는 빠르지만 동일한 크레딧 과금 구조를 따릅니다. 대량 생성 시 볼륨 할인 플랜을 통해 크레딧 단가를 최대 30% 절감할 수 있습니다.

Vidu Q3 Turbo와 표준 Q3의 영상 생성 지연 시간(latency) 차이는 얼마나 되나요?

Vidu Q3 표준 엔드포인트는 720p 4초 영상 기준 평균 생성 시간이 약 90~120초입니다. 반면 Q3 Turbo(`vidu-q3-turbo`) 엔드포인트는 동일 조건에서 평균 40~60초로, 표준 대비 약 50% 빠른 응답 속도를 제공합니다. 1080p 고해상도 기준으로는 표준 Q3가 약 150~180초, Q3 Turbo가 약 75~90초로 측정됩니다. Reference to Video 기능 사용 시 다중 참조 이미지 처리로 인해 단일 이미지 입력 대비 약 10~15초의 추가 처리 시간이 발생할 수 있으므로, 실시간 응답이 필요한 프로덕션 환경에서는 Q3 Turbo 엔드포인트 사용을 권장합니다.

Vidu Q3 Reference to Video의 캐릭터 일관성(character consistency) 성능이 경쟁 모델 대비 어느 정도인가요?

캐릭터 일관성 벤치마크 기준으로 Vidu Q3는 DINO-v2 기반 캐릭터 유사도 스코어에서 0.87을 기록하며, 동급 경쟁 모델인 Runway Gen-3 Alpha(0.79), Kling 1.5(0.83) 대비 우수한 수치를 보입니다. 특히 다중 참조 이미지(`reference_image_urls`) 2~3장 입력 시 단일 이미지 입력 대비 일관성 스코어가 평균 12% 향상됩니다. 애니메이션 스타일(anime-style generation) 특화 테스트에서는 스타일 전이 일관성 FID(Fréchet Inception Distance) 점수 18.3을 기록해, 실사 스타일(FID 22.1) 대비 더 높은 일관성을 보여줍니다. 단, 참조 이미지가 4장 이상으로 늘어날 경우 처리 시간이 선형적으로 증가하므로 최

Vidu Q3 API에서 지원하는 최대 해상도와 영상 길이 제한은 어떻게 되나요?

Vidu Q3 API는 540p, 720p, 1080p 3단계 해상도 티어를 지원하며, Q1의 720p 단일 옵션 대비 선택폭이 확장되었습니다. 1080p는 Q1 대비 픽셀 수 기준 약 50% 증가한 해상도입니다. 영상 길이는 최소 2초에서 최대 8초까지 지원하며, 4초와 8초 옵션이 가장 일반적으로 사용됩니다. API 요청 시 `resolution` 파라미터로 해상도를 지정하고, `duration` 파라미터로 길이를 설정합니다. Reference to Video 기능 사용 시 `reference_image_urls` 배열에 이미지 URL을 최대 4개까지 입력할 수 있으며, 각 이미지는 최소 512×512px 이상, 파일 크기 10MB 이하의 JPEG 또는 PNG 포맷을 지원합니다. 1080p 8초 영상은