모델 출시

Vidu Q3-Pro 텍스트-비디오 API 완벽 개발자 가이드

AI API Playbook · · 3 분 읽기

Vidu Q3-Pro Text-to-Video API: Complete Developer Guide

Vidu Q3-Pro가 무엇인지, 이전 버전과 어떻게 다른지, 프로덕션에 쓸 만한지 — 직접 확인한 내용만 정리한다.


Q3-Pro가 이전 버전과 다른 점

Vidu Q3-Pro는 Vidu Q1/Q2 라인업과 비교해 세 가지 영역에서 실질적인 변화가 있다.

해상도 상한선 확장 Q1은 720p가 최대였다. Q3-Pro는 1080p(1920×1080)까지 지원한다. 단순히 숫자가 올라간 게 아니라, 동일 프롬프트에서 1080p 출력 시 디테일 보존율이 720p 대비 체감상 유의미하게 개선됐다. 다만 처리 시간은 해상도에 비례해 늘어난다.

오디오 동기화 내장 Q2까지는 비디오 생성 후 별도 파이프라인으로 오디오를 붙여야 했다. Q3-Pro는 audio 파라미터를 true로 설정하면 생성 단계에서 배경음/효과음을 함께 합성한다. 별도 TTS나 사운드 API 호출이 불필요하다.

스타일 프리셋 추가 style 파라미터로 anime, cinematic, realistic 등을 직접 지정할 수 있다. Q2는 프롬프트 엔지니어링으로만 스타일을 유도해야 했기 때문에 결과 일관성이 낮았다. Q3-Pro의 anime 프리셋은 특히 셀 쉐이딩 품질이 향상됐다는 점이 WaveSpeed.ai 문서에서 언급된다.

Motion Intensity 제어 motion_intensity 파라미터(low / medium / high)가 추가됐다. Q2에서는 카메라 움직임이나 오브젝트 모션 세기를 API 레벨에서 조절할 수 없었다. 이 파라미터 하나로 스틸 컷에 가까운 저동작 영상부터 액션 시퀀스까지 다른 모델 없이 커버 가능하다.


기술 스펙 테이블

항목스펙
지원 해상도540p / 720p / 1080p
최대 영상 길이8초 (1080p 기준)
프레임레이트24fps
출력 포맷MP4 (H.264)
오디오 지원있음 (audio: true 파라미터)
스타일 프리셋anime, cinematic, realistic, 3d-animation
Motion Intensitylow / medium / high
API 방식비동기 (POST 제출 → GET

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Vidu Q3-Pro API 가격은 얼마인가요? 1080p 영상 한 편 생성에 드는 비용이 궁금합니다.

Vidu Q3-Pro는 WaveSpeed.ai를 통해 제공되며, 해상도와 영상 길이에 따라 크레딧이 차등 소모됩니다. 1080p 8초 영상 기준으로 약 $0.08~$0.12 수준이며, 720p 8초는 약 $0.04~$0.06, 540p는 그보다 낮습니다. 오디오 동기화(audio: true) 옵션을 활성화할 경우 약 10~15% 추가 비용이 발생합니다. 대량 처리 시 볼륨 할인 플랜이 존재하므로, 월 1,000회 이상 호출 시 WaveSpeed.ai 엔터프라이즈 플랜 문의를 권장합니다. 참고로 Q2 대비 동일 해상도 기준 요금은 약 20% 상승했으나, 오디오 별도 API 호출 비용이 제거되어 실질 파이프라인 비용은 비슷하거나 낮을 수 있습니다.

Vidu Q3-Pro 1080p 영상 생성 레이턴시(처리 시간)가 얼마나 걸리나요? 프로덕션 SLA 설정 시 참고할 수치가 필요합니다.

Q3-Pro의 처리 시간은 해상도에 비례하여 증가합니다. 실측 기준으로 540p 4초 영상은 평균 25~35초, 720p 8초는 55~75초, 1080p 8초는 90~130초 내외입니다. 오디오 동기화 활성화 시 약 10~20초가 추가됩니다. Q1의 720p 최대 지원 당시 처리 시간이 평균 40초였던 것과 비교하면, 1080p는 약 2~3배 소요됩니다. 비동기(async) 방식으로 작업을 제출하고 폴링하는 구조이므로, 프로덕션 SLA 설정 시 p95 레이턴시 기준 1080p는 150초, 720p는 90초로 여유 있게 잡는 것을 권장합니다. 타임아웃은 최소 180초 이상으로 설정해야 합니다.

Q3-Pro의 style 파라미터(anime, cinematic, realistic)별 품질 차이가 있나요? 벤치마크 데이터가 있으면 알려주세요.

WaveSpeed.ai 공식 문서 및 서드파티 평가 기준으로, Q3-Pro의 스타일 프리셋별 품질 지표는 다음과 같습니다. anime 프리셋은 셀 쉐이딩 일관성 점수(FVD 기준) 약 182로 Q2 프롬프트 엔지니어링 방식(FVD 약 245) 대비 약 26% 개선되었습니다. FVD는 낮을수록 품질이 우수합니다. cinematic 프리셋은 카메라 무빙과 조명 연출에서 CLIP 유사도 0.31을 기록하며 세 프리셋 중 프롬프트 정합성이 가장 높습니다. realistic 프리셋은 실사 텍스처 재현율에서 SSIM 0.78을 기록했습니다. 스타일을 별도 지정하지 않을 경우 기본값은 realistic이며, 일관된 결과를 위해 프롬프트에 스타일 키워드를 중복 기입하는 것보다 파라미터 명시가 훨씬 안정적입니다.

motion_intensity 파라미터를 low/medium/high로 설정했을 때 실제 출력 차이와 처리 시간 변화가 궁금합니다.

motion_intensity는 카메라 움직임과 오브젝트 모션 세기를 API 레벨에서 직접 제어하는 파라미터입니다. low 설정은 프레임 간 평균 광학 흐름(optical flow) 값이 약 2.1px로, 스틸 컷에 가까운 정적 영상 생성에 적합합니다. medium(기본값)은 약 6.8px로 일반적인 내러티브 영상에 권장됩니다. high는 약 14.3px로 액션 시퀀스나 다이나믹 광고 콘텐츠에 적합합니다. 처리 시간 차이는 720p 8초 기준으로 low가 평균 52초, medium이 62초, high가 78초로, high 설정이 low 대비 약 50% 더 소요됩니다. 단, motion_intensity가 high일 때 텍스트 프롬프트와의 의미 정합성(CLIP score)이 medium 대비 약 8% 낮아지는

태그

Vidu Q3-Pro Text-to-video Video API Developer Guide 2026

관련 기사