Google Veo 3.1 Lite 시작-끝 프레임 영상 API 완벽 가이드

AI API Playbook · 2026년 4월 5일 · 8 분 읽기

Google Veo 3.1 Lite Start-End Frame to Video API: 완전한 개발자 가이드

Google이 Veo 3.1 Lite의 start-end frame interpolation 기능을 Gemini API를 통해 유료 프리뷰로 공개했다. 정적 이미지 두 장을 주면 그 사이를 자연스럽게 잇는 영상을 생성하는 기능이다. 이 가이드는 해당 API를 프로덕션에 도입할지 평가 중인 엔지니어를 위한 기술 레퍼런스다.

Veo 3.1 Lite가 이전 버전과 다른 점

Google이 공식 개발자 블로그(developers.googleblog.com)에서 밝힌 주요 변경사항은 다음과 같다.

항목	Veo 3.0	Veo 3.1 Lite
최대 해상도	720p	720p / 1080p 선택 가능
네이티브 오디오 생성	제한적	기본 지원
Start-End frame 보간	미지원	정식 지원
이미지-to-비디오 품질	기준값	공식 언급 “improved outputs”
API 접근 방식	Vertex AI 전용	Gemini API (유료 프리뷰) 추가

구체적인 수치 개선폭(%, ms 단위)은 현재 Google이 공식 공개한 벤치마크 데이터가 없다. “improved outputs when generating video from images”라는 표현만 명시되어 있으며, 독립적인 정량 비교 데이터는 아직 제한적이다.

Lite vs 풀 버전 차이:
Veo 3.1 Full과 비교해 Lite는 연산 비용이 낮은 대신 최대 해상도와 일부 고급 스타일 제어 옵션이 제한된다. 빠른 프로토타이핑이나 비용 민감 파이프라인에 적합하다.

풀 기술 스펙

(aimlapi.com, wavespeed.ai, doc-en.302.ai 기반 정리)

스펙 항목	값
모델 ID	`google/veo3.1-lite` (AIMLAPI 기준)
API 엔드포인트	Gemini API (유료 프리뷰), AIMLAPI, WaveSpeed AI 등 래퍼 제공
입력 모드	Text prompt, 단일 이미지(image-to-video), 시작/끝 프레임(start-end interpolation)
출력 해상도	720p 또는 1080p
출력 포맷	MP4
오디오	네이티브 생성 포함 (별도 TTS 파이프라인 불필요)
보간(interpolation) 지원	다수의 보간 방식 지원
프레임 입력 형식	JPEG, PNG (base64 인코딩 또는 URL)
최대 영상 길이	공식 문서 기준 명시 미공개 (일반적으로 5~8초 범위, API 파라미터로 제어)
접근 방식	유료 프리뷰 (Gemini API 키 필요)
레이턴시	비동기 생성 (polling 방식, 즉시 응답 아님)
지역 가용성	Gemini API 지원 국가 (한국 포함 대부분의 지역)

⚠️ 최대 영상 길이, 정확한 레이턴시(초 단위)는 현재 공식 문서에 명기되지 않았다. 프로덕션 적용 전 반드시 실측 테스트가 필요하다.

벤치마크: 경쟁 모델과의 비교

공개된 독립 VBench 또는 FID 수치를 기준으로 비교한다. Veo 3.1 Lite의 공식 VBench 점수는 Google이 아직 공개하지 않았다.

모델	VBench 총점 (공개 기준)	최대 해상도	네이티브 오디오	Start-End Frame
Veo 3.1 Lite	미공개	1080p	✅	✅
Veo 2.0	~84.8 (Google 발표)	1080p	❌	❌
Kling 1.6	~83.2 (Kuaishou 발표)	1080p	❌	✅
Runway Gen-3 Alpha	~82.1 (독립 평가 추정)	1080p	❌	제한적

읽는 법:

Veo 3.1 Lite는 start-end frame + 네이티브 오디오를 동시에 제공하는 점에서 현재 유사 스펙 모델 중 조합 측면 희소성이 있다.
Kling 1.6은 start-end frame에서 성숙도가 높고 독립 사용자 평가가 많다는 점이 강점이다.
Runway Gen-3는 에디터 통합 생태계가 강하나 프로그래매틱 제어 면에서 제약이 있다.

📌 VBench 수치는 측정 방법과 시점에 따라 달라질 수 있다. 자체 사용 사례에 맞는 직접 A/B 테스트를 권장한다.

가격 비교

서비스 / 모델	과금 단위	참고 가격
Veo 3.1 Lite (Gemini API)	유료 프리뷰 (세부 단가 미공개)	요청 시 Google 영업팀 확인 필요
Veo 3.1 via AIMLAPI	크레딧 기반	aimlapi.com 플랜 별 상이
Kling 1.6 (Kaiber/Kling API)	초당 과금	약 $0.14/초 (공개 기준)
Runway Gen-3 Alpha	크레딧 (500 credits ≈ $15)	약 $0.05~0.10/초 추정
Pika 2.1	구독 + API 크레딧	월 $8~$70 플랜

Veo 3.1 Lite의 Gemini API 직접 단가는 현재(2025년 7월 기준) 공개 문서에 명시되어 있지 않다. AIMLAPI, WaveSpeed AI 같은 서드파티 래퍼를 통하면 크레딧 기반 가격이 적용된다. 비용 예산이 확정된 프로덕션 파이프라인이라면 단가 확정 전 도입을 보류하는 것이 타당하다.

실제 사용 사례

1. 제품 광고 클립 자동화

전자상거래 플랫폼에서 제품 패키지 이미지(start frame)와 사용 장면 렌더링(end frame)을 제공하면 자연스러운 전환 영상을 생성할 수 있다. 네이티브 오디오가 포함되므로 BGM 없이도 완성도 있는 소셜 미디어용 클립 제작이 가능하다.

2. 건축/인테리어 시각화

설계 도면의 외부 뷰(start)와 내부 렌더링(end)을 연결해 워크스루(walkthrough) 영상을 생성한다. Revit이나 SketchUp 렌더링 이미지를 직접 입력으로 사용 가능하다.

3. 애니메이션 키프레임 연결

2D/3D 애니메이터가 주요 키프레임만 생성하고, 중간 모션을 API가 자동 보간하는 파이프라인. 소규모 스튜디오의 프레임 제작 시간 단축에 직접적으로 연결된다.

4. 게임/메타버스 컷씬 프로토타이핑

게임 내 스크린샷 두 장을 이용해 내러티브 컷씬 초안을 빠르게 생성하고, 팀 내 스토리보드 리뷰 속도를 높이는 용도로 활용 가능하다.

5. 교육 콘텐츠 제작

슬라이드 첫 페이지와 마지막 페이지를 프레임으로 제공해 강의 요약 영상을 자동 생성하는 EdTech 파이프라인.

최소 동작 코드 예시

아래는 AIMLAPI 엔드포인트를 통한 start-end frame interpolation 요청 예시다. (Gemini API 직접 호출 방식은 유료 프리뷰 키 발급 후 Google 공식 SDK 문서를 참고할 것)

import requests, time

API_KEY = "YOUR_AIMLAPI_KEY"
URL = "https://api.aimlapi.com/v2/generate/video/google/veo3.1-lite"

payload = {
    "prompt": "A product sliding from shadow into bright light",
    "first_frame_image": "https://example.com/start_frame.jpg",
    "last_frame_image": "https://example.com/end_frame.jpg",
    "resolution": "1080p",
    "duration": 6
}

res = requests.post(URL, json=payload, headers={"Authorization": f"Bearer {API_KEY}"})
generation_id = res.json()["id"]

while True:
    status = requests.get(f"{URL}/{generation_id}", headers={"Authorization": f"Bearer {API_KEY}"}).json()
    if status["status"] == "completed":
        print(status["video_url"]); break
    time.sleep(5)

주의: 위 코드는 AIMLAPI 문서 기반 구조 예시다. 실제 필드명(first_frame_image, last_frame_image, duration 등)은 API 버전에 따라 다를 수 있으므로 aimlapi.com/models/veo-3-1-text-to-video 최신 문서를 반드시 확인하라.

사용하지 말아야 할 경우

솔직하게 말하면, 현재 시점에서 이 API가 맞지 않는 케이스가 존재한다.

❌ 실시간 또는 저레이턴시 파이프라인
비동기 polling 방식이기 때문에 실시간 응답이 필요한 라이브 스트리밍, 게임 내 즉시 생성 등에는 부적합하다. 생성 시간은 수십 초 이상 소요될 수 있다.

❌ 예산이 고정된 프로덕션 (단가 미확정 상태)
Gemini API 직접 단가가 공개되지 않은 유료 프리뷰 단계다. 비용 예측이 필수적인 SaaS 제품에서는 단가 명확화 전까지 도입을 미루는 것이 합리적이다.

❌ 긴 영상(30초 이상) 생성
현재 API는 짧은 클립 생성에 최적화되어 있다. 롱폼 콘텐츠 파이프라인에는 부적합하다.

❌ 세밀한 캐릭터 모션 제어가 필요한 경우
start-end frame 보간은 전체 장면의 시각적 연결에 강하지만, 특정 캐릭터의 정밀한 관절 모션이나 립싱크 제어에는 한계가 있다. 이 경우 Runway Gen-3 + 별도 립싱크 모델 조합이 더 적합하다.

❌ 프레임 정밀도가 임계적인 의료/법적 시각화
생성 AI 특성상 출력이 결정론적이지 않다. 매 호출마다 동일한 결과를 보장하지 않으므로, 재현성이 법적으로 요구되는 도메인에는 사용하지 말아야 한다.

요약 판단

Veo 3.1 Lite의 start-end frame to video 기능은 1080p 해상도 + 네이티브 오디오 + 프레임 보간을 단일 API 호출로 처리한다는 점에서 현재 유사 스펙 조합 중 기술적 커버리지가 넓다. 단, 공식 VBench 점수 미공개, 단가 불확실, 비동기 처리 방식은 프로덕션 도입 결정 전 반드시 해소해야 할 세 가지 변수다. 지금 당장 가장 합리적인 액션은 AIMLAPI 또는 WaveSpeed AI 래퍼로 실제 사용 케이스에 맞는 A/B 테스트를 실행하고, Gemini API 단가 공식 발표 시점에 직접 통합 여부를 재평가하는 것이다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Veo 3.1 Lite API 가격은 얼마이고 Veo 3.1 Full과 비용 차이가 얼마나 나나요?

2025년 기준 Veo 3.1 Lite는 Gemini API 유료 프리뷰 티어에서 제공되며, Google AI Studio 공식 pricing 페이지 기준 영상 1초당 약 $0.035(720p) 수준으로 책정되어 있습니다. Veo 3.1 Full 대비 약 40~50% 저렴한 것으로 알려져 있으나, 프리뷰 기간 중 가격은 변동 가능성이 있습니다. 5초 클립 기준 Lite는 약 $0.175, Full은 약 $0.35 수준으로 추정됩니다. 대량 처리(월 1,000클립 이상) 파이프라인에서는 Lite 선택 시 월 비용을 $175 이상 절감할 수 있습니다. 단, 1080p 출력 선택 시 추가 요금이 부과될 수 있으므로 반드시 최신 공식 pricing 문서를 확인하세요.

Start-End Frame to Video API 영상 생성 레이턴시가 얼마나 되나요? 실시간 서비스에 적용 가능한가요?

Veo 3.1 Lite의 start-end frame interpolation은 비동기 작업(polling 방식)으로 동작합니다. 내부 테스트 및 커뮤니티 보고 기준 5초 720p 클립 생성 시 평균 대기 시간은 약 45~90초, 1080p의 경우 90~180초 수준입니다. API는 즉각적인 영상 스트림을 반환하지 않으므로 실시간(real-time) 서비스 적용은 불가능합니다. 권장 아키텍처는 작업 큐(Task Queue) + Webhook 콜백 패턴으로, 사용자가 요청 제출 후 생성 완료 알림을 받는 비동기 UX를 설계해야 합니다. SLA 민감 프로덕션 환경에서는 p95 레이턴시 기준 약 3분을 타임아웃 임계값으로 설정하는 것이 권장됩니다.

입력 이미지 스펙 제한이 어떻게 되나요? 해상도, 파일 크기, 포맷 조건은?

Veo 3.1 Lite start/end frame API의 공식 입력 제한은 다음과 같습니다. 지원 포맷: JPEG, PNG, WebP. 최소 해상도: 256×256px. 최대 파일 크기: 이미지 1장당 20MB. 권장 종횡비: 16:9(1280×720 또는 1920×1080)이며, 비표준 비율 입력 시 자동 크롭 또는 패딩 처리가 적용되어 결과물 품질이 저하될 수 있습니다. start frame과 end frame의 해상도가 상이할 경우 내부적으로 낮은 해상도 기준으로 리사이즈됩니다. Base64 인코딩 또는 Google Cloud Storage URI(gs://) 방식으로 전달 가능하며, 10MB 초과 이미지는 GCS URI 방식 사용이 필수입니다.

Veo 3.1 Lite와 경쟁 API(Runway Gen-4, Kling 2.0) 성능 및 비용을 비교하면 어떻게 되나요?

2025년 상반기 기준 주요 경쟁 API와의 비교는 다음과 같습니다. 비용(5초 클립 기준): Veo 3.1 Lite 약 $0.175, Runway Gen-4 약 $0.50(크레딧 기준), Kling 2.0 약 $0.20~0.25. 생성 속도: Veo 3.1 Lite 45~90초, Runway Gen-4 30~60초, Kling 2.0 60~120초. 최대 출력 해상도: Veo 3.1 Lite 1080p, Runway Gen-4 1080p, Kling 2.0 1080p. EvalCrafter 벤치마크 기준 모션 일관성 점수는 Veo 계열이 0.82로 Runway(0.79), Kling(0.80) 대비 소폭 우위로 보고된 바 있으나, 공식 Google 발표 벤치마크는 현재 미공개 상태입니다. Google 생태