Veo 3.1 Lite 시작·끝 프레임 영상 API 완벽 개발자 가이드

AI API Playbook · 2026년 4월 6일 · 9 분 읽기

Veo 3.1 Lite Start-End Frame to Video API: 완전한 개발자 가이드

Google의 Veo 3.1 Lite는 시작 프레임과 종료 프레임을 정의하면 AI가 그 사이의 전환을 생성하는 start-end frame to video 기능을 제공한다. 이 가이드는 해당 API를 프로덕션에 도입할지 검토 중인 엔지니어를 위해 작성되었다.

이전 버전 대비 변경 사항

Veo 3.0 대비 Veo 3.1 Lite에서 달라진 점은 다음과 같다.

항목	Veo 3.0	Veo 3.1 Lite	변화
Start-End frame 제어	미지원 (start frame only)	지원 (FIRST & LAST 모드)	신규 기능
모델 티어 구성	단일 Veo 모델	Lite / Fast / Pro 3계층	구조 변경
API 엔드포인트	`veo-3.0-generate-preview`	`veo-3.1-generate-preview`	버전 업
비용 구조	상대적으로 단일가격	Lite는 Pro 대비 저비용	비용 절감

핵심 변경: 이전에는 start frame 하나만 제공하고 나머지는 모델에 맡겼다. Veo 3.1 Lite부터는 FIRST_AND_LAST 모드로 시작 이미지와 종료 이미지를 동시에 입력하면 AI가 두 프레임 사이의 중간 영상을 생성한다. EvoLink AI에 따르면 이 모드는 스토리보딩과 씬 전환 작업에 최적화되어 있다.

주의: Google은 현재 정량적 PSNR/FID 개선 수치를 공식 문서에서 공개하지 않고 있다. 벤치마크 비교는 아래 별도 섹션에서 다룬다.

전체 기술 스펙

항목	사양
모델 ID	`veo-3.1-generate-preview`
입력 모드	Text-to-Video, Image-to-Video, Start-End Frame (FIRST_AND_LAST)
출력 해상도	720p (1280×720)
출력 길이	5~8초 (기본값 8초)
출력 포맷	MP4 (H.264)
프레임 레이트	24fps
오디오	미지원 (Lite 버전)
종횡비	16:9 (기본값), 9:16 지원
입력 이미지 포맷	JPEG, PNG, WebP
입력 이미지 해상도	최소 300×300px 권장
API 접근 방식	비동기 (polling 기반 Long-Running Operation)
SDK	`google-genai` Python SDK, REST API
가용 지역	Gemini API (Google AI Studio), Vertex AI
상태	Preview (프로덕션 SLA 미보장)

비동기 구조 이해: generateVideos() 호출은 즉시 영상을 반환하지 않는다. Operation 객체를 반환하며, 완료까지 수 분이 걸릴 수 있다. 폴링 루프로 상태를 확인해야 한다.

최소 동작 코드 예제

아래는 start frame과 end frame을 이용해 영상을 생성하는 최소 예제다.

import time
from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

with open("start_frame.jpg", "rb") as f:
    start_image = types.Image(image_bytes=f.read(), mime_type="image/jpeg")
with open("end_frame.jpg", "rb") as f:
    end_image = types.Image(image_bytes=f.read(), mime_type="image/jpeg")

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="A smooth cinematic transition from dawn to dusk",
    image=start_image,
    last_frame=end_image,
)

while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

operation.result.generated_videos[0].video.save("output.mp4")

last_frame 파라미터가 FIRST_AND_LAST 모드를 활성화하는 핵심이다. image만 전달하면 일반 image-to-video로 동작한다.

벤치마크 비교

공개된 VBench 기준 및 서드파티 평가 데이터를 바탕으로 주요 경쟁 모델과 비교한다.

모델	VBench 종합 점수	동작 일관성	해상도	최대 길이	Start-End 지원
Veo 3.1 Lite	미공개 (Preview)	평가 진행 중	720p	8초	✅
Veo 3.1 Pro	미공개 (Preview)	Lite 대비 우위 추정	1080p+	8초+	✅
Kling 1.6	VBench ~83.2	높음	1080p	10초	✅
Runway Gen-3 Alpha	VBench ~82.1	중간	1280×768	10초	❌ (start only)
Pika 2.1	미공개	중간	1080p	5초	제한적

해석: Google은 Veo 3.1 Lite에 대한 공식 VBench 수치를 아직 공개하지 않았다. Kling 1.6은 VBench 기준으로 현재 공개 모델 중 가장 높은 점수대를 형성하고 있으며, Runway Gen-3는 end frame 제어를 기본 지원하지 않는다. Veo 3.1 Lite의 차별점은 Google Gemini API와의 네이티브 통합 및 FIRST_AND_LAST 모드에 있다.

벤치마크 수치 출처: VBench leaderboard (2024-2025 기준), EvoLink AI 문서, WaveSpeed AI 블로그. Veo 3.1 수치는 Google 공식 공개 전까지 업데이트 예정.

가격 비교

서비스 / 모델	과금 단위	예상 비용	Start-End 지원
Veo 3.1 Lite (Gemini API)	영상 초당	Lite 티어 (Pro 대비 저가, 정확한 공개가 미진행)	✅
Veo 3.1 Pro (Gemini API)	영상 초당	Lite 대비 고가	✅
Kling 1.6 (공식 API)	크레딧 기반	~$0.14/5초 클립	✅
Runway Gen-3 Alpha	크레딧/초	~$0.05/초	❌
Pika 2.1	구독/크레딧	$8/월 (기본 플랜)	제한적
WaveSpeed AI Veo 3.1 Lite	API 호출 기반	플랫폼 별도 책정	✅

주의: Google은 Gemini API의 Veo 3.1 Lite 단가를 현재 공식 문서에서 명시적으로 공개하지 않고 있다. 사용 전 Google AI Studio의 현재 가격표를 직접 확인할 것을 권장한다. WaveSpeed AI와 같은 서드파티 플랫폼은 자체 마진을 포함한 별도 단가를 책정한다.

적합한 사용 사례

1. 씬 전환 자동화 (스토리보딩)

영화나 광고 프리비즈 제작 시, 키프레임 A에서 키프레임 B로의 전환을 수작업 없이 생성할 수 있다. 스토리보드 이미지 두 장을 start/end frame으로 제공하면 중간 모션을 AI가 채운다.

구체 예시: 제품 렌더링 이미지(정면)와 측면 이미지를 각각 start/end frame으로 입력 → 360도 회전 느낌의 영상 클립 자동 생성 → e-commerce PDP 영상에 활용.

2. 루프 영상 생성

start frame과 end frame을 동일한 이미지로 설정하면 seamless loop에 가까운 영상을 얻을 수 있다. 완벽한 루프는 아니지만 배경 영상, 소셜미디어 루프 클립 제작에 유용하다.

3. 저비용 대량 영상 프로토타입

Lite 티어는 Pro 대비 저렴하다. A/B 테스트용 광고 영상 변형을 다수 생성하거나, 초안 컨셉 확인용 클립을 빠르게 뽑아내는 파이프라인에 적합하다.

4. Gemini 멀티모달 파이프라인과의 통합

google-genai SDK를 이미 사용 중인 팀은 추가 인프라 없이 동일 클라이언트 객체로 영상 생성을 붙일 수 있다. Gemini Vision으로 이미지 분석 → Veo 3.1 Lite로 영상 생성으로 이어지는 파이프라인 구성이 자연스럽다.

한계와 사용하지 말아야 할 경우

이 섹션이 가장 중요하다. 다음 경우에는 Veo 3.1 Lite를 선택하지 않는 것이 낫다.

1. 1080p 이상 해상도가 필요한 경우 현재 Lite는 720p 출력만 지원한다. 방송용, 대형 스크린 광고, OTT 콘텐츠에는 부적합하다. Veo 3.1 Pro 또는 Kling 1.6을 검토하라.

2. 오디오가 필요한 경우 Lite 버전은 오디오를 생성하지 않는다. 배경음악, 음성, 효과음이 포함된 영상이 필요하다면 Veo 3.1 Full(Fast/Pro) 티어를 사용하거나 별도 오디오 합성 단계를 추가해야 한다.

3. 8초 이상의 클립이 필요한 경우 현재 최대 출력 길이는 8초다. 장면 전환이 많거나 긴 내러티브 영상에는 부적합하며, 클립을 여러 개 이어붙이는 추가 편집 작업이 필요하다.

4. SLA가 보장된 프로덕션 환경 Veo 3.1은 현재 Preview 단계다. Google은 Preview API에 대해 업타임 SLA, 레이턴시 보장, 하위 호환성을 약속하지 않는다. SLA가 필요한 프로덕션 서비스에는 GA(Generally Available) 상태의 API를 사용하거나 Vertex AI의 별도 조건을 확인해야 한다.

5. 정밀한 프레임 수준 제어가 필요한 경우 start/end frame 외의 중간 키프레임, 카메라 경로 제어, 물체 이동 궤적 지정은 현재 지원하지 않는다. 모션 그래픽처럼 픽셀 단위 정밀도가 요구되는 작업에는 After Effects나 Blender 기반 렌더링 파이프라인이 적합하다.

6. 생성 시간이 수 초 이내여야 하는 실시간 서비스 비동기 polling 구조 특성상, 영상 한 편 생성에 수 분이 소요될 수 있다. 사용자 인터랙션에 즉시 응답해야 하는 실시간 서비스에는 맞지 않는다.

개발 시 주의할 실전 포인트

폴링 간격: 공식 예제에서 10초 간격을 권장한다. 너무 짧은 간격은 rate limit을 유발할 수 있다.
이미지 품질: start/end frame 이미지의 해상도와 구도가 출력 품질에 직접 영향을 준다. 저해상도 입력은 결과물의 디테일을 떨어뜨린다.
프롬프트 병행 사용: prompt 파라미터는 start/end frame과 함께 사용 가능하다. 전환의 스타일(카메라 무브먼트, 조명 변화 등)을 텍스트로 추가 지정하면 결과 품질이 개선된다.
API 키 vs ADC: Google AI Studio 키는 개인 프로젝트에, 프로덕션 환경에서는 Application Default Credentials(ADC)를 사용하는 것이 보안상 권장된다.

결론

Veo 3.1 Lite의 start-end frame 모드는 스토리보딩, 씬 전환 자동화, 저비용 프로토타입 파이프라인에서 실질적인 가치를 제공하며, 특히 Google의 기존 Gemini API 인프라와의 통합 비용이 낮다는 점이 강점이다. 다만 720p 해상도 상한, 오디오 미지원, Preview 상태의 SLA 부재는 프로덕션 도입 전 반드시 확인해야 할 제약이다.

참고 자료: Google AI Developers Blog - Veo 3.1 Lite, Gemini API 공식 문서, EvoLink AI Veo 3.1 API 문서, WaveSpeed AI 블로그, APIYi Veo 3.1 Lite 가이드

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

Veo 3.1 Lite API 비용은 얼마이며 Veo 3.0 또는 Pro 티어와 비교하면 어떻게 되나요?

Veo 3.1 Lite는 3계층 구조(Lite / Fast / Pro) 중 가장 저비용 티어로, Pro 대비 낮은 단가로 제공됩니다. Google Vertex AI 기준으로 Veo 3.0은 단일 가격 구조였으나, Veo 3.1부터는 Lite 티어가 별도 책정되어 비용 절감이 가능합니다. 정확한 달러 단가는 Google Cloud 공식 가격 페이지(cloud.google.com/vertex-ai/pricing)에서 확인해야 하며, 프로덕션 도입 전 Lite vs Pro 비용 대비 품질 트레이드오프를 반드시 벤치마크해볼 것을 권장합니다. start-end frame 기능은 Lite 티어에서도 FIRST_AND_LAST 모드로 완전 지원되므로, 스토리보딩·씬 전환 워크로드에서는 Lite만으로도 충분한 경우가 많습

Veo 3.1 Lite start-end frame API의 응답 지연(latency)은 어느 정도인가요? 프로덕션 SLA 설계 시 어떤 타임아웃 값을 써야 하나요?

Veo 3.1 Lite는 비동기 생성 방식으로 동작하며, 영상 생성은 일반적으로 수십 초~수 분 범위의 지연이 발생합니다. Google 공식 문서 기준으로 단기 생성 작업은 평균 60~120초, 고해상도 또는 긴 클립의 경우 최대 5분 이상 소요될 수 있습니다. 프로덕션 SLA 설계 시 폴링(polling) 간격은 5~10초로 설정하고, 전체 타임아웃은 최소 300초(5분)로 잡는 것이 권장됩니다. FIRST_AND_LAST 모드는 단일 start frame 모드 대비 추가 연산이 발생하므로, 실제 워크로드에서 p95 latency를 별도로 측정한 후 타임아웃 값을 조정해야 합니다.

FIRST_AND_LAST 모드에서 입력 이미지 스펙(해상도, 포맷, 파일 크기 제한)은 무엇인가요?

Veo 3.1 Lite의 FIRST_AND_LAST 모드는 시작 프레임과 종료 프레임을 동시에 입력받습니다. 지원 이미지 포맷은 JPEG 및 PNG이며, 권장 해상도는 생성할 영상 해상도와 동일한 비율(예: 16:9)을 유지해야 합니다. 파일 크기는 일반적으로 이미지당 최대 10MB 이내로 제한되며, Base64 인코딩 또는 Google Cloud Storage URI(gs://) 방식으로 전달할 수 있습니다. 입력 이미지 해상도가 출력 영상 해상도(최대 1080p)와 맞지 않을 경우 자동 리사이징이 적용되지만, 왜곡 방지를 위해 사전에 동일 비율로 전처리하는 것이 모범 사례입니다. 두 프레임의 해상도와 종횡비는 반드시 일치해야 하며, 불일치 시 API 오류가 반환됩니다.

Veo 3.1 Lite의 PSNR, FID 등 공식 벤치마크 수치가 있나요? 경쟁 모델(Sora, Kling 등)과 품질 비교 데이터가 있나요?

현재(2025년 기준) Google은 Veo 3.1 Lite에 대한 정량적 PSNR·FID·FVD 개선 수치를 공식 문서에서 공개하지 않고 있습니다. Veo 3.0 대비 개선 여부도 공식적으로 수치화된 자료가 없으며, EvoLink AI 등 서드파티 평가에서 정성적 품질 향상이 보고된 수준입니다. Sora, Kling 2.0, Runway Gen-4 등 경쟁 모델과의 직접 벤치마크 비교 데이터 역시 공개된 공식 수치가 없으므로, 프로덕션 도입 전 자체 A/B 테스트를 통해 FID(Fréchet Inception Distance) 및 사용자 평가(MOS 점수) 기반의 내부 벤치마크를 수행하는 것을 강력히 권장합니다. VideoScore나 CLIP 유사도 지표를 활용한 자동화 평가 파이프라인 구축이 현실적인 대