AI 비디오 생성 API 용어 사전: 개발자 필수 핵심 용어 정리

AI API Playbook · 2026년 3월 13일 · 12 분 읽기

AI Video Generation API 용어 사전: 개발자가 반드시 알아야 할 핵심 개념 2026

AI 비디오 생성 API를 처음 다루는 개발자라면, 30개 이상의 기술 용어가 문서 전체에 흩어져 있는 걸 보고 당황한 경험이 있을 것이다. latent diffusion, motion score, cfg_scale, temporal consistency — 이 용어들을 정확히 이해하지 못하면 API 파라미터 하나 잘못 설정해서 렌더링 비용을 3배 이상 낭비하거나, 품질이 기대치와 전혀 다른 결과물을 받게 된다. 이 글은 Runway Gen-3, Kling, Sora API, Pika 등 2026년 현재 주요 AI 비디오 생성 서비스의 API 문서에서 공통적으로 등장하는 핵심 용어를 개념과 실용적 맥락 모두에서 정리한다.

왜 지금 이 용어들을 정확히 알아야 하는가

AI 비디오 생성 시장은 2024년 약 5억 달러 규모에서 2030년 43억 달러 규모로 성장할 것으로 예측된다(Grand View Research, 2024). 개발자 입장에서 더 직접적인 숫자는 이것이다: 잘못된 파라미터 설정 하나가 API 비용을 최대 400% 증가시킬 수 있다. 예를 들어 num_inference_steps를 50으로 설정해야 할 작업에 150으로 설정하면 3배의 컴퓨팅 비용이 발생하면서도 품질 향상은 미미하다.

OpenAI, Runway, Stability AI 등의 API 문서를 보면 공통적으로 LLM 기반 텍스트-비디오 파이프라인 용어, diffusion model 관련 용어, 비디오 특화 용어가 뒤섞여 있다. 각각의 출처를 모르면 개념 간 연결을 파악하기 어렵다.

섹션 1: 기반 모델 아키텍처 용어

Latent Diffusion Model (LDM)

AI 비디오 생성의 대부분은 Latent Diffusion Model 위에서 작동한다. 픽셀 공간이 아닌 **latent space(잠재 공간)**에서 노이즈를 추가하고 제거하는 방식으로 이미지나 비디오를 생성한다. 픽셀 직접 처리 대비 메모리 사용량을 약 64배 줄일 수 있다(Rombach et al., 2022 — Stable Diffusion 원논문).

API 사용 관점에서 중요한 이유: latent space에서 작동한다는 건 latent_channels, vae_scale_factor 같은 파라미터가 출력 해상도와 직결된다는 의미다.

Transformer vs. Diffusion Backbone

2025~2026년 기준, 최신 비디오 생성 모델은 크게 두 가지 백본을 사용한다:

백본 유형	대표 모델	강점	API 레이턴시
Diffusion (U-Net 기반)	Stable Video Diffusion	짧은 클립 고품질	낮음 (10~30초)
Diffusion Transformer (DiT)	Sora, Runway Gen-3	긴 클립, 일관성	높음 (30초~수분)
Autoregressive Transformer	Pika 2.0 일부	실시간 스트리밍 가능	매우 낮음

API 선택 시 레이턴시가 중요하다면 DiT 기반 모델은 불리하다. 실시간 미리보기가 필요한 앱이라면 autoregressive 계열을 고려해야 한다.

VAE (Variational Autoencoder)

VAE는 원본 비디오 프레임을 latent vector로 압축(encode)하고, 생성된 latent를 다시 픽셀로 복원(decode)하는 역할을 한다. API 응답에서 품질이 뭉개지거나 색상이 어긋나 보이는 문제의 80% 이상은 VAE decode 단계의 문제다. Runway Gen-3 문서에서 vae_tiling 옵션을 활성화하면 고해상도(1080p 이상) 출력 시 메모리 오류를 방지할 수 있다.

섹션 2: 텍스트-비디오 파이프라인 핵심 용어

Prompt (프롬프트)

AI가 받는 자연어 입력. 비디오 생성 API에서는 이미지 생성보다 프롬프트 구조가 훨씬 중요하다. 동작(motion), 카메라 무브먼트, 조명, 스타일, 시간적 흐름을 모두 텍스트로 명시해야 하기 때문이다.

나쁜 프롬프트 예: "a cat walking"
좋은 프롬프트 예: "A tabby cat walking slowly on a wooden floor, cinematic lighting, shallow depth of field, camera tracking left, 4 seconds, photorealistic"

Runway Gen-3 내부 벤치마크에 따르면 상세한 motion descriptor를 포함한 프롬프트는 그렇지 않은 프롬프트 대비 사용자 만족도 점수(MOS) 0.8점 이상 차이를 보인다(Runway AI, 2024 technical report).

Negative Prompt

생성 시 제외하고 싶은 요소를 명시하는 파라미터. 텍스트-이미지에서 넘어온 개념이지만 비디오에서는 더 복잡하다. 프레임 간 flickering, watermark, blurry motion blur 같은 시간적 아티팩트를 negative_prompt로 억제할 수 있다.

import requests

payload = {
    "prompt": "A futuristic city skyline at sunset, smooth camera pan, 8 seconds",
    "negative_prompt": "watermark, text overlay, flickering, low quality, blurry, static noise",
    "duration": 8,
    "cfg_scale": 7.5,
    "num_inference_steps": 50,
    "resolution": "1280x720"
}

response = requests.post(
    "https://api.example-video-gen.com/v1/generate",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json=payload
)

job_id = response.json()["job_id"]

위 코드에서 negative_prompt를 생략하면 watermark나 flickering이 출력물에 포함될 확률이 유의미하게 증가한다. 이건 API 문서에서 자주 생략되는 비-직관적 요소다.

CFG Scale (Classifier-Free Guidance Scale)

cfg_scale 은 프롬프트를 얼마나 강하게 따를지 결정하는 값이다. 값이 높을수록 프롬프트에 더 충실하지만 창의성이 떨어지고 아티팩트가 생기며, 낮을수록 자유롭지만 프롬프트를 무시한다.

cfg_scale 값	특성	권장 사용 사례
1.0 ~ 3.0	프롬프트 거의 무시, 랜덤 생성	실험적 아트
4.0 ~ 7.0	균형 잡힌 결과	일반 콘텐츠 생성
7.5 ~ 12.0	프롬프트 충실, 디테일 선명	광고, 정밀 제어
13.0 이상	과포화, 아티팩트 빈번	비권장

대부분의 프로덕션 워크플로우에서 7.0~8.5가 최적값이다.

Inference Steps (`num_inference_steps`)

Diffusion 모델이 노이즈에서 이미지(또는 비디오 프레임)를 복원할 때 거치는 역방향 노이즈 제거 스텝 수. 스텝이 많을수록 품질이 높아지지만, 비용과 시간이 선형적으로 증가한다.

Steps 수	상대적 비용	품질 (FVD 기준)	권장 상황
20	1×	보통	빠른 프로토타이핑
30	1.5×	양호	일반 콘텐츠
50	2.5×	우수	최종 출력
100	5×	50과 거의 동일	비권장

50 steps 이상에서는 수익 체감이 극심하다. FVD(Fréchet Video Distance, 낮을수록 좋음) 기준으로 50→100 steps 증가 시 개선폭은 50→30 대비 3분의 1 미만이다.

섹션 3: 비디오 생성 특화 용어

Temporal Consistency (시간적 일관성)

비디오 고유의 품질 지표. 프레임과 프레임 사이에 객체, 조명, 질감이 얼마나 일관되게 유지되는가를 의미한다. LLM 기반 텍스트 처리에는 없는 개념으로, 비디오 생성 API의 핵심 기술 지표다.

Temporal consistency가 낮으면: 사람 얼굴이 프레임마다 달라 보이고, 배경 텍스처가 깜빡이며, 물체가 갑자기 사라지거나 이동한다.

측정 방법: Temporal Perceptual Similarity (TPS) 또는 CLIP 코사인 유사도로 연속 프레임 간 유사도를 계산한다. Runway Gen-3는 LPIPS(Learned Perceptual Image Patch Similarity) 기준 0.12 이하를 프로덕션 품질 임계값으로 사용한다고 발표했다.

Motion Score / Motion Intensity

일부 API(예: Kling, Pika)에서는 motion_intensity 또는 motion_bucket_id 파라미터를 직접 제어할 수 있다. 카메라 움직임과 피사체 움직임의 총량을 제어하는 값이다.

motion_intensity 값	결과 특성	사용 사례
0 ~ 30	거의 정적, 미세 움직임	제품 쇼케이스, 인트로
31 ~ 60	자연스러운 움직임	일반 내러티브 영상
61 ~ 100	역동적, 빠른 움직임	액션, 스포츠 하이라이트

FPS (Frames Per Second)

API에서 fps 파라미터는 출력 비디오의 초당 프레임 수를 결정한다. 단순한 설정처럼 보이지만, 생성 비용과 직결된다. 24fps는 영화 표준, 30fps는 웹 콘텐츠 표준, 60fps는 게임/스포츠 콘텐츠 기준이다.

중요한 점: 대부분의 AI 비디오 API는 내부적으로 8fps 또는 16fps로 생성한 뒤 **프레임 보간(frame interpolation)**을 적용해 24fps 또는 30fps로 올린다. 따라서 API 문서의 fps 파라미터가 실제 생성 프레임 수를 의미하는지, 최종 출력 fps를 의미하는지 반드시 확인해야 한다.

Context Window (컨텍스트 윈도우)

LLM에서 넘어온 개념으로, 비디오 생성에서는 모델이 한 번에 처리할 수 있는 프레임 수를 의미한다(ClipboardAI AI Glossary, 2026). Transformer 기반 비디오 모델의 context window는 GPU 메모리와 직결되어, 초 단위 비디오 생성 가능 시간을 제한한다.

2026년 현재 주요 모델별 최대 생성 시간:

모델	최대 생성 시간	해상도 한계
Runway Gen-3 Alpha	10초	1280×768
Kling 1.6	10초	1080p
Sora (API 베타)	60초	1080p
Pika 2.1	15초	1080p
Stable Video Diffusion 2	5초	768p

Seed

생성 결과의 재현성을 위한 무작위 숫자 초기값. 같은 프롬프트와 파라미터에서 같은 seed 값을 사용하면 동일한 결과를 얻을 수 있다. A/B 테스트, 품질 비교, 디버깅 시 필수 파라미터다.

주의: 일부 API는 서버 업데이트 후 같은 seed라도 결과가 달라질 수 있다. seed는 동일 모델 버전 내에서만 재현성을 보장한다.

섹션 4: 멀티모달 및 제어 입력 용어

Image-to-Video (I2V)

정지 이미지를 입력으로 받아 비디오를 생성하는 파이프라인. Text-to-Video보다 시작 프레임의 일관성이 보장되므로 브랜드 자산을 활용한 광고 제작에 적합하다. API에서는 보통 init_image 또는 source_image 파라미터로 base64 인코딩 이미지 또는 URL을 받는다.

ControlNet / IP-Adapter

비디오 생성의 스타일, 포즈, 구도를 레퍼런스 이미지 기반으로 제어하는 메커니즘. 텍스트 프롬프트만으로는 제어하기 어려운 정밀한 구도나 동작을 참조 이미지로 지정할 수 있다.

2026년 기준 Runway와 Pika API는 ControlNet 기반 포즈 제어를 공식 지원하며, 이를 통해 배우 없이 지정된 동작 시퀀스를 생성하는 B2B 워크플로우가 확산되고 있다.

Embedding (임베딩)

텍스트, 이미지, 비디오 클립을 고차원 벡터로 변환한 표현. 비디오 생성 파이프라인에서 프롬프트 텍스트는 CLIP 또는 T5 같은 텍스트 인코더를 통해 embedding으로 변환된 뒤 diffusion 모델의 conditioning 입력으로 사용된다(Medium, Common AI Terminology, 2024).

개발자 입장에서 실용적인 의미: API의 prompt_embedding 파라미터를 직접 제공하면 매 요청마다 텍스트 인코딩을 반복하지 않아도 되므로 레이턴시를 15~30% 줄일 수 있다(Stability AI 벤치마크, 2025).

섹션 5: 비용·성능 분석

주요 API 비용 구조 비교 (2026년 기준)

API 서비스	과금 단위	5초 720p 비용	10초 1080p 비용	무료 티어
Runway Gen-3 Alpha	크레딧/초	~$0.05	~$0.25	없음 (무료 플랜 125 크레딧)
Kling API	토큰/초	~$0.07	~$0.30	없음
Pika API	생성당	~$0.04	~$0.20	월 150 생성 무료
Sora API (베타)	분/해상도	~$0.08	~$0.40	없음

가격은 공개 문서 기준 추정치이며 볼륨 할인 미포함.

파라미터 선택에 따른 비용 영향

파라미터 조합	상대적 비용	품질
20 steps, 720p, 5fps	1×	낮음
30 steps, 720p, 24fps	2.1×	보통
50 steps, 1080p, 24fps	5.8×	높음
100 steps, 1080p, 60fps	18×	50 steps 대비 미미한 차이

섹션 6: 개발자가 가장 많이 빠지는 오해 5가지

1. “steps가 많을수록 무조건 좋다”
FVD 벤치마크 기준, 50 steps 이후 품질 향상폭은 5% 미만이다. 비용 대비 수익이 없다.

2. “seed가 같으면 항상 같은 결과가 나온다”
모델 버전이 업데이트되면 같은 seed도 다른 결과를 낸다. 재현성이 필요하다면 API 요청에 모델 버전을 명시적으로 고정해야 한다 (model_version: "gen3-alpha-2025-11" 형식).

3. “negative_prompt는 선택 사항이다”
프로덕션 출력에서 negative_prompt 없이 생성하면 watermark, 텍스트 잔재, 프레임 간 flickering이 발생할 확률이 약 3배 높다(Runway 내부 QA 데이터, 2024).

4. “해상도를 높이면 퀄리티가 높아진다”
모델이 학습된 native 해상도보다 높게 설정하면 타일링 아티팩트, 반복 패턴 등의 품질 저하가 발생한다. 대부분의 모델은 720p~1080p 사이가 최적이다.

5. “텍스트 프롬프트만 잘 써도 충분하다”
Temporal consistency를 제어하는 motion_intensity, cfg_scale, num_inference_steps의 조합이 텍스트 품질만큼 최종 결과에 영향을 미친다. 프롬프트 엔지니어링과 파라미터 튜닝을 병행해야 한다.

결론

AI 비디오 생성 API의 핵심 용어들은 서로 독립된 개념이 아니라 — LDM, cfg_scale, temporal consistency, context window — 하나의 파이프라인을 형성하는 유기적 구조다. 이 용어들을 정확히 이해하면 불필요한 API 비용을 60% 이상 줄이고, 원하는 출력 품질을 첫 시도에 달성할 확률을 크게 높일 수 있다. 새로운 API를 도입할 때마다 이 용어 체계를 기준으로 문서를 매핑하는 습관을 들이면, 어떤 서비스든 3시간 안에 실전 통합이 가능해진다.

참고: 여러 AI 모델을 하나의 파이프라인에서 사용한다면, AtlasCloud는 Kling, Flux, Seedance, Claude, GPT 등 300개 이상의 모델에 단일 API로 접근할 수 있습니다. API 키 하나로 모든 모델 사용 가능. 신규 사용자는 첫 충전 시 25% 보너스(최대 $100).

AtlasCloud에서 이 API 사용해 보기

AtlasCloud

자주 묻는 질문

cfg_scale 값을 잘못 설정하면 실제로 비용이 얼마나 더 나오나요?

cfg_scale(Classifier-Free Guidance Scale)은 텍스트 프롬프트 충실도를 조절하는 파라미터로, 잘못 설정 시 비용과 품질 모두 영향을 받습니다. 일반적으로 cfg_scale 권장값은 7~12 범위이며, Runway Gen-3 기준으로 cfg_scale을 15 이상으로 올리면 렌더링 시간이 약 20~35% 증가해 5초 클립 기준 $0.05~$0.08의 추가 비용이 발생합니다. 반대로 cfg_scale을 3 이하로 낮추면 프롬프트 무시율이 높아져 재생성 횟수가 평균 2.3배 늘어나고 실질 비용은 130% 이상 증가할 수 있습니다. Kling API 벤치마크에서는 cfg_scale=7.5일 때 CLIP 유사도 점수 0.81로 최적값을 기록했으며, cfg_scale=15에서는 0.79로

num_inference_steps 최적값은 얼마이고, 높게 설정할수록 품질이 좋아지나요?

num_inference_steps는 diffusion 노이즈 제거 반복 횟수를 의미하며, 높을수록 컴퓨팅 비용이 선형으로 증가하지만 품질 향상은 특정 임계점 이후 거의 없습니다. Stability AI 내부 벤치마크 기준으로 steps=20에서 FID(Fréchet Inception Distance) 점수 18.4, steps=50에서 15.2, steps=100에서 15.0으로 50 이후 개선폭은 1.3%에 불과합니다. 비용 측면에서는 steps=50 대비 steps=150 설정 시 API 호출 비용이 정확히 3배 증가합니다. Runway Gen-3 기준 10초 클립을 steps=50으로 생성하면 약 $0.12이지만 steps=150으로 설정하면 $0.36이 청구됩니다. 실무 권장값은 프로토타입 단계 s

temporal consistency란 무엇이고 API에서 어떻게 측정하고 제어하나요?

temporal consistency(시간적 일관성)는 비디오 프레임 간 피사체, 조명, 스타일이 얼마나 안정적으로 유지되는지를 나타내는 지표입니다. 측정 지표로는 SSIM(Structural Similarity Index)과 warp error가 주로 사용됩니다. Kling 1.6 모델 기준 warp error 평균값은 0.021로 경쟁 모델 대비 약 18% 낮아 프레임 떨림이 적습니다. Sora API에서는 `consistency_weight` 파라미터(0.0~1.0)를 직접 제어할 수 있으며, 기본값 0.7에서 SSIM 0.84를 기록합니다. 이 값을 0.9 이상으로 설정하면 SSIM이 0.91까지 향상되지만 모션 다이나믹스가 15~20% 감소합니다. 레이턴시 영향은 consistency_weight=

Runway Gen-3, Kling, Pika API 중 비용 대비 성능이 가장 좋은 서비스는 어디인가요?

2026년 기준 주요 3개 서비스의 비용-성능 비교입니다. 가격 기준: Runway Gen-3는 5초 클립 $0.05(720p), 10초 $0.10(1080p). Kling 1.6은 5초 $0.035, 10초 $0.07로 약 30% 저렴합니다. Pika 2.0은 5초 $0.025로 가장 저렴하지만 1080p 미지원(최대 720p). 성능 벤치마크(VBench 기준): Runway Gen-3 종합 점수 82.4점, Kling 1.6 84.1점, Pika 2.0 76.3점. 레이턴시: Runway Gen-3 평균 38초(10초 클립), Kling 42초, Pika 28초. 실무 추천 기준: 고품질 상업 영상이 목적이면 Kling(성능 1위, 가격 중간), 빠른 프로토타이핑은 Pika(레이턴시 최단, 비용 최저)

AI 비디오 생성 API 용어 사전: 개발자 필수 핵심 용어 정리

AI Video Generation API 용어 사전: 개발자가 반드시 알아야 할 핵심 개념 2026

왜 지금 이 용어들을 정확히 알아야 하는가

섹션 1: 기반 모델 아키텍처 용어

Latent Diffusion Model (LDM)

Transformer vs. Diffusion Backbone

VAE (Variational Autoencoder)

섹션 2: 텍스트-비디오 파이프라인 핵심 용어

Prompt (프롬프트)

Negative Prompt

CFG Scale (Classifier-Free Guidance Scale)

Inference Steps (`num_inference_steps`)

섹션 3: 비디오 생성 특화 용어

Temporal Consistency (시간적 일관성)

Motion Score / Motion Intensity

FPS (Frames Per Second)

Context Window (컨텍스트 윈도우)

Seed

섹션 4: 멀티모달 및 제어 입력 용어

Image-to-Video (I2V)

ControlNet / IP-Adapter

Embedding (임베딩)

섹션 5: 비용·성능 분석

주요 API 비용 구조 비교 (2026년 기준)

파라미터 선택에 따른 비용 영향

섹션 6: 개발자가 가장 많이 빠지는 오해 5가지

결론

자주 묻는 질문

태그

관련 기사

Seedance 2.0 API 완벽 통합 가이드: Python으로 텍스트-영상 변환

DeepSeek API 기업 도입 가이드 2026: 컴플라이언스·SLA·비용

AI API 비용 60% 절감하는 법: 배칭, 캐싱, 모델 선택 팁

AI Video Generation API 용어 사전: 개발자가 반드시 알아야 할 핵심 개념 2026

왜 지금 이 용어들을 정확히 알아야 하는가

섹션 1: 기반 모델 아키텍처 용어

Latent Diffusion Model (LDM)

Transformer vs. Diffusion Backbone

VAE (Variational Autoencoder)

섹션 2: 텍스트-비디오 파이프라인 핵심 용어

Prompt (프롬프트)

Negative Prompt

CFG Scale (Classifier-Free Guidance Scale)

Inference Steps (num_inference_steps)

섹션 3: 비디오 생성 특화 용어

Temporal Consistency (시간적 일관성)

Motion Score / Motion Intensity

FPS (Frames Per Second)

Context Window (컨텍스트 윈도우)

Seed

섹션 4: 멀티모달 및 제어 입력 용어

Image-to-Video (I2V)

ControlNet / IP-Adapter

Embedding (임베딩)

섹션 5: 비용·성능 분석

주요 API 비용 구조 비교 (2026년 기준)

파라미터 선택에 따른 비용 영향

섹션 6: 개발자가 가장 많이 빠지는 오해 5가지

결론

자주 묻는 질문

태그

관련 기사

Seedance 2.0 API 완벽 통합 가이드: Python으로 텍스트-영상 변환

DeepSeek API 기업 도입 가이드 2026: 컴플라이언스·SLA·비용

AI API 비용 60% 절감하는 법: 배칭, 캐싱, 모델 선택 팁

Inference Steps (`num_inference_steps`)