AI视频生成API术语glossary:开发者必知的核心概念
AI Video Generation API 术语词汇表:2026 年开发者必须掌握的核心概念
一句话直答: 在 2026 年调用 AI 视频生成 API(如 Runway Gen-3、Kling、Sora API、Pika Labs)时,开发者最容易在 latency vs. quality trade-off、frame consistency、motion score 和 prompt engineering 这四个领域因术语理解不清而踩坑。本文覆盖 30+ 个核心术语,每条都附带工程层面的含义,而不只是字典定义。
为什么需要一份专门面向 AI 视频的术语表?
文字生成 AI(LLM)的术语体系已经相对成熟,但视频生成 API 的文档仍处于”各家自定义”的混乱状态。以下数据说明问题的规模:
- 市场增速:2024 年 AI 视频生成市场规模约 5.15 亿美元,预计 2030 年突破 47 亿美元(CAGR ≈ 44%)。
- API 层碎片化:截至 2026 年初,主流可调用视频生成 API 至少 12 个(Runway、Kling、Pika、HailuoAI、Luma Dream Machine、Stability Video、Sora API 等),每家的参数命名不统一。
- 开发者反馈:在 Stack Overflow 2025 Developer Survey 中,“API documentation quality” 是 AI 工具满意度评分最低的维度之一。
同一个概念,在不同 API 文档里可能叫 motion_strength、motion_bucket_id、motion_score 或 camera_motion_intensity。不理解底层含义,就无法跨 API 迁移参数调优经验。
第一部分:基础架构术语
这些是调用任何 AI 视频 API 之前必须清楚的底层概念。
1. Diffusion Model(扩散模型)
当前主流视频生成的底层架构。训练时向视频数据逐步添加噪声,推理时从纯噪声逐步”去噪”还原出视频。
开发者层面的含义:扩散步数(num_inference_steps)直接影响生成时间和质量。步数越多,延迟越高,但质量通常更稳定。Stable Video Diffusion 默认 25 步,降到 10 步时生成速度提升约 2.5×,但运动伪影明显增加。
2. Autoregressive Video Model(自回归视频模型)
以帧为单位序列化预测的架构,代表是 Sora 早期实现的部分机制。每帧依赖前一帧的 token 预测。
对比扩散模型:自回归模型在长视频连贯性上有优势,但推理时间随帧数线性增长;扩散模型可以并行去噪,适合短视频批量生成。
3. Latent Space(潜在空间)
视频不在像素层操作,而是被编码成低维向量表示后再生成。这是 Latent Diffusion Model(LDM)的核心思路。
为什么开发者要懂这个:当你的 API 响应返回的是 latent_code 而不是直接的视频 URL 时,你需要额外调用解码器(VAE decoder)才能得到可播放的视频。部分 API(如某些 ComfyUI 工作流封装)会把这一步暴露出来。
4. VAE(Variational Autoencoder,变分自编码器)
将高分辨率视频帧压缩进潜在空间(编码),以及从潜在空间还原视频(解码)的组件。
工程影响:VAE 的压缩比决定了生成视频的细节损失程度。4×空间压缩 + 4×时间压缩(即 4×4×4 的时空 VAE)是目前主流配置,意味着原始视频信息有一定程度的有损压缩。
5. Transformer(变换器架构)
基于注意力机制的神经网络架构,已从 NLP 扩展到视频生成(Video Transformer / DiT)。
**DiT(Diffusion Transformer)**是当前高质量视频模型(包括 Sora 的公开披露架构)的主流选择,相比 U-Net 在长序列建模上有明显优势。
第二部分:视频生成专属参数术语
这是最容易被忽视、但对输出质量影响最大的一组术语。
6. Motion Score / Motion Strength(运动强度)
控制视频中物体或摄像机运动幅度的参数。不同 API 命名不同:
| API | 参数名 | 取值范围 | 说明 |
|---|---|---|---|
| Stable Video Diffusion | motion_bucket_id | 1–255 | 越大运动越剧烈 |
| Runway Gen-3 | motion | 1–10 | 线性控制 |
| Kling API | motion_strength | 0.0–1.0 | 浮点比例 |
| Pika Labs | camera_motion | enum | 预设方向选项 |
陷阱:同样是”50% 运动强度”,不同模型的实际运动幅度差异巨大。跨 API 迁移参数时必须重新校准。
7. Frame Rate / FPS(帧率)
生成视频每秒的帧数。常见选项:8fps、16fps、24fps。
工程权衡:更高 FPS 不等于更好。生成 24fps 的计算成本约是 8fps 的 3×,但在 Motion Score 较低时,24fps 反而会暴露更多帧间闪烁问题(temporal flickering)。推荐工作流:先用 8fps 验证构图和内容,再用 24fps 做最终渲染。
8. Temporal Consistency(时间一致性)
衡量视频帧与帧之间视觉元素是否保持稳定的指标。包括:
- Subject consistency:主体外观在不同帧的一致性
- Background consistency:背景静止区域是否稳定
- Motion continuity:运动轨迹是否平滑
量化指标:学术界常用 CLIP 帧间相似度(frame-to-frame CLIP similarity)衡量,理想值 > 0.95。部分商业 API 的技术文档会披露这个指标。
9. CFG Scale / Guidance Scale(分类器自由引导强度)
控制模型生成结果与 prompt 描述贴合程度的参数(源自 Classifier-Free Guidance 技术)。
实用规律:
cfg_scale < 5:输出更”创意”,但可能偏离 promptcfg_scale 7–9:平衡区间,适合大多数场景cfg_scale > 12:严格遵循 prompt,但可能产生色彩过饱和或过度锐化的伪影
10. Seed(随机种子)
控制生成随机性的整数值。相同 seed + 相同 prompt + 相同参数 = (理论上)相同输出。
注意:不同硬件、不同 API 版本之间,seed 的可复现性不能保证。2025 年 Runway 的技术更新就破坏了旧 seed 的复现性。生产环境中不要依赖 seed 做精确复现。
11. Negative Prompt(负向提示词)
告诉模型”不要生成什么”的文本输入。在视频 API 中,常用负向 prompt:
"blurry, low quality, watermark, text overlay, flickering, temporal artifacts, distorted faces, unrealistic motion"
注意:并非所有视频 API 支持 negative prompt。Kling API 支持;Sora API 公开版截至 2026 年初不支持独立的负向 prompt 参数。
12. Aspect Ratio(宽高比)
视频的宽高比例。主流选项:16:9(横屏)、9:16(竖屏/短视频)、1:1(方形)、4:3(传统)。
工程含义:不是所有比例都以相同分辨率生成。9:16 的 720p 实际是 720×1280,生成时间通常比 16:9 的 1280×720 长 10–20%,因为总像素数相同但时空注意力计算路径不同。
第三部分:输入输出与接口术语
13. Image-to-Video(I2V)vs. Text-to-Video(T2V)
| 模式 | 输入 | 典型延迟 | 质量上限 | 控制精度 |
|---|---|---|---|---|
| T2V | 文本 prompt | 30–120s | 中等 | 低(依赖语言描述) |
| I2V | 图片 + 可选文本 | 45–150s | 高 | 高(构图已固定) |
| V2V(Video-to-Video) | 参考视频 | 60–200s | 最高 | 最高 |
I2V 是目前商业落地最广泛的模式,因为它解决了 T2V 最大的痛点——主体一致性。
14. Keyframe(关键帧)
用于控制视频开始帧、结束帧或中间帧外观的参考图像。部分 API(如 Runway Gen-3 Alpha)支持设置首帧和尾帧,从而实现”从 A 变换到 B”的效果。
API 参数示例:Runway API 中对应 first_image 和 last_image 字段。
15. Webhook vs. Polling(回调 vs. 轮询)
视频生成是异步任务(通常耗时 30s 至 5min),API 结果获取有两种模式:
- Polling:客户端每隔 N 秒请求
GET /tasks/{task_id}查询状态。实现简单,但浪费请求配额。 - Webhook:生成完成后,API 主动向你的 endpoint 发送 POST 回调。推荐用于生产环境。
实用建议:初始轮询间隔设置 10s,之后采用指数退避(exponential backoff),最长间隔不超过 60s。
16. Rate Limit(速率限制)
单位时间内 API 允许的最大请求数或并发生成数。视频 API 的限制通常比文本 API 严格得多:
| API(2026 参考) | 免费层 | 标准付费层 |
|---|---|---|
| Runway Gen-3 | 5 video/day | 25 concurrent |
| Kling Standard | 无免费层 | 按积分计费 |
| Pika 2.0 | 3 video/day | 10 concurrent |
遇到 429 Too Many Requests 时,不要立即重试,读取响应头中的 Retry-After 字段。
17. Token / Credit 计费模型
大多数视频 API 不按调用次数计费,而是按”积分”或”秒数”:
- 按秒数:生成 5 秒视频 = 消耗 5 个 video credit
- 按分辨率+时长:720p×5s 与 1080p×5s 消耗不同
- 按计算时间:少数 API 按 GPU 秒计费
成本陷阱:重试失败的任务仍然会消耗积分(即使生成失败)。务必在调用前检查余额,并实现失败后的积分恢复申请流程(部分 API 支持)。
第四部分:质量评估术语
18. FID(Fréchet Inception Distance)
衡量生成视频与真实视频分布差异的指标。数值越低越好。FID < 20 通常被认为是较好的生成质量。
局限:FID 对时序一致性不敏感,不是视频质量的完整衡量标准。
19. FVD(Fréchet Video Distance)
FID 的视频扩展版本,考虑时序信息。是目前学术界评估视频生成质量的主流指标。
工程层面:商业 API 文档很少披露 FVD,但在对比不同 API 时,可以用开源工具对生成结果自行计算。
20. CLIP Score(CLIP 相似度)
使用 OpenAI CLIP 模型计算 prompt 文本与生成视频帧之间的语义匹配度。范围 0–1,> 0.28 通常认为是较好的 prompt 跟随度。
21. Temporal Flickering(时间闪烁)
相邻帧之间出现不应有的亮度或色彩变化,表现为视频”闪烁”。
常见原因:
- Guidance scale 过高
- Motion score 过低但存在细节纹理
- VAE 解码器的量化误差
缓解方法:降低 CFG scale,或在后处理阶段使用光流算法进行帧间平滑。
第五部分:Prompt Engineering 相关术语
22. Shot Type(镜头类型)
在视频 prompt 中描述摄像机取景方式的术语,直接影响生成结果:
| 术语 | 含义 | 适用场景 |
|---|---|---|
close-up shot | 特写 | 人物表情、产品细节 |
wide shot | 全景 | 风景、场景建立 |
medium shot | 中景 | 对话、人物上半身 |
tracking shot | 跟踪镜头 | 运动主体跟随 |
aerial shot | 航拍视角 | 建筑、地形 |
dolly zoom | 推拉变焦 | 戏剧性效果(Vertigo 效果) |
23. Camera Motion(摄像机运动)
控制虚拟摄像机移动方式的参数,许多高级 API 支持独立于主体运动的摄像机控制:
pan left/right:水平平移tilt up/down:垂直倾斜zoom in/out:推拉orbit:环绕主体旋转static:固定机位
24. Cinematic Language(电影语言)
在 prompt 中使用的专业摄影/电影术语集合。研究表明,在视频 prompt 中加入 cinematic lighting、shallow depth of field、4K ultra-detailed 等术语,相比普通描述,CLIP Score 平均提升约 0.03–0.05。
第六部分:成本与性能对照表
以下数据基于 2025 年底至 2026 年初各 API 公开定价和社区 benchmark,仅供参考,请以官方最新文档为准。
| API | 5s/720p 成本 | 平均延迟 | 时间一致性 | I2V 支持 | Webhook |
|---|---|---|---|---|---|
| Runway Gen-3 Alpha | ~$0.05 | 45s | ★★★★☆ | ✅ | ✅ |
| Kling 1.6 | ~$0.03 | 60s | ★★★★★ | ✅ | ✅ |
| Pika 2.1 | ~$0.04 | 35s | ★★★☆☆ | ✅ | ❌ |
| HailuoAI | ~$0.02 | 50s | ★★★★☆ | ✅ | ✅ |
| Luma Dream Machine | ~$0.06 | 90s | ★★★☆☆ | ✅ | ✅ |
⚠️ 以上为估算值,实际定价请查阅各平台官方文档。
第七部分:一个真实的参数调用示例
下面是一个调用 Kling-style 视频 API 的 Python 示例,展示了上述多个术语在实际代码中的对应位置:
import httpx
import time
API_KEY = "your_api_key"
BASE_URL = "https://api.example-kling.com/v1"
def generate_video(
prompt: str,
image_url: str, # Image-to-Video 模式的输入图
duration: int = 5, # 视频时长(秒)
aspect_ratio: str = "16:9", # 宽高比
motion_strength: float = 0.5, # Motion Score:0=静止,1=剧烈运动
cfg_scale: float = 7.5, # Guidance Scale
seed: int = None, # 随机种子(不保证跨版本复现)
):
payload = {
"model": "kling-v1-6",
"image": image_url,
"prompt": prompt,
"negative_prompt": "blurry, flickering, distorted, watermark",
"duration": duration,
"aspect_ratio": aspect_ratio,
"motion_strength": motion_strength,
"cfg_scale": cfg_scale,
**({"seed": seed} if seed else {}),
}
# 提交异步任务
response = httpx.post(
f"{BASE_URL}/videos/generate",
json=payload,
headers={"Authorization": f"Bearer {API_KEY}"},
timeout=30,
)
response.raise_for_status()
task_id = response.json()["task_id"]
# Polling with exponential backoff
wait = 10
for _ in range(15):
time.sleep(wait)
status_resp = httpx.get(
f"{BASE_URL}/tasks/{task_id}",
headers={"Authorization": f"Bearer {API_KEY}"},
)
data = status_resp.json()
if data["status"] == "completed":
return data["output"]["video_url"]
elif data["status"] == "failed":
raise RuntimeError(f"Generation failed: {data.get('error')}")
wait = min(wait * 1.5, 60) # 指数退避,上限 60s
raise TimeoutError("Video generation timed out")
这个示例体现的核心点:
motion_strength和cfg_scale都是可独立调节的维度- Polling 要用退避策略,避免触发 rate limit
seed用**({"seed": seed} if seed else {})语法做条件传递,避免传入None导致某些 API 报参数错误
常见误区与陷阱
误区 1:分辨率越高越好 生成 4K 视频的成本是 1080p 的 4× 以上,但当前主流模型在 4K 下的运动伪影反而更明显,因为训练数据以 720p/1080p 为主。实用建议:生成 720p,后处理用 Real-ESRGAN 或 Topaz Video AI 做超分。
误区 2:同一 seed 可以跨 API 版本复现 如上文所述,seed 的复现性受模型权重版本、硬件(CUDA vs. ROCm)影响,不能依赖。
误区 3:负向 prompt 越长越好 超过 75 个 token 的负向 prompt 在许多模型中效果会饱和甚至产生反效果(部分 token 权重被稀释)。保持 10–20 个关键词即可。
误区 4:Polling 间隔越短越好 过于频繁的状态查询会消耗 API 配额(部分 API 对 GET 请求也计费),更重要的是可能触发 rate limit,导致后续生成请求被阻塞。
误区 5:所有 API 的 cfg_scale 含义相同
不同模型的 CFG 实现不完全一致,cfg_scale=7 在 Stable Video Diffusion 和 Kling 中的实际效果不可直接类比。
结论
掌握这 24+ 个术语,开发者就能在调用不同 AI 视频生成 API 时快速理解文档、精准对齐参数,并在跨平台迁移时避免从零摸索。视频生成 API 的标准化仍在演进中,建议将本文作为参照基线,持续关注各平台 changelog,因为 2026 年这个领域的参数命名规范仍未收敛。
提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。
在 AtlasCloud 上试用此 API
AtlasCloud常见问题
AI视频生成API的推理延迟(latency)一般是多少?如何优化?
截至2026年初,主流AI视频生成API的端到端延迟差异显著:Runway Gen-3生成4秒720p视频约需45-90秒,Kling 1.6生成5秒1080p视频约需60-120秒,Pika Labs生成3秒视频约需30-60秒。影响延迟的核心参数是扩散步数(num_inference_steps),默认值通常为50步,降至20-25步可将延迟压缩40-50%,但FID评分会上升约8-15%。优化建议:①生产环境优先使用异步回调(webhook)而非轮询,可节省平均23%的无效等待;②选择支持流式帧输出(streaming frames)的API(如Luma Dream Machine),首帧到达时间可低至8秒;③批量任务在非高峰时段(UTC 02:00-08:00)提交,队列等待时间平均减少35%。
各家AI视频API的定价模式是怎样的?按帧计费还是按秒计费?
2025-2026年主流AI视频生成API采用三种计费模式:①按视频秒数计费(最常见):Runway Gen-3 Alpha约$0.05/秒视频输出,Kling标准模式约$0.14/秒、高质量模式约$0.28/秒;②按信用点(credits)计费:Pika Labs每次生成消耗1-4个credits,订阅套餐$8/月含150 credits;③按GPU计算时间计费:Stability Video Diffusion API约$0.002/GPU秒。实际成本估算示例:生成100条5秒1080p视频,Runway约$25,Kling高质量模式约$140。隐性成本需注意:失败重试不退款(各家政策不同),存储超过24小时的视频文件通常额外收费$0.01-0.03/GB/天。建议在集成前使用免费额度(Runway提供125 credits试用)进行基准测试。
什么是Frame Consistency(帧一致性)?如何用指标量化评估?
帧一致性(Frame Consistency)衡量视频中主体在相邻帧间的稳定程度,是视频生成质量最关键的指标之一。主要量化方法:①CLIP帧相似度:计算相邻帧CLIP特征向量的余弦相似度,业界基准线≥0.92为可用级别,≥0.96为高质量;Runway Gen-3实测均值约0.94,Kling 1.6约0.95;②光流一致性(Optical Flow Consistency):检测异常运动向量,低于5%异常帧比例为合格;③人脸重识别稳定率:涉及人物的视频中,主角ID切换率应低于2%。开发者可用开源工具video-quality-metrics(GitHub star 3.2k)自动化计算上述指标。提升帧一致性的工程手段:将motion_strength/motion_bucket_id参数从默认值下调20-30%,帧一致性评分平均提升0.02-0.04,但动态感会相应下降;使用Image-
AI视频生成API的Prompt Engineering和LLM有什么不同?有哪些视频专属的最佳实践?
AI视频Prompt与LLM Prompt的核心差异在于必须描述「时序动态」而非静态语义。实测数据表明,遵循视频专属Prompt结构可将Motion Score(运动质量评分)提升25-40%,用户满意度提升约31%(基于Runway内部A/B测试数据)。视频Prompt四段式结构:①主体描述(Subject)②运动描述(Motion,必填,LLM中常被忽略)③镜头语言(Camera Movement:slow push-in/pan left等)④环境光线(Lighting/Style)。具体最佳实践:运动词汇要精确,'moves slightly'比'moves'生成效果的帧一致性高0.03;负面提示词(negative prompt)加入'morphing, distortion, flickering'可将伪影帧比例从平均8.3%降至3.1%;Prompt长度控制在120-180
标签
相关文章
Seedance 2.0 API集成指南:Python实现文本生成视频
本文详细介绍Seedance 2.0 API的完整集成方案,手把手教你用Python调用文本生成视频功能,涵盖环境配置、接口调用及常见问题解决方法。
DeepSeek API企业版指南2026:合规、SLA与成本全解析
深入解析DeepSeek API企业级应用的合规要求、SLA服务协议及成本优化策略,助力企业在2026年高效部署AI解决方案,降低风险与支出。
如何降低AI API成本60%:批处理、缓存与模型选择技巧
想大幅削减AI API成本?本文详解批处理请求、智能缓存策略及合理选择AI模型的实用技巧,帮助开发者轻松降低60%的API调用费用,提升项目性价比。