AI视频生成API术语glossary：开发者必知的核心概念

AI API Playbook · 2026年3月13日 · 13 分钟阅读

AI Video Generation API 术语词汇表：2026 年开发者必须掌握的核心概念

一句话直答： 在 2026 年调用 AI 视频生成 API（如 Runway Gen-3、Kling、Sora API、Pika Labs）时，开发者最容易在 latency vs. quality trade-off、frame consistency、motion score 和 prompt engineering 这四个领域因术语理解不清而踩坑。本文覆盖 30+ 个核心术语，每条都附带工程层面的含义，而不只是字典定义。

为什么需要一份专门面向 AI 视频的术语表？

文字生成 AI（LLM）的术语体系已经相对成熟，但视频生成 API 的文档仍处于”各家自定义”的混乱状态。以下数据说明问题的规模：

市场增速：2024 年 AI 视频生成市场规模约 5.15 亿美元，预计 2030 年突破 47 亿美元（CAGR ≈ 44%）。
API 层碎片化：截至 2026 年初，主流可调用视频生成 API 至少 12 个（Runway、Kling、Pika、HailuoAI、Luma Dream Machine、Stability Video、Sora API 等），每家的参数命名不统一。
开发者反馈：在 Stack Overflow 2025 Developer Survey 中，“API documentation quality” 是 AI 工具满意度评分最低的维度之一。

同一个概念，在不同 API 文档里可能叫 motion_strength、motion_bucket_id、motion_score 或 camera_motion_intensity。不理解底层含义，就无法跨 API 迁移参数调优经验。

第一部分：基础架构术语

这些是调用任何 AI 视频 API 之前必须清楚的底层概念。

1. Diffusion Model（扩散模型）

当前主流视频生成的底层架构。训练时向视频数据逐步添加噪声，推理时从纯噪声逐步”去噪”还原出视频。

开发者层面的含义：扩散步数（num_inference_steps）直接影响生成时间和质量。步数越多，延迟越高，但质量通常更稳定。Stable Video Diffusion 默认 25 步，降到 10 步时生成速度提升约 2.5×，但运动伪影明显增加。

2. Autoregressive Video Model（自回归视频模型）

以帧为单位序列化预测的架构，代表是 Sora 早期实现的部分机制。每帧依赖前一帧的 token 预测。

对比扩散模型：自回归模型在长视频连贯性上有优势，但推理时间随帧数线性增长；扩散模型可以并行去噪，适合短视频批量生成。

3. Latent Space（潜在空间）

视频不在像素层操作，而是被编码成低维向量表示后再生成。这是 Latent Diffusion Model（LDM）的核心思路。

为什么开发者要懂这个：当你的 API 响应返回的是 latent_code 而不是直接的视频 URL 时，你需要额外调用解码器（VAE decoder）才能得到可播放的视频。部分 API（如某些 ComfyUI 工作流封装）会把这一步暴露出来。

4. VAE（Variational Autoencoder，变分自编码器）

将高分辨率视频帧压缩进潜在空间（编码），以及从潜在空间还原视频（解码）的组件。

工程影响：VAE 的压缩比决定了生成视频的细节损失程度。4×空间压缩 + 4×时间压缩（即 4×4×4 的时空 VAE）是目前主流配置，意味着原始视频信息有一定程度的有损压缩。

5. Transformer（变换器架构）

基于注意力机制的神经网络架构，已从 NLP 扩展到视频生成（Video Transformer / DiT）。

**DiT（Diffusion Transformer）**是当前高质量视频模型（包括 Sora 的公开披露架构）的主流选择，相比 U-Net 在长序列建模上有明显优势。

第二部分：视频生成专属参数术语

这是最容易被忽视、但对输出质量影响最大的一组术语。

6. Motion Score / Motion Strength（运动强度）

控制视频中物体或摄像机运动幅度的参数。不同 API 命名不同：

API	参数名	取值范围	说明
Stable Video Diffusion	`motion_bucket_id`	1–255	越大运动越剧烈
Runway Gen-3	`motion`	1–10	线性控制
Kling API	`motion_strength`	0.0–1.0	浮点比例
Pika Labs	`camera_motion`	enum	预设方向选项

陷阱：同样是”50% 运动强度”，不同模型的实际运动幅度差异巨大。跨 API 迁移参数时必须重新校准。

7. Frame Rate / FPS（帧率）

生成视频每秒的帧数。常见选项：8fps、16fps、24fps。

工程权衡：更高 FPS 不等于更好。生成 24fps 的计算成本约是 8fps 的 3×，但在 Motion Score 较低时，24fps 反而会暴露更多帧间闪烁问题（temporal flickering）。推荐工作流：先用 8fps 验证构图和内容，再用 24fps 做最终渲染。

8. Temporal Consistency（时间一致性）

衡量视频帧与帧之间视觉元素是否保持稳定的指标。包括：

Subject consistency：主体外观在不同帧的一致性
Background consistency：背景静止区域是否稳定
Motion continuity：运动轨迹是否平滑

量化指标：学术界常用 CLIP 帧间相似度（frame-to-frame CLIP similarity）衡量，理想值 > 0.95。部分商业 API 的技术文档会披露这个指标。

9. CFG Scale / Guidance Scale（分类器自由引导强度）

控制模型生成结果与 prompt 描述贴合程度的参数（源自 Classifier-Free Guidance 技术）。

实用规律：

cfg_scale < 5：输出更”创意”，但可能偏离 prompt
cfg_scale 7–9：平衡区间，适合大多数场景
cfg_scale > 12：严格遵循 prompt，但可能产生色彩过饱和或过度锐化的伪影

10. Seed（随机种子）

控制生成随机性的整数值。相同 seed + 相同 prompt + 相同参数 = （理论上）相同输出。

注意：不同硬件、不同 API 版本之间，seed 的可复现性不能保证。2025 年 Runway 的技术更新就破坏了旧 seed 的复现性。生产环境中不要依赖 seed 做精确复现。

11. Negative Prompt（负向提示词）

告诉模型”不要生成什么”的文本输入。在视频 API 中，常用负向 prompt：

"blurry, low quality, watermark, text overlay, flickering, temporal artifacts, distorted faces, unrealistic motion"

注意：并非所有视频 API 支持 negative prompt。Kling API 支持；Sora API 公开版截至 2026 年初不支持独立的负向 prompt 参数。

12. Aspect Ratio（宽高比）

视频的宽高比例。主流选项：16:9（横屏）、9:16（竖屏/短视频）、1:1（方形）、4:3（传统）。

工程含义：不是所有比例都以相同分辨率生成。9:16 的 720p 实际是 720×1280，生成时间通常比 16:9 的 1280×720 长 10–20%，因为总像素数相同但时空注意力计算路径不同。

第三部分：输入输出与接口术语

13. Image-to-Video（I2V）vs. Text-to-Video（T2V）

模式	输入	典型延迟	质量上限	控制精度
T2V	文本 prompt	30–120s	中等	低（依赖语言描述）
I2V	图片 + 可选文本	45–150s	高	高（构图已固定）
V2V（Video-to-Video）	参考视频	60–200s	最高	最高

I2V 是目前商业落地最广泛的模式，因为它解决了 T2V 最大的痛点——主体一致性。

14. Keyframe（关键帧）

用于控制视频开始帧、结束帧或中间帧外观的参考图像。部分 API（如 Runway Gen-3 Alpha）支持设置首帧和尾帧，从而实现”从 A 变换到 B”的效果。

API 参数示例：Runway API 中对应 first_image 和 last_image 字段。

15. Webhook vs. Polling（回调 vs. 轮询）

视频生成是异步任务（通常耗时 30s 至 5min），API 结果获取有两种模式：

Polling：客户端每隔 N 秒请求 GET /tasks/{task_id} 查询状态。实现简单，但浪费请求配额。
Webhook：生成完成后，API 主动向你的 endpoint 发送 POST 回调。推荐用于生产环境。

实用建议：初始轮询间隔设置 10s，之后采用指数退避（exponential backoff），最长间隔不超过 60s。

16. Rate Limit（速率限制）

单位时间内 API 允许的最大请求数或并发生成数。视频 API 的限制通常比文本 API 严格得多：

API（2026 参考）	免费层	标准付费层
Runway Gen-3	5 video/day	25 concurrent
Kling Standard	无免费层	按积分计费
Pika 2.0	3 video/day	10 concurrent

遇到 429 Too Many Requests 时，不要立即重试，读取响应头中的 Retry-After 字段。

17. Token / Credit 计费模型

大多数视频 API 不按调用次数计费，而是按”积分”或”秒数”：

按秒数：生成 5 秒视频 = 消耗 5 个 video credit
按分辨率+时长：720p×5s 与 1080p×5s 消耗不同
按计算时间：少数 API 按 GPU 秒计费

成本陷阱：重试失败的任务仍然会消耗积分（即使生成失败）。务必在调用前检查余额，并实现失败后的积分恢复申请流程（部分 API 支持）。

第四部分：质量评估术语

18. FID（Fréchet Inception Distance）

衡量生成视频与真实视频分布差异的指标。数值越低越好。FID < 20 通常被认为是较好的生成质量。

局限：FID 对时序一致性不敏感，不是视频质量的完整衡量标准。

19. FVD（Fréchet Video Distance）

FID 的视频扩展版本，考虑时序信息。是目前学术界评估视频生成质量的主流指标。

工程层面：商业 API 文档很少披露 FVD，但在对比不同 API 时，可以用开源工具对生成结果自行计算。

20. CLIP Score（CLIP 相似度）

使用 OpenAI CLIP 模型计算 prompt 文本与生成视频帧之间的语义匹配度。范围 0–1，> 0.28 通常认为是较好的 prompt 跟随度。

21. Temporal Flickering（时间闪烁）

相邻帧之间出现不应有的亮度或色彩变化，表现为视频”闪烁”。

常见原因：

Guidance scale 过高
Motion score 过低但存在细节纹理
VAE 解码器的量化误差

缓解方法：降低 CFG scale，或在后处理阶段使用光流算法进行帧间平滑。

第五部分：Prompt Engineering 相关术语

22. Shot Type（镜头类型）

在视频 prompt 中描述摄像机取景方式的术语，直接影响生成结果：

术语	含义	适用场景
`close-up shot`	特写	人物表情、产品细节
`wide shot`	全景	风景、场景建立
`medium shot`	中景	对话、人物上半身
`tracking shot`	跟踪镜头	运动主体跟随
`aerial shot`	航拍视角	建筑、地形
`dolly zoom`	推拉变焦	戏剧性效果（Vertigo 效果）

23. Camera Motion（摄像机运动）

控制虚拟摄像机移动方式的参数，许多高级 API 支持独立于主体运动的摄像机控制：

pan left/right：水平平移
tilt up/down：垂直倾斜
zoom in/out：推拉
orbit：环绕主体旋转
static：固定机位

24. Cinematic Language（电影语言）

在 prompt 中使用的专业摄影/电影术语集合。研究表明，在视频 prompt 中加入 cinematic lighting、shallow depth of field、4K ultra-detailed 等术语，相比普通描述，CLIP Score 平均提升约 0.03–0.05。

第六部分：成本与性能对照表

以下数据基于 2025 年底至 2026 年初各 API 公开定价和社区 benchmark，仅供参考，请以官方最新文档为准。

API	5s/720p 成本	平均延迟	时间一致性	I2V 支持	Webhook
Runway Gen-3 Alpha	~$0.05	45s	★★★★☆	✅	✅
Kling 1.6	~$0.03	60s	★★★★★	✅	✅
Pika 2.1	~$0.04	35s	★★★☆☆	✅	❌
HailuoAI	~$0.02	50s	★★★★☆	✅	✅
Luma Dream Machine	~$0.06	90s	★★★☆☆	✅	✅

⚠️ 以上为估算值，实际定价请查阅各平台官方文档。

第七部分：一个真实的参数调用示例

下面是一个调用 Kling-style 视频 API 的 Python 示例，展示了上述多个术语在实际代码中的对应位置：

import httpx
import time

API_KEY = "your_api_key"
BASE_URL = "https://api.example-kling.com/v1"

def generate_video(
    prompt: str,
    image_url: str,          # Image-to-Video 模式的输入图
    duration: int = 5,        # 视频时长（秒）
    aspect_ratio: str = "16:9",  # 宽高比
    motion_strength: float = 0.5,  # Motion Score：0=静止，1=剧烈运动
    cfg_scale: float = 7.5,       # Guidance Scale
    seed: int = None,             # 随机种子（不保证跨版本复现）
):
    payload = {
        "model": "kling-v1-6",
        "image": image_url,
        "prompt": prompt,
        "negative_prompt": "blurry, flickering, distorted, watermark",
        "duration": duration,
        "aspect_ratio": aspect_ratio,
        "motion_strength": motion_strength,
        "cfg_scale": cfg_scale,
        **({"seed": seed} if seed else {}),
    }

    # 提交异步任务
    response = httpx.post(
        f"{BASE_URL}/videos/generate",
        json=payload,
        headers={"Authorization": f"Bearer {API_KEY}"},
        timeout=30,
    )
    response.raise_for_status()
    task_id = response.json()["task_id"]

    # Polling with exponential backoff
    wait = 10
    for _ in range(15):
        time.sleep(wait)
        status_resp = httpx.get(
            f"{BASE_URL}/tasks/{task_id}",
            headers={"Authorization": f"Bearer {API_KEY}"},
        )
        data = status_resp.json()
        if data["status"] == "completed":
            return data["output"]["video_url"]
        elif data["status"] == "failed":
            raise RuntimeError(f"Generation failed: {data.get('error')}")
        wait = min(wait * 1.5, 60)  # 指数退避，上限 60s

    raise TimeoutError("Video generation timed out")

这个示例体现的核心点：

motion_strength 和 cfg_scale 都是可独立调节的维度
Polling 要用退避策略，避免触发 rate limit
seed 用 **({"seed": seed} if seed else {}) 语法做条件传递，避免传入 None 导致某些 API 报参数错误

常见误区与陷阱

误区 1：分辨率越高越好 生成 4K 视频的成本是 1080p 的 4× 以上，但当前主流模型在 4K 下的运动伪影反而更明显，因为训练数据以 720p/1080p 为主。实用建议：生成 720p，后处理用 Real-ESRGAN 或 Topaz Video AI 做超分。

误区 2：同一 seed 可以跨 API 版本复现 如上文所述，seed 的复现性受模型权重版本、硬件（CUDA vs. ROCm）影响，不能依赖。

误区 3：负向 prompt 越长越好 超过 75 个 token 的负向 prompt 在许多模型中效果会饱和甚至产生反效果（部分 token 权重被稀释）。保持 10–20 个关键词即可。

误区 4：Polling 间隔越短越好 过于频繁的状态查询会消耗 API 配额（部分 API 对 GET 请求也计费），更重要的是可能触发 rate limit，导致后续生成请求被阻塞。

误区 5：所有 API 的 cfg_scale 含义相同 不同模型的 CFG 实现不完全一致，cfg_scale=7 在 Stable Video Diffusion 和 Kling 中的实际效果不可直接类比。

结论

掌握这 24+ 个术语，开发者就能在调用不同 AI 视频生成 API 时快速理解文档、精准对齐参数，并在跨平台迁移时避免从零摸索。视频生成 API 的标准化仍在演进中，建议将本文作为参照基线，持续关注各平台 changelog，因为 2026 年这个领域的参数命名规范仍未收敛。

提示： 如果你需要在同一个项目中使用多个 AI 模型，AtlasCloud 提供统一 API 接入 300+ 模型（Kling、Flux、Seedance、Claude、GPT 等），一个 key 全部搞定。新用户首次充值享 25% 赠送（最高 $100）。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

AI视频生成API的推理延迟（latency）一般是多少？如何优化？

截至2026年初，主流AI视频生成API的端到端延迟差异显著：Runway Gen-3生成4秒720p视频约需45-90秒，Kling 1.6生成5秒1080p视频约需60-120秒，Pika Labs生成3秒视频约需30-60秒。影响延迟的核心参数是扩散步数（num_inference_steps），默认值通常为50步，降至20-25步可将延迟压缩40-50%，但FID评分会上升约8-15%。优化建议：①生产环境优先使用异步回调（webhook）而非轮询，可节省平均23%的无效等待；②选择支持流式帧输出（streaming frames）的API（如Luma Dream Machine），首帧到达时间可低至8秒；③批量任务在非高峰时段（UTC 02:00-08:00）提交，队列等待时间平均减少35%。

各家AI视频API的定价模式是怎样的？按帧计费还是按秒计费？

2025-2026年主流AI视频生成API采用三种计费模式：①按视频秒数计费（最常见）：Runway Gen-3 Alpha约$0.05/秒视频输出，Kling标准模式约$0.14/秒、高质量模式约$0.28/秒；②按信用点（credits）计费：Pika Labs每次生成消耗1-4个credits，订阅套餐$8/月含150 credits；③按GPU计算时间计费：Stability Video Diffusion API约$0.002/GPU秒。实际成本估算示例：生成100条5秒1080p视频，Runway约$25，Kling高质量模式约$140。隐性成本需注意：失败重试不退款（各家政策不同），存储超过24小时的视频文件通常额外收费$0.01-0.03/GB/天。建议在集成前使用免费额度（Runway提供125 credits试用）进行基准测试。

什么是Frame Consistency（帧一致性）？如何用指标量化评估？

帧一致性（Frame Consistency）衡量视频中主体在相邻帧间的稳定程度，是视频生成质量最关键的指标之一。主要量化方法：①CLIP帧相似度：计算相邻帧CLIP特征向量的余弦相似度，业界基准线≥0.92为可用级别，≥0.96为高质量；Runway Gen-3实测均值约0.94，Kling 1.6约0.95；②光流一致性（Optical Flow Consistency）：检测异常运动向量，低于5%异常帧比例为合格；③人脸重识别稳定率：涉及人物的视频中，主角ID切换率应低于2%。开发者可用开源工具video-quality-metrics（GitHub star 3.2k）自动化计算上述指标。提升帧一致性的工程手段：将motion_strength/motion_bucket_id参数从默认值下调20-30%，帧一致性评分平均提升0.02-0.04，但动态感会相应下降；使用Image-

AI视频生成API的Prompt Engineering和LLM有什么不同？有哪些视频专属的最佳实践？

AI视频Prompt与LLM Prompt的核心差异在于必须描述「时序动态」而非静态语义。实测数据表明，遵循视频专属Prompt结构可将Motion Score（运动质量评分）提升25-40%，用户满意度提升约31%（基于Runway内部A/B测试数据）。视频Prompt四段式结构：①主体描述（Subject）②运动描述（Motion，必填，LLM中常被忽略）③镜头语言（Camera Movement：slow push-in/pan left等）④环境光线（Lighting/Style）。具体最佳实践：运动词汇要精确，'moves slightly'比'moves'生成效果的帧一致性高0.03；负面提示词（negative prompt）加入'morphing, distortion, flickering'可将伪影帧比例从平均8.3%降至3.1%；Prompt长度控制在120-180

Seedance 2.0 API集成指南：Python实现文本生成视频

本文详细介绍Seedance 2.0 API的完整集成方案，手把手教你用Python调用文本生成视频功能，涵盖环境配置、接口调用及常见问题解决方法。

2026年3月5日

深度指南

DeepSeek API企业版指南2026：合规、SLA与成本全解析

深入解析DeepSeek API企业级应用的合规要求、SLA服务协议及成本优化策略，助力企业在2026年高效部署AI解决方案，降低风险与支出。