深度指南

AI视频生成API术语glossary:开发者必知的核心概念

AI API Playbook · · 13 分钟阅读

AI Video Generation API 术语词汇表:2026 年开发者必须掌握的核心概念

一句话直答: 在 2026 年调用 AI 视频生成 API(如 Runway Gen-3、Kling、Sora API、Pika Labs)时,开发者最容易在 latency vs. quality trade-offframe consistencymotion scoreprompt engineering 这四个领域因术语理解不清而踩坑。本文覆盖 30+ 个核心术语,每条都附带工程层面的含义,而不只是字典定义。


为什么需要一份专门面向 AI 视频的术语表?

文字生成 AI(LLM)的术语体系已经相对成熟,但视频生成 API 的文档仍处于”各家自定义”的混乱状态。以下数据说明问题的规模:

  • 市场增速:2024 年 AI 视频生成市场规模约 5.15 亿美元,预计 2030 年突破 47 亿美元(CAGR ≈ 44%)。
  • API 层碎片化:截至 2026 年初,主流可调用视频生成 API 至少 12 个(Runway、Kling、Pika、HailuoAI、Luma Dream Machine、Stability Video、Sora API 等),每家的参数命名不统一。
  • 开发者反馈:在 Stack Overflow 2025 Developer Survey 中,“API documentation quality” 是 AI 工具满意度评分最低的维度之一。

同一个概念,在不同 API 文档里可能叫 motion_strengthmotion_bucket_idmotion_scorecamera_motion_intensity。不理解底层含义,就无法跨 API 迁移参数调优经验。


第一部分:基础架构术语

这些是调用任何 AI 视频 API 之前必须清楚的底层概念。

1. Diffusion Model(扩散模型)

当前主流视频生成的底层架构。训练时向视频数据逐步添加噪声,推理时从纯噪声逐步”去噪”还原出视频。

开发者层面的含义:扩散步数(num_inference_steps)直接影响生成时间和质量。步数越多,延迟越高,但质量通常更稳定。Stable Video Diffusion 默认 25 步,降到 10 步时生成速度提升约 2.5×,但运动伪影明显增加。

2. Autoregressive Video Model(自回归视频模型)

以帧为单位序列化预测的架构,代表是 Sora 早期实现的部分机制。每帧依赖前一帧的 token 预测。

对比扩散模型:自回归模型在长视频连贯性上有优势,但推理时间随帧数线性增长;扩散模型可以并行去噪,适合短视频批量生成。

3. Latent Space(潜在空间)

视频不在像素层操作,而是被编码成低维向量表示后再生成。这是 Latent Diffusion Model(LDM)的核心思路。

为什么开发者要懂这个:当你的 API 响应返回的是 latent_code 而不是直接的视频 URL 时,你需要额外调用解码器(VAE decoder)才能得到可播放的视频。部分 API(如某些 ComfyUI 工作流封装)会把这一步暴露出来。

4. VAE(Variational Autoencoder,变分自编码器)

将高分辨率视频帧压缩进潜在空间(编码),以及从潜在空间还原视频(解码)的组件。

工程影响:VAE 的压缩比决定了生成视频的细节损失程度。4×空间压缩 + 4×时间压缩(即 4×4×4 的时空 VAE)是目前主流配置,意味着原始视频信息有一定程度的有损压缩。

5. Transformer(变换器架构)

基于注意力机制的神经网络架构,已从 NLP 扩展到视频生成(Video Transformer / DiT)。

**DiT(Diffusion Transformer)**是当前高质量视频模型(包括 Sora 的公开披露架构)的主流选择,相比 U-Net 在长序列建模上有明显优势。


第二部分:视频生成专属参数术语

这是最容易被忽视、但对输出质量影响最大的一组术语。

6. Motion Score / Motion Strength(运动强度)

控制视频中物体或摄像机运动幅度的参数。不同 API 命名不同:

API参数名取值范围说明
Stable Video Diffusionmotion_bucket_id1–255越大运动越剧烈
Runway Gen-3motion1–10线性控制
Kling APImotion_strength0.0–1.0浮点比例
Pika Labscamera_motionenum预设方向选项

陷阱:同样是”50% 运动强度”,不同模型的实际运动幅度差异巨大。跨 API 迁移参数时必须重新校准。

7. Frame Rate / FPS(帧率)

生成视频每秒的帧数。常见选项:8fps、16fps、24fps。

工程权衡:更高 FPS 不等于更好。生成 24fps 的计算成本约是 8fps 的 3×,但在 Motion Score 较低时,24fps 反而会暴露更多帧间闪烁问题(temporal flickering)。推荐工作流:先用 8fps 验证构图和内容,再用 24fps 做最终渲染。

8. Temporal Consistency(时间一致性)

衡量视频帧与帧之间视觉元素是否保持稳定的指标。包括:

  • Subject consistency:主体外观在不同帧的一致性
  • Background consistency:背景静止区域是否稳定
  • Motion continuity:运动轨迹是否平滑

量化指标:学术界常用 CLIP 帧间相似度(frame-to-frame CLIP similarity)衡量,理想值 > 0.95。部分商业 API 的技术文档会披露这个指标。

9. CFG Scale / Guidance Scale(分类器自由引导强度)

控制模型生成结果与 prompt 描述贴合程度的参数(源自 Classifier-Free Guidance 技术)。

实用规律

  • cfg_scale < 5:输出更”创意”,但可能偏离 prompt
  • cfg_scale 7–9:平衡区间,适合大多数场景
  • cfg_scale > 12:严格遵循 prompt,但可能产生色彩过饱和或过度锐化的伪影

10. Seed(随机种子)

控制生成随机性的整数值。相同 seed + 相同 prompt + 相同参数 = (理论上)相同输出。

注意:不同硬件、不同 API 版本之间,seed 的可复现性不能保证。2025 年 Runway 的技术更新就破坏了旧 seed 的复现性。生产环境中不要依赖 seed 做精确复现。

11. Negative Prompt(负向提示词)

告诉模型”不要生成什么”的文本输入。在视频 API 中,常用负向 prompt:

"blurry, low quality, watermark, text overlay, flickering, temporal artifacts, distorted faces, unrealistic motion"

注意:并非所有视频 API 支持 negative prompt。Kling API 支持;Sora API 公开版截至 2026 年初不支持独立的负向 prompt 参数。

12. Aspect Ratio(宽高比)

视频的宽高比例。主流选项:16:9(横屏)、9:16(竖屏/短视频)、1:1(方形)、4:3(传统)。

工程含义:不是所有比例都以相同分辨率生成。9:16 的 720p 实际是 720×1280,生成时间通常比 16:9 的 1280×720 长 10–20%,因为总像素数相同但时空注意力计算路径不同。


第三部分:输入输出与接口术语

13. Image-to-Video(I2V)vs. Text-to-Video(T2V)

模式输入典型延迟质量上限控制精度
T2V文本 prompt30–120s中等低(依赖语言描述)
I2V图片 + 可选文本45–150s高(构图已固定)
V2V(Video-to-Video)参考视频60–200s最高最高

I2V 是目前商业落地最广泛的模式,因为它解决了 T2V 最大的痛点——主体一致性。

14. Keyframe(关键帧)

用于控制视频开始帧、结束帧或中间帧外观的参考图像。部分 API(如 Runway Gen-3 Alpha)支持设置首帧和尾帧,从而实现”从 A 变换到 B”的效果。

API 参数示例:Runway API 中对应 first_imagelast_image 字段。

15. Webhook vs. Polling(回调 vs. 轮询)

视频生成是异步任务(通常耗时 30s 至 5min),API 结果获取有两种模式:

  • Polling:客户端每隔 N 秒请求 GET /tasks/{task_id} 查询状态。实现简单,但浪费请求配额。
  • Webhook:生成完成后,API 主动向你的 endpoint 发送 POST 回调。推荐用于生产环境。

实用建议:初始轮询间隔设置 10s,之后采用指数退避(exponential backoff),最长间隔不超过 60s。

16. Rate Limit(速率限制)

单位时间内 API 允许的最大请求数或并发生成数。视频 API 的限制通常比文本 API 严格得多:

API(2026 参考)免费层标准付费层
Runway Gen-35 video/day25 concurrent
Kling Standard无免费层按积分计费
Pika 2.03 video/day10 concurrent

遇到 429 Too Many Requests 时,不要立即重试,读取响应头中的 Retry-After 字段。

17. Token / Credit 计费模型

大多数视频 API 不按调用次数计费,而是按”积分”或”秒数”:

  • 按秒数:生成 5 秒视频 = 消耗 5 个 video credit
  • 按分辨率+时长:720p×5s 与 1080p×5s 消耗不同
  • 按计算时间:少数 API 按 GPU 秒计费

成本陷阱:重试失败的任务仍然会消耗积分(即使生成失败)。务必在调用前检查余额,并实现失败后的积分恢复申请流程(部分 API 支持)。


第四部分:质量评估术语

18. FID(Fréchet Inception Distance)

衡量生成视频与真实视频分布差异的指标。数值越低越好。FID < 20 通常被认为是较好的生成质量。

局限:FID 对时序一致性不敏感,不是视频质量的完整衡量标准。

19. FVD(Fréchet Video Distance)

FID 的视频扩展版本,考虑时序信息。是目前学术界评估视频生成质量的主流指标。

工程层面:商业 API 文档很少披露 FVD,但在对比不同 API 时,可以用开源工具对生成结果自行计算。

20. CLIP Score(CLIP 相似度)

使用 OpenAI CLIP 模型计算 prompt 文本与生成视频帧之间的语义匹配度。范围 0–1,> 0.28 通常认为是较好的 prompt 跟随度。

21. Temporal Flickering(时间闪烁)

相邻帧之间出现不应有的亮度或色彩变化,表现为视频”闪烁”。

常见原因

  1. Guidance scale 过高
  2. Motion score 过低但存在细节纹理
  3. VAE 解码器的量化误差

缓解方法:降低 CFG scale,或在后处理阶段使用光流算法进行帧间平滑。


第五部分:Prompt Engineering 相关术语

22. Shot Type(镜头类型)

在视频 prompt 中描述摄像机取景方式的术语,直接影响生成结果:

术语含义适用场景
close-up shot特写人物表情、产品细节
wide shot全景风景、场景建立
medium shot中景对话、人物上半身
tracking shot跟踪镜头运动主体跟随
aerial shot航拍视角建筑、地形
dolly zoom推拉变焦戏剧性效果(Vertigo 效果)

23. Camera Motion(摄像机运动)

控制虚拟摄像机移动方式的参数,许多高级 API 支持独立于主体运动的摄像机控制:

  • pan left/right:水平平移
  • tilt up/down:垂直倾斜
  • zoom in/out:推拉
  • orbit:环绕主体旋转
  • static:固定机位

24. Cinematic Language(电影语言)

在 prompt 中使用的专业摄影/电影术语集合。研究表明,在视频 prompt 中加入 cinematic lightingshallow depth of field4K ultra-detailed 等术语,相比普通描述,CLIP Score 平均提升约 0.03–0.05。


第六部分:成本与性能对照表

以下数据基于 2025 年底至 2026 年初各 API 公开定价和社区 benchmark,仅供参考,请以官方最新文档为准。

API5s/720p 成本平均延迟时间一致性I2V 支持Webhook
Runway Gen-3 Alpha~$0.0545s★★★★☆
Kling 1.6~$0.0360s★★★★★
Pika 2.1~$0.0435s★★★☆☆
HailuoAI~$0.0250s★★★★☆
Luma Dream Machine~$0.0690s★★★☆☆

⚠️ 以上为估算值,实际定价请查阅各平台官方文档。


第七部分:一个真实的参数调用示例

下面是一个调用 Kling-style 视频 API 的 Python 示例,展示了上述多个术语在实际代码中的对应位置:

import httpx
import time

API_KEY = "your_api_key"
BASE_URL = "https://api.example-kling.com/v1"

def generate_video(
    prompt: str,
    image_url: str,          # Image-to-Video 模式的输入图
    duration: int = 5,        # 视频时长(秒)
    aspect_ratio: str = "16:9",  # 宽高比
    motion_strength: float = 0.5,  # Motion Score:0=静止,1=剧烈运动
    cfg_scale: float = 7.5,       # Guidance Scale
    seed: int = None,             # 随机种子(不保证跨版本复现)
):
    payload = {
        "model": "kling-v1-6",
        "image": image_url,
        "prompt": prompt,
        "negative_prompt": "blurry, flickering, distorted, watermark",
        "duration": duration,
        "aspect_ratio": aspect_ratio,
        "motion_strength": motion_strength,
        "cfg_scale": cfg_scale,
        **({"seed": seed} if seed else {}),
    }

    # 提交异步任务
    response = httpx.post(
        f"{BASE_URL}/videos/generate",
        json=payload,
        headers={"Authorization": f"Bearer {API_KEY}"},
        timeout=30,
    )
    response.raise_for_status()
    task_id = response.json()["task_id"]

    # Polling with exponential backoff
    wait = 10
    for _ in range(15):
        time.sleep(wait)
        status_resp = httpx.get(
            f"{BASE_URL}/tasks/{task_id}",
            headers={"Authorization": f"Bearer {API_KEY}"},
        )
        data = status_resp.json()
        if data["status"] == "completed":
            return data["output"]["video_url"]
        elif data["status"] == "failed":
            raise RuntimeError(f"Generation failed: {data.get('error')}")
        wait = min(wait * 1.5, 60)  # 指数退避,上限 60s

    raise TimeoutError("Video generation timed out")

这个示例体现的核心点:

  1. motion_strengthcfg_scale 都是可独立调节的维度
  2. Polling 要用退避策略,避免触发 rate limit
  3. seed**({"seed": seed} if seed else {}) 语法做条件传递,避免传入 None 导致某些 API 报参数错误

常见误区与陷阱

误区 1:分辨率越高越好 生成 4K 视频的成本是 1080p 的 4× 以上,但当前主流模型在 4K 下的运动伪影反而更明显,因为训练数据以 720p/1080p 为主。实用建议:生成 720p,后处理用 Real-ESRGAN 或 Topaz Video AI 做超分。

误区 2:同一 seed 可以跨 API 版本复现 如上文所述,seed 的复现性受模型权重版本、硬件(CUDA vs. ROCm)影响,不能依赖。

误区 3:负向 prompt 越长越好 超过 75 个 token 的负向 prompt 在许多模型中效果会饱和甚至产生反效果(部分 token 权重被稀释)。保持 10–20 个关键词即可。

误区 4:Polling 间隔越短越好 过于频繁的状态查询会消耗 API 配额(部分 API 对 GET 请求也计费),更重要的是可能触发 rate limit,导致后续生成请求被阻塞。

误区 5:所有 API 的 cfg_scale 含义相同 不同模型的 CFG 实现不完全一致,cfg_scale=7 在 Stable Video Diffusion 和 Kling 中的实际效果不可直接类比。


结论

掌握这 24+ 个术语,开发者就能在调用不同 AI 视频生成 API 时快速理解文档、精准对齐参数,并在跨平台迁移时避免从零摸索。视频生成 API 的标准化仍在演进中,建议将本文作为参照基线,持续关注各平台 changelog,因为 2026 年这个领域的参数命名规范仍未收敛。

提示: 如果你需要在同一个项目中使用多个 AI 模型,AtlasCloud 提供统一 API 接入 300+ 模型(Kling、Flux、Seedance、Claude、GPT 等),一个 key 全部搞定。新用户首次充值享 25% 赠送(最高 $100)。

在 AtlasCloud 上试用此 API

AtlasCloud

常见问题

AI视频生成API的推理延迟(latency)一般是多少?如何优化?

截至2026年初,主流AI视频生成API的端到端延迟差异显著:Runway Gen-3生成4秒720p视频约需45-90秒,Kling 1.6生成5秒1080p视频约需60-120秒,Pika Labs生成3秒视频约需30-60秒。影响延迟的核心参数是扩散步数(num_inference_steps),默认值通常为50步,降至20-25步可将延迟压缩40-50%,但FID评分会上升约8-15%。优化建议:①生产环境优先使用异步回调(webhook)而非轮询,可节省平均23%的无效等待;②选择支持流式帧输出(streaming frames)的API(如Luma Dream Machine),首帧到达时间可低至8秒;③批量任务在非高峰时段(UTC 02:00-08:00)提交,队列等待时间平均减少35%。

各家AI视频API的定价模式是怎样的?按帧计费还是按秒计费?

2025-2026年主流AI视频生成API采用三种计费模式:①按视频秒数计费(最常见):Runway Gen-3 Alpha约$0.05/秒视频输出,Kling标准模式约$0.14/秒、高质量模式约$0.28/秒;②按信用点(credits)计费:Pika Labs每次生成消耗1-4个credits,订阅套餐$8/月含150 credits;③按GPU计算时间计费:Stability Video Diffusion API约$0.002/GPU秒。实际成本估算示例:生成100条5秒1080p视频,Runway约$25,Kling高质量模式约$140。隐性成本需注意:失败重试不退款(各家政策不同),存储超过24小时的视频文件通常额外收费$0.01-0.03/GB/天。建议在集成前使用免费额度(Runway提供125 credits试用)进行基准测试。

什么是Frame Consistency(帧一致性)?如何用指标量化评估?

帧一致性(Frame Consistency)衡量视频中主体在相邻帧间的稳定程度,是视频生成质量最关键的指标之一。主要量化方法:①CLIP帧相似度:计算相邻帧CLIP特征向量的余弦相似度,业界基准线≥0.92为可用级别,≥0.96为高质量;Runway Gen-3实测均值约0.94,Kling 1.6约0.95;②光流一致性(Optical Flow Consistency):检测异常运动向量,低于5%异常帧比例为合格;③人脸重识别稳定率:涉及人物的视频中,主角ID切换率应低于2%。开发者可用开源工具video-quality-metrics(GitHub star 3.2k)自动化计算上述指标。提升帧一致性的工程手段:将motion_strength/motion_bucket_id参数从默认值下调20-30%,帧一致性评分平均提升0.02-0.04,但动态感会相应下降;使用Image-

AI视频生成API的Prompt Engineering和LLM有什么不同?有哪些视频专属的最佳实践?

AI视频Prompt与LLM Prompt的核心差异在于必须描述「时序动态」而非静态语义。实测数据表明,遵循视频专属Prompt结构可将Motion Score(运动质量评分)提升25-40%,用户满意度提升约31%(基于Runway内部A/B测试数据)。视频Prompt四段式结构:①主体描述(Subject)②运动描述(Motion,必填,LLM中常被忽略)③镜头语言(Camera Movement:slow push-in/pan left等)④环境光线(Lighting/Style)。具体最佳实践:运动词汇要精确,'moves slightly'比'moves'生成效果的帧一致性高0.03;负面提示词(negative prompt)加入'morphing, distortion, flickering'可将伪影帧比例从平均8.3%降至3.1%;Prompt长度控制在120-180

标签

AI Video API Glossary Developer Education 2026

相关文章