视觉语言模型 VLM

VLM 是能同时处理图像和文本的模型类型，常用于图片理解、图文问答、视觉推理和多模态内容分析。

#tech / ai #type / concept #status / growing #resource / vlm

[!info] related notes

所属 MOC: AI 模型能力 MOC, AI MOC

前置概念: LLM, transformer

并列概念: 光学字符识别 OCR, 扩散模型

应用场景: Cloudflare Workers AI Vision, 视频素材理解管线

一句话定义

VLM 是 Vision Language Model 的缩写，指能同时处理图像和文本，并在两者之间建立语义关系的模型类型。

VLM 的输入通常包含图片和文本提示，输出可以是图片描述、问题回答、结构化 JSON、分类结果或视觉推理结论。

一个常见链路是：

VLM 的价值不只是“看见物体”，而是能把视觉内容放进语言任务里回答问题、提取字段或做推理。

在视频素材理解管线中，系统先抽取关键帧，再用视觉模型判断画面主体、镜头类型、商品是否出现和营销角色，最后生成结构化 JSON。

VLM 是“能看图并用语言回答”的模型类型，负责把视觉内容接入语言任务。