视觉语言模型 VLM
VLM 是能同时处理图像和文本的模型类型,常用于图片理解、图文问答、视觉推理和多模态内容分析。
#tech / ai
#type / concept
#status / growing
#resource / vlm
[!info] related notes
- 所属 MOC: AI 模型能力 MOC, AI MOC
- 前置概念: LLM, transformer
- 并列概念: 光学字符识别 OCR, 扩散模型
- 应用场景: Cloudflare Workers AI Vision, 视频素材理解管线
视觉语言模型 VLM
一句话定义
VLM 是 Vision Language Model 的缩写,指能同时处理图像和文本,并在两者之间建立语义关系的模型类型。
核心机制 / 工作原理
VLM 的输入通常包含图片和文本提示,输出可以是图片描述、问题回答、结构化 JSON、分类结果或视觉推理结论。
一个常见链路是:
- 输入图片、截图、关键帧或图文组合。
- 模型把视觉内容编码成可供语言模型理解的表示。
- 文本 prompt 指定要观察什么、输出什么格式。
- 模型结合视觉信息和语言指令生成结果。
VLM 的价值不只是“看见物体”,而是能把视觉内容放进语言任务里回答问题、提取字段或做推理。
最小例子 / 最小场景
在 视频素材理解管线 中,系统先抽取关键帧,再用视觉模型判断画面主体、镜头类型、商品是否出现和营销角色,最后生成结构化 JSON。
常见使用场景
- 图片描述和图文问答
- 截图理解和 UI 分析
- 视频关键帧理解
- 商品图、广告图、素材分析
- 文档图片理解
- 视觉推理和多模态 Agent
边界与易混淆点
- VLM 不等于 OCR:OCR 偏文字识别,VLM 偏整体图像理解和图文推理。
- VLM 不等于 Diffusion:VLM 主要理解图像,扩散模型 主要生成图像或音频等内容。
- VLM 对细节和计数可能不稳定:小字、密集目标、精确数量仍需要专门模型或校验。
- 工程上要控制图片尺寸、帧数、prompt 长度和输出格式,否则成本与延迟会快速上升。
最短记忆方式
VLM 是“能看图并用语言回答”的模型类型,负责把视觉内容接入语言任务。