光学字符识别 OCR

OCR 是从图片、扫描件或视频帧中识别文字并输出文本或结构化版面的模型任务。

#tech / ai #type / concept #status / growing #resource / ocr

[!info] related notes

所属 MOC: AI 模型能力 MOC, AI MOC

并列概念: 视觉语言模型 VLM

相关资源: DeepSeek OCR, Umi OCR

应用场景: 视频素材理解管线

一句话定义

OCR 是 Optical Character Recognition 的缩写，指从图片、扫描件、截图或视频帧中识别文字并输出文本的模型任务。

OCR 通常处理的是“视觉里的文字”。输入是图片或 PDF 页面，输出可以是纯文本、文字框坐标、版面结构、表格结构或可搜索 PDF。

一个常见链路是：

用户上传一张合同扫描图，OCR 先识别页面上的文字和版面，再把结果交给 LLM 做条款摘要、风险提取或问答。

这个场景里，OCR 负责“看清图片里的字”；LLM 负责理解文字含义和生成结论。

OCR 是“把图里的字读出来”的模型任务，重点是文字识别和版面结构恢复。