光学字符识别 OCR
OCR 是从图片、扫描件或视频帧中识别文字并输出文本或结构化版面的模型任务。
#tech / ai
#type / concept
#status / growing
#resource / ocr
[!info] related notes
- 所属 MOC: AI 模型能力 MOC, AI MOC
- 并列概念: 视觉语言模型 VLM
- 相关资源: DeepSeek OCR, Umi OCR
- 应用场景: 视频素材理解管线
光学字符识别 OCR
一句话定义
OCR 是 Optical Character Recognition 的缩写,指从图片、扫描件、截图或视频帧中识别文字并输出文本的模型任务。
核心机制 / 工作原理
OCR 通常处理的是“视觉里的文字”。输入是图片或 PDF 页面,输出可以是纯文本、文字框坐标、版面结构、表格结构或可搜索 PDF。
一个常见链路是:
- 图片预处理,例如裁剪、矫正、去噪、增强对比度。
- 文本检测,找出图中哪些区域包含文字。
- 文本识别,把文字区域转成字符序列。
- 版面分析,恢复段落、表格、标题和阅读顺序。
- 后处理,做语言纠错、格式恢复和结构化输出。
最小例子 / 最小场景
用户上传一张合同扫描图,OCR 先识别页面上的文字和版面,再把结果交给 LLM 做条款摘要、风险提取或问答。
这个场景里,OCR 负责“看清图片里的字”;LLM 负责理解文字含义和生成结论。
常见使用场景
- 扫描件转可搜索文本
- 截图文字提取
- 发票、合同、证件信息抽取
- PDF 双层文本生成
- 视频帧字幕或商品文案识别
边界与易混淆点
- OCR 不等于 VLM:OCR 关注识别文字,VLM 关注图像内容理解和图文问答。
- OCR 不自动理解语义:抽出的文字是否合规、是否有风险,通常要交给规则或 LLM 处理。
- OCR 不只看识别准确率:版面顺序、表格结构、坐标框和可追溯性也很重要。
- 复杂文档里,版面分析往往比单字识别更影响最终可用性。
最短记忆方式
OCR 是“把图里的字读出来”的模型任务,重点是文字识别和版面结构恢复。