光学字符识别 OCR

OCR 是从图片、扫描件或视频帧中识别文字并输出文本或结构化版面的模型任务。

#tech / ai #type / concept #status / growing #resource / ocr

[!info] related notes

光学字符识别 OCR

一句话定义

OCR 是 Optical Character Recognition 的缩写,指从图片、扫描件、截图或视频帧中识别文字并输出文本的模型任务。

核心机制 / 工作原理

OCR 通常处理的是“视觉里的文字”。输入是图片或 PDF 页面,输出可以是纯文本、文字框坐标、版面结构、表格结构或可搜索 PDF。

一个常见链路是:

  1. 图片预处理,例如裁剪、矫正、去噪、增强对比度。
  2. 文本检测,找出图中哪些区域包含文字。
  3. 文本识别,把文字区域转成字符序列。
  4. 版面分析,恢复段落、表格、标题和阅读顺序。
  5. 后处理,做语言纠错、格式恢复和结构化输出。

最小例子 / 最小场景

用户上传一张合同扫描图,OCR 先识别页面上的文字和版面,再把结果交给 LLM 做条款摘要、风险提取或问答。

这个场景里,OCR 负责“看清图片里的字”;LLM 负责理解文字含义和生成结论。

常见使用场景

  • 扫描件转可搜索文本
  • 截图文字提取
  • 发票、合同、证件信息抽取
  • PDF 双层文本生成
  • 视频帧字幕或商品文案识别

边界与易混淆点

  • OCR 不等于 VLM:OCR 关注识别文字,VLM 关注图像内容理解和图文问答。
  • OCR 不自动理解语义:抽出的文字是否合规、是否有风险,通常要交给规则或 LLM 处理。
  • OCR 不只看识别准确率:版面顺序、表格结构、坐标框和可追溯性也很重要。
  • 复杂文档里,版面分析往往比单字识别更影响最终可用性。

最短记忆方式

OCR 是“把图里的字读出来”的模型任务,重点是文字识别和版面结构恢复。

创建于 2026/6/23 更新于 2026/6/23