OCR 是 Optical Character Recognition 的缩写,中文通常叫光学字符识别。它做的事情很直接:把图片里的字、扫描件里的字、截图里的字尽量变成机器能继续处理的文本。很多人以为 AI 能看懂 PDF,是模型直接把文档“读懂”了,但对大量扫描版 PDF、发票、表格截图来说,第一步往往不是理解,而是先把字认出来。
OCR 不只是“识别文字”这么简单
现代 OCR 往往还会顺带处理版面分析,比如标题在哪里、表格边界在哪里、阅读顺序怎么排、图片说明属于哪一块内容。因为文档问题通常不是“有没有字”,而是“这些字本来应该怎么连在一起看”。这也是为什么同一份 PDF,人看着很自然,机器却可能读乱顺序。
为什么它会直接影响 AI 问答质量
- 如果 OCR 把数字、日期、专有名词识别错,后面模型再聪明也会基于错字继续回答。
- 如果版面顺序乱了,模型可能把双栏内容、脚注和正文拼成一句假信息。
- 如果表格边界没识别好,列和列之间的关系就会被打散,回答自然容易失真。
哪些场景最依赖 OCR
- 扫描合同、发票、快递单、报表、招股书、论文影印件
- 手机拍照上传的图片资料
- 截图问答、表格截图提取、旧档案数字化
OCR 的边界也很明确。它擅长把“看得到的字”转成文本,但不天然保证语义正确、关系完整或事实无误。也就是说,OCR 更像文档 AI 的入口层,而不是终点层。它回答了一个基础问题:机器先怎么把文档看见;至于后面怎么理解、怎么检索、怎么总结,那是下一层系统的事。