OCR 是什么？为什么 AI 读扫描版 PDF、表格和截图前通常都得先过它

AI百科 • Admin • 2026/4/9 • 81 次浏览

OCR 是 Optical Character Recognition 的缩写，中文通常叫光学字符识别。它做的事情很直接：把图片里的字、扫描件里的字、截图里的字尽量变成机器能继续处理的文本。很多人以为 AI 能看懂 PDF，是模型直接把文档“读懂”了，但对大量扫描版 PDF、发票、表格截图来说，第一步往往不是理解，而是先把字认出来。

OCR 不只是“识别文字”这么简单

现代 OCR 往往还会顺带处理版面分析，比如标题在哪里、表格边界在哪里、阅读顺序怎么排、图片说明属于哪一块内容。因为文档问题通常不是“有没有字”，而是“这些字本来应该怎么连在一起看”。这也是为什么同一份 PDF，人看着很自然，机器却可能读乱顺序。

为什么它会直接影响 AI 问答质量

如果 OCR 把数字、日期、专有名词识别错，后面模型再聪明也会基于错字继续回答。
如果版面顺序乱了，模型可能把双栏内容、脚注和正文拼成一句假信息。
如果表格边界没识别好，列和列之间的关系就会被打散，回答自然容易失真。

哪些场景最依赖 OCR

扫描合同、发票、快递单、报表、招股书、论文影印件
手机拍照上传的图片资料
截图问答、表格截图提取、旧档案数字化

OCR 的边界也很明确。它擅长把“看得到的字”转成文本，但不天然保证语义正确、关系完整或事实无误。也就是说，OCR 更像文档 AI 的入口层，而不是终点层。它回答了一个基础问题：机器先怎么把文档看见；至于后面怎么理解、怎么检索、怎么总结，那是下一层系统的事。

OCR 是什么？为什么 AI 读扫描版 PDF、表格和截图前通常都得先过它

OCR 不只是“识别文字”这么简单

为什么它会直接影响 AI 问答质量

哪些场景最依赖 OCR

相关文章

提示词注入（Prompt Injection）是什么？为什么网页、PDF 和知识库都可能变成影响模型的入口

24小时AI新闻速报：阿里智谱腾讯连发动作，Meta再推新模型

AI Evals 是什么？上线 AI 应用前为什么要评测

LoRA 微调是什么？为什么小成本也能训练专用模型

推荐工具

OCR 是什么？为什么 AI 读扫描版 PDF、表格和截图前通常都得先过它

OCR 不只是“识别文字”这么简单

为什么它会直接影响 AI 问答质量

哪些场景最依赖 OCR

相关文章

提示词注入（Prompt Injection）是什么？为什么网页、PDF 和知识库都可能变成影响模型的入口

24小时AI新闻速报：阿里智谱腾讯连发动作，Meta再推新模型

AI Evals 是什么？上线 AI 应用前为什么要评测

LoRA 微调是什么？为什么小成本也能训练专用模型

推荐工具

提交AI工具

请确认提交信息