OCRはOptical Character Recognitionの略称で、中国語では一般的に光学文字認識と呼ばれます。 その操作は非常にシンプルで、画像の中の言葉、スキャン中の言葉、スクリーンショットをテキストに変換し、機械が処理を続けられるようにします。 多くの人は、AIがPDFを理解できるのはモデルが直接文書を「理解」しているからだと思っていますが、多数のスキャン済みPDF、請求書、フォームスクリーンショットの場合、最初のステップは理解するのではなく、まず単語を認識することであることが多いです。
OCRは単に「テキスト認識」だけの話ではありません
現代のOCRは、見出しの位置、テーブルの境界、読書順の配置、画像説明のどの部分に属するかなどのレイアウト分析も扱うことが多いです。 なぜなら、ドキュメントの問題は通常「単語があるかどうか」ではなく、「これらの単語をどう繋げるべきか」だからです。 だからこそ、同じPDFが人間には自然に見えるのに、機械が順番を誤って読み込むことがあります。
なぜAIのQ&Aの質に直接影響するのか
- OCRが数字、日付、固有名詞を誤って識別すると、どんなに賢いモデルでも誤字に基づいて答え続けます。
- レイアウトの順序が間違っていると、モデルはダブルカラムの内容、脚注、本文を誤ったメッセージに綴ってしまうことがあります。
- 表の境界が正しく認識されなければ、列間の関係が壊れ、答えは自然に歪んでしまいます。
どのシナリオがOCRに最も依存しているか
- 契約書、請求書、宅配書、明細書、目論見書、書類のコピーをスキャンしてください
- 携帯電話でアップロードされた写真データ
- スクリーンショットQ&A、テーブルのスクリーンショット抽出、古いファイルのデジタル化
OCRの境界も明確です。 「見える言葉」をテキストに変換するのが得意ですが、意味論が正確であること、関係性が完全であること、事実が正しいことを保証するものではありません。 とはいえ、OCRはエンドポイントレイヤーというよりはドキュメントAIのエントリーレイヤーに近いものです。 これは基本的な疑問に答えています。つまり、機械はどうやって最初に文書を見るのか? 後でどう理解し、検索し、要約するかは、次のレベルのシステムの問題です。