OCR est l’abréviation de Reconnaissance Optique de Caractères, communément appelée reconnaissance optique de caractères en chinois. Ce qu’il fait est très simple : transformer les mots de l’image, ceux du scan, et la capture d’écran en texte que la machine peut continuer à traiter. Beaucoup pensent que l’IA peut comprendre les PDF parce que le modèle « comprend » directement le document, mais pour un grand nombre de PDFs numérisés, de factures et de captures d’écran de formulaires, la première étape n’est souvent pas de comprendre, mais de reconnaître d’abord les mots.
L’OCR ne consiste pas seulement à « reconnaître le texte »
L’OCR moderne gère souvent en plus l’analyse de mise en page, comme l’emplacement des en-têtes, les limites du tableau, l’organisation de l’ordre de lecture et la partie de la description de l’image à laquelle appartient. Parce que le problème de documentation n’est généralement pas « s’il y a des mots », mais « comment ces mots doivent être reliés ». C’est pourquoi le même PDF semble naturel pour les humains, mais les machines peuvent le lire dans le désordre.
Pourquoi cela affecte directement la qualité des questions-réponses de l’IA
- Si l’OCR identifie incorrectement les chiffres, les dates et les noms propres, peu importe l’intelligence du modèle, il continuera à répondre en fonction de la faute de frappe.
- Si l’ordre de mise en page est erroné, le modèle peut épeler le contenu à double colonne, les notes de bas de page et le corps en un faux message.
- Si les frontières de la table ne sont pas bien reconnues, la relation entre les colonnes sera rompue, et la réponse sera naturellement déformée.
Quels scénarios reposent le plus sur l’OCR
- Numérisez des copies de contrats, factures, formulaires de coursier, relevés, prospectus et documents
- Données photo téléchargées par des photos sur téléphone portable
- Séance de questions-réponses de capture d’écran, extraction de tableaux d’écran, numérisation d’anciens fichiers
Les limites de l’OCR sont également claires. Il est bon pour convertir les « mots visibles » en texte, mais cela ne garantit pas naturellement que la sémantique soit correcte, que la relation soit complète ou que les faits soient exacts. Cela dit, l’OCR ressemble davantage à une couche d’entrée pour l’IA des documents qu’à une couche endpoint. Il répond à une question de base : comment les machines voient-elles d’abord les documents ? Quant à la façon de comprendre, de récupérer et de résumer plus tard, cela relève du niveau suivant du système.