OCR ist die Abkürzung für Optische Zeichenerkennung, die im Chinesischen allgemein als optische Zeichenerkennung bezeichnet wird. Was es macht, ist sehr einfach: Es verwandelt die Wörter im Bild, die Wörter im Scan und den Screenshot in Text, den die Maschine weiter verarbeiten kann. Viele Menschen denken, dass KI PDFs verstehen kann, weil das Modell das Dokument direkt "versteht", aber bei einer großen Anzahl gescannter PDFs, Rechnungen und Formular-Screenshots ist der erste Schritt oft nicht das Verstehen, sondern das Erkennen der Wörter zuerst.
OCR dreht sich nicht nur darum, den Text zu "erkennen".
Moderne OCR übernimmt oft zusätzlich die Layoutanalyse, etwa wo die Überschriften stehen, wo die Tabellengrenzen sind, wie die Lesereihenfolge angeordnet ist und zu welchem Teil der Bildbeschreibung gehört. Denn das Dokumentationsproblem ist meist nicht "ob es Wörter gibt", sondern "wie diese Wörter miteinander verbunden werden sollten". Deshalb sieht dasselbe PDF für Menschen natürlich aus, aber Maschinen können es in falscher Reihenfolge lesen.
Warum sie die Qualität der KI-Fragerunden direkt beeinflusst
- Wenn OCR Zahlen, Daten und Eigennamen falsch identifiziert, egal wie intelligent das Modell ist, wird es weiterhin basierend auf dem Tippfehler antworten.
- Wenn die Layoutreihenfolge durcheinandergebracht ist, kann das Modell den doppelspaltigen Inhalt, Fußnoten und den Text in eine falsche Nachricht umwandeln.
- Wenn die Tabellengrenzen nicht gut erkannt werden, wird die Beziehung zwischen den Spalten unterbrochen und die Antwort wird natürlich verzerrt.
Welche Szenarien basieren am meisten auf OCR
- Scannen Sie Kopien von Verträgen, Rechnungen, Kurierformularen, Kontoauszügen, Prospekten und Papieren
- Bilddaten, hochgeladen von Mobiltelefonfotos
- Screenshot-Frage-und-Antwort, Tabellen-Screenshot-Extraktion, Digitalisierung alter Dateien
Auch die Grenzen von OCR sind klar. Es ist gut darin, "sichtbare Wörter" in Text umzuwandeln, garantiert aber nicht natürlich, dass die Semantik korrekt ist, die Beziehung vollständig ist oder die Fakten korrekt sind. Allerdings ist OCR eher eine Einstiegsschicht für Dokumenten-KI als eine Endpunktschicht. Es beantwortet eine grundlegende Frage: Wie sehen Maschinen zuerst Dokumente? Was das Verstehen, Abrufen und Zusammenfassen später angeht, ist eine Frage der nächsten Systemebene.