Zurück zu KI-Informationen
PaddleOCR-VL (0,9 B) veröffentlicht: Leichtgewichtiges multimodales Modell NaViT×ERNIE, Dokumentenanalyse übertrifft mehrere Benchmarks

PaddleOCR-VL (0,9 B) veröffentlicht: Leichtgewichtiges multimodales Modell NaViT×ERNIE, Dokumentenanalyse übertrifft mehrere Benchmarks

KI-Informationen Admin 161 Aufrufe

Am 16. Oktober 2025 kündigte PaddleOCR die Einführung seines multimodalen Dokumentanalysemodells PaddleOCR-VL an, das als Kernfunktion in Version 3.3.0 veröffentlicht wurde. Dieses etwa 0,9 B große Modell nutzt einen visuellen Encoder mit dynamischer Auflösung im NaViT-Stil in Kombination mit dem Sprachmodell ERNIE-4.5-0.3B, um eine einheitliche Erkennung und strukturierte Ausgabe von Elementen wie Text, Tabellen, Formeln, Diagrammen und Handschrift zu erreichen. Offizielle Evaluierungen öffentlicher und selbst erstellter Datensätze wie OmniDocBench zeigen, dass PaddleOCR-VL sowohl bei der Analyse auf Seitenebene als auch bei der Erkennung auf Featureebene die modernste Leistung erreicht oder übertrifft.

PaddleOCR-VL unterstützt nach eigenen Angaben 109 Sprachen und Schriften, darunter Chinesisch, Englisch, Japanisch, Latein, Arabisch, Kyrillisch und Devanagari. Es optimiert die Inferenzeffizienz für die reale Produktion und kann in Verbindung mit PaddleOCR-Komponenten wie PP-StructureV3 und PP-OCRv5 eingesetzt werden. Modell und Dokumentation sind auf GitHub, HuggingFace und in der offiziellen Dokumentation verfügbar. Detaillierte Benchmarks, Visualisierungsbeispiele und Bereitstellungsmethoden finden Sie auf der offiziellen Website. Weitere Informationen, wie z. B. zu Datensatzversionen und Evaluierungsumfang, erhalten Sie in Kürze im Repository.

Häufig gestellte Fragen

F: Was ist PaddleOCR-VL?

A: Ein visuelles Sprachmodell mit etwa 0,9 Milliarden Parametern für die End-to-End-Dokumentenanalyse, das Text, Tabellen, Formeln, Diagramme und Handschrift gleichzeitig verarbeiten und strukturierte Ergebnisse ausgeben kann.

F: Warum heißt es „ultrakompakt“?

A: Im multimodalen VLM ist 0,9B relativ klein und effizient in der Inferenz. Durch die Kombination der dynamischen Auflösung von NaViT mit ERNIE-4.5-0,3B wird der Rechenleistungsbedarf reduziert, während die Genauigkeit erhalten bleibt.

F: Hat es wirklich SOTA erreicht?

A: Wir haben in Benchmarks wie OmniDocBench v1.5/v1.0 und unseren eigenen Benchmarks führende Ergebnisse erzielt und dabei verschiedene Indikatoren wie Gesamtleistung, Lesereihenfolge, Tabellen und Formeln berücksichtigt. Die Schlussfolgerungen basieren auf den Diagrammen und Erklärungen in öffentlichen Berichten und Modellkarten.

F: Welche Sprachen und Anwendungsszenarien werden unterstützt?

A: Es deckt 109 Sprachen ab und eignet sich für Szenarien wie den Satz mehrerer Schriften, historische Dokumente und komplexe Layouts. Es kann mit den Layout-/Tabellenstrukturierungsfunktionen von PP-StructureV3 für echte Geschäftsanalysen verknüpft werden.

F: Wo kann ich es bekommen und wie kann ich es ausprobieren?

A: GitHub bietet Versionshinweise und Befehlszeilen-/Python-APIs; HuggingFace bietet Modellkarten und Links zu Online-Demos; die Dokumentationssite bietet Anleitungen zur Bereitstellung und Beschleunigung (wie z. B. vLLM/sglang-Server).

PaddleOCR-VL veröffentlicht PaddleOCR-VL multimodale Dokumentenanalyse PaddleOCR-VL0_9B-Modell PaddleOCR-VLNaViT dynamische Auflösung PaddleOCR-VLERNIE-4_5-0_3B PaddleOCR-VL Seiten-Level-Parsing SOTA PaddleOCR-VL Feature-Level-Erkennung SOTA PaddleOCR-VLOmniDocBench-Ergebnisse PaddleOCR-VL109 Sprachen Unterstützung mehrerer PaddleOCR-VL-Skripte PaddleOCR-VL strukturierte Ausgabe PaddleOCR-VL Text, Tabelle, Formel und Diagramm PaddleOCR-VL-Handschrifterkennung PaddleOCR-VL komplexe Layoutanalyse PaddleOCR-VL-Lesereihenfolgeextraktion PaddleOCR-VL-Tabellenstrukturierung PaddleOCR-VL-Formelanalyse PaddleOCR-VL-Graphverständnis PaddleOCR-VLPDF-Analyse PaddleOCR-VL-Stapelverarbeitung PaddleOCR-VL Inferenzeffizienz auf Produktionsebene PaddleOCR-VL End-to-End-Parsing PaddleOCR-VL- und PP-StructureV3-Verknüpfung Zusammenarbeit zwischen PaddleOCR-VL und PP-OCRv5 PaddleOCR-VL ist Open Source auf GitHub PaddleOCR-VLHuggingFace-Modellkarte PaddleOCR-VL Online-Demo PaddleOCR-VL3_3_0 Kernfunktionen PaddleOCR-VL-Bereitstellungshandbuch PaddleOCR-VLvLLM Server PaddleOCR-VLsglang-kompatibel PaddleOCR-VL Leichtes VLM PaddleOCR-VL-Inferenzbeschleunigung PaddleOCR-VL-Layoutanalyse PaddleOCR-VL-Dokumentenverständnis PaddleOCR-VL-Unternehmensanwendung PaddleOCR-VLAPI-Beispiel PaddleOCR-VLPython-Nutzung PaddleOCR-VL-Visualisierungsbeispiel PaddleOCR-VL-Modell herunterladen PaddleOCR-VL-Benchmark Selbst erstellter PaddleOCR-VL-Datensatz PaddleOCR-VL-Datensatzversion PaddleOCR-VL-Evaluierungsumfang PaddleOCR-VL Mehrsprachige OCR PaddleOCR-VL Historisches Dokument-Parsing PaddleOCR-VL-Szenario für gemischte Klassifizierung PaddleOCR-VLSOTA-Vergleich PaddleOCR-VL Genauigkeit und Effizienz PaddleOCR-VL-Produktionsbereitstellung

Empfohlene Tools

Mehr