Retour à Informations sur l’IA
Sortie de PaddleOCR-VL (0,9 B) : le modèle multimodal léger NaViT×ERNIE et l'analyse de documents sont en tête de plusieurs tests de performance.

Sortie de PaddleOCR-VL (0,9 B) : le modèle multimodal léger NaViT×ERNIE et l'analyse de documents sont en tête de plusieurs tests de performance.

Informations sur l’IA Admin 161 vues

Le 16 octobre 2025, PaddleOCR a annoncé le lancement de son modèle d'analyse de documents multimodal, PaddleOCR-VL, intégré à la version 3.3.0. Ce modèle, d'environ 0,9 milliard de pages, utilise un encodeur visuel à résolution dynamique de type NaViT, associé au modèle de langage ERNIE-4.5-0,3 milliard de pages, pour une reconnaissance unifiée et une sortie structurée d'éléments tels que le texte, les tableaux, les formules, les graphiques et l'écriture manuscrite. Des évaluations officielles réalisées sur des bases de données publiques et auto-construites, telles qu'OmniDocBench, montrent que PaddleOCR-VL atteint, voire surpasse, les performances de pointe en matière d'analyse de pages et de reconnaissance de caractéristiques.

PaddleOCR-VL prétend couvrir 109 langues et écritures, dont le chinois, l'anglais, le japonais, le latin, l'arabe, le cyrillique et le devanagari. Il optimise l'efficacité de l'inférence pour la production en conditions réelles et peut être utilisé conjointement avec des composants PaddleOCR tels que PP-StructureV3 et PP-OCRv5. Le modèle et la documentation sont disponibles sur GitHub, HuggingFace et la documentation officielle. Pour des benchmarks détaillés, des exemples de visualisation et des méthodes de déploiement, veuillez consulter le site web officiel. Restez à l'écoute des mises à jour du référentiel pour plus d'informations, notamment sur les versions des jeux de données et le périmètre d'évaluation.

Questions fréquemment posées

Q : Qu'est-ce que PaddleOCR-VL ?

A : Un modèle de langage visuel avec environ 0,9 milliard de paramètres pour l’analyse de documents de bout en bout qui peut traiter simultanément du texte, des tableaux, des formules, des graphiques et de l’écriture manuscrite, et générer des résultats structurés.

Q : Pourquoi l'appelle-t-on « ultra-compact » ?

R : Dans le VLM multimodal, 0,9 B est relativement petit et efficace en inférence. En combinant la résolution dynamique NaViT avec ERNIE-4,5-0,3 B, la puissance de calcul requise est réduite tout en maintenant la précision.

Q : Est-ce que cela a vraiment atteint SOTA ?

R : Nous avons obtenu des résultats exceptionnels lors d'analyses comparatives telles qu'OmniDocBench v1.5/v1.0 et nos propres analyses, couvrant de nombreux indicateurs tels que la performance globale, l'ordre de lecture, les tableaux et les formules. Nos conclusions s'appuient sur les graphiques et les explications fournis dans les rapports publics et les fiches modèles.

Q : Quelles langues et quels scénarios d’application sont pris en charge ?

R : Il couvre 109 langues et convient à des scénarios tels que la composition multi-écritures, les documents historiques et les mises en page complexes. Il peut être associé aux fonctionnalités de structuration de mise en page et de tableaux de PP-StructureV3 pour une analyse métier concrète.

Q : Où puis-je l'obtenir et comment puis-je l'essayer ?

R : GitHub fournit des notes de version et des API de ligne de commande/Python ; HuggingFace fournit des cartes de modèles et des liens de démonstration en ligne ; le site de documentation fournit des guides de déploiement et d'accélération (tels que le serveur vLLM/sglang).

PaddleOCR-VL est sorti Analyse de documents multimodaux PaddleOCR-VL Modèle PaddleOCR-VL0_9B Résolution dynamique PaddleOCR-VLNaViT PagaieOCR-VLERNIE-4_5-0_3B Analyse au niveau de la page PaddleOCR-VL SOTA PaddleOCR-VL Reconnaissance au niveau des fonctionnalités SOTA Résultats de PaddleOCR-VLOmniDocBench PaddleOCR-VL109 langues Prise en charge de plusieurs scripts PaddleOCR-VL Sortie structurée PaddleOCR-VL PaddleOCR-VL Texte, tableau, formule et graphique Reconnaissance de l'écriture manuscrite PaddleOCR-VL Analyse de disposition complexe PaddleOCR-VL Extraction de l'ordre de lecture PaddleOCR-VL Structuration de table PaddleOCR-VL Analyse de la formule PaddleOCR-VL Compréhension du graphique PaddleOCR-VL Analyse PaddleOCR-VLPDF Traitement par lots PaddleOCR-VL Efficacité de l'inférence au niveau de la production PaddleOCR-VL Analyse de bout en bout PaddleOCR-VL Liaison PaddleOCR-VL et PP-StructureV3 Collaboration PaddleOCR-VL et PP-OCRv5 PaddleOCR-VL est open source sur GitHub Carte modèle PaddleOCR-VLHuggingFace Démo en ligne de PaddleOCR-VL Fonctionnalités de base de PaddleOCR-VL3_3_0 Guide de déploiement de PaddleOCR-VL Serveur PaddleOCR-VLvLLM Compatible avec PaddleOCR-VLsglang PaddleOCR-VL VLM léger Accélération de l'inférence PaddleOCR-VL Analyse de la disposition PaddleOCR-VL Compréhension des documents PaddleOCR-VL Application d'entreprise PaddleOCR-VL Exemple PaddleOCR-VLAPI Utilisation de PaddleOCR-VLPython Exemple de visualisation PaddleOCR-VL Téléchargement du modèle PaddleOCR-VL Référence PaddleOCR-VL Ensemble de données auto-construit PaddleOCR-VL Version du jeu de données PaddleOCR-VL Portée d'évaluation PaddleOCR-VL PaddleOCR-VL OCR multilingue Analyse de documents historiques PaddleOCR-VL Scénario de classification mixte PaddleOCR-VL Comparaison PaddleOCR-VLSOTA Précision et efficacité du PaddleOCR-VL Déploiement de production de PaddleOCR-VL

Outils Recommandés

Plus