Retour à L’IA est open source
Modèle de justification multimodale open source disponible dans le commerce : ERNIE-4.5-VL-28B-A3B-Analyse de la pensée

Modèle de justification multimodale open source disponible dans le commerce : ERNIE-4.5-VL-28B-A3B-Analyse de la pensée

L’IA est open source Admin 102 vues

1. Résumé

ERNIE-4.5-VL-28B-A3B-Thinking est le nouveau modèle de raisonnement multimodal léger open source de Baidu, avec 28B de paramètres totaux et environ 3B d’activation, se concentrant sur l’alignement sémantique de la vision et du langage et la capacité de « Penser avec des images », et prenant en charge le zoom/rétrécissement de l’attention aux détails. Le modèle est sous licence Apache-2.0 et est disponible dans le commerce. Officiellement, il est meilleur que Gemini-2.5-Pro et GPT-5-High dans les benchmarks tels que la compréhension de documents et de graphiques (les conclusions sont soumises à des expériences reproductibles).

2. Caractéristiques de base

1. 3B active l’architecture MoE : améliore les performances des tâches complexes tout en gardant les coûts d’inférence contrôlables.

2. Pensée d’image : zoom/navigation multi-échelle pour améliorer la lecture des tableaux, l’OCR et la compréhension de la mise en page.

3. Analyse longue de documents/tableaux : optimisée pour les scénarios de questions-réponses de documents, de tableaux et d’éléments de graphique.

4. Ouvert à un usage commercial : Licence Apache-2.0, qui est pratique pour les entreprises à mettre en œuvre et à développer à nouveau.

5. Chaîne d’outils de formation et d’alignement : Équipé d’ERNIEKit, couvrant SFT, LoRA, DPO et autres processus.

3. Installation

1. Acquisition du modèle : Tirez des poids et des exemples de Hugging Face ou de ModelScope.

2. Environnement : Préférez utiliser PaddlePaddle et ERNIEKit. Vous pouvez également vous référer à des espaces/exemples pour le raisonnement.

3. Réglage fin : LoRA/SFT est disponible prêt à l’emploi dans ERNIEKit, et vous pouvez choisir une solution de rang inférieur ou complète en fonction de la mémoire vidéo.

4. Cas d’utilisation typiques

1. Q&R sur les documents et compréhension de la mise en page : extraction structurée des factures, des documents de conformité et des manuels.

2. Compréhension des graphiques : identifiez automatiquement les coordonnées/légendes/séries de données, et générez des résumés et des conclusions.

3. Récupération des connaissances de l’entreprise : Combiné avec RAG, recherche multimodale et réponse sur images et PDF.

4. Contrôle des risques et contrôle de la qualité : comparaison des factures, cohérence graphique et vérification des éléments.

5. Écosystème et produits concurrents

1. Écosystème : référentiel unifié GitHub, expérience en ligne AI Studio, ModelScope et version HF.

2. Compétiteurs : Qwen2.5-VL, Llama-3.2-Vision, InternVL2.5, etc. ; Le point de différence d’ERNIE est l’efficacité d’inférence de l’inférence activée par 3B par rapport à la « pensée d’image ». L’effet réel est soumis à la reproduction de la scène.

6. Limites et précautions

1. L’énoncé de référence doit être reproduit : il existe un risque d’écart par rapport à l’alignement avec des sources fermées/des paramètres d’évaluation différents.

2. Mémoire et délai : Le mode réflexion augmente le nombre d’étapes d’inférence et le délai.

3. Couverture multilingue : Les performances chinois/anglais sont relativement stables et les autres langues doivent être évaluées en plus.

4. Conformité et sécurité des données : Il est recommandé d’ajouter le masquage et le contrôle d’accès aux documents liés à la confidentialité.

7. Adresse

 du projet https ://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

8. FAQ

Q : Est-ce que ERNIE-4.5-VL-28B-A3B-Thinking est sous licence commerciale ?

R : Il est sous licence Apache-2.0 et peut être utilisé pour des applications commerciales.

Q : Comment Thinking Images aide-t-il à la compréhension des tableaux/graphiques ?

R : Grâce à l’agrandissement multi-échelle et au suivi des détails, la reconnaissance et l’association de petits caractères, de lignes fines et d’annotations sont améliorées.

Q : Quelle chaîne d’outils est recommandée pour l’inférence ?

R : PaddlePaddle + ERNIEKit est recommandé ; Réglage fin disponible avec LoRA/SFT/DPO.

Q : Comment choisir par rapport à des modèles comme Qwen2.5-VL ?

R : Si vous prêtez attention aux coûts d’inférence et que vous documentez/schématisez des scénarios, vous pouvez donner la priorité à l’évaluation de ce modèle ; Enfin, validez avec un ensemble d’affaires.

Q : Est-il pris en charge pour le déploiement de la privatisation locale ?

R : Oui, les poids de traction locaux et les affinent au besoin ; Une mémoire vidéo suffisante et l’optimisation de l’inférence doivent être préparées.

ERNIE4.5VL28B modèle multimodal léger ERNIE4.5 Pensée d’image et capacité de lecture ERNIE4.5Licence commerciale Apache 2.0 ERNIE4.5 triple B active l’architecture MoE ERNIE4.5 Alignement sémantique du langage visuel ERNIE4.5 Analyse de table de documents longs ERNIE4.5 document Q&R compréhension de la mise en page ERNIE4.5 Reconnaissance de la légende des coordonnées de la carte ERNIE4.5 petits caractères détails agrandir Atterrissage de la conformité au niveau de l’entreprise ERNIE4.5 ERNIE4.5 prend en charge l’inférence PaddlePaddle ERNIE4.5 est livré avec la formation ERNIEKit La finition ERNIE4.5 LoRA est disponible prête à l’emploi ERNIE4.5SFT aligne le processus sur celui du DPO ERNIE4.5RAG : questions et réponses sur la récupération multimodale ERNIE4.5 Extraction des informations de facturation Structure de mise en page ERNIE4.5OCR ERNIE4.5 contrôle des risques inspection qualité vérification de la conformité ERNIE4.5Analyse unifiée d’image PDF Les éléments de la table ERNIE4.5 sont automatiquement extraits ERNIE4.5 Compréhension de la série de données cartographiques ERNIE4.5 recherche web combinaison multimodale Comparaison ERNIE4.5 vs QwenVL ERNIE4.5 contre LlamaVision Différences entre ERNIE4.5 et InternVL ERNIE4.5 surpasse les benchmarks de sources fermées Expériences reproductibles ERNIE4.5 à vérifier ERNIE4.5 Évaluation du coût d’inférence et du retard Occupation et déploiement de la mémoire ERNIE4.5 ERNIE4.5 Lignes directrices sur le déploiement de la privatisation locale ERNIE4.5 Évaluation de la capacité de couverture multilingue ERNIE4.5 a obtenu de solides performances en chinois et en anglais Scénario d’entreprise ERNIE4.5 Cas d’application ERNIE4.5 Base de connaissances Q&R Pratique Chemin d’acquisition du poids du modèle ERNIE4.5 ERNIE4.5Page du modèle HuggingFace ERNIE4.5ModelScope a été publié en même temps ERNIE4.5AIStudio expérience en ligne Inférence d’agrandissement et de réduction de l’image ERNIE4.5 ERNIE4.5 Schéma de document Compréhension commune Chaîne d’outils d’alignement d’entraînement de modèle ERNIE4.5 ERNIE4.5 réglage fin de bas niveau compatible avec la mémoire ERNIE4.5 Stratégie de suivi des détails multi-échelles Génération du résumé du graphique de tableau ERNIE4.5 Recommandations de conformité ERNIE4.5 et de sécurité des données ERNIE4.5 Désensibilisation des documents sur la protection de la vie privée ERNIE4.5 est comparé à Gemini ERNIE4.5 est comparé à la série GPT ERNIE4.5 est destiné au développement secondaire en entreprise Le protocole open-source ERNIE4.5 utilise les limites Vérification de l’effet de l’ensemble d’affaires ERNIE4.5

Outils Recommandés

Plus