Modèle de justification multimodale open source disponible dans le commerce : ERNIE-4.5-VL-28B-A3B-Analyse de la pensée

1. Résumé

ERNIE-4.5-VL-28B-A3B-Thinking est le nouveau modèle de raisonnement multimodal léger open source de Baidu, avec 28B de paramètres totaux et environ 3B d’activation, se concentrant sur l’alignement sémantique de la vision et du langage et la capacité de « Penser avec des images », et prenant en charge le zoom/rétrécissement de l’attention aux détails. Le modèle est sous licence Apache-2.0 et est disponible dans le commerce. Officiellement, il est meilleur que Gemini-2.5-Pro et GPT-5-High dans les benchmarks tels que la compréhension de documents et de graphiques (les conclusions sont soumises à des expériences reproductibles).

2. Caractéristiques de base

1. 3B active l’architecture MoE : améliore les performances des tâches complexes tout en gardant les coûts d’inférence contrôlables.

2. Pensée d’image : zoom/navigation multi-échelle pour améliorer la lecture des tableaux, l’OCR et la compréhension de la mise en page.

3. Analyse longue de documents/tableaux : optimisée pour les scénarios de questions-réponses de documents, de tableaux et d’éléments de graphique.

4. Ouvert à un usage commercial : Licence Apache-2.0, qui est pratique pour les entreprises à mettre en œuvre et à développer à nouveau.

5. Chaîne d’outils de formation et d’alignement : Équipé d’ERNIEKit, couvrant SFT, LoRA, DPO et autres processus.

3. Installation

1. Acquisition du modèle : Tirez des poids et des exemples de Hugging Face ou de ModelScope.

2. Environnement : Préférez utiliser PaddlePaddle et ERNIEKit. Vous pouvez également vous référer à des espaces/exemples pour le raisonnement.

3. Réglage fin : LoRA/SFT est disponible prêt à l’emploi dans ERNIEKit, et vous pouvez choisir une solution de rang inférieur ou complète en fonction de la mémoire vidéo.

4. Cas d’utilisation typiques

1. Q&R sur les documents et compréhension de la mise en page : extraction structurée des factures, des documents de conformité et des manuels.

2. Compréhension des graphiques : identifiez automatiquement les coordonnées/légendes/séries de données, et générez des résumés et des conclusions.

3. Récupération des connaissances de l’entreprise : Combiné avec RAG, recherche multimodale et réponse sur images et PDF.

4. Contrôle des risques et contrôle de la qualité : comparaison des factures, cohérence graphique et vérification des éléments.

5. Écosystème et produits concurrents

1. Écosystème : référentiel unifié GitHub, expérience en ligne AI Studio, ModelScope et version HF.

2. Compétiteurs : Qwen2.5-VL, Llama-3.2-Vision, InternVL2.5, etc. ; Le point de différence d’ERNIE est l’efficacité d’inférence de l’inférence activée par 3B par rapport à la « pensée d’image ». L’effet réel est soumis à la reproduction de la scène.

6. Limites et précautions

1. L’énoncé de référence doit être reproduit : il existe un risque d’écart par rapport à l’alignement avec des sources fermées/des paramètres d’évaluation différents.

2. Mémoire et délai : Le mode réflexion augmente le nombre d’étapes d’inférence et le délai.

3. Couverture multilingue : Les performances chinois/anglais sont relativement stables et les autres langues doivent être évaluées en plus.

4. Conformité et sécurité des données : Il est recommandé d’ajouter le masquage et le contrôle d’accès aux documents liés à la confidentialité.

7. Adresse

du projet https ://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

8. FAQ

Q : Est-ce que ERNIE-4.5-VL-28B-A3B-Thinking est sous licence commerciale ?

R : Il est sous licence Apache-2.0 et peut être utilisé pour des applications commerciales.

Q : Comment Thinking Images aide-t-il à la compréhension des tableaux/graphiques ?

R : Grâce à l’agrandissement multi-échelle et au suivi des détails, la reconnaissance et l’association de petits caractères, de lignes fines et d’annotations sont améliorées.

Q : Quelle chaîne d’outils est recommandée pour l’inférence ?

R : PaddlePaddle + ERNIEKit est recommandé ; Réglage fin disponible avec LoRA/SFT/DPO.

Q : Comment choisir par rapport à des modèles comme Qwen2.5-VL ?

R : Si vous prêtez attention aux coûts d’inférence et que vous documentez/schématisez des scénarios, vous pouvez donner la priorité à l’évaluation de ce modèle ; Enfin, validez avec un ensemble d’affaires.

Q : Est-il pris en charge pour le déploiement de la privatisation locale ?

R : Oui, les poids de traction locaux et les affinent au besoin ; Une mémoire vidéo suffisante et l’optimisation de l’inférence doivent être préparées.

Articles connexes

OpenAI lance « ChatGPT Plus pour les anciens combattants » : le personnel militaire et les anciens combattants américains peuvent postuler gratuitement pendant 12 mois

GPT-5.1 Instant et GPT-5.1 Thinking ont été publiés, et GPT-5 a inauguré une importante mise à jour itérative

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés