1. Zusammenfassung
ERNIE-4.5-VL-28B-A3B-Thinking ist Baidus neues, leichtgewichtiges multimodales Open-Source-Denkmodell mit 28 Mrd. Gesamtparametern und etwa 3 Mrd. Aktivierung, das sich auf die semantische Ausrichtung von Vision und Sprache und die Fähigkeit des "Denkens mit Bildern" konzentriert und das Zoomen/Verengen der Aufmerksamkeit für Details unterstützt. Das Modell ist unter Apache-2.0 lizenziert und im Handel erhältlich. Offiziell ist es in Benchmarks wie dem Dokumenten- und Grafikverständnis besser als Gemini-2.5-Pro und GPT-5-High (Schlussfolgerungen unterliegen reproduzierbaren Experimenten).
2. Kernfunktionen
1. 3B aktiviert die MoE-Architektur: Verbessert die Leistung komplexer Aufgaben und hält gleichzeitig die Inferenzkosten kontrollierbar.
2. Image Thinking: Multi-Scale-Zoomen/Durchsuchen von Details, um das Lesen von Tabellen, OCR und das Layoutverständnis zu verbessern.
3. Analyse langer Dokumente/Tabellen: Optimiert für Q&A-Szenarien für Dokument, Tabellen- und Diagrammelementextraktionsszenarien.
4. Offen für die kommerzielle Nutzung: Apache-2.0-Lizenz, die für Unternehmen bequem zu implementieren und erneut zu entwickeln ist.
5. Schulungs- und Ausrichtungs-Toolchain: Ausgestattet mit ERNIEKit, das SFT, LoRA, DPO und andere Prozesse abdeckt.
3. Installation
1. Modellerfassung: Ziehen Sie Gewichte und Beispiele von Hugging Face oder ModelScope.
2. Umgebung: Verwenden Sie lieber PaddlePaddle und ERNIEKit. Sie können sich auch auf Leerzeichen/Beispiele beziehen, um zu argumentieren.
3. Feinabstimmung: LoRA/SFT ist in ERNIEKit sofort verfügbar, und Sie können je nach Videospeicher eine Low-Rank- oder eine vollständige Lösung wählen.
4. Typische Anwendungsfälle
1. Fragen und Antworten zu Dokumenten und Layout-Verständnis: strukturierte Extraktion von Rechnungen, Compliance-Dokumenten und Handbüchern.
2. Diagrammverständnis: Identifizieren Sie automatisch Koordinaten/Legenden/Datenreihen und generieren Sie Zusammenfassungen und Schlussfolgerungen.
3. Wissensabruf in Unternehmen: In Kombination mit RAG multimodale Suche und Beantwortung von Bildern und PDFs.
4. Risikokontrolle und Qualitätsprüfung: Rechnungsvergleich, grafische Konsistenz und Elementüberprüfung.
5. Ökosystem und konkurrierende Produkte
1. Ökosystem: GitHub Unified Repository, AI Studio Online-Erfahrung, ModelScope und HF-Version.
2. Wettbewerber: Qwen2.5-VL, Llama-3.2-Vision, InternVL2.5 usw.; Der Unterschied von ERNIE ist die Inferenzeffizienz der 3B-aktivierten Inferenz gegenüber dem "Bilddenken". Der tatsächliche Effekt hängt von der Wiedergabe der Szene ab.
6. Einschränkungen und Vorsichtsmaßnahmen
1. Die Benchmark-Aussage muss reproduziert werden: Es besteht die Gefahr einer Abweichung von der Ausrichtung an Closed-Source-/andere Evaluierungseinstellungen.
2. Speicher und Verzögerung: Der Denkmodus erhöht die Anzahl der Inferenzschritte und die Verzögerung.
3. Mehrsprachige Abdeckung: Die Leistung von Chinesisch/Englisch ist relativ stabil, und andere Sprachen müssen zusätzlich evaluiert werden.
4. Compliance und Datensicherheit: Es wird empfohlen, datenschutzbezogene Dokumente mit Maskierung und Zugriffskontrolle auszustatten.
7. Projektadresse
https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
8. Häufig gestellte Fragen
F: Ist ERNIE-4.5-VL-28B-A3B-Thinking kommerziell lizenziert?
A: Es ist unter Apache-2.0 lizenziert und kann für kommerzielle Anwendungen verwendet werden.
F: Wie hilft Thinking Images beim Verständnis von Tabellen/Diagrammen?
A: Durch Multi-Scale-Vergrößerung und Detailverfolgung wird die Erkennung und Zuordnung von Kleingedrucktem/feinen Linien/Anmerkungen verbessert.
F: Welche Toolchain wird für die Inferenz empfohlen?
A: PaddlePaddle + ERNIEKit wird empfohlen; Feinabstimmung mit LoRA/SFT/DPO verfügbar.
F: Wie wählt man im Vergleich zu Modellen wie Qwen2.5-VL?
A: Wenn Sie auf Inferenzkosten und Dokument-/Diagrammszenarien achten, können Sie der Evaluierung dieses Modells Vorrang einräumen. Validieren Sie abschließend mit einem Business-Set.
F: Wird es für die Bereitstellung lokaler Privatisierungen unterstützt?
A: Ja, lokale Zuggewichte und Feinabstimmung nach Bedarf; Ausreichend Videospeicher und Inferenzoptimierung müssen vorbereitet werden.