Z.ai officiellement annoncé le modèle de langage visuel open-source GLM-4.5V. Le modèle est un leader parmi les modèles open-source de sa taille, couvrant 40+ benchmarks publics et se concentrant sur les capacités de raisonnement visuel multimodal. Le GLM-4.5V est basé sur la base GLM-4.5-Air et adopte une architecture MoE (Expert Hybrid) à 106B paramètres, poursuivant la voie technique de la « pensée » du GLM-4.1V-Thinking et offrant une expérience en ligne et un accès API.
1. Positionnement du modèle et route technique
- VLM open source pour le raisonnement visuel général et les agents multimodaux.
- Sur la base du GLM-4.5-Air, les paramètres MoE totaux sont d’environ 106B et les paramètres actifs sont d’environ 12B.
- Présentation du basculement « Think/Fast Mode » : compromis flexible entre l’inférence profonde et la latence de réponse.
- Continuez à utiliser le paradigme évolutif d’apprentissage par renforcement et de raisonnement de GLM-4.1V-Thinking.
2. Portée des capacités et tâches typiques
- Compréhension d’images et raisonnement multi-images : compréhension de scènes, alignement de graphes croisés et inférence de relations spatiales.
- Compréhension vidéo : segmentation de vidéos longues, reconnaissance d’événements, explication indexée dans le temps.
- Documents et tables : lecture de documents longs, OCR, extraction de tableaux, analyse graphique.
- Scénario GUI/Agent : Planification des opérations telles que la lecture d’écran, le positionnement des éléments, le clic/balayage, etc.
- Mise à la terre : Ciblage précis et compréhension de la disposition.
3. Performance de référence et positionnement d’échelle
- Les responsables disent qu’il a atteint une position de leader dans les modèles open source de la même taille, couvrant 41 à 42 benchmarks publics.
- Les indicateurs clés couvrent les questions-réponses sur les images, la compréhension des vidéos, l’OCR/DocVQA, les questions-réponses sur les graphiques, la compréhension spatiale et front-end, etc.
- L’objectif est de trouver un équilibre entre « vérification reproductible + facilité d’utilisation technique » plutôt que de se contenter de courir après des scores.
4. Forme et utilisation ouvertes
- Poids et cartes de modèle open source : Fournissez des variantes standard et FP8 pour une inférence et un déploiement faciles.
- Code et évaluation : Des référentiels ouverts et des exemples pour aider Transformers à démarrer rapidement.
- Expérience en ligne et API : Fournit des conversations Web et des API de plateforme officielles, prenant en charge la saisie multimodale.
- Licences et écologie : Les licences Open Source sont adoptées ; Soutenir les dépôts d’évaluation, les espaces de démonstration et les forums de discussion communautaires.
5. Suggestions de mise en œuvre (perspective d’ingénierie)
- Planification des ressources : Il est recommandé d’utiliser des pilotes API/FP8 en ligne pour le déploiement de grands modèles MoE, puis d’évaluer les multi-cartes locales.
- Évaluation et étalonnage : A/B avec nos propres échantillons, en mettant l’accent sur la robustesse et la précision d’analyse des documents longs.
- Sécurité et conformité : ajoutez des politiques de désensibilisation, de redlining et de suivi des données pour les scénarios OCR/documents.
- Observation et lecture : enregistrez les entrées, les sorties et les trajectoires de réflexion (le cas échéant) pour une rétrospective facile et une optimisation continue.
- Paradigme combinatoire : combinez avec des appels d’extraction/d’outils pour créer des flux de travail d’agent multimodaux de bout en bout.
Q&R
FAQ Q : Le GLM-4.5V est-il open source ? Qu’est-ce que la licence ?
R : Il s’agit d’un modèle open source, et la carte du modèle est marquée comme étant sous licence du MIT.
Q : Quelles sont les modalités prises en charge ?
A : Prise en charge de la saisie d’images, de vidéos, de texte et de fichiers ; La sortie est du texte et peut être accompagnée d’informations structurées telles que les coordonnées de la boîte englobante.
Q : Comment en faire l’expérience rapidement ?
R : Vous pouvez utiliser directement le site officiel pour une conversation en ligne ; Vous pouvez également en faire l’expérience via l’API officielle ou la démo Hugging Face.
Q : Comment commencer avec le raisonnement local ?
R : Des exemples de Transformers et des scripts de raisonnement sont officiellement fournis ; Une variante FP8 est également disponible pour réduire la sollicitation de la mémoire. Les environnements de production peuvent d’abord passer par l’API, puis évaluer le coût de l’auto-hébergement.
Q : Relation avec GLM-4.1V-Thinking ?
R : Héritez de sa formation à la « réflexion » et de ses idées de raisonnement et évoluez efficacement sur une architecture MoE plus large.
Hugging Face (Carte Modèle GLM-4.5V)
https://huggingface.co/zai-org/GLM-4.5V
GitHub (GLM-4.5 Series & Dock Description)
< a href="https://github.com/zai-org/GLM-4.5 » rel="noopener noreferrer » target="_blank">https://github.com/zai-org/GLM-4.5
Expérience en ligne (Chat)<
a href="https://chat.z.ai » rel="noopener noreferrer » target="_blank">https://chat.z.ai