Retour à L’IA est open source
Sortie du GLM-4.5V : le raisonnement visuel open source entre dans l’ère de la multimodalité « pensante »

Sortie du GLM-4.5V : le raisonnement visuel open source entre dans l’ère de la multimodalité « pensante »

L’IA est open source Admin 4 vues

Z.ai officiellement annoncé le modèle de langage visuel open-source GLM-4.5V. Le modèle est un leader parmi les modèles open-source de sa taille, couvrant 40+ benchmarks publics et se concentrant sur les capacités de raisonnement visuel multimodal. Le GLM-4.5V est basé sur la base GLM-4.5-Air et adopte une architecture MoE (Expert Hybrid) à 106B paramètres, poursuivant la voie technique de la « pensée » du GLM-4.1V-Thinking et offrant une expérience en ligne et un accès API.


1. Positionnement du modèle et route technique

  1. VLM open source pour le raisonnement visuel général et les agents multimodaux.
  2. Sur la base du GLM-4.5-Air, les paramètres MoE totaux sont d’environ 106B et les paramètres actifs sont d’environ 12B.
  3. Présentation du basculement « Think/Fast Mode » : compromis flexible entre l’inférence profonde et la latence de réponse.
  4. Continuez à utiliser le paradigme évolutif d’apprentissage par renforcement et de raisonnement de GLM-4.1V-Thinking.


2. Portée des capacités et tâches typiques

  1. Compréhension d’images et raisonnement multi-images : compréhension de scènes, alignement de graphes croisés et inférence de relations spatiales.
  2. Compréhension vidéo : segmentation de vidéos longues, reconnaissance d’événements, explication indexée dans le temps.
  3. Documents et tables : lecture de documents longs, OCR, extraction de tableaux, analyse graphique.
  4. Scénario GUI/Agent : Planification des opérations telles que la lecture d’écran, le positionnement des éléments, le clic/balayage, etc.
  5. Mise à la terre : Ciblage précis et compréhension de la disposition.


3. Performance de référence et positionnement d’échelle

  1. Les responsables disent qu’il a atteint une position de leader dans les modèles open source de la même taille, couvrant 41 à 42 benchmarks publics.
  2. Les indicateurs clés couvrent les questions-réponses sur les images, la compréhension des vidéos, l’OCR/DocVQA, les questions-réponses sur les graphiques, la compréhension spatiale et front-end, etc.
  3. L’objectif est de trouver un équilibre entre « vérification reproductible + facilité d’utilisation technique » plutôt que de se contenter de courir après des scores.


4. Forme et utilisation ouvertes

  1. Poids et cartes de modèle open source : Fournissez des variantes standard et FP8 pour une inférence et un déploiement faciles.
  2. Code et évaluation : Des référentiels ouverts et des exemples pour aider Transformers à démarrer rapidement.
  3. Expérience en ligne et API : Fournit des conversations Web et des API de plateforme officielles, prenant en charge la saisie multimodale.
  4. Licences et écologie : Les licences Open Source sont adoptées ; Soutenir les dépôts d’évaluation, les espaces de démonstration et les forums de discussion communautaires.


5. Suggestions de mise en œuvre (perspective d’ingénierie)

  1. Planification des ressources : Il est recommandé d’utiliser des pilotes API/FP8 en ligne pour le déploiement de grands modèles MoE, puis d’évaluer les multi-cartes locales.
  2. Évaluation et étalonnage : A/B avec nos propres échantillons, en mettant l’accent sur la robustesse et la précision d’analyse des documents longs.
  3. Sécurité et conformité : ajoutez des politiques de désensibilisation, de redlining et de suivi des données pour les scénarios OCR/documents.
  4. Observation et lecture : enregistrez les entrées, les sorties et les trajectoires de réflexion (le cas échéant) pour une rétrospective facile et une optimisation continue.
  5. Paradigme combinatoire : combinez avec des appels d’extraction/d’outils pour créer des flux de travail d’agent multimodaux de bout en bout.


Q&R

FAQ Q : Le GLM-4.5V est-il open source ? Qu’est-ce que la licence ?

R : Il s’agit d’un modèle open source, et la carte du modèle est marquée comme étant sous licence du MIT.

Q : Quelles sont les modalités prises en charge ?

A : Prise en charge de la saisie d’images, de vidéos, de texte et de fichiers ; La sortie est du texte et peut être accompagnée d’informations structurées telles que les coordonnées de la boîte englobante.

Q : Comment en faire l’expérience rapidement ?

R : Vous pouvez utiliser directement le site officiel pour une conversation en ligne ; Vous pouvez également en faire l’expérience via l’API officielle ou la démo Hugging Face.

Q : Comment commencer avec le raisonnement local ?

R : Des exemples de Transformers et des scripts de raisonnement sont officiellement fournis ; Une variante FP8 est également disponible pour réduire la sollicitation de la mémoire. Les environnements de production peuvent d’abord passer par l’API, puis évaluer le coût de l’auto-hébergement.

Q : Relation avec GLM-4.1V-Thinking ?

R : Héritez de sa formation à la « réflexion » et de ses idées de raisonnement et évoluez efficacement sur une architecture MoE plus large.


Hugging Face (Carte Modèle GLM-4.5V)

https://huggingface.co/zai-org/GLM-4.5V

GitHub (GLM-4.5 Series & Dock Description)

< a href="https://github.com/zai-org/GLM-4.5 » rel="noopener noreferrer » target="_blank">https://github.com/zai-org/GLM-4.5

Expérience en ligne (Chat)<

a href="https://chat.z.ai » rel="noopener noreferrer » target="_blank">https://chat.z.ai


Outils Recommandés

Plus