La plateforme de Zhipu Z.ai annoncé le lancement de la série GLM-4.6V de modèles visuels de langage, incluant GLM-4.6V pour le cloud et les scénarios de cluster haute performance avec une échelle de paramètres de 106B, ainsi qu’une version légère de GLM-4.6V-Flash pour les scénarios locaux et à faible latence. Selon l’introduction officielle, le GLM-4.6V prend en charge jusqu’à 128K en contexte de jetons en entraînement, peut traiter simultanément des entrées multimodales telles que des images, du texte et des fichiers, et atteint de grandes capacités de compréhension visuelle sur des modèles de même taille.
En termes de conception de capacités, la série GLM-4.6V intègre pour la première fois des capacités d’appel de fonctions natives dans la famille des modèles de vision, ce qui peut déclencher des outils ou des interfaces métier basées sur la compréhension d’images et de documents longs, fournissant une infrastructure pour des applications d’agents multimodaux. Les développeurs peuvent découvrir le modèle via la page de dialogue en ligne fournie par Z.ai, ou utiliser l’interface API pour intégrer les appels dans leur propre entreprise. Parallèlement, les poids des modèles sont accessibles au public sur Hugging Face, ce qui facilite le déploiement local ou privé pour les équipes disposant de puissance de calcul.
En termes de frais, la facturation API annoncée par Z.ai est calculée en millions de tokens, l’inférence cloud GLM-4.6V est facturée séparément pour l’entrée et la sortie, et la version Flash est actuellement marquée comme gratuite, ce qui convient aux scénarios d’application sensibles au coût et à la latence. Le prix spécifique, l’offre à durée limitée et les règles de quotas sont soumis à la documentation des développeurs et à la publicité sur console, et les utilisateurs doivent prêter attention aux quotas de compte, à la conformité de sécurité et aux questions de protection de la vie privée pour les téléchargements de données multimodales avant d’y accéder.
FAQ
Q : Quel modèle est le GLM-4.6V ?
R : GLM-4.6V est un grand modèle multimodal lancé par Z.ai, capable de traiter simultanément des entrées telles que des images et du texte, et qui supporte des capacités de contexte long et de raisonnement.
Q : Quelle est la différence entre le GLM-4.6V-Flash et le GLM-4.6V ?
R : GLM-4.6V-Flash est une version légère et à haute vitesse, plus adaptée au déploiement sur site et aux applications à faible latence, tandis que GLM-4.6V convient aux scénarios cloud et de cluster haute performance.
Q : Comment puis-je découvrir les modèles de la série GLM-4.6V ?
R : Les utilisateurs réguliers peuvent en profiter via la page de chat en ligne de Z.ai, et les développeurs peuvent l’intégrer dans leurs propres applications via l’API officielle.
Q : Le GLM-4.6V prend-il en compte les appels de fonction ?
R : La série GLM-4.6V prend en charge les appels de fonctions natifs, qui peuvent être utilisés pour appeler des outils externes ou des interfaces métier après analyse d’images et de documents, ce qui facilite la création d’agents multimodaux.
Q : Quel est le prix du GLM-4,6V et du GLM-4,6V-Flash ?
R : Le GLM-4,6V est facturé pour les appels API sur une base d’un million de jetons pour l’entrée et la sortie, et le GLM-4,6V-Flash est actuellement indiqué comme gratuit, selon la page officielle des prix.