L'équipe Alibaba Cloud Tongyi Qianwen a annoncé la sortie de deux nouvelles versions open source de la série de modèles Qwen3-VL : Qwen3-VL-4B et Qwen3-VL-8B, disponibles sur GitHub. Selon la présentation officielle, ces deux modèles héritent de l'architecture Qwen3 et sont optimisés pour les tâches multimodales impliquant des images et du texte. Ils peuvent comprendre le contenu des images, du texte et des tableaux, et prennent en charge les réponses génératives et le raisonnement visuel complexe.
Selon la documentation technique, le Qwen3-VL-4B est conçu pour les applications légères, alliant performances et coûts de déploiement. Le Qwen3-VL-8B offre une précision accrue et des capacités de compréhension visuelle améliorées, ce qui le rend idéal pour la recherche scientifique et les tâches en entreprise. Les responsables ont indiqué que les utilisateurs de la communauté sont libres de tester les performances du modèle et de fournir des commentaires, et que le partage public des cas de réussite et d'échec est encouragé. Cette version est considérée comme une extension significative des capacités multimodales open source de Tongyi.
Questions fréquemment posées
Q : Quel type de modèle est Qwen3-VL ?
R : Il s’agit du modèle multimodal de Tongyi Qianwen qui peut traiter à la fois les entrées d’image et de texte.
Q : Quelles nouvelles versions sont incluses dans cette version ?
A : Deux nouveaux modèles open source à l'échelle des paramètres, Qwen3-VL-4B et Qwen3-VL-8B, ont été ajoutés.
Q : Où puis-je me procurer ces modèles ?
R : Le code du modèle et les fichiers de poids ont été publiés dans le référentiel GitHub officiel de Qwen.
Q : Quelles sont les améliorations par rapport à la version précédente ?
R : Il améliore principalement la compréhension visuelle, la précision de l’OCR et les capacités de raisonnement intermodal, et optimise la vitesse de raisonnement.
Q : Peut-il être déployé commercialement ou localement ?
R : Conformément à l'accord de licence open source officiel de Qwen, vous pouvez librement le rechercher et le déployer sous réserve du respect des conditions.