Tongyi Qianwen a lancé le modèle de langage visuel de nouvelle génération, le Qwen3-VL . Le Qwen3-VL-235B-A22B, produit phare, est disponible en deux versions open source : Instruct et Thinking . Les documents officiels montrent qu'Instruct surpasse Gemini 2.5 Pro sur plusieurs benchmarks visuels, tandis que Thinking obtient des résultats exceptionnels dans les tâches de raisonnement multimodal. Le modèle prend en charge les « agents visuels » capables d'interpréter les boutons, d'invoquer des outils et d'effectuer des tâches concrètes sur des interfaces PC/mobiles ; il a obtenu d'excellents résultats lors de benchmarks tels qu'OS World .
Cette mise à niveau met l'accent sur la couverture de contextes longs et de scénarios complexes : elle prend en charge plus de 256 Ko de contexte, extensible à 1 Mo , et peut traiter environ deux heures de vidéo et des PDF multipages. Elle offre également l'OCR en 32 langues (avec une robustesse accrue contre les caractères flous, biaisés et rares), et offre des performances plus robustes en compréhension spatiale 2D/3D, occlusion et raisonnement par points de vue. Concernant l'écosystème ouvert, la conversation en ligne (Qwen Chat), l'API (Alibaba Cloud Model Studio) et les pondérations et démonstrations Hugging Face/ModelScope ont été publiées simultanément.
Questions fréquemment posées
Q : Quelles variantes sont open source cette fois-ci ?
A : Qwen3-VL-235B-A22B Instruction et réflexion , fournit également des ressources de légende/démonstration et des exemples de raisonnement.
Q : Que peut faire un agent visuel ?
A : Lisez les éléments et les hiérarchies de l’écran, comprenez les boutons et les formulaires et utilisez les appels d’outils pour effectuer des tâches sur des appareils/applications réels.
Q : Quelle est la taille du contexte long pris en charge ?
R : Il est marqué comme 256K+ et peut être étendu jusqu'au niveau 1M , ce qui convient aux scénarios de vidéos et de documents longs.
Q : Quelle est la couverture des capacités multilingues ?
R : Il prend en charge l'OCR dans 32 langues et ses capacités de texte sont alignées sur les meilleurs modèles généraux pour la lecture et la compréhension d'écran multilingue.
Q : Comment expérimenter ou accéder ?
R : Pour Qwen Chat, choisissez qwen3-vl-plus . Alibaba Cloud Model Studio fournit l'API. Les pondérations et les démonstrations sont disponibles dans Hugging Face/ModelScope.