Retour à Informations sur l’IA
Qwen3-VL est disponible : le modèle phare 235B est open source, avec des versions d'instructions et de réflexion disponibles.

Qwen3-VL est disponible : le modèle phare 235B est open source, avec des versions d'instructions et de réflexion disponibles.

Informations sur l’IA Admin 116 vues

Tongyi Qianwen a lancé le modèle de langage visuel de nouvelle génération, le Qwen3-VL . Le Qwen3-VL-235B-A22B, produit phare, est disponible en deux versions open source : Instruct et Thinking . Les documents officiels montrent qu'Instruct surpasse Gemini 2.5 Pro sur plusieurs benchmarks visuels, tandis que Thinking obtient des résultats exceptionnels dans les tâches de raisonnement multimodal. Le modèle prend en charge les « agents visuels » capables d'interpréter les boutons, d'invoquer des outils et d'effectuer des tâches concrètes sur des interfaces PC/mobiles ; il a obtenu d'excellents résultats lors de benchmarks tels qu'OS World .

Cette mise à niveau met l'accent sur la couverture de contextes longs et de scénarios complexes : elle prend en charge plus de 256 Ko de contexte, extensible à 1 Mo , et peut traiter environ deux heures de vidéo et des PDF multipages. Elle offre également l'OCR en 32 langues (avec une robustesse accrue contre les caractères flous, biaisés et rares), et offre des performances plus robustes en compréhension spatiale 2D/3D, occlusion et raisonnement par points de vue. Concernant l'écosystème ouvert, la conversation en ligne (Qwen Chat), l'API (Alibaba Cloud Model Studio) et les pondérations et démonstrations Hugging Face/ModelScope ont été publiées simultanément.

Questions fréquemment posées

Q : Quelles variantes sont open source cette fois-ci ?

A : Qwen3-VL-235B-A22B Instruction et réflexion , fournit également des ressources de légende/démonstration et des exemples de raisonnement.

Q : Que peut faire un agent visuel ?

A : Lisez les éléments et les hiérarchies de l’écran, comprenez les boutons et les formulaires et utilisez les appels d’outils pour effectuer des tâches sur des appareils/applications réels.

Q : Quelle est la taille du contexte long pris en charge ?

R : Il est marqué comme 256K+ et peut être étendu jusqu'au niveau 1M , ce qui convient aux scénarios de vidéos et de documents longs.

Q : Quelle est la couverture des capacités multilingues ?

R : Il prend en charge l'OCR dans 32 langues et ses capacités de texte sont alignées sur les meilleurs modèles généraux pour la lecture et la compréhension d'écran multilingue.

Q : Comment expérimenter ou accéder ?

R : Pour Qwen Chat, choisissez qwen3-vl-plus . Alibaba Cloud Model Studio fournit l'API. Les pondérations et les démonstrations sont disponibles dans Hugging Face/ModelScope.

Version open source de Qwen3-VL Qwen3-VL-235B-A22B Version Qwen3-VLInstruct Qwen3-VLTinking Edition Agent visuel Qwen3-VL Agent visuel Qwen3-VL Contexte long Qwen3-VL 256K Extension de contexte Qwen3-VL 1M Compréhension vidéo Qwen3-VL de deux heures Analyse PDF multipage Qwen3-VL Raisonnement multimodal Qwen3-VL Qwen3-VL surpasse Gemini2\_5Pro Chefs d'évaluation de Qwen3-VLOSWorld Qwen3-VL 32 langues OCR Reconnaissance de texte flou Qwen3-VL Robustesse du texte incliné Qwen3-VL Qwen3-VL caractère rare OCR Qwen3-VL2D_Compréhension spatiale 3D Raisonnement d'occlusion Qwen3-VL Raisonnement en perspective Qwen3-VL L'écran du Qwen3-VL lit les boutons Automatisation des formulaires Qwen3-VL Appel d'outil Qwen3-VL Fonctionnement réel du périphérique Qwen3-VL Prise en charge du téléphone mobile Qwen3-VLPC Accès à Qwen3-VL et QwenChat API Qwen3-VLModelStudio Poids Qwen3-VLHuggingFace Miroir Qwen3-VLModelScope Ressources Qwen3-VLCaption Démo Qwen3-VL Lecteur d'écran multilingue Qwen3-VL Couverture de scène complexe Qwen3-VL Traitement de documents longs Qwen3-VL Questions-réponses vidéo sur Qwen3-VL Qwen3-VL est en tête de l'évaluation multimodale Compréhension interlinguistique Qwen3-VL Téléchargement du poids open source Qwen3-VL Exemple d'inférence Qwen3-VL Guide d'accès Qwen3-VLAPI Compatibilité écologique Qwen3-VL Qwen3-VL et collaboration avec la chaîne d'outils Qwen3-VL convivial pour les développeurs Scénarios d'application d'entreprise Qwen3-VL Modèle universel de référence Qwen3-VL Hiérarchie des éléments de l'écran Qwen3-VL Compréhension du formulaire du bouton Qwen3-VL Extraction de points clés de la longue vidéo Qwen3-VL Résumé PDF multipage de Qwen3-VL Points forts de l'évaluation du Qwen3-VL

Outils Recommandés

Plus