Le 4 octobre 2025, Qwen a officiellement annoncé le lancement de deux nouveaux modèles multimodaux, Qwen3-VL-30B-A3B-Instruct et -Thinking, dans sa base de code, et a simultanément fourni des versions quantifiées FP8. Auparavant, le Qwen3-VL-235B-A22B, plus volumineux, avait été lancé en septembre et proposait déjà des variantes FP8. 30B-A3B utilise une architecture Mixture-of-Experts et dispose d'environ 3 milliards de paramètres d'activation par inférence. L'objectif est d'améliorer significativement le débit et l'efficacité du déploiement tout en conservant les capacités de Qwen3-VL. Les sources officielles affirment qu'il peut concurrencer GPT-5-Mini et Claude 4 Sonnet dans des tâches telles que STEM, VQA, OCR, compréhension vidéo et Agent, et qu'il est souvent en tête dans certains benchmarks, mais une évaluation indépendante est toujours en cours.
Qwen Chat propose actuellement un accès facultatif aux modèles, et HuggingFace et ModelScope ont lancé des versions pondérées et quantifiées pertinentes. La page API répertorie également les séries de modèles. Il est important de noter que les publications et les journaux du référentiel sont des informations officielles, et que certaines comparaisons de performances sont auto-déclarées par le fournisseur. Sans expériences de réplication tierces, il est inapproprié de conclure que « égal/dépasse » est une affirmation définitive. Pour les équipes axées sur les coûts et le déploiement, la version FP8 vise à réduire l'utilisation de la mémoire et de la bande passante et à améliorer le débit, mais les avantages spécifiques dépendent du matériel et de la pile d'inférence. Il est recommandé d'effectuer des tests A/B sur le jeu de données cible et le scénario d'inférence avant de passer en production.
Questions fréquemment posées
Q : Quand le Qwen3-VL-30B-A3B sortira-t-il ?
R : Selon les informations du dépôt officiel, la date de sortie est le 4 octobre 2025 ; les blogs associés et les cartes de modèles seront mis à jour progressivement ce jour-là et par la suite.
Q : Que signifie le soi-disant « paramètre d'activation 3B » ?
R : Il s'agit d'une fonctionnalité de l'architecture MoE (Mixture of Experts). Le modèle complet comporte environ 30 B paramètres, mais seuls 3 B environ sont activés à chaque passage, ce qui contribue à améliorer la rentabilité et le débit.
Q : À quoi sert la version FP8 ?
R : La quantification FP8 optimise l'efficacité de l'inférence et l'utilisation des ressources. En principe, elle permet de réduire les besoins en mémoire vidéo et en bande passante, et d'améliorer le débit. Les avantages dépendent du matériel et de la mise en œuvre.
Q : La comparaison avec GPT-5-Mini et Claude 4 Sonnet est-elle crédible ?
R : Il s'agit de la déclaration du fabricant lui-même. Elle ne repose pas sur des essais de reproduction effectués par des tiers ni sur des données de référence publiques suffisantes. Elle doit être considérée comme de la propagande. Il est recommandé d'attendre une évaluation indépendante.
Q : Où puis-je expérimenter ou obtenir des poids ?
R : Qwen Chat propose des essais en ligne, tandis que HuggingFace et ModelScope proposent des versions de modèles et de quantification. Les entreprises peuvent accéder à la série de modèles via l'API d'Alibaba Cloud Model Studio.