Retour à Informations sur l’IA
Qwen publie Qwen3-VL-30B-A3B Instruct/Thinking : Paramètres d'activation 3B, nouvelle combinaison multimodale prenant en charge FP8

Qwen publie Qwen3-VL-30B-A3B Instruct/Thinking : Paramètres d'activation 3B, nouvelle combinaison multimodale prenant en charge FP8

Informations sur l’IA Admin 209 vues

Le 4 octobre 2025, Qwen a officiellement annoncé le lancement de deux nouveaux modèles multimodaux, Qwen3-VL-30B-A3B-Instruct et -Thinking, dans sa base de code, et a simultanément fourni des versions quantifiées FP8. Auparavant, le Qwen3-VL-235B-A22B, plus volumineux, avait été lancé en septembre et proposait déjà des variantes FP8. 30B-A3B utilise une architecture Mixture-of-Experts et dispose d'environ 3 milliards de paramètres d'activation par inférence. L'objectif est d'améliorer significativement le débit et l'efficacité du déploiement tout en conservant les capacités de Qwen3-VL. Les sources officielles affirment qu'il peut concurrencer GPT-5-Mini et Claude 4 Sonnet dans des tâches telles que STEM, VQA, OCR, compréhension vidéo et Agent, et qu'il est souvent en tête dans certains benchmarks, mais une évaluation indépendante est toujours en cours.

Qwen Chat propose actuellement un accès facultatif aux modèles, et HuggingFace et ModelScope ont lancé des versions pondérées et quantifiées pertinentes. La page API répertorie également les séries de modèles. Il est important de noter que les publications et les journaux du référentiel sont des informations officielles, et que certaines comparaisons de performances sont auto-déclarées par le fournisseur. Sans expériences de réplication tierces, il est inapproprié de conclure que « égal/dépasse » est une affirmation définitive. Pour les équipes axées sur les coûts et le déploiement, la version FP8 vise à réduire l'utilisation de la mémoire et de la bande passante et à améliorer le débit, mais les avantages spécifiques dépendent du matériel et de la pile d'inférence. Il est recommandé d'effectuer des tests A/B sur le jeu de données cible et le scénario d'inférence avant de passer en production.

Questions fréquemment posées

Q : Quand le Qwen3-VL-30B-A3B sortira-t-il ?

R : Selon les informations du dépôt officiel, la date de sortie est le 4 octobre 2025 ; les blogs associés et les cartes de modèles seront mis à jour progressivement ce jour-là et par la suite.

Q : Que signifie le soi-disant « paramètre d'activation 3B » ?

R : Il s'agit d'une fonctionnalité de l'architecture MoE (Mixture of Experts). Le modèle complet comporte environ 30 B paramètres, mais seuls 3 B environ sont activés à chaque passage, ce qui contribue à améliorer la rentabilité et le débit.

Q : À quoi sert la version FP8 ?

R : La quantification FP8 optimise l'efficacité de l'inférence et l'utilisation des ressources. En principe, elle permet de réduire les besoins en mémoire vidéo et en bande passante, et d'améliorer le débit. Les avantages dépendent du matériel et de la mise en œuvre.

Q : La comparaison avec GPT-5-Mini et Claude 4 Sonnet est-elle crédible ?

R : Il s'agit de la déclaration du fabricant lui-même. Elle ne repose pas sur des essais de reproduction effectués par des tiers ni sur des données de référence publiques suffisantes. Elle doit être considérée comme de la propagande. Il est recommandé d'attendre une évaluation indépendante.

Q : Où puis-je expérimenter ou obtenir des poids ?

R : Qwen Chat propose des essais en ligne, tandis que HuggingFace et ModelScope proposent des versions de modèles et de quantification. Les entreprises peuvent accéder à la série de modèles via l'API d'Alibaba Cloud Model Studio.

Qwen3-VL-30B-A3B publié Qwen3-VL-30B-A3B-Instruct Qwen3-VL-30B-A3B-Pensée Qwen3-VL Nouveau modèle Sortie le 4 octobre 2025 Qwen3-VL-235B-A22B FP8 version quantifiée Optimisation de l'inférence FP8 Paramètres d'activation 3B Interprétation de l'architecture du MoE Grand modèle multimodal Évaluation des tâches STEM Performance VQA Capacité de reconnaissance OCR Modèle de compréhension vidéo Demande d'agent Amélioration du débit Optimisation de l'efficacité du déploiement Utilisation réduite de la mémoire vidéo Besoins en bande passante réduits Comparaison du débit d'inférence Lisez-moi, alerte de référence Évaluation par un tiers en attente Reproduction de référence Suggestions de tests A/B Impact de la dépendance matérielle Sélection de la pile de raisonnement Compromis entre coût et performance Guide de déploiement d'entreprise Mise à jour de la carte modèle Interprétation des annonces d'entrepôt Entrée de l'expérience QwenChat Poids pour le visage Modèle ModelScope API Alibaba Cloud Model Studio Téléchargement du modèle open source Comparaison avec GPT-5-Mini Comparaison avec Claude4Sonnet Étendue de la couverture des capacités Changement d'environnement de production Appel d'API en ligne Déploiement d'inférence locale Évaluation des avantages du FP8 Pratique du raisonnement multimodal Stratégie de sélection de modèle Différence entre l'entraînement et l'inférence Prise en charge des outils de l'écosystème Suivi des itérations de version Conseils en matière de risques et de conformité Interprétation pour les développeurs

Outils Recommandés

Plus