Qwen-3-Next-80B-A3B Exposition : Faible niveau d’activité extrêmement clairsemé, le débit d’inférence de contexte long peut être multiplié par 10

Qwen-3-Next-80B-A3B sera bientôt disponible, en utilisant l’architecture A3B avec un total de paramètres de 80B mais seulement une activation de 3B, atteignant une parcimonie extrême et une inférence efficace. Selon la nouvelle, il surpasse Qwen3-32B sur les tâches en aval, avec des coûts de formation aussi bas qu’un dixième, et atteint un débit d’inférence supérieur à 32 fois dans des scénarios contextuels supérieurs à 10K.

1. Points forts du noyau

1. Architecture A3B et Extreme Sparse

Qwen-3-Next-80B-A3B est conçu sur la base de l’architecture A3B, et les paramètres totaux de 80B ne sont activés que par 3B, ce qui réduit considérablement la quantité de calcul et de mémoire requise. Par rapport aux modèles denses traditionnels, il peut fonctionner plus rapidement et avoir des coûts d’inférence inférieurs avec la même puissance de calcul.

2. Performances annoncées et comparaison Le

modèle est considéré comme supérieur à celui de Qwen3-32B dans les tâches en aval, et le coût de la formation n’est que d’un dixième. Dans les contextes ultra-longs (au-dessus de 32 K jetons), le débit d’inférence atteint plus de 10 fois.

3. Stratégie d’optimisation

Selon les rapports, cette architecture combine la prédiction de plusieurs jetons, l’attention fermée et l’optimisation LayerNorm pour améliorer encore l’efficacité de pré-entraînement et le débit d’inférence, en particulier pour les contextes longs et les applications à forte concurrence.

2. Scénarios d’application et de mise en œuvre

1. Améliorations de la recherche et de l’extraction Dans les

applications de recherche de documents longs et RAG, Qwen-3-Next-80B-A3B peut capturer rapidement des informations clés avec une inférence éparse tout en réduisant les coûts.

2. Conversations ultra-longues et génération de contenu

Face

au dialogue continu et à la génération de rapports avec un contexte de plus de 32K, l’augmentation de 10 fois du débit permet à l’IA de prendre en charge plusieurs cycles d’interaction et de regrouper les tâches de manière plus stable.

3. Appels d’outils et scénarios de code

Grâce au

mécanisme de routage, différents experts peuvent se concentrer sur différents champs, combinés à A3B pour une activation efficace, afin de prendre en charge une réponse plus rapide à la génération de code et aux appels d’outils.

3. Risques et jugements

1. Statut de la version

À l’heure actuelle, le modèle est encore au stade « bientôt », et les informations proviennent des canaux communautaires, et les performances spécifiques et les détails de l’open source doivent attendre une confirmation officielle.

2. Coût et contraintes

Bien que l’activation de 3B réduise les flops, le routage expert et le cache de contexte long tiennent toujours compte de la bande passante, et il est nécessaire de tester les performances de la mémoire et du débit en combinaison avec des scénarios réels.

3. Suggestions de sélection

Si le scénario se concentre sur le raisonnement en contexte long et le débit, vous pouvez prêter attention à Qwen-3-Next-80B-A3B ; Si l’on met l’accent sur la stabilité et la maturité écologique, Qwen3-32B reste un choix sûr.

Foire aux questions Q :

Quels sont les principaux avantages de Qwen-3-Next-80B-A3B ?

R : Il n’active que 80 B tout en conservant les paramètres totaux de 3 B, permet une inférence à faible coût avec une architecture extrêmement clairsemée et atteint un débit élevé dans des scénarios de contexte long.

Q : Quelle est la différence par rapport à Qwen3-32B ?

R : Qwen-3-Next-80B-A3B est plus performant sur les tâches en aval, avec un coût de formation de seulement un dixième du coût et une augmentation de 10 fois du débit dans les scénarios au-dessus de 32K jetons.

Q : Comment l’architecture A3B affecte-t-elle les déploiements ?

R : A3B réduit la quantité de calcul direct unique, mais vous devez faire attention à la surcharge de mémoire du routage et du KV-Cache. Grâce au parallélisme et à l’optimisation du cache, une concurrence plus élevée peut être obtenue sur le même matériel.

Q : Puis-je migrer directement vers Qwen-3-Next-80B-A3B maintenant ?

R : Actuellement, ce modèle n’a pas été officiellement open source, il convient donc d’utiliser d’abord Qwen3-32B comme une ligne de production stable, puis de préparer des scripts de test A/B et d’attendre que le poids officiel de 80B-A3B soit publié avant de basculer.

Articles connexes

Seedream 4.0 lance Fal Day 0 : une nouvelle référence pour la génération d’images multimodales et l’intégration de l’édition

Guide d’inscription au Chrome Built-in AI Challenge 2025 : sprintez vers 70 000 $ avec les API AI intégrées

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés