Début novembre, l'équipe Qwen a publié une version préliminaire de Qwen3-Max-Thinking, précisant qu'il s'agissait d'une étape intermédiaire encore en cours d'entraînement. Le communiqué officiel indiquait qu'après avoir combiné l'utilisation d'outils avec une puissance de calcul accrue lors des tests, le modèle avait obtenu un score de 100 % sur des benchmarks d'inférence exigeants tels que AIME 2025 et HMMT. La version actuelle est disponible sur Qwen Chat et accessible via l'API Alibaba Cloud Model Studio en activant le paramètre enable_thinking.
Il est important de noter que les classements tiers accessibles au public utilisent généralement des paramètres fixes et peuvent ne pas tenir compte de l'augmentation de la puissance de calcul lors de l'utilisation d'outils externes ou de tests non conventionnels. Par conséquent, leurs résultats peuvent différer de ceux annoncés par les fabricants comme étant liés à des « améliorations des outils et à une puissance de calcul accrue ». Les classements récapitulatifs récents de l'AIME 2025 n'affichent généralement pas 100 % de scores parfaits ; leur inclusion dans les futurs classements unifiés dépendra des règles d'évaluation et des procédures de reproduction. Globalement, cette version est un aperçu des fonctionnalités ; la formation et les indicateurs continueront d'être mis à jour.
Foire aux questions
Q : Où puis-je utiliser Qwen3-Max-Thinking maintenant ?
R : Vous pouvez l'essayer dans l'interface de chat Qwen, ou vous pouvez l'appeler via l'API Alibaba Cloud Model Studio et définir enable_thinking=True dans la requête pour activer le mode de réflexion.
Q : Quelles sont les conditions spécifiques pour les mentions AIME 2025 et HMMT « 100 % » ?
A : L'explication officielle est que ce résultat a été obtenu dans des conditions de « outils améliorés + puissance de calcul d'inférence étendue pendant les tests » ; il existe une différence de définition par rapport au classement public avec des paramètres fermés standard.
Q : Pourquoi les classements publics n'affichent-ils pas nécessairement des scores parfaits ?
A : De nombreux classements nécessitent une température fixe, l'absence d'outils externes ou un budget d'inférence limité ; les scores peuvent différer ou ne pas être inclus si la configuration du test diffère de la configuration officielle.
Q : Est-ce la version officielle ?
R : Non. Cette version est une préversion et est encore en développement. Ses fonctionnalités et sa stabilité pourraient évoluer. Officiellement, elle continuera d'être mise à jour.
Q : Comment activer le mode réflexion dans l'API ?
A : Utilisez le paramètre enable_thinking dans les interfaces concernées d'Alibaba Cloud Model Studio ; la documentation d'implémentation spécifique fournit des exemples.