Retour à Informations sur l’IA
Qwen publie un aperçu préliminaire de Qwen3-Max-Thinking : affirme une compatibilité à 100 % avec HMMT lors de l’AIME 2025.

Qwen publie un aperçu préliminaire de Qwen3-Max-Thinking : affirme une compatibilité à 100 % avec HMMT lors de l’AIME 2025.

Informations sur l’IA Admin 93 vues

Début novembre, l'équipe Qwen a publié une version préliminaire de Qwen3-Max-Thinking, précisant qu'il s'agissait d'une étape intermédiaire encore en cours d'entraînement. Le communiqué officiel indiquait qu'après avoir combiné l'utilisation d'outils avec une puissance de calcul accrue lors des tests, le modèle avait obtenu un score de 100 % sur des benchmarks d'inférence exigeants tels que AIME 2025 et HMMT. La version actuelle est disponible sur Qwen Chat et accessible via l'API Alibaba Cloud Model Studio en activant le paramètre enable_thinking.

Il est important de noter que les classements tiers accessibles au public utilisent généralement des paramètres fixes et peuvent ne pas tenir compte de l'augmentation de la puissance de calcul lors de l'utilisation d'outils externes ou de tests non conventionnels. Par conséquent, leurs résultats peuvent différer de ceux annoncés par les fabricants comme étant liés à des « améliorations des outils et à une puissance de calcul accrue ». Les classements récapitulatifs récents de l'AIME 2025 n'affichent généralement pas 100 % de scores parfaits ; leur inclusion dans les futurs classements unifiés dépendra des règles d'évaluation et des procédures de reproduction. Globalement, cette version est un aperçu des fonctionnalités ; la formation et les indicateurs continueront d'être mis à jour.

Foire aux questions

Q : Où puis-je utiliser Qwen3-Max-Thinking maintenant ?

R : Vous pouvez l'essayer dans l'interface de chat Qwen, ou vous pouvez l'appeler via l'API Alibaba Cloud Model Studio et définir enable_thinking=True dans la requête pour activer le mode de réflexion.

Q : Quelles sont les conditions spécifiques pour les mentions AIME 2025 et HMMT « 100 % » ?

A : L'explication officielle est que ce résultat a été obtenu dans des conditions de « outils améliorés + puissance de calcul d'inférence étendue pendant les tests » ; il existe une différence de définition par rapport au classement public avec des paramètres fermés standard.

Q : Pourquoi les classements publics n'affichent-ils pas nécessairement des scores parfaits ?

A : De nombreux classements nécessitent une température fixe, l'absence d'outils externes ou un budget d'inférence limité ; les scores peuvent différer ou ne pas être inclus si la configuration du test diffère de la configuration officielle.

Q : Est-ce la version officielle ?

R : Non. Cette version est une préversion et est encore en développement. Ses fonctionnalités et sa stabilité pourraient évoluer. Officiellement, elle continuera d'être mise à jour.

Q : Comment activer le mode réflexion dans l'API ?

A : Utilisez le paramètre enable_thinking dans les interfaces concernées d'Alibaba Cloud Model Studio ; la documentation d'implémentation spécifique fournit des exemples.

Un aperçu de la troisième édition de « Tongyi 1000 Questions » a été publié. Comment activer le mode de pensée « Mille questions sur la théorie générale » ? Analyse du score parfait à l'AIME 2025 Interprétation des résultats du critère de réussite de haute difficulté HMMT Amélioration des outils et explication de la puissance de calcul Mécanisme de mise à l'échelle de la puissance de calcul d'inférence pendant les tests Les responsables affirment qu'ils sont encore à mi-parcours de leur entraînement. L'interface de QwenChat peut être testée directement. Guide d'interface d'Alibaba Cloud ModelStudio Comment utiliser le paramètre enable_thinking Différences entre les classements publics et les déclarations des fabricants Pourquoi les scores parfaits ne sont-ils pas affichés dans le classement ? L'impulsion que les schémas de pensée apportent au raisonnement Résumé des tests de référence de raisonnement de haute difficulté Modifications apportées aux fonctionnalités et à la stabilité de la version préliminaire Règles d'évaluation et procédures expérimentales de reproduction Exemple de tutoriel : analyse des appels et des retours Comparaison avec une configuration fermée standard Aucun outil externe pour comparer les scores L’impact réel de l’augmentation des budgets de raisonnement Avantages de l'utilisation d'outils pour résoudre des problèmes mathématiques Portée de l'évaluation AIME et HMMT Quelles sont les limitations des fonctionnalités de la version préliminaire ? Rythme de mise à jour de l'entraînement continu du modèle Différences entre les communiqués de presse officiels et les mesures réelles Qwen3MaxThinking : Introduction et informations de base Tenir compte de la longueur de la liaison et du budget de puissance de calcul Exemple de scénario d'appel collaboratif multi-outils Raisonnement mathématique 100 points Reproductibilité Conditions nécessaires à l'inclusion dans les classements publics Limites d'utilisation et considérations de facturation Suggestions pour l'établissement du budget de calcul d'inférence Peut-il être déployé en environnement d'entreprise ? Contrôle des risques qui initie un mode de réflexion Directives pour la soumission d'expériences de reproduction Versions de la banque de questions de concours et prévention des fuites Comment les chercheurs mènent des essais contrôlés Comparaison avec les modèles de Claude et al. Panorama des produits écologiques de Tongyi Qianwen Les schémas de pensée influencent les performances en matière de résolution de problèmes de codage. Observation de la mise en œuvre d'un scénario d'entreprise réel La frontière entre l'évaluation académique et la promotion des produits Comment suivre les enregistrements de mise à jour des modèles Compilation des points clés des discussions de la communauté des développeurs Candidatures pour la formation aux concours universitaires Implications pour le raisonnement décisionnel en entreprise Stabilité sous plusieurs réglages de température Stratégie de routage des outils et de contexte long Conseils en matière de conformité de sécurité et de protection des données Les classements suivants incluront-ils toutes les données ?

Outils Recommandés

Plus