Anfang November veröffentlichte das Qwen-Team eine frühe Vorabversion von Qwen3-Max-Thinking und gab an, dass es sich bei dem Modell um einen Zwischenstand im Trainingsprozess handele. Laut offizieller Mitteilung erreichte das Modell nach der Kombination von Tool-Nutzung und erweiterter Testzeit-Rechenleistung 100 % bei anspruchsvollen Inferenz-Benchmarks wie AIME 2025 und HMMT. Die aktuelle Version ist im Qwen Chat verfügbar und kann über die Alibaba Cloud Model Studio API durch Aktivieren des Parameters enable_thinking aufgerufen werden.
Es ist wichtig zu beachten, dass öffentlich zugängliche Bestenlisten von Drittanbietern in der Regel feste Einstellungen verwenden und die Erweiterung der Rechenleistung durch externe Tools oder unkonventionelle Tests möglicherweise nicht berücksichtigen. Daher können ihre Ergebnisse von den Angaben der Hersteller abweichen, die auf „Tool-Verbesserungen und erweiterter Rechenleistung“ basieren. Die aktuellen AIME-2025-Übersichtslisten zeigen im Allgemeinen keine 100% perfekten Ergebnisse an; ob diese in zukünftige Gesamtranglisten einfließen, hängt von den Bewertungsregeln und Reproduktionsverfahren ab. Insgesamt handelt es sich bei dieser Version um eine Funktionsvorschau; Schulungen und Metriken werden kontinuierlich aktualisiert.
Häufig gestellte Fragen
F: Wo kann ich Qwen3-Max-Thinking jetzt einsetzen?
A: Sie können es im Qwen Chat-Frontend ausprobieren oder es über die Alibaba Cloud Model Studio API aufrufen und enable_thinking=True in der Anfrage setzen, um den Denkmodus zu aktivieren.
F: Was sind die konkreten Bedingungen für die behaupteten AIME 2025 und HMMT "100%"?
A: Die offizielle Erklärung lautet, dass die Ergebnisse unter den Bedingungen „verbesserter Werkzeuge + erweiterter Rechenleistung für Inferenz während der Testphase“ erzielt wurden; es gibt einen Unterschied in der Definition im Vergleich zur öffentlichen Rangliste mit standardmäßigen geschlossenen Einstellungen.
F: Warum zeigen öffentliche Ranglisten nicht unbedingt perfekte Ergebnisse an?
A: Viele Ranglisten erfordern eine festgelegte Temperatur, keine externen Hilfsmittel oder ein begrenztes Schlussfolgerungsbudget; die Ergebnisse können abweichen oder nicht berücksichtigt werden, wenn der Testaufbau vom offiziellen Testaufbau abweicht.
F: Ist das die offizielle Version?
A: Nein. Diese Version ist eine frühe Vorabversion und befindet sich noch in der Entwicklung. Ihre Funktionalität und Stabilität können sich in Zukunft ändern. Offiziell wird sie jedoch weiterhin aktualisiert.
F: Wie aktiviere ich den Denkmodus in der API?
A: Verwenden Sie den Parameter enable_thinking in den entsprechenden Schnittstellen von Alibaba Cloud Model Studio; Beispiele finden Sie in der spezifischen Implementierungsdokumentation.