Zurück zu KI-Informationen
Qwen veröffentlicht eine frühe Vorschau von Qwen3-Max-Thinking: behauptet 100%ige Kompatibilität mit HMMT auf der AIME 2025.

Qwen veröffentlicht eine frühe Vorschau von Qwen3-Max-Thinking: behauptet 100%ige Kompatibilität mit HMMT auf der AIME 2025.

KI-Informationen Admin 93 Aufrufe

Anfang November veröffentlichte das Qwen-Team eine frühe Vorabversion von Qwen3-Max-Thinking und gab an, dass es sich bei dem Modell um einen Zwischenstand im Trainingsprozess handele. Laut offizieller Mitteilung erreichte das Modell nach der Kombination von Tool-Nutzung und erweiterter Testzeit-Rechenleistung 100 % bei anspruchsvollen Inferenz-Benchmarks wie AIME 2025 und HMMT. Die aktuelle Version ist im Qwen Chat verfügbar und kann über die Alibaba Cloud Model Studio API durch Aktivieren des Parameters enable_thinking aufgerufen werden.

Es ist wichtig zu beachten, dass öffentlich zugängliche Bestenlisten von Drittanbietern in der Regel feste Einstellungen verwenden und die Erweiterung der Rechenleistung durch externe Tools oder unkonventionelle Tests möglicherweise nicht berücksichtigen. Daher können ihre Ergebnisse von den Angaben der Hersteller abweichen, die auf „Tool-Verbesserungen und erweiterter Rechenleistung“ basieren. Die aktuellen AIME-2025-Übersichtslisten zeigen im Allgemeinen keine 100% perfekten Ergebnisse an; ob diese in zukünftige Gesamtranglisten einfließen, hängt von den Bewertungsregeln und Reproduktionsverfahren ab. Insgesamt handelt es sich bei dieser Version um eine Funktionsvorschau; Schulungen und Metriken werden kontinuierlich aktualisiert.

Häufig gestellte Fragen

F: Wo kann ich Qwen3-Max-Thinking jetzt einsetzen?

A: Sie können es im Qwen Chat-Frontend ausprobieren oder es über die Alibaba Cloud Model Studio API aufrufen und enable_thinking=True in der Anfrage setzen, um den Denkmodus zu aktivieren.

F: Was sind die konkreten Bedingungen für die behaupteten AIME 2025 und HMMT "100%"?

A: Die offizielle Erklärung lautet, dass die Ergebnisse unter den Bedingungen „verbesserter Werkzeuge + erweiterter Rechenleistung für Inferenz während der Testphase“ erzielt wurden; es gibt einen Unterschied in der Definition im Vergleich zur öffentlichen Rangliste mit standardmäßigen geschlossenen Einstellungen.

F: Warum zeigen öffentliche Ranglisten nicht unbedingt perfekte Ergebnisse an?

A: Viele Ranglisten erfordern eine festgelegte Temperatur, keine externen Hilfsmittel oder ein begrenztes Schlussfolgerungsbudget; die Ergebnisse können abweichen oder nicht berücksichtigt werden, wenn der Testaufbau vom offiziellen Testaufbau abweicht.

F: Ist das die offizielle Version?

A: Nein. Diese Version ist eine frühe Vorabversion und befindet sich noch in der Entwicklung. Ihre Funktionalität und Stabilität können sich in Zukunft ändern. Offiziell wird sie jedoch weiterhin aktualisiert.

F: Wie aktiviere ich den Denkmodus in der API?

A: Verwenden Sie den Parameter enable_thinking in den entsprechenden Schnittstellen von Alibaba Cloud Model Studio; Beispiele finden Sie in der spezifischen Implementierungsdokumentation.

Eine Vorschau auf die dritte Ausgabe von „Tongyi 1000 Fragen“ wurde veröffentlicht. Wie aktiviert man den Denkmodus „Tausend Fragen zur allgemeinen Theorie“? AIME 2025: Analyse der Höchstpunktzahl Interpretation der Leistung bei den HMMT-Benchmarks mit hohem Schwierigkeitsgrad Werkzeugverbesserung und Rechenleistungserläuterung Mechanismus zur Skalierung der Inferenz-Rechenleistung während des Testens Offizielle Stellen geben an, dass sie sich noch in der Mitte der Ausbildungsphase befinden. Das QwenChat-Frontend kann direkt ausprobiert werden. Alibaba Cloud ModelStudio-Benutzeroberfläche Wie man den Parameter enable_thinking verwendet Unterschiede zwischen öffentlich zugänglichen Ranglisten und Herstellerangaben Warum werden perfekte Punktzahlen nicht in der Rangliste angezeigt? Die Steigerung, die Denkmuster dem logischen Denken verleihen Zusammenfassung der Benchmark-Tests für anspruchsvolles logisches Denken Funktionen und Stabilitätsänderungen der Vorschauversion Bewertungsregeln und Verfahren für Reproduktionsexperimente Tutorial-Beispiel: Aufruf- und Rückgabeanalyse Vergleich mit der standardmäßigen geschlossenen Konfiguration Keine externen Tools zum Vergleich der Ergebnisse Die tatsächlichen Auswirkungen erweiterter Denkbudgets Vorteile der Verwendung von Hilfsmitteln zur Lösung mathematischer Probleme AIME- und HMMT-Evaluierungsumfang Welche Funktionseinschränkungen weist die frühe Vorschauversion auf? Modell kontinuierlicher Trainingsaktualisierungsrhythmus Abweichungen zwischen offiziellen Pressemitteilungen und tatsächlichen Messungen Qwen3MaxThinking Einführung und grundlegende Informationen Berücksichtigen Sie die Verbindungslänge und das Rechenleistungsbudget. Beispiel für ein kollaboratives Anrufszenario mit mehreren Tools Mathematisches Denken (100 Punkte) Reproduzierbarkeit Notwendige Bedingungen für die Aufnahme in öffentliche Ranglisten Nutzungslimits und Abrechnungsaspekte Vorschläge zur Festlegung des Budgets für Inferenzberechnungen Kann es in einer Unternehmensumgebung eingesetzt werden? Risikokontrolle, die einen Denkmodus auslöst Richtlinien für die Einreichung von Reproduktionsexperimenten Versionen des Fragenpools für Wettbewerbe und Verhinderung von Datenlecks Wie Forscher kontrollierte Studien durchführen Vergleich mit den Modellen von Claude et al. Ökologisches Produktpanorama von Tongyi Qianwen Denkmuster beeinflussen die Leistung bei Programmieraufgaben Beobachtung der Umsetzung eines realen Geschäftsszenarios Die Grenze zwischen akademischer Bewertung und Produktwerbung Wie man Modellaktualisierungsdatensätze verfolgt Zusammenstellung der wichtigsten Punkte aus Diskussionen der Entwickler-Community Bewerbungen für das Hochschulwettbewerbstraining Auswirkungen auf die unternehmerische Entscheidungsfindung Stabilität bei verschiedenen Temperatureinstellungen Langer Kontext und Werkzeugrouting-Strategie Tipps zu Sicherheitskonformität und Datenschutz Werden in den nachfolgenden Ranglisten alle Daten berücksichtigt?

Empfohlene Tools

Mehr