11월 초, Qwen 팀은 Qwen3-Max-Thinking의 초기 프리뷰 버전을 출시하며, 해당 모델이 아직 학습 중인 중간 체크포인트라고 밝혔습니다. 공식 발표에 따르면, 도구 사용과 확장된 테스트 시간 컴퓨팅을 결합한 후, 해당 모델은 AIME 2025 및 HMMT와 같은 까다로운 추론 벤치마크에서 100% 점수를 달성했습니다. 현재 버전은 Qwen Chat에서 확인할 수 있으며, Alibaba Cloud Model Studio API에서 enable_thinking 매개변수를 활성화하여 액세스할 수 있습니다.
공개적으로 제공되는 타사 순위표는 일반적으로 고정된 설정을 사용하며, 외부 도구 사용이나 기존과 다른 테스트 과정에서 발생하는 연산 능력 확장을 반영하지 못할 수 있다는 점에 유의해야 합니다. 따라서 이러한 순위표의 결과는 제조업체가 "도구 개선 + 연산 능력 확장"이라고 주장하는 결과와 다를 수 있습니다. 최근 AIME 2025 요약 순위표는 일반적으로 100% 만점을 표시하지 않습니다. 향후 통합 순위에 포함될지 여부는 평가 규칙 및 재현 절차에 따라 달라집니다. 전반적으로 이번 릴리스는 기능 미리보기이며, 학습 및 지표는 지속적으로 업데이트될 예정입니다.
자주 묻는 질문
질문: 지금 Qwen3-Max-Thinking을 어디에서 사용할 수 있나요?
A: Qwen Chat 프런트엔드에서 시도해 볼 수도 있고, Alibaba Cloud Model Studio API를 통해 호출하여 요청에서 enable_thinking=True를 설정하여 사고 모드를 활성화할 수도 있습니다.
질문: AIME 2025와 HMMT "100%"에 대한 구체적인 조건은 무엇입니까?
A: 공식적인 설명은 "테스트 중 향상된 도구 + 확장된 추론 컴퓨팅 성능"이라는 조건 하에 얻은 것이며, 표준 폐쇄 설정이 적용된 공개 리더보드와 비교했을 때 정의에 차이가 있습니다.
질문: 왜 공개 순위는 반드시 완벽한 점수를 보여주지 않는 걸까요?
답변: 많은 순위 매기기에는 고정된 온도, 외부 도구 없음, 제한된 추론 예산이 필요합니다. 테스트 설정이 공식 테스트 설정과 다르면 점수가 다르거나 포함되지 않을 수 있습니다.
질문: 이게 공식 버전인가요?
A: 아니요. 이 버전은 초기 프리뷰 버전이며 아직 개발 중입니다. 향후 기능과 안정성이 변경될 수 있습니다. 공식 발표에 따르면 계속 업데이트될 예정입니다.
질문: API에서 사고 모드를 활성화하려면 어떻게 해야 하나요?
답변: Alibaba Cloud Model Studio의 관련 인터페이스에서 enable_thinking 매개변수를 사용하세요. 구체적인 구현 문서에 예가 나와 있습니다.