Qwen은 Qwen3-Max-Thinking의 초기 미리보기를 출시했습니다. AIME 2025에서 HMMT와 100% 호환된다고 주장합니다.

AI 정보 • Admin • 2025. 11. 4. • 111 회 조회

11월 초, Qwen 팀은 Qwen3-Max-Thinking의 초기 프리뷰 버전을 출시하며, 해당 모델이 아직 학습 중인 중간 체크포인트라고 밝혔습니다. 공식 발표에 따르면, 도구 사용과 확장된 테스트 시간 컴퓨팅을 결합한 후, 해당 모델은 AIME 2025 및 HMMT와 같은 까다로운 추론 벤치마크에서 100% 점수를 달성했습니다. 현재 버전은 Qwen Chat에서 확인할 수 있으며, Alibaba Cloud Model Studio API에서 enable_thinking 매개변수를 활성화하여 액세스할 수 있습니다.

공개적으로 제공되는 타사 순위표는 일반적으로 고정된 설정을 사용하며, 외부 도구 사용이나 기존과 다른 테스트 과정에서 발생하는 연산 능력 확장을 반영하지 못할 수 있다는 점에 유의해야 합니다. 따라서 이러한 순위표의 결과는 제조업체가 "도구 개선 + 연산 능력 확장"이라고 주장하는 결과와 다를 수 있습니다. 최근 AIME 2025 요약 순위표는 일반적으로 100% 만점을 표시하지 않습니다. 향후 통합 순위에 포함될지 여부는 평가 규칙 및 재현 절차에 따라 달라집니다. 전반적으로 이번 릴리스는 기능 미리보기이며, 학습 및 지표는 지속적으로 업데이트될 예정입니다.

자주 묻는 질문

질문: 지금 Qwen3-Max-Thinking을 어디에서 사용할 수 있나요?

A: Qwen Chat 프런트엔드에서 시도해 볼 수도 있고, Alibaba Cloud Model Studio API를 통해 호출하여 요청에서 enable_thinking=True를 설정하여 사고 모드를 활성화할 수도 있습니다.

질문: AIME 2025와 HMMT "100%"에 대한 구체적인 조건은 무엇입니까?

A: 공식적인 설명은 "테스트 중 향상된 도구 + 확장된 추론 컴퓨팅 성능"이라는 조건 하에 얻은 것이며, 표준 폐쇄 설정이 적용된 공개 리더보드와 비교했을 때 정의에 차이가 있습니다.

질문: 왜 공개 순위는 반드시 완벽한 점수를 보여주지 않는 걸까요?

답변: 많은 순위 매기기에는 고정된 온도, 외부 도구 없음, 제한된 추론 예산이 필요합니다. 테스트 설정이 공식 테스트 설정과 다르면 점수가 다르거나 포함되지 않을 수 있습니다.

질문: 이게 공식 버전인가요?

A: 아니요. 이 버전은 초기 프리뷰 버전이며 아직 개발 중입니다. 향후 기능과 안정성이 변경될 수 있습니다. 공식 발표에 따르면 계속 업데이트될 예정입니다.

질문: API에서 사고 모드를 활성화하려면 어떻게 해야 하나요?

답변: Alibaba Cloud Model Studio의 관련 인터페이스에서 enable_thinking 매개변수를 사용하세요. 구체적인 구현 문서에 예가 나와 있습니다.

Qwen은 Qwen3-Max-Thinking의 초기 미리보기를 출시했습니다. AIME 2025에서 HMMT와 100% 호환된다고 주장합니다.

관련 기사

Anthropic은 아이슬란드 교육부와 어린이부(Claude)와 협력하여 전국 교사를 대상으로 AI 교육 시범 프로그램을 시작했습니다.

Arc Browser: 지식 근로자가 웹 페이지 콘텐츠를 효율적으로 구성할 수 있도록 탭과 사이드바 상호 작용을 재설계했습니다.

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

Qwen은 Qwen3-Max-Thinking의 초기 미리보기를 출시했습니다. AIME 2025에서 HMMT와 100% 호환된다고 주장합니다.

관련 기사

Anthropic은 아이슬란드 교육부와 어린이부(Claude)와 협력하여 전국 교사를 대상으로 AI 교육 시범 프로그램을 시작했습니다.

Arc Browser: 지식 근로자가 웹 페이지 콘텐츠를 효율적으로 구성할 수 있도록 탭과 사이드바 상호 작용을 재설계했습니다.

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요