돌아가기 AI 정보
Qwen은 Qwen3-Max-Thinking의 초기 미리보기를 출시했습니다. AIME 2025에서 HMMT와 100% 호환된다고 주장합니다.

Qwen은 Qwen3-Max-Thinking의 초기 미리보기를 출시했습니다. AIME 2025에서 HMMT와 100% 호환된다고 주장합니다.

AI 정보 Admin 93 회 조회

11월 초, Qwen 팀은 Qwen3-Max-Thinking의 초기 프리뷰 버전을 출시하며, 해당 모델이 아직 학습 중인 중간 체크포인트라고 밝혔습니다. 공식 발표에 따르면, 도구 사용과 확장된 테스트 시간 컴퓨팅을 결합한 후, 해당 모델은 AIME 2025 및 HMMT와 같은 까다로운 추론 벤치마크에서 100% 점수를 달성했습니다. 현재 버전은 Qwen Chat에서 확인할 수 있으며, Alibaba Cloud Model Studio API에서 enable_thinking 매개변수를 활성화하여 액세스할 수 있습니다.

공개적으로 제공되는 타사 순위표는 일반적으로 고정된 설정을 사용하며, 외부 도구 사용이나 기존과 다른 테스트 과정에서 발생하는 연산 능력 확장을 반영하지 못할 수 있다는 점에 유의해야 합니다. 따라서 이러한 순위표의 결과는 제조업체가 "도구 개선 + 연산 능력 확장"이라고 주장하는 결과와 다를 수 있습니다. 최근 AIME 2025 요약 순위표는 일반적으로 100% 만점을 표시하지 않습니다. 향후 통합 순위에 포함될지 여부는 평가 규칙 및 재현 절차에 따라 달라집니다. 전반적으로 이번 릴리스는 기능 미리보기이며, 학습 및 지표는 지속적으로 업데이트될 예정입니다.

자주 묻는 질문

질문: 지금 Qwen3-Max-Thinking을 어디에서 사용할 수 있나요?

A: Qwen Chat 프런트엔드에서 시도해 볼 수도 있고, Alibaba Cloud Model Studio API를 통해 호출하여 요청에서 enable_thinking=True를 설정하여 사고 모드를 활성화할 수도 있습니다.

질문: AIME 2025와 HMMT "100%"에 대한 구체적인 조건은 무엇입니까?

A: 공식적인 설명은 "테스트 중 향상된 도구 + 확장된 추론 컴퓨팅 성능"이라는 조건 하에 얻은 것이며, 표준 폐쇄 설정이 적용된 공개 리더보드와 비교했을 때 정의에 차이가 있습니다.

질문: 왜 공개 순위는 반드시 완벽한 점수를 보여주지 않는 걸까요?

답변: 많은 순위 매기기에는 고정된 온도, 외부 도구 없음, 제한된 추론 예산이 필요합니다. 테스트 설정이 공식 테스트 설정과 다르면 점수가 다르거나 포함되지 않을 수 있습니다.

질문: 이게 공식 버전인가요?

A: 아니요. 이 버전은 초기 프리뷰 버전이며 아직 개발 중입니다. 향후 기능과 안정성이 변경될 수 있습니다. 공식 발표에 따르면 계속 업데이트될 예정입니다.

질문: API에서 사고 모드를 활성화하려면 어떻게 해야 하나요?

답변: Alibaba Cloud Model Studio의 관련 인터페이스에서 enable_thinking 매개변수를 사용하세요. 구체적인 구현 문서에 예가 나와 있습니다.

통의천문 3판 미리보기가 공개되었습니다. "일반 이론에 대한 천 가지 질문" 사고 모드를 활성화하는 방법 AIME 2025 만점 분석 HMMT 고난이도 벤치마크 성취 해석 도구 향상 및 컴퓨팅 성능 설명 테스트 중 추론 컴퓨팅 파워 확장 메커니즘 관계자들은 아직 훈련 중간 단계에 있다고 밝혔다. QwenChat 프런트엔드를 직접 시도해 볼 수 있습니다. Alibaba Cloud ModelStudio 인터페이스 가이드 enable_thinking 매개변수를 사용하는 방법 공개적으로 제공되는 순위와 제조업체의 진술 간의 차이점 리더보드에 완벽한 점수가 표시되지 않는 이유는 무엇인가요? 사고 패턴이 추론에 제공하는 힘 고난이도 추론 벤치마크 테스트 요약 미리보기 버전 기능 및 안정성 변경 사항 평가 규칙 및 재생산 실험 절차 튜토리얼 예제 호출 및 반환 구문 분석 표준 폐쇄형 설정과의 비교 점수를 비교하기 위한 외부 도구가 없습니다. 추론 예산 확대의 실제 영향 수학 문제를 풀기 위한 도구 사용의 이점 AIME 및 HMMT 평가 범위 초기 미리보기 버전의 기능 제한 사항은 무엇입니까? 모델 연속 학습 업데이트 리듬 공식 뉴스 발표와 실제 측정치의 차이 Qwen3MaxThinking 소개 및 기본 정보 링크 길이와 컴퓨팅 파워 예산을 고려하세요 멀티툴 협업 통화 시나리오의 예 수학적 추론 100점 재현성 공개 순위에 포함되기 위한 필수 조건 사용 한도 및 청구 고려 사항 추론 계산 예산 설정 제안 기업 환경에도 배포할 수 있나요? 사고 모드를 시작하는 위험 관리 생식 실험 제출 지침 경쟁 문제 은행 버전 및 누출 방지 연구자들이 통제 시험을 수행하는 방법 Claude et al.의 모델과의 비교 통이첸원 생태 제품 파노라마 사고 패턴은 코딩 문제에서의 성과에 영향을 미칩니다. 실제 비즈니스 시나리오 구현 관찰 학업 평가와 제품 홍보의 경계 모델 업데이트 레코드를 추적하는 방법 개발자 커뮤니티 토론의 핵심 요점 정리 대학 경쟁 훈련 지원 기업 의사 결정 추론에 대한 의미 다양한 온도 설정에서의 안정성 긴 컨텍스트 및 도구 라우팅 전략 보안 규정 준수 및 데이터 보호 팁 이후 순위에 모든 데이터가 포함되나요?

추천 도구

더보기