返回AI资讯
Qwen发布Qwen3-Max-Thinking早期预览:宣称在AIME 2025与HMMT达成100%

Qwen发布Qwen3-Max-Thinking早期预览:宣称在AIME 2025与HMMT达成100%

AI资讯 Admin 93 次浏览

Qwen 团队在11月初公布 Qwen3-Max-Thinking 的早期预览版本,称该模型为仍在训练中的中间检查点。官方表述指出,在结合工具使用与扩大测试时推理计算(test-time compute)后,该模型在 AIME 2025 与 HMMT 等高难度推理基准上取得 100% 成绩。当前版本已开放于 Qwen Chat,并可通过阿里云 Model Studio API 以 enable_thinking 参数启用思考模式进行调用。

需要提示的是,公开第三方榜单通常采用固定设置,不一定计入外部工具或非常规测试时算力扩展,因此与厂商宣称的“工具增强+扩大算力”结果可能存在口径差异。近期可见的 AIME 2025 汇总榜单尚未普遍显示“100%”满分记录,后续是否被统一收录需视评测规则与复现流程而定。总体而言,此次发布系功能预览,训练与指标仍将持续更新。

常见问题

Q:Qwen3-Max-Thinking 现在能在哪里使用?

A:可在 Qwen Chat 前端试用,也可通过阿里云 Model Studio API 调用,在请求中设置 enable_thinking=True 以开启思考模式。

Q:宣称的 AIME 2025、HMMT“100%”具体条件是什么?

A:官方说明为在“工具增强+扩大测试时推理算力”条件下获得;与标准封闭设置的公共榜单存在口径差异。

Q:公开排行榜为何未必显示满分?

A:许多榜单要求固定温度、无外部工具或限定推理预算;若与官方实验设置不同,分数可能不一致或尚未收录。

Q:这是正式版吗?

A:不是。该版本为早期预览且仍在训练中,后续能力与稳定性可能变化,官方称将持续更新。

Q:API 如何启用思考模式?

A:在阿里云 Model Studio 的相关接口中使用 enable_thinking 参数;具体实现文档已提供示例说明。

通义千问3思考版预览发布 通义千问思考模式如何开启 AIME2025满分口径解析 HMMT高难度基准达成解读 工具增强与扩大算力说明 测试时推理算力扩展机制 官方称仍在训练的中间点 QwenChat前端可直接试用 阿里云ModelStudio接口指南 enable_thinking参数使用法 公开榜单与厂商口径差异 为何排行榜未显示满分 思考模式对推理的增益点 高难度推理基准测试汇总 预览版本能力与稳定性变化 评测规则与复现实验流程 教程示例调用与返回解析 与标准封闭设置的对比 无外部工具成绩对照参考 扩大推理预算的实际影响 工具使用对数学题的收益 AIME与HMMT评测范围梳理 何为早期预览版功能限制 模型持续训练的更新节奏 官方新闻口径与实测差异 Qwen3MaxThinking简介科普 思考链路长度与算力预算 多工具协同调用场景示例 数学推理100分可复现性 公共榜单收录的必要条件 调用限额与计费注意事项 推理计算预算设置建议 能否在企业环境中部署 开启思考模式的风险控制 提交复现实验的注意规范 竞赛题库版本与泄露防范 研究者如何进行对照试验 与Claude等模型的对比点 通义千问生态产品全景图 思考模式对代码题表现 真实业务场景落地观察 学术评测与产品宣发边界 如何追踪模型更新记录 开发者社区讨论要点汇编 面向高校竞赛训练的应用 面向企业决策推理的启示 多温度设置下的稳定性 长上下文与工具路由策略 安全合规与数据保护提示 后续榜单是否统一收录

推荐工具

更多