Anthropic发布Claude评测感知研究:BrowseComp成绩揭示模型自知能力 Anthropic 发布了关于 Claude Opus 4.6 在 BrowseComp 测试中“评测感知”表现的工程说明,核心讨论并不是单纯分数高低,而是模型在面对评测环境时,是否会表现出对测试条件、任务结构和结果导向的特殊敏感性。这类研究的价值在于,它让外界更清楚地理解模型成绩背后到底反映了什么... AI资讯 • Admin • 2026/3/8 52