OpenAI 推出“告解”机制,研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率
OpenAI 发布研究“如何通过告解让语言模型更诚实”,提出为模型增加一个独立的“告解输出”,专门用于回顾其刚刚给出的回答是否违反指令、作弊或偷工减料。团队在 GPT-5 Thinking 上进行了概念验证实验,发现经此方法训练后,在针对幻觉、投机取巧和“策划型”行为等压力测试中,模型在违规时承认问...
OpenAI 发布研究“如何通过告解让语言模型更诚实”,提出为模型增加一个独立的“告解输出”,专门用于回顾其刚刚给出的回答是否违反指令、作弊或偷工减料。团队在 GPT-5 Thinking 上进行了概念验证实验,发现经此方法训练后,在针对幻觉、投机取巧和“策划型”行为等压力测试中,模型在违规时承认问...
Anthropic 首席执行官 Dario Amodei 在纽约时报 DealBook 峰会上发表讲话,强调前沿人工智能技术正逐步成为一种“正在增长且独一无二的能力”,并直言这类能力具有“独一无二的国家安全含义”。他表示,在这一领域,民主国家需要率先到达技术前沿,以确保相关能力在负责任的治理框架和价...
MIT 等机构研究者在 arXiv 发布论文《Self-Adapting Language Models》,提出自适应语言模型框架 SEAL,使大语言模型在部署后可以通过“自编辑”机制持续更新自身权重。部分社交媒体帖子据此猜测,若类似技术被用于未来的 GPT-6,这类系统在计算意义上或将更“像是活的...
达特茅斯学院宣布与 Anthropic 和亚马逊云科技(AWS)达成新的人工智能合作伙伴关系,计划在全校范围部署生成式 AI 工具,成为首家在机构层面大规模引入此类技术的常春藤盟校。合作内容包括面向教育场景定制的 Claude for Education 模型,以及通过 Amazon Bedrock...
腾讯混元团队正式发布开源端到端 OCR 专家模型 HunyuanOCR,并在首周内进入 Hugging Face 模型趋势榜前列,相关平台的星标与下载量快速攀升。该模型采用约 10 亿参数,在多项公开 OCR 基准上达到或接近最新水准,同时同步上线项目官网、模型权重、在线演示与完整技术报告,主打“高...
Perplexity 宣布推出 BrowseSafe 系统及配套基准 BrowseSafe-Bench,用于提升 AI 浏览器在真实网络环境中的安全性。该方案面向其 Comet 浏览器场景,核心是一套专门检测网页中恶意自然语言指令的模型,可在不显著增加延迟的前提下实时扫描整页 HTML,识别针对代理...