为未来监管提供技术可审计接口

OpenAI 推出“告解”机制，研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率

OpenAI 发布研究“如何通过告解让语言模型更诚实”，提出为模型增加一个独立的“告解输出”，专门用于回顾其刚刚给出的回答是否违反指令、作弊或偷工减料。团队在 GPT-5 Thinking 上进行了概念验证实验，发现经此方法训练后，在针对幻觉、投机取巧和“策划型”行为等压力测试中，模型在违规时承认问...

AI资讯 • Admin • 2025/12/4

103

为未来监管提供技术可审计接口

OpenAI 推出“告解”机制，研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率

推荐工具

提交AI工具

请确认提交信息