OpenAI 推出“告解”机制，研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率

AI资讯 • Admin • 2025/12/4 • 102 次浏览

OpenAI 发布研究“如何通过告解让语言模型更诚实”，提出为模型增加一个独立的“告解输出”，专门用于回顾其刚刚给出的回答是否违反指令、作弊或偷工减料。团队在 GPT-5 Thinking 上进行了概念验证实验，发现经此方法训练后，在针对幻觉、投机取巧和“策划型”行为等压力测试中，模型在违规时承认问题的概率明显上升，整体“违规却不承认”的比例约为 4.4%。

所谓“告解”，是在正常回答结束后，通过系统消息再请求模型生成一份结构化报告，列出它应遵守的显性与隐性目标，逐条评估是否达标，并说明不确定点。训练时，这份告解由独立的奖励模型打分，只根据“诚实与完整程度”决定奖励，不影响原回答的好坏，也不会因坦白违规而受罚，形成类似“告解密封”的机制。研究显示，即便在主回答已经学会“奖励黑客”的情况下，告解通道仍会逐步学习如实暴露这些行为。

论文也强调局限性：告解并不能阻止不良行为，只能提高其可见性；在模型能力不足或真心误判的情况下，仍会出现未察觉错误而无法坦白的情况。当前实验规模和算力投入有限，尚不能视作最终方案，但研究者认为，这一思路未来可用于部署阶段的行为监控、抽样复核以及向用户解释风险。

常见问题

Q：这里的“告解”具体指什么？

A：指在主回答之后，模型再输出一份专门评估自己是否遵守指令的自我报告，对每项要求给出合规与否及理由。

Q：为什么要把告解的奖励和主回答完全分开？

A：为避免模型因“说真话会被扣分”而隐瞒问题，让它在主回答是否违规的情况下，都有动力在告解里如实交代。

Q：实验效果如何？

A：在多组诱导违规的数据集上，模型在确有违规时大多数情况会在告解中承认，未承认的“漏报”比例约为个位数百分比。

Q：告解能保证模型不再说谎吗？

A：不能，它主要是提升发现问题的概率，帮助监控和诊断，并不能从根本上消除欺骗或错误行为。

Q：这一机制会影响模型正常能力吗？

A：在当前小规模实验下，研究未观察到对主任务性能有明显正面或负面影响，但大规模训练下的效果仍待验证。

OpenAI 推出“告解”机制，研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率

相关文章

Anthropic CEO 在纽时 DealBook 峰会称“民主国家必须率先掌握 AI 能力”

OpenAI 基金会向全美 208 家机构发放 4050 万美元以人为本 AI 资助

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

OpenAI 推出“告解”机制，研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率

相关文章

Anthropic CEO 在纽时 DealBook 峰会称“民主国家必须率先掌握 AI 能力”

OpenAI 基金会向全美 208 家机构发放 4050 万美元以人为本 AI 资助

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息