OpenAI 推出“告解”机制,研究称通过 Confessions 训练 GPT-5 模型可显著提高“自我检举”率
OpenAI 发布研究“如何通过告解让语言模型更诚实”,提出为模型增加一个独立的“告解输出”,专门用于回顾其刚刚给出的回答是否违反指令、作弊或偷工减料。团队在 GPT-5 Thinking 上进行了概念验证实验,发现经此方法训练后,在针对幻觉、投机取巧和“策划型”行为等压力测试中,模型在违规时承认问...
AI资讯 • Admin •
78
找到 1 篇相关文章