返回AI资讯
OpenAI 公布敏感对话安全升级:与170余位专家合作,降低不当回应65%–80%

OpenAI 公布敏感对话安全升级:与170余位专家合作,降低不当回应65%–80%

AI资讯 Admin 110 次浏览

OpenAI 发布《Strengthening ChatGPT’s responses in sensitive conversations》,称已与 170 余位具临床经验的心理健康专家合作,更新 ChatGPT 默认模型以更可靠地识别求助信号、缓和对话并引导用户寻求现实世界支持。根据文中测量,在精神健康相关领域,不符合期望行为的回复率下降约 65%–80%,并扩展了危机热线覆盖,将来自其他模型的敏感对话重定向至更安全的模型,同时在长会话中增加“适时休息”的温和提醒。

此次升级重点覆盖三类情境:精神病性/躁狂等严重症状,自伤与自杀,以及对 AI 的情感依赖。OpenAI 同时更新 Model Spec,明确模型应避免强化无根据信念、尊重现实人际关系并更关注自伤/自杀的间接信号。展望后续,除既有自伤自杀基线外,“情感依赖”和“非自杀性心理紧急情况”将纳入未来模型发布的标准化基线测试。

常见问题

Q:这些改动具体体现在哪些地方?

A:默认模型行为更新、敏感对话自动重定向、更广的危机热线链接与长会话“休息提醒”。

Q:涉及哪些优先场景?

A:精神病性/躁狂等急性症状、自伤自杀风险以及对模型的过度情感依赖。

Q:效果如何量化?

A:官方称相关领域的不当回应下降 65%–80%;在高难度长对话安全评测中保持 95%+ 可靠性。

Q:是否改变了安全原则?

A:在 Model Spec 中将既有目标写得更明确,如不肯定无根据信念、关注自伤自杀的间接信号等。

Q:后续如何评估新模型?

A:把“情感依赖”和“非自杀性紧急情况”加入基线测试,与自伤自杀基线一起作为发布门槛的一部分。

推荐工具

更多