OpenAI 公布敏感对话安全升级：与170余位专家合作，降低不当回应65%–80%

AI资讯 • Admin • 2025/10/28 • 121 次浏览

OpenAI 发布《Strengthening ChatGPT’s responses in sensitive conversations》，称已与 170 余位具临床经验的心理健康专家合作，更新 ChatGPT 默认模型以更可靠地识别求助信号、缓和对话并引导用户寻求现实世界支持。根据文中测量，在精神健康相关领域，不符合期望行为的回复率下降约 65%–80%，并扩展了危机热线覆盖，将来自其他模型的敏感对话重定向至更安全的模型，同时在长会话中增加“适时休息”的温和提醒。

此次升级重点覆盖三类情境：精神病性/躁狂等严重症状，自伤与自杀，以及对 AI 的情感依赖。OpenAI 同时更新 Model Spec，明确模型应避免强化无根据信念、尊重现实人际关系并更关注自伤/自杀的间接信号。展望后续，除既有自伤自杀基线外，“情感依赖”和“非自杀性心理紧急情况”将纳入未来模型发布的标准化基线测试。

常见问题

Q：这些改动具体体现在哪些地方？

A：默认模型行为更新、敏感对话自动重定向、更广的危机热线链接与长会话“休息提醒”。

Q：涉及哪些优先场景？

A：精神病性/躁狂等急性症状、自伤自杀风险以及对模型的过度情感依赖。

Q：效果如何量化？

A：官方称相关领域的不当回应下降 65%–80%；在高难度长对话安全评测中保持 95%+ 可靠性。

Q：是否改变了安全原则？

A：在 Model Spec 中将既有目标写得更明确，如不肯定无根据信念、关注自伤自杀的间接信号等。

Q：后续如何评估新模型？

A：把“情感依赖”和“非自杀性紧急情况”加入基线测试，与自伤自杀基线一起作为发布门槛的一部分。

OpenAI 公布敏感对话安全升级：与170余位专家合作，降低不当回应65%–80%

相关文章

Anthropic 推出金融行业升级：上线 Claude for Excel、实时行情连接器与预置金融 Agent Skills

Manus 1.5 更新：网页编辑更快更省心，新增“快速样式控制”与“提示词批量编辑”

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

OpenAI 公布敏感对话安全升级：与170余位专家合作，降低不当回应65%–80%

相关文章

Anthropic 推出金融行业升级：上线 Claude for Excel、实时行情连接器与预置金融 Agent Skills

Manus 1.5 更新：网页编辑更快更省心，新增“快速样式控制”与“提示词批量编辑”

Kimi K3正式上线：2.8万亿参数押注百万上下文与开放权重

Mistral Studio 新增提示词版本管理：企业 AI 开始管行为资产

推荐工具

提交AI工具

请确认提交信息