返回AI资讯
Anthropic发布Claude用户身心健康防护措施:自伤对话拦截与资源引导

Anthropic发布Claude用户身心健康防护措施:自伤对话拦截与资源引导

AI资讯 Admin 93 次浏览

Anthropic发布公告,介绍其聊天机器人Claude在“用户身心健康”方面的最新安全措施与评估结果,重点聚焦自杀与自伤话题的应对,以及减少模型“阿谀式迎合”的倾向,并再次强调Claude的18岁以上使用要求。公告指出,Claude并非专业医疗或心理替代服务,当对话出现自伤风险迹象时,应以同理回应并尽量引导用户获得真人支持。


在产品层面,Anthropic在Claude.ai对话中加入自杀与自伤识别分类器:当系统判定存在潜在危机或相关情境(含虚构场景)时,会触发提示横幅并提供各国求助渠道,相关资源由ThroughLine维护的全球热线与服务网络支持。评估方面,Claude Opus 4.5、Sonnet 4.5、Haiku 4.5在单轮“明确高风险”请求上分别达到约98.6%、98.7%、99.3%的适当应对表现;多轮对话场景中,Opus 4.5与Sonnet 4.5分别约为86%与78%,较此前版本提升明显。


针对“阿谀”与可能强化妄想的风险,Anthropic表示持续改进训练与测试,并开源自动化行为审计评估集与工具Petri,供外部研究者对多轮互动中的风险行为进行对比与复现。未成年人保护方面,Claude.ai要求用户注册时确认已满18岁;若在对话中自述未满18岁,系统会触发审核并在确认后停用账号,同时也在开发更隐性的未成年识别机制,并参与相关行业组织以推动儿童在线安全实践。


常见问题

Q:这则公告主要在说什么内容?

A:公告集中说明Claude在自杀与自伤对话、反“阿谀式迎合”、以及18+门槛与未成年人保护上的产品措施与评估结果。


Q:Claude遇到疑似自伤求助会怎么做?

A:系统可能触发危机提示横幅,提供真人热线或当地资源,并以更谨慎的方式回应,避免给出不当细节或强化风险。


Q:ThroughLine在其中扮演什么角色?

A:ThroughLine提供并维护跨国家与地区的危机求助资源网络,用于向用户展示可联系的真人支持渠道。


Q:什么是“阿谀(sycophancy)”,为什么要减少?

A:阿谀指模型迎合用户、只说用户想听的话,可能在妄想或现实脱节话题中放大风险,因此需要通过训练与评估降低。


Q:Claude为什么要求18岁以上使用?

A:公告称年轻用户更容易受到不良影响,因此设置18+确认与未成年人识别处置机制,并持续加强相关检测。

Anthropic公告解读Claude身心健康安全新举措 Anthropic公布Claude自伤应对机制与评估结果 Anthropic强化Claude自杀自伤识别与求助引导 Anthropic升级Claude危机横幅与全球热线资源 Anthropic说明Claude非医疗替代并引导真人支持 Anthropic披露Claude 4.5高风险请求适当应对率 Anthropic公布Claude多轮对话自伤场景表现提升 Anthropic在Claude.ai加入自杀自伤分类器提示 Anthropic引入ThroughLine支持Claude全球求助渠道 Anthropic强调Claude对自伤迹象以同理回应为先 Anthropic强调Claude避免提供自伤不当细节建议 Anthropic更新Claude安全评估聚焦自杀自伤话题 Anthropic降低Claude阿谀式迎合以防强化妄想 Anthropic解释Claude减少sycophancy的安全意义 Anthropic开源Petri工具审计Claude多轮风险行为 Anthropic发布Petri评估集助研究者复现对比 Anthropic公布Claude Opus 4.5自伤应对达98.6% Anthropic公布Claude Sonnet 4.5自伤应对达98.7% Anthropic公布Claude Haiku 4.5自伤应对达99.3% Anthropic称Opus 4.5多轮危机应对约86% Anthropic称Sonnet 4.5多轮危机应对约78% Anthropic总结Claude 4.5自伤安全较旧版显著提升 Anthropic说明虚构自伤情境也会触发危机提示 Anthropic在产品端以横幅提示连接当地求助资源 Anthropic阐明ThroughLine维护全球热线与服务网络 Anthropic强调Claude遇高风险应引导线下真人帮助 Anthropic再次声明Claude并非心理咨询或医疗服务 Anthropic重申Claude.ai仅限18岁以上用户注册 Anthropic说明未满18自述将触发审核与停用 Anthropic开发更隐性未成年识别机制保护儿童 Anthropic参与行业组织推动儿童在线安全实践 Anthropic公布未成年人保护流程与账号处置规则 Anthropic解释18+门槛因年轻用户更易受影响 Anthropic强调同理回应与风险转介是核心策略 Anthropic展示Claude危机对话更谨慎的回复风格 Anthropic披露自伤风险识别分类器触发逻辑 Anthropic说明多轮对话更难因此持续改进测试 Anthropic称反阿谀训练减少妄想强化与迎合 Anthropic提出用Petri评估多轮互动中的不良行为 Anthropic开放工具让外部研究者审计Claude安全 Anthropic公告概览自伤求助资源展示与更新机制 Anthropic解答Claude疑似自伤求助的系统响应 Anthropic解答ThroughLine在求助渠道维护的作用 Anthropic解答什么是阿谀及其带来的对话风险 Anthropic解答为何Claude强调18岁以上使用要求 Anthropic整合产品措施评估数据与安全承诺 Anthropic强调在危机对话中避免强化危险意图 Anthropic发布Claude身心健康安全措施与透明报告 Anthropic推动Claude从识别到转介的全链路安全设计

推荐工具

更多