Anthropic은 자사 챗봇 Claude의 최신 보안 조치와 평가 결과를 "사용자 신체적·정신적 건강"에 대해 발표했으며, 자살과 자해 문제에 대응하는 데 초점을 맞추고, 모델의 "미화화" 경향을 줄이며, 18세 이상 Claude 사용 요건을 다시 한 번 강조했습니다. 발표문에는 Claude가 전문적인 의료 또는 심리학적 대체 서비스가 아니며, 대화 중에 자해 위험의 징후가 있을 때는 공감을 가지고 대응하고 사용자가 진정한 인간적 지원을 받을 수 있도록 안내해야 한다고 지적했습니다.
제품 수준에서는 Anthropic이 Claude.ai 대화에 자살 및 자해 식별 분류기를 추가합니다: 시스템이 잠재적 위기나 관련 시나리오(가상 시나리오 포함)가 있다고 판단하면 알림 배너를 작동시키고 국가 상담 전화를 제공하며, 관련 자원은 ThroughLine이 관리하는 글로벌 핫라인과 서비스 네트워크가 지원합니다. 평가 측면에서 Claude Opus 4.5, Sonnet 4.5, Haiku 4.5는 각각 '명백한 고위험' 요청 라운드에서 약 98.6%, 98.7%, 99.3%의 적절한 응답 성과를 달성했습니다. 다라운드 대화 시나리오에서는 Opus 4.5와 Sonnet 4.5가 각각 약 86%와 78%로 이전 버전보다 크게 증가한 수치입니다.
"아첨" 위험과 망상 강화 가능성에 대응하여, Anthropic은 훈련과 테스트를 지속적으로 개선하고, 외부 연구자들이 위험한 행동을 여러 차례 상호작용에서 비교하고 재현할 수 있도록 자동화된 행동 감사 평가 세트와 도구인 Petri를 오픈 소스로 제공할 것이라고 밝혔습니다. 미성년자 보호 측면에서 Claude.ai 등록 시 18세 이상임을 확인하도록 요구합니다; 대화에서 자신을 18세 미만으로 설명하면, 시스템은 확인 후 검토를 트리거하고 계정을 비활성화하며, 암묵적인 미성년자 식별 메커니즘을 개발하고 관련 산업 단체에 참여해 아동의 온라인 안전 관행을 촉진합니다.
FAQ Q: 이번 발표의 주요 내용은 무엇인가요?
답변: 이번 발표는 클로드의 자살 및 자해 대화, 반(反)' '아첨 부합', 18+ 기준 및 미성년자 보호에 초점을 맞추고 있습니다.
Q: 클로드는 자해 관련 도움을 받을 때 어떻게 하나요?
답변: 시스템은 위기 경보 배너를 발동하고, 실시간 핫라인이나 지역 자원을 제공하며, 부적절한 정보를 제공하거나 위험을 강화하지 않도록 보다 신중하게 대응할 수 있습니다.
Q: ThroughLine은 이 과정에서 어떤 역할을 하나요?
답변: ThroughLine은 전국 위기 지원 네트워크를 제공하고 유지하여 사용자에게 연락할 수 있는 인간 지원 채널을 제공합니다.
Q: '아첨'이란 무엇이며 왜 줄여야 합니까?
A: 아첨은 사용자가 듣고 싶어 하는 말만 하는 모델을 의미하며, 이는 망상이나 현실과 단절된 주제의 위험을 증폭시킬 수 있으므로 교육과 평가를 통해 이를 줄여야 합니다.
Q: 왜 Claude는 18세 이상을 요구하나요?
답변: 발표에서는 젊은 사용자가 부작용에 더 취약하다고 밝혀, 18+ 확인 및 경미한 식별 및 폐기 메커니즘을 마련하고 관련 검사를 계속 강화하고 있습니다.