OpenAI, 민감한 대화 보안 업그레이드 발표: 170명 이상의 전문가와의 협업으로 부적절한 응답 65~80% 감소

AI 정보 • Admin • 2025. 10. 28. • 122 회 조회

OpenAI는 "민감한 대화에서 ChatGPT의 응답 강화"라는 보고서를 발표하며, 170명 이상의 임상 경험이 풍부한 정신 건강 전문가와 협력하여 ChatGPT의 기본 모델을 업데이트하여 도움 요청 신호를 더욱 신뢰성 있게 식별하고, 대화의 긴장을 완화하며, 사용자를 실제 지원으로 안내한다고 밝혔습니다. 논문에 제시된 측정 결과에 따르면, 정신 건강 관련 영역에서 바람직하지 않은 행동에 대한 응답이 약 65%~80% 감소했습니다. 또한, 위기 핫라인 지원 범위를 확대하고, 민감한 대화를 다른 모델에서 안전한 모델로 전환했으며, 긴 대화 중 잠시 휴식을 취하도록 상기시켜주는 기능을 추가했습니다.

이번 업데이트는 정신병/조증, 자해 및 자살과 같은 심각한 증상, 그리고 AI에 대한 정서적 의존이라는 세 가지 시나리오에 초점을 맞춥니다. OpenAI는 또한 모델 사양을 업데이트하여 모델이 근거 없는 신념을 강화하지 않고, 실제 대인 관계를 존중하며, 자해 및 자살의 간접적인 징후에 더욱 주의를 기울여야 함을 명확히 했습니다. 앞으로는 자해 및 자살에 대한 기존 기준 외에도 "정서적 의존"과 "비자살적 심리적 응급 상황"이 향후 모델 릴리스를 위한 표준화된 기준 테스트에 포함될 예정입니다.

자주 묻는 질문

질문: 이러한 변경 사항은 정확히 어디에 반영됩니까?

답변: 기본 모델 동작이 업데이트되었고, 민감한 대화는 자동으로 리디렉션되고, 위기 핫라인 링크가 확대되었으며, 긴 대화에 대한 "중단 알림" 기능이 추가되었습니다.

질문: 어떤 우선순위 시나리오가 포함됩니까?

A: 정신병/조증 등의 급성 증상, 자해 및 자살 위험, 모델에 대한 과도한 정서적 의존 등이 있습니다.

질문: 효과를 정량화하는 방법은 무엇인가요?

A: 관계자들은 관련 분야에서 부적절한 대응이 65~80% 감소했으며, 난이도가 높은 장시간 대화 보안 평가에서 신뢰도가 95% 이상으로 유지되었다고 밝혔습니다.

질문: 안전 원칙이 바뀌었나요?

답변: 모델 사양에서 기존 목표를 더 명확하게 표현하세요. 예를 들어, 근거 없는 믿음을 긍정하지 않고 자해나 자살의 간접적인 징후에 주의를 기울이는 것입니다.

질문: 새로운 모델은 앞으로 어떻게 평가될까요?

답변: 자해 및 자살 기준선과 함께 기준선 테스트에 "정서적 의존"과 "비자살적 긴급 상황"을 해제 임계값의 일부로 추가합니다.

OpenAI, 민감한 대화 보안 업그레이드 발표: 170명 이상의 전문가와의 협업으로 부적절한 응답 65~80% 감소

관련 기사

Anthropic, 금융 업계 업데이트 출시: Claude for Excel, 실시간 시장 커넥터, 사전 구축된 금융 에이전트 기술

Manus 1.5 업데이트: "빠른 스타일 제어" 및 "프롬프트 단어 일괄 편집" 기능이 추가되어 웹 페이지 편집이 더 빠르고 걱정 없이 가능합니다.

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

OpenAI, 민감한 대화 보안 업그레이드 발표: 170명 이상의 전문가와의 협업으로 부적절한 응답 65~80% 감소

관련 기사

Anthropic, 금융 업계 업데이트 출시: Claude for Excel, 실시간 시장 커넥터, 사전 구축된 금융 에이전트 기술

Manus 1.5 업데이트: &quot;빠른 스타일 제어&quot; 및 &quot;프롬프트 단어 일괄 편집&quot; 기능이 추가되어 웹 페이지 편집이 더 빠르고 걱정 없이 가능합니다.

Kimi K3 공식 출시: 2.8조 매개변수, 수백만 개의 맥락에 베팅 및 오픈 웨이트

Mistral Studio, 프롬프트 버전 관리 기능 추가: 엔터프라이즈 AI가 이제 행동 자산을 관리하고 있습니다

추천 도구

AI 도구 제출

제출 정보를 확인해주세요

Manus 1.5 업데이트: "빠른 스타일 제어" 및 "프롬프트 단어 일괄 편집" 기능이 추가되어 웹 페이지 편집이 더 빠르고 걱정 없이 가능합니다.