OpenAIは「センシティブな会話におけるChatGPTの応答強化」を発表し、170人以上の臨床経験豊富なメンタルヘルス専門家と協力し、ChatGPTのデフォルトモデルを更新することで、助けを求めるシグナルをより確実に識別し、会話をエスカレートさせず、ユーザーを現実世界でのサポートに誘導することを目指したと発表しました。論文に掲載された測定結果によると、メンタルヘルス関連分野における望ましくない行動を伴う応答は約65%~80%減少しました。また、同社は危機ホットラインの対象範囲を拡大し、センシティブな会話を他のモデルからより安全なものにリダイレクトし、長い会話中に休憩を取るよう促す穏やかなリマインダーを追加しました。
今回のアップデートは、精神病/躁病などの重篤な症状、自傷行為および自殺、そしてAIへの感情的依存という3つのシナリオに焦点を当てています。OpenAIはまた、モデル仕様を更新し、モデルは根拠のない信念の強化を避け、現実の人間関係を尊重し、自傷行為および自殺の間接的な兆候にさらに注意を払うべきであることを明確にしました。今後、自傷行為および自殺に関する既存のベースラインに加えて、「感情的依存」と「自殺を伴わない心理的緊急事態」が、将来のモデルリリースにおける標準化されたベースラインテストに含まれる予定です。
よくある質問
Q: これらの変更は具体的にどこに反映されますか?
A: デフォルトのモデル動作の更新、機密性の高い会話の自動リダイレクト、より広範な危機ホットライン リンク、長い会話の「休憩リマインダー」などです。
Q: 優先シナリオにはどのようなものがありますか?
A: 精神病/躁病などの急性症状、自傷や自殺の危険性、モデルに対する過度の感情的依存など。
Q: 効果を定量化するにはどうすればいいですか?
A: 当局は、関連分野における不適切な対応が65%~80%減少し、難易度の高い長時間対話によるセキュリティ評価の信頼性は95%以上を維持していると述べました。
Q: 安全原則は変更されましたか?
A: 根拠のない信念を肯定しないことや、自傷行為や自殺の間接的な兆候に注意を払うなど、モデル仕様で既存の目標をより明確にします。
Q: 新しいモデルは今後どのように評価されるのでしょうか?
A: 自傷行為と自殺のベースラインとともに、「感情的依存」と「非自殺的緊急事態」を解放閾値の一部としてベースライン テストに追加します。