OpenAI veröffentlichte die Studie „Stärkung der ChatGPT-Reaktionen in sensiblen Gesprächen“ und gab bekannt, dass das Unternehmen mit über 170 klinisch erfahrenen Experten für psychische Gesundheit zusammengearbeitet hat, um das Standardmodell von ChatGPT zu aktualisieren. Dadurch sollen Signale, die auf Hilfesuche hinweisen, zuverlässiger erkannt, Gespräche deeskaliert und Nutzer zu realer Unterstützung geführt werden. Laut Messungen im Dokument gingen Reaktionen mit unerwünschtem Verhalten in psychischen Bereichen um etwa 65–80 % zurück. Das Unternehmen erweiterte außerdem die Abdeckung seiner Krisenhotline, leitete sensible Gespräche von anderen Modellen auf sicherere um und fügte sanfte Erinnerungen hinzu, bei langen Gesprächen eine Pause einzulegen.
Dieses Update konzentriert sich auf drei Szenarien: schwere Symptome wie Psychose/Manie, Selbstverletzung und Suizid sowie emotionale Abhängigkeit von KI. OpenAI hat außerdem die Modellspezifikation aktualisiert, um klarzustellen, dass Modelle die Verstärkung unbegründeter Überzeugungen vermeiden, reale zwischenmenschliche Beziehungen respektieren und indirekten Anzeichen von Selbstverletzung und Suizid stärker Rechnung tragen sollten. Zusätzlich zu den bestehenden Baselines für Selbstverletzung und Suizid werden künftig auch „emotionale Abhängigkeit“ und „nicht-suizidale psychische Notfälle“ in die standardisierten Baseline-Tests für zukünftige Modellversionen einbezogen.
Häufig gestellte Fragen
F: Wo genau spiegeln sich diese Änderungen wider?
A: Aktualisiertes Standardmodellverhalten, automatische Umleitung vertraulicher Gespräche, umfassendere Links zur Krisenhotline und „Pausenerinnerungen“ für lange Gespräche.
F: Um welche vorrangigen Szenarien handelt es sich?
A: Akute Symptome wie Psychose/Manie, Selbstverletzungs- und Suizidgefahr sowie übermäßige emotionale Abhängigkeit vom Modell.
F: Wie kann man den Effekt quantifizieren?
A: Offizielle Stellen gaben an, dass unangemessene Reaktionen in entsprechenden Bereichen um 65 bis 80 % zurückgegangen seien und die Zuverlässigkeit bei anspruchsvollen Sicherheitsbewertungen mit langen Dialogen bei über 95 % geblieben sei.
F: Haben sich die Sicherheitsprinzipien geändert?
A: Machen Sie bestehende Ziele in der Modellspezifikation deutlicher, z. B. das Nichtbestätigen unbegründeter Überzeugungen und das Achten auf indirekte Anzeichen von Selbstverletzung oder Selbstmord.
F: Wie wird das neue Modell in Zukunft bewertet?
A: Fügen Sie dem Basistest „emotionale Abhängigkeit“ und „nicht-suizidale Notfälle“ als Teil der Entlassungsschwelle zusammen mit der Basislinie für Selbstverletzung und Suizid hinzu.