OpenAI a publié l'article « Renforcer les réponses de ChatGPT lors des conversations sensibles », annonçant sa collaboration avec plus de 170 experts en santé mentale expérimentés en clinique afin de mettre à jour le modèle par défaut de ChatGPT. L'objectif est ainsi d'identifier plus efficacement les signaux de demande d'aide, de désamorcer les conversations et d'orienter les utilisateurs vers un soutien concret. Selon les mesures présentées dans l'article, les réponses présentant des comportements indésirables dans des domaines liés à la santé mentale ont diminué d'environ 65 % à 80 %. L'entreprise a également étendu la couverture de sa ligne d'assistance téléphonique de crise, redirigé les conversations sensibles d'autres modèles vers des modèles plus sûrs et ajouté des rappels discrets pour faire une pause lors des conversations longues.
Cette mise à jour se concentre sur trois scénarios : symptômes graves tels que psychose/manie, automutilation et suicide, et dépendance émotionnelle à l’IA. OpenAI a également mis à jour la spécification du modèle afin de préciser que les modèles doivent éviter de renforcer des croyances infondées, respecter les relations interpersonnelles réelles et prêter davantage attention aux signes indirects d’automutilation et de suicide. À l’avenir, en plus des données de référence existantes pour l’automutilation et le suicide, la « dépendance émotionnelle » et les « urgences psychologiques non suicidaires » seront incluses dans les tests de référence standardisés pour les prochaines versions du modèle.
Questions fréquemment posées
Q : Où ces changements se reflètent-ils exactement ?
A : Comportement du modèle par défaut mis à jour, redirection automatique des conversations sensibles, liens vers la hotline de crise plus larges et « rappels de pause » pour les longues conversations.
Q : Quels sont les scénarios prioritaires concernés ?
A : Symptômes aigus tels que psychose/manie, risque d’automutilation et de suicide, et dépendance émotionnelle excessive au modèle.
Q : Comment quantifier l’effet ?
R : Les responsables ont déclaré que les réponses inappropriées dans les domaines concernés ont diminué de 65 à 80 % et que la fiabilité est restée à plus de 95 % dans les évaluations de sécurité à long terme et à haute difficulté.
Q : Les principes de sécurité ont-ils changé ?
A : Rendre les objectifs existants plus explicites dans le modèle de spécification, comme ne pas affirmer de croyances non fondées et prêter attention aux signes indirects d’automutilation ou de suicide.
Q : Comment le nouveau modèle sera-t-il évalué à l’avenir ?
A : Ajoutez la « dépendance émotionnelle » et les « urgences non suicidaires » au test de base dans le cadre du seuil de libération, ainsi que les critères de référence d’automutilation et de suicide.