OpenAI annonce des améliorations de la sécurité des conversations sensibles : la collaboration avec plus de 170 experts réduit les réponses inappropriées de 65 % à 80 %

Informations sur l’IA • Admin • 28/10/2025 • 122 vues

OpenAI a publié l'article « Renforcer les réponses de ChatGPT lors des conversations sensibles », annonçant sa collaboration avec plus de 170 experts en santé mentale expérimentés en clinique afin de mettre à jour le modèle par défaut de ChatGPT. L'objectif est ainsi d'identifier plus efficacement les signaux de demande d'aide, de désamorcer les conversations et d'orienter les utilisateurs vers un soutien concret. Selon les mesures présentées dans l'article, les réponses présentant des comportements indésirables dans des domaines liés à la santé mentale ont diminué d'environ 65 % à 80 %. L'entreprise a également étendu la couverture de sa ligne d'assistance téléphonique de crise, redirigé les conversations sensibles d'autres modèles vers des modèles plus sûrs et ajouté des rappels discrets pour faire une pause lors des conversations longues.

Cette mise à jour se concentre sur trois scénarios : symptômes graves tels que psychose/manie, automutilation et suicide, et dépendance émotionnelle à l’IA. OpenAI a également mis à jour la spécification du modèle afin de préciser que les modèles doivent éviter de renforcer des croyances infondées, respecter les relations interpersonnelles réelles et prêter davantage attention aux signes indirects d’automutilation et de suicide. À l’avenir, en plus des données de référence existantes pour l’automutilation et le suicide, la « dépendance émotionnelle » et les « urgences psychologiques non suicidaires » seront incluses dans les tests de référence standardisés pour les prochaines versions du modèle.

Questions fréquemment posées

Q : Où ces changements se reflètent-ils exactement ?

A : Comportement du modèle par défaut mis à jour, redirection automatique des conversations sensibles, liens vers la hotline de crise plus larges et « rappels de pause » pour les longues conversations.

Q : Quels sont les scénarios prioritaires concernés ?

A : Symptômes aigus tels que psychose/manie, risque d’automutilation et de suicide, et dépendance émotionnelle excessive au modèle.

Q : Comment quantifier l’effet ?

R : Les responsables ont déclaré que les réponses inappropriées dans les domaines concernés ont diminué de 65 à 80 % et que la fiabilité est restée à plus de 95 % dans les évaluations de sécurité à long terme et à haute difficulté.

Q : Les principes de sécurité ont-ils changé ?

A : Rendre les objectifs existants plus explicites dans le modèle de spécification, comme ne pas affirmer de croyances non fondées et prêter attention aux signes indirects d’automutilation ou de suicide.

Q : Comment le nouveau modèle sera-t-il évalué à l’avenir ?

A : Ajoutez la « dépendance émotionnelle » et les « urgences non suicidaires » au test de base dans le cadre du seuil de libération, ainsi que les critères de référence d’automutilation et de suicide.

OpenAI annonce des améliorations de la sécurité des conversations sensibles : la collaboration avec plus de 170 experts réduit les réponses inappropriées de 65 % à 80 %

Articles connexes

Anthropic lance des mises à jour pour le secteur financier : Claude pour Excel, Real-Time Market Connector et des compétences prédéfinies pour les agents financiers

Mise à jour Manus 1.5 : l'édition des pages Web est plus rapide et plus simple, grâce à l'ajout du « Contrôle rapide du style » et de l'« Édition par lots des mots d'invite »

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

OpenAI annonce des améliorations de la sécurité des conversations sensibles : la collaboration avec plus de 170 experts réduit les réponses inappropriées de 65 % à 80 %

Articles connexes

Anthropic lance des mises à jour pour le secteur financier : Claude pour Excel, Real-Time Market Connector et des compétences prédéfinies pour les agents financiers

Mise à jour Manus 1.5 : l&#39;édition des pages Web est plus rapide et plus simple, grâce à l&#39;ajout du « Contrôle rapide du style » et de l&#39;« Édition par lots des mots d&#39;invite »

Kimi K3 officiellement lancé : 2,8 trillions de paramètres misant sur des millions de contextes et un poids ouvert

Mistral Studio ajoute la gestion des versions de prompts : l’IA d’entreprise gère désormais les actifs comportementaux

Outils Recommandés

Soumettre un outil IA

Veuillez confirmer les informations de soumission

Mise à jour Manus 1.5 : l'édition des pages Web est plus rapide et plus simple, grâce à l'ajout du « Contrôle rapide du style » et de l'« Édition par lots des mots d'invite »