Anthropic a publié une annonce présentant les dernières mesures de sécurité et les résultats d’évaluation de son chatbot Claude en termes de « santé physique et mentale des utilisateurs », en se concentrant sur la réponse au sujet du suicide et de l’automutilation, ainsi qu’en réduisant la tendance du modèle à « flatter la restauration », et en insistant une fois de plus sur les exigences pour que Claude soit utilisé après 18 ans. L’annonce soulignait que Claude n’est pas un service médical ou psychologique professionnel, et que lorsqu’il y a des signes de risque d’automutilation dans la conversation, il doit répondre avec empathie et essayer d’orienter les utilisateurs pour obtenir un véritable soutien humain.
Au niveau du produit, Anthropic ajoute un classificateur d’identification du suicide et de l’automutilation à Claude.ai conversations : lorsque le système détecte une crise potentielle ou un scénario lié (y compris des scénarios fictifs), il déclenche une bannière de prompt et fournit une ligne d’assistance nationale pour l’aide, et les ressources pertinentes sont soutenues par la ligne d’assistance mondiale et le réseau de services maintenus par ThroughLine. En termes d’évaluation, Claude Opus 4.5, Sonnet 4.5 et Haiku 4.5 ont obtenu des performances de réponse appropriées d’environ 98,6 %, 98,7 % et 99,3 % respectivement lors d’une seule série de demandes « claires à haut risque ». Dans le scénario de dialogue en plusieurs rounds, l’Opus 4.5 et le Sonnet 4.5 représentent respectivement environ 86 % et 78 %, ce qui représente une augmentation significative par rapport à la version précédente.
En réponse au risque de « flatterie » et au possible renforcement des délires, Anthropic a déclaré qu’elle améliorerait continuellement la formation et les tests, et ouvrira en source le jeu d’évaluation et l’outil automatisés d’audit comportemental Petri permettant aux chercheurs externes de comparer et reproduire les comportements à risque lors de plusieurs phases d’interactions. En matière de protection des mineurs, Claude.ai exige que les utilisateurs confirment qu’ils ont plus de 18 ans lors de l’enregistrement ; Si vous vous décrivez comme ayant moins de 18 ans dans la conversation, le système déclenchera une révision et désactivera le compte après confirmation, tout en développant des mécanismes d’identification plus implicites des mineurs et en participant à des organisations pertinentes pour promouvoir les pratiques de sécurité en ligne des enfants.
FAQ Q : Quel est le contenu principal de cette annonce ?
R : L’annonce se concentre sur les mesures de produits de Claude et les résultats d’évaluation concernant le suicide et l’automutilation, la lutte contre la « flatterie », ainsi que le seuil des 18+ et la protection des mineurs.
Q : Que fait Claude lorsqu’il découvre une aide suspectée d’automutilation ?
R : Le système peut déclencher des bannières d’alerte de crise, fournir des lignes d’écoute en direct ou des ressources locales, et répondre de manière plus prudente pour éviter de fournir des informations inappropriées ou de renforcer les risques.
Q : Quel rôle joue ThroughLine dans ce domaine ?
R : ThroughLine fournit et maintient un réseau de ressources de crise à travers le pays pour offrir aux utilisateurs un canal de soutien humain à contacter.
Q : Qu’est-ce que la « flagornerie » et pourquoi devrait-elle être réduite ?
R : La flatterie fait référence au modèle qui s’adresse aux utilisateurs et ne dit que ce que les utilisateurs veulent entendre, ce qui peut amplifier le risque de délires ou de sujets déconnectés de la réalité, donc il faut le réduire par la formation et l’évaluation.
Q : Pourquoi Claude exige-t-il que les personnes aient plus de 18 ans ?
R : L’annonce indique que les jeunes utilisateurs sont plus susceptibles d’avoir des effets indésirables, elle a donc mis en place un mécanisme de confirmation 18+ et d’identification et d’élimination mineure, et continue de renforcer les tests pertinents.