Retour à Informations sur l’IA
Anthropic a publié des mesures de protection de la santé physique et mentale des utilisateurs de Claude : interdiction sur l’automutilation, interception et orientation des ressources

Anthropic a publié des mesures de protection de la santé physique et mentale des utilisateurs de Claude : interdiction sur l’automutilation, interception et orientation des ressources

Informations sur l’IA Admin 93 vues

Anthropic a publié une annonce présentant les dernières mesures de sécurité et les résultats d’évaluation de son chatbot Claude en termes de « santé physique et mentale des utilisateurs », en se concentrant sur la réponse au sujet du suicide et de l’automutilation, ainsi qu’en réduisant la tendance du modèle à « flatter la restauration », et en insistant une fois de plus sur les exigences pour que Claude soit utilisé après 18 ans. L’annonce soulignait que Claude n’est pas un service médical ou psychologique professionnel, et que lorsqu’il y a des signes de risque d’automutilation dans la conversation, il doit répondre avec empathie et essayer d’orienter les utilisateurs pour obtenir un véritable soutien humain.


Au niveau du produit, Anthropic ajoute un classificateur d’identification du suicide et de l’automutilation à Claude.ai conversations : lorsque le système détecte une crise potentielle ou un scénario lié (y compris des scénarios fictifs), il déclenche une bannière de prompt et fournit une ligne d’assistance nationale pour l’aide, et les ressources pertinentes sont soutenues par la ligne d’assistance mondiale et le réseau de services maintenus par ThroughLine. En termes d’évaluation, Claude Opus 4.5, Sonnet 4.5 et Haiku 4.5 ont obtenu des performances de réponse appropriées d’environ 98,6 %, 98,7 % et 99,3 % respectivement lors d’une seule série de demandes « claires à haut risque ». Dans le scénario de dialogue en plusieurs rounds, l’Opus 4.5 et le Sonnet 4.5 représentent respectivement environ 86 % et 78 %, ce qui représente une augmentation significative par rapport à la version précédente.


En réponse au risque de « flatterie » et au possible renforcement des délires, Anthropic a déclaré qu’elle améliorerait continuellement la formation et les tests, et ouvrira en source le jeu d’évaluation et l’outil automatisés d’audit comportemental Petri permettant aux chercheurs externes de comparer et reproduire les comportements à risque lors de plusieurs phases d’interactions. En matière de protection des mineurs, Claude.ai exige que les utilisateurs confirment qu’ils ont plus de 18 ans lors de l’enregistrement ; Si vous vous décrivez comme ayant moins de 18 ans dans la conversation, le système déclenchera une révision et désactivera le compte après confirmation, tout en développant des mécanismes d’identification plus implicites des mineurs et en participant à des organisations pertinentes pour promouvoir les pratiques de sécurité en ligne des enfants.



FAQ Q : Quel est le contenu principal de cette annonce ?

R : L’annonce se concentre sur les mesures de produits de Claude et les résultats d’évaluation concernant le suicide et l’automutilation, la lutte contre la « flatterie », ainsi que le seuil des 18+ et la protection des mineurs.


Q : Que fait Claude lorsqu’il découvre une aide suspectée d’automutilation ?

R : Le système peut déclencher des bannières d’alerte de crise, fournir des lignes d’écoute en direct ou des ressources locales, et répondre de manière plus prudente pour éviter de fournir des informations inappropriées ou de renforcer les risques.


Q : Quel rôle joue ThroughLine dans ce domaine ?

R : ThroughLine fournit et maintient un réseau de ressources de crise à travers le pays pour offrir aux utilisateurs un canal de soutien humain à contacter.


Q : Qu’est-ce que la « flagornerie » et pourquoi devrait-elle être réduite ?

R : La flatterie fait référence au modèle qui s’adresse aux utilisateurs et ne dit que ce que les utilisateurs veulent entendre, ce qui peut amplifier le risque de délires ou de sujets déconnectés de la réalité, donc il faut le réduire par la formation et l’évaluation.


Q : Pourquoi Claude exige-t-il que les personnes aient plus de 18 ans ?

R : L’annonce indique que les jeunes utilisateurs sont plus susceptibles d’avoir des effets indésirables, elle a donc mis en place un mécanisme de confirmation 18+ et d’identification et d’élimination mineure, et continue de renforcer les tests pertinents.

Annonce d’Anthropic interprète les nouvelles mesures de Claude pour la santé physique et mentale et la sécurité Anthropic annonce le mécanisme d’adaptation de Claude à l’automutilation et les résultats de l’évaluation Anthropic renforce l’identification et l’aide de Claude à l’automutilation et à l’automutilation Mises à jour anthropiques Claude Crisis Banners et ressources de la ligne d’assistance mondiale Anthropic explique que Claude n’est pas un substitut médical et qu’il obtient un soutien humain Anthropic révèle Claude 4. 5. Taux de réponse approprié pour les demandes à haut risque Anthropic a annoncé que la performance de Claude sur la scène d’automutilation en dialogues sur plusieurs rounds avait été améliorée Anthropic ajoute des incitations de classification sur le suicide et l’automutilation à Claude.ai Anthropic présente ThroughLine pour soutenir le canal d’aide mondial de Claude Anthropic soulignait que Claude privilégiait les réponses empathiques face aux signes d’automutilation Anthropic a souligné que Claude évitait de donner des conseils détaillés sur l’automutilation Mise à jour anthropique Claude : évaluation de la sécurité pour se concentrer sur les sujets liés au suicide et à l’automutilation Anthropic baisse la flatterie de Claude pour éviter les délires de renforcement Anthropic explique les implications de Claude pour la sécurité dans la réduction de la flagornerie L’outil Petri open source d’Anthropic audite Claude pour plusieurs cycles de comportements de risque Anthropic publie une évaluation de Petri destinée à aider les chercheurs à reproduire les comparaisons Anthropic annonce une réponse à l’automutilation de Claude Opus 4.5 de 98,6 % Anthropic annonce la réponse à l’automutilation du Sonnet 4,5 de Claude 98,7 % Anthropic annonce une réponse à l’automutilation de 4,5 % de Claude Haiku de 99,3 % Anthropic a indiqué que la réponse à la crise multi-rounds de l’Opus 4.5 représente environ 86 % Anthropic a indiqué que le Sonnet 4.5 répondait à environ 78 % des multiples crises Résumé anthropique Claude 4. 5. La sécurité en cas d’automutilation est nettement améliorée par rapport à l’ancienne version Anthropic explique que des situations fictives d’automutilation peuvent aussi déclencher des incitations de crise Anthropic utilise des invites de bannière côté produit pour connecter une aide locale Anthropic précise qu’ThroughLine maintient un réseau mondial de lignes d’écoute et de services Anthropic a insisté sur le fait que Claude devrait guider les personnes réelles hors ligne pour aider lorsqu’il est confronté à des risques élevés Anthropic a réitéré que Claude ne recevait ni de conseils ni de services médicaux Anthropic a réitéré Claude.ai l’enregistrement est limité aux utilisateurs de plus de 18 ans Anthropic indique que les auto-déclarations de moins de 18 ans déclencheront une révision et une désactivation Anthropic développe des mécanismes d’identification plus implicites des mineurs pour protéger les enfants Anthropic participe à des organisations industrielles qui promeuvent les pratiques de sécurité en ligne pour les enfants Anthropic a annoncé le processus de protection des mineurs et les règles de cession des comptes Anthropic explique que le seuil de 18+ est plus susceptible de toucher les jeunes utilisateurs Anthropic met l’accent sur la réponse empathique et la référence au risque comme stratégies centrales Anthropic met en avant le style de réponse plus prudent de Claude aux conversations de crise Anthropic révèle la logique déclencheuse du classificateur d’identification du risque d’automutilation Anthropic explique que plusieurs rondes de conversation sont plus difficiles, ce qui améliore continuellement le test Anthropic affirme que la formation anti-flatterie réduit le renforcement délirant et la flatterie Anthropic propose d’utiliser Petri pour évaluer les mauvais comportements lors de plusieurs phases d’interaction Les outils ouverts anthropiques permettent aux chercheurs externes d’auditer la sécurité de Claude Aperçu de l’annonce anthropique Aide à l’automutilation : affichage et mécanisme de mise à jour Anthropic répond à la demande présumée d’automutilation de Claude Anthropic répond au rôle d’ThroughLine dans la maintenance du canal d’assistance téléphonique Anthropic répond à ce qu’est la flatterie et aux risques conversationnels qu’elle entraîne Réponses anthropiques : pourquoi Claude insiste sur l’exigence pour les personnes de plus de 18 ans Anthropic intègre les mesures produit, les données d’évaluation et les engagements de sécurité Anthropic met l’accent sur l’évitement de renforcer l’intention dangereuse dans les conversations de crise Anthropic publie le rapport Claude sur les mesures de sécurité sanitaire et la transparence Anthropic pilote la conception de la sécurité à liens complets de Claude, de l’identification à la recommandation

Outils Recommandés

Plus