Zurück zu KI-Informationen
Anthropic veröffentlichte die Maßnahmen zum Schutz der Claude-Nutzer zur physischen und psychischen Gesundheit: Selbstverletzungsgesprächsabfangen und Ressourcenleitlinien

Anthropic veröffentlichte die Maßnahmen zum Schutz der Claude-Nutzer zur physischen und psychischen Gesundheit: Selbstverletzungsgesprächsabfangen und Ressourcenleitlinien

KI-Informationen Admin 93 Aufrufe

Anthropic veröffentlichte eine Ankündigung, in der die neuesten Sicherheitsmaßnahmen und Bewertungsergebnisse seines Chatbots Claude in Bezug auf die "körperliche und psychische Gesundheit des Nutzers" vorgestellt wurden, wobei der Fokus auf die Themen Suizid und Selbstverletzung lag, sowie die Tendenz des Modells zur "schmeichelhaften Catering" reduziert und erneut betont wird, dass Claude ab 18 Jahren verwendet werden darf. In der Ankündigung wurde darauf hingewiesen, dass Claude kein professioneller medizinischer oder psychologischer Alternativdienst ist und dass bei Anzeichen eines Selbstverletzungsrisikos im Gespräch das Unternehmen mit Empathie reagieren und versuchen sollte, die Nutzer zu echten menschlichen Unterstützung zu führen.


Auf Produktebene fügt Anthropic Claude.ai Gesprächen einen Klassifizator zur Identifizierung von Suizid und Selbstverletzungen hinzu: Wenn das System eine potenzielle Krise oder ein verwandtes Szenario (einschließlich fiktiver Szenarien) feststellt, löst es ein Prompt-Banner aus und stellt eine nationale Hotline zur Verfügung – die entsprechenden Ressourcen werden von der globalen Hotline und dem von ThroughLine betriebenen Servicenetzwerk unterstützt. In Bezug auf die Bewertung erzielten Claude Opus 4.5, Sonnet 4.5 und Haiku 4.5 in einer einzigen Runde von "clear-High-Risk"-Anfragen eine angemessene Antwortleistung von etwa 98,6 %, 98,7 % bzw. 99,3 %. Im mehrrundigen Dialogszenario liegen Opus 4.5 und Sonnet 4.5 bei etwa 86 % bzw. 78 %, was einen deutlichen Anstieg gegenüber der vorherigen Version darstellt.


Als Reaktion auf das Risiko von "Schmeichelei" und möglicher Verstärkung von Wahnvorstellungen erklärte Anthropic, dass es Training und Tests kontinuierlich verbessern und das automatisierte Bewertungsset für Verhaltensprüfungen sowie das Tool Petri für externe Forscher veröffentlichen werde, um riskante Verhaltensweisen in mehreren Interaktionsrunden zu vergleichen und zu reproduzieren. Was den Schutz von Minderjährigen betrifft, verlangen Claude.ai von den Nutzern, bei der Registrierung zu bestätigen, dass sie über 18 Jahre alt sind; Wenn Sie sich im Gespräch als unter 18 Jahre alt beschreiben, wird das System eine Überprüfung auslösen und das Konto nach der Bestätigung deaktivieren, während es gleichzeitig implizite Mechanismen zur Identität von Minderjährigen entwickelt und sich an relevanten Branchenorganisationen beteiligt, um die Online-Sicherheitspraktiken von Kindern zu fördern.



FAQ F: Was ist der Hauptinhalt dieser Ankündigung?

A: Die Ankündigung konzentriert sich auf Claudes Produktmaße und Bewertungsergebnisse im Dialog über Suizid und Selbstverletzungen, Anti-"Schmeicheleien" sowie die 18+-Schwelle und den Schutz von Minderjährigen.


F: Was macht Claude, wenn er auf einen Verdacht auf Selbstverletzung stößt?

A: Das System kann Krisenwarn-Banner auslösen, Live-Hotlines oder lokale Ressourcen bereitstellen und vorsichtiger reagieren, um unangemessene Angaben oder Risikoverschärfung zu vermeiden.


F: Welche Rolle spielt ThroughLine dabei?

A: ThroughLine stellt ein länderübergreifendes Krisenressourcennetzwerk bereit und unterhält es, um den Nutzern einen kontaktbaren Unterstützungskanal zu zeigen.


F: Was ist "Speichelleckerei" und warum sollte sie reduziert werden?

A: Schmeichelei bezieht sich auf das Modell, das auf Nutzer zugeschnitten ist und nur das sagt, was die Nutzer hören wollen, was das Risiko von Wahnvorstellungen oder von der Realität losgelösten Themen verstärken kann, daher muss es durch Schulung und Bewertung reduziert werden.


F: Warum verlangt Claude Personen über 18 Jahre?

A: In der Ankündigung hieß es, dass junge Nutzer anfälliger für Nebenwirkungen sind, weshalb ein 18+ Bestätigungs- sowie Minderjährigen-Identifikations- und Entsorgungsmechanismus eingerichtet wurden und die relevanten Tests weiterhin verstärkt werden.

Anthropische Ankündigung interpretiert Claudes neue Maßnahmen für körperliche und geistige Gesundheit und Sicherheit Anthropic gibt Claudes Bewältigungsmechanismus für Selbstverletzungen und Bewertungsergebnisse bekannt Anthropisch stärkt Claudes Erkennung von Suizid und Selbstverletzungen sowie Unterstützung Anthropische Upgrades, Claude-Krisenbanner und globale Hotline-Ressourcen Anthropic erklärt, dass Claude kein medizinischer Ersatz ist und zu menschlicher Unterstützung führt Anthropic offenlegt Claude 4. 5. Angemessene Antwortrate für Hochrisiko-Anfragen Anthropic gab bekannt, dass Claudes mehrrundige Dialog-Selbstverletzungsszene verbessert wurde Anthropic fügt Suizid- und Selbstverletzungs-Klassifikatoren zu Claude.ai Anthropic führt ThroughLine ein, um Claudes globalen Hilfskanal zu unterstützen Anthropic betonte, dass Claude empathische Reaktionen auf Anzeichen von Selbstverletzung priorisiert Anthropic betonte, dass Claude es vermied, detaillierte Ratschläge zur Selbstverletzung zu geben Anthropic aktualisiert die Sicherheitsbewertung von Claude und konzentriert sich nun auf Suizid- und Selbstverletzungsthemen Anthropic senkt Claudes Schmeichelei, um Verstärkungswahnvorstellungen zu vermeiden Anthropic erklärt die Sicherheitsimplikationen von Claude bei der Reduzierung von Schleimer Anthropics Open-Source-Petri-Tool prüft Claude auf mehrere Runden von Risikoverhalten Anthropic veröffentlicht Petri-Bewertungsset, um Forschern bei der Rekonstruktion von Vergleichen zu helfen Anthropic kündigt eine Selbstverletzungsreaktion von 98,6 % bei Claude Opus 4.5 an. Anthropic kündigt Claude Sonnet 4,5 Selbstverletzungsreaktion 98,7 % an Anthropic kündigt eine Selbstverletzungsreaktion von Claude Haiku 4,5 von 99,3 % an. Anthropic sagte, dass die Mehrrunden-Krisenreaktion von Opus 4.5 etwa 86 % beträgt Anthropic berichtete, dass Sonett 4.5 auf etwa 78 % der zahlreichen Krisen reagierte Anthropische Zusammenfassung Claude 4. 5. Die Sicherheit bei Selbstverletzungen ist im Vergleich zur alten Version deutlich verbessert Anthropic erklärt, dass fiktive Selbstverletzungssituationen ebenfalls Krisenanregungen auslösen können Anthropic verwendet Banner-Prompts auf der Produktseite, um lokale Hilfe zu verbinden Anthropic stellt klar, dass ThroughLine ein globales Netzwerk von Hotlines und Diensten unterhält Anthropic betonte, dass Claude offline echte Menschen anleiten sollte, um bei hohen Risiken zu helfen. Anthropic bekräftigte, dass Claude keine Beratung oder medizinische Versorgung leistete Anthropic wiederholte Claude.ai die Registrierung auf Nutzer über 18 Jahre beschränkt ist. Anthropic gibt an, dass Selbstmeldungen unter 18 Jahren eine Überprüfung und Deaktivierung auslösen Anthropic entwickelt implizite Mechanismen zur Identifikation von Minderjährigen zum Schutz von Kindern Anthropic beteiligt sich an Branchenorganisationen, die Online-Sicherheitspraktiken von Kindern fördern Anthropic kündigte den Prozess zum Schutz von Minderjährigen sowie die Regeln für die Veräußerung von Konten an Anthropic erklärt, dass die 18+-Schwelle für jüngere Nutzer anfälliger ist Anthropisch legt den Schwerpunkt auf empathische Reaktion und Risikoverweisung als Kernstrategien Anthropic zeigt Claudes vorsichtigeren Reaktionsstil bei Krisengesprächen Anthropic legt die Auslöserlogik für den Klassifizator der Selbstverletzungsrisiko-Identifikation offen. Anthropic erklärt, dass mehrere Gesprächsrunden schwieriger sind und daher den Test kontinuierlich verbessern Anthropic behauptet, dass Anti-Schmeichelei-Training wahnhafte Verstärkung und Anbiederung reduziert Anthropic schlägt vor, Petri zu verwenden, um schlechtes Verhalten in mehreren Interaktionsrunden zu bewerten Anthropische offene Werkzeuge ermöglichen es externen Forschern, die Sicherheit von Claude zu überprüfen Anthropische Ankündigungsübersicht Selbstverletzungshilfe, Ressourcenanzeige und Aktualisierungsmechanismus Anthropic reagiert auf Claudes mutmaßliche Selbstverletzungsanfrage Anthropic beantwortet die Rolle von ThroughLine bei der Wartung des Hotline-Kanals Anthropic beantwortet, was Schmeichelei ist und welche Konversationsrisiken sie mit sich bringt Anthropic beantwortet, warum Claude die Anforderung für Personen über 18 Jahre betont. Anthropic integriert Produktmaßnahmen, Bewertungsdaten und Sicherheitsverpflichtungen Anthropisch legt Wert darauf, gefährliche Absichten in Krisengesprächen nicht zu verstärken Anthropic veröffentlicht Claude Bericht zu Gesundheitsschutzmaßnahmen und Transparenz Anthropic treibt Claudes Full-Link-Sicherheitsdesign von der Identifikation bis zur Vermittlung an

Empfohlene Tools

Mehr