Anthropic veröffentlichte Bloom am 19. Dezember 2025, das als Open Source zum Download und zur Nutzung verfügbar ist. Bloom ist als Agentenrahmen für die "automatisierte Verhaltensbewertung" positioniert: Forscher legen zunächst ein einzelnes Verhaltensmerkmal fest, das beobachtet werden soll, und dann generiert Bloom automatisch eine große Anzahl von Szenarien und Gesprächsrunden, bewertet die Leistung des Zielmodells in diesen Szenarien und gibt Indikatoren wie Verhaltensauslöserrate und durchschnittliche Intensität aus, um die Häufigkeit und Schwere des Verhaltens im Modell zu messen.
Bloom wird als Ergänzung zum bestehenden Werkzeug Petri beschrieben, das es bevorzugt, mehrere Verhaltensdimensionen zu scannen und verdächtige Fälle in vom Nutzer gegebenen Szenarien zu finden. Bloom erweitert automatisch, um reproduzierbarere Szenarien rund um ein bestimmtes Verhalten zu schaffen, um schneller zu quantitativen Schlussfolgerungen zu gelangen. Der offizielle Beispiel-Benchmark umfasst alignmentbezogene Verhaltensweisen wie "wahnhaftes Anbiedern", "Langfristige Störung durch Anweisungen", "Selbstschutz" und "Selbstbevorzugung" und bietet einen vollständigen Prozess von der Verhaltensdefinition bis zur Bewertungsausgabe.
Was den Mechanismus betrifft, verwendet Bloom eine vierstufige Pipeline aus "Verstehen-Ideen-Ausführung-Urteil" und zeichnet Verhaltensbeschreibungen, Beispieldialoge und Schlüsselparameter über "Seed-Konfiguration" auf, um Experimente zu reproduzieren und Unterschiede unter verschiedenen Modellen oder Konfigurationen zu vergleichen. Da diese Art der Bewertung auf automatischer Szenengenerierung und Urteilsmodell basiert, ist es dennoch notwendig, auf Faktoren wie Bewertungskonfiguration, Urteilskonsistenz und Authentizität der Szene in der tatsächlichen Anwendung zu achten und zu vermeiden, ein einzelnes Ergebnis auf die stabile Leistung des Modells in der realen Umgebung zu extrapolieren.
FAQs
F: Wofür wird Anthropics Bloom-Tool hauptsächlich verwendet?
A: Bloom wird verwendet, um automatisch Evaluierungsszenarien für ein bestimmtes Verhalten zu generieren und die Häufigkeit sowie Schwere dieses Verhaltens im Modell zu quantifizieren.
F: Was ist der Kernunterschied zwischen Bloom und Petri?
A: Bloom konzentriert sich auf ein einzelnes Verhalten und erweitert automatisch eine große Anzahl von Szenen für quantitative Messungen; Petri bevorzugt es, multidimensionales Verhalten zu behandeln und Anomalien in einer bestimmten Szene zu finden.
F: Was sind die wichtigsten Aspekte des Evaluationsprozesses von Bloom?
A: Bloom verfolgt vier Phasen: Verstehen, Ideenfindung, Ausführung und Urteilsvermögen, und liefert schließlich zusammenfassende Indikatoren und Bewertungsberichte wie die Trigger-Rate.
F: Was macht Blooms "Seed-Konfiguration" in der Rezension?
A: Die Seed-Konfiguration wird verwendet, um Verhaltensdefinitionen und Parametereinstellungen aufzuzeichnen, was praktisch ist, um Experimente und vergleichbare Ergebnisse zwischen verschiedenen Modellen zu reproduzieren.
F: Welche Risiken sollten Forscher bei der Verwendung von Bloom-Ergebnissen beachten?
A: Es ist notwendig, auf die Authentizität der automatisch generierten Szene, die Verzerrung des Urteilsmodells und die Auswirkungen von Konfigurationsunterschieden auf die Ergebnisse zu achten und zu vermeiden, das Bewertungsergebnis direkt mit der realen Leistung gleichzusetzen.