1. Zusammenfassung
Bloom ist ein Open-Source-Framework zur Generierung von LLM-Verhaltensbewertungen: Forscher müssen nur das "Zielverhalten" und eine reproduzierbare Seed-Konfiguration definieren, und Bloom generiert automatisch eine große Anzahl ausgelöster Szenarien und interagiert mit dem Zielmodell, dann bewertet das Review-Modell die Häufigkeit und Intensität des Verhaltens und liefert aggregierbare Metriken und Berichte, die sich für den schnellen Aufbau skalierbarer Verhaltensanalysen eignen.
2. Kernmerkmale
- Konzentrieren Sie sich auf "Verhalten": Geben Sie ein einzelnes Zielverhalten ein (wie Schmeichelei, politische Voreingenommenheit, Selbstschutz usw.) ein und erweitern Sie es automatisch auf eine vielfältige Sammlung von Szenarien.
- Seed reproduzierbar: Die Bewertung "wächst" mit dem Seed, und verschiedene Szenen können durch dasselbe Verhalten generiert werden; Rückverfolgbarkeit und Reproduzierbarkeit werden durch intakte Samen bewahrt.
- Vierstufige Pipeline: Verständnis (Erklärung von Verhaltensweisen und Beispielen), → Konzeption (Erzeugung von Szenen und interaktiven Settings), → Ausführung (Rollouts mit dem Zielmodell), → Bewertung/Meta-Bewertung (Bewertung von Item zu Item und Erstellung von Zusammenfassungsberichten).
- Multi-Provider-Modellzugriff: Verbinden Sie mehrere Modell-APIs über eine einheitliche Call-Layer und unterstützen Sie die Aufzeichnung und Verwaltung größerer Experimente.
- Visualisierung und Interoperabilität: Ausgabe von Transkriptionsdateien und Stufenprodukten, Unterstützung für lokalen Ergebniskatalog und Web-Viewer-Browsing; Und ein Log-Format bereitstellen, das mit anderen Evaluations-Frameworks kompatibel ist.
3. Installation
- Bereite die Python 3.11-Umgebung vor, klone das Repository und installiere Abhängigkeiten (drücke requirements.txt).
- Schreibe den API-Schlüssel des gewünschten Modellanbieters in .env (auf Abruf aktiviert).
- Bearbeiten Sie die Verhaltenskonfiguration und seed.yaml: Geben Sie Parameter wie Verhalten, Beispiele (optional), Anzahl der Generationen, Zielmodell und Diversität an.
- Lokaler Lauf: führt das Hauptskript aus, um das Ergebnisverzeichnis zu generieren; Öffnen Sie den Viewer, wenn Sie benötigt werden, um die Transkription und Bewertung im Browser anzusehen.
4. Typische Anwendungsfälle
- Sicherheits- und Ausrichtungsbewertung: Quantifizieren Sie die Auftretensrate von Verhaltensweisen wie "Selbstschutz", "Vandalismus", "Voreingenommenheit" und "Schmeichelei" in verschiedenen Modellen/Versionen.
- Modellvergleich und -auswahl: Führen Sie Sweeps gegen mehrere Modelle unter demselben Seed durch, um schnell Verhaltensrisikounterschiede zu finden.
- Regressionstests: Konsolidieren Sie die wichtigsten Seeds zu einer "Verhaltensbasislinie" und führen Sie automatische Regressionen nach Modellverbesserungen oder prompten Änderungen durch.
- Red Teaming und Forschung: Automatisch mehr Triggerpfade für spezifische Hypothesen generieren, um implizite Verhaltensmuster in langen Gesprächen zu erkennen.
- Überprüfungsmodellexperiment: Wechseln Sie verschiedene Richter/Meta-Richter, um die Konsistenz und Stabilität des Urteils zu vergleichen.
5. Ökologie und konkurrierende Produkte
- Werkzeuge derselben Familie: Petri neigt eher zum "breitbandigen Audit" (die multidimensionale Verhaltensweisen in einem gegebenen Szenario untersucht); Bloom ist eher eine "richtungsbezogene Quantisierung" (das Festhalten eines einzigen Verhaltens für groß angelegte Induktion und Statistik).
- Komposierbares Ökosystem: Es kann mit dem Log-/Visualisierungslink von Evaluationsframeworks wie Inspect verwendet werden, um Bloom-Produkte mit dem einheitlichen Evaluations-Dashboard zu verbinden.
- Ähnliche Richtungen: OpenAI Evals, LM Evaluation Harness usw. werden häufiger für feste Fragestellungen/Leistungsbewertungen verwendet; Bloom legt mehr Wert auf "automatisch generierte Verhaltensbewertungssuiten".
6. Einschränkungen und Vorsichtsmaßnahmen
- Kosten und Zeit: Groß angelegte Rollouts und Scoring basieren auf Modellaufrufen, und Kosten und Zeit steigen linear mit dem Generationsmaßstab.
- Review-Bias: Die Präferenz des Jurors beeinflusst die Punktzahl, und es wird empfohlen, eine manuelle Stichprobenbegutachtung oder Multi-Judge-Kontrolle zu verwenden.
- Zufälligkeit und Reproduzierbarkeit: Dasselbe Verhalten kann verschiedene Szenen erzeugen, und die vollständigen Seed- und Versionsinformationen müssen gespeichert werden.
- Daten und Sicherheit: Die generierten Prompts und Transkriptionen können sensible Inhalte enthalten oder Versuche, die Grenze zu überschreiten, und Speicherrechte sowie Maskierungsrichtlinien sind erforderlich.
7. Projektadresse
https://github.com/safety-research/bloom
8. Häufig gestellte Fragen
F: Was ist der Nutzen der "Seed Configuration" für Blooms automatisierte Verhaltensbewertung?
A: Seed bestimmt Schlüsselparameter wie Verhaltensbeschreibung, Beispiele, Buildgröße und Interaktionsmethode; Speichern Sie den Samen, um das Experiment zu reproduzieren, und interpretieren Sie die Quelle der Ergebnisse.
F: Kann Bloom nur Claude- oder Anthropic-Modelle bewerten?
A: Nicht auf einen einzelnen Anbieter beschränkt, Sie können in der Regel über eine einheitliche Aufrufschicht auf mehrere Modell-APIs zugreifen. Es hängt vom Anbieter und den verfügbaren Modellen ab, die du in deiner .env konfigurierst.
F: Wo befindet sich die Bloom-Ergebnisausgabe und wie kann ich die Transkription schnell ansehen?
A: Nach dem Ausführen werden JSON- und Transkriptionsdateien für jede Stufe im Ergebnisverzeichnis generiert. Der Begleiter ist verfügbar, um mit dem Surfen und Filtern der lokalen Weboberfläche zu beginnen.
F: Was ist das Open-Source-Protokoll Bloom und kann es für kommerzielle Bewertungen verwendet werden?
A: Das Code-Repository übernimmt die MIT-Lizenz; Es wird dennoch empfohlen, zu überprüfen, ob Ihre Compliance- und Geschäftsanforderungen in Verbindung mit den rechtlichen und Unabhängigkeitsklauseln für Dritte erfüllt sind.
F: Wie kann ich die Fehlalarmrate und die Wahrscheinlichkeit von Bloom-Bewertungen reduzieren?
A: Wichtige Zusammenwürfe aushärten, die Anzahl der Wiederholungen erhöhen, manuelle Überprüfungen vornehmen und mehrere Richter-/Schwellenkontrollen ausprobieren, um die Stabilität zu beurteilen.