Retour à L’IA est open source
Interprétation de l’outil open source Bloom : Générer automatiquement des évaluations de comportement LLM et reproduire des expériences avec Seed

Interprétation de l’outil open source Bloom : Générer automatiquement des évaluations de comportement LLM et reproduire des expériences avec Seed

L’IA est open source Admin 47 vues

1. Résumé

Bloom est un cadre de génération d’évaluation du comportement par LLM open source : les chercheurs n’ont qu’à définir le « comportement cible » et une configuration de graine reproductible, et Bloom génère automatiquement un grand nombre de scénarios déclenchés et interagit avec le modèle cible, puis le modèle de revue évalue la fréquence et l’intensité du comportement, et produit des métriques et rapports agrégables, adaptés à la construction rapide d’évaluations comportementales évolutives.

2. Caractéristiques principales

  1. Concentrez-vous sur le « comportement » : Entrez un comportement ciblé unique (comme la flatterie, les biais politiques, l’auto-préservation, etc.) et élargissez-le automatiquement à une collection diversifiée de scénarios.
  2. Reproductible graine : l’évaluation « grandit » avec la graine, et différentes scènes peuvent être générées par le même comportement ; La traçabilité et la reproductibilité sont préservées grâce à des graines intactes.
  3. Pipeline en quatre étapes : compréhension (explication des comportements et exemples), conception → (génération de scènes et de paramètres interactifs), → exécution (déploiements avec le modèle cible), → notation/méta-scoring (notation article par élément et génération de rapports résumés).
  4. Accès multi-fournisseurs aux modèles : Connecter plusieurs API de modèles via une couche d’appels unifiée, et soutenir l’enregistrement et la gestion d’expériences à plus grande échelle.
  5. Visualisation et interopérabilité : Produire des fichiers de transcription et des produits de stage, supporter le catalogue local de résultats et la navigation Web Viewer ; Et fournir un format de journal compatible avec d’autres cadres d’évaluation.

3. Installation

  1. Préparer l’environnement Python 3.11, cloner le dépôt et installer les dépendances (appuyez sur requirements.txt).
  2. Écrire la clé API du fournisseur de modèle souhaité en .env (activé à la demande).
  3. Modifier la configuration des comportements et seed.yàml : spécifier des paramètres tels que le comportement, les exemples (optionnels), le nombre de générations, le modèle cible et la diversité.
  4. Exécution locale : exécuter le script principal pour générer le répertoire des résultats ; Lance le visualiseur quand besoin pour voir la transcription et la correction dans le navigateur.

4. Cas d’usage typiques

  1. Évaluation de la sécurité et de l’alignement : quantifier le taux d’occurrence de comportements tels que « autoprotection », « vandalisme », « biais » et « flatterie » dans différents modèles/versions.
  2. Comparaison et sélection de modèles : Effectuer des balayages sur plusieurs modèles sous la même graine afin de localiser rapidement les différences de risque comportemental.
  3. Test de régression : Consolider les graines clés en une « base comportementale » et effectuer une régression automatique après des mises à jour du modèle ou des changements de prompts.
  4. Red Team et recherche : Générer automatiquement davantage de chemins de déclenchement pour des hypothèses spécifiques afin d’aider à découvrir des comportements implicites dans de longues conversations.
  5. Revoir l’expérience du modèle : Modifier différents juges/méta-juges pour comparer la cohérence et la stabilité du jugement.

5. Écologie et produits concurrents

  1. Outils de la même famille : Petri est plus enclin à l'« audit à large spectre » (explorer le comportement multidimensionnel dans un scénario donné) ; Bloom est plutôt une « quantification directionnelle » (verrouillant un seul comportement pour l’induction et les statistiques à grande échelle).
  2. Écosystème composable : Il peut être utilisé avec le lien journal/visualisation de frameworks d’évaluation tels que Inspect pour connecter les produits Bloom au tableau de bord d’évaluation unifié.
  3. Instructions similaires : les évaluations OpenAI, le harnais d’évaluation LM, etc. sont plus couramment utilisés pour les ensembles de questions fixes/évaluations de capacité ; Bloom met davantage l’accent sur les « suites d’évaluation du comportement générées automatiquement ».

6. Limitations et précautions

  1. Coût et temps : Les déploiements et le score à grande échelle reposent sur les appels de modèles, et le coût ainsi que le temps augmentent de manière linéaire avec l’échelle de la production.
  2. Biais de revue : La préférence du juge influencera la note, et il est recommandé d’utiliser la revue manuelle d’échantillonnage ou le contrôle multi-juges.
  3. Aléa et reproductibilité : Le même comportement peut générer différentes scènes, et les informations complètes de la graine et de la version doivent être sauvegardées.
  4. Données et sécurité : Les invites et transcriptions générées peuvent contenir du contenu sensible ou tenter de franchir la frontière, et des autorisations de stockage et des politiques de masquage sont requises.

7. Adresse du projet

https://github.com/safety-research/bloom

8. Questions fréquemment posées

Q : À quoi sert la « Configuration de la Seed » pour l’évaluation automatisée du comportement de Bloom ?

R : La graine détermine des paramètres clés tels que la description du comportement, les exemples, la taille de la compilation et la méthode d’interaction ; Sauvegardez la graine pour reproduire l’expérience et interpréter la source des résultats.

Q : Bloom peut-elle seulement évaluer les modèles Claude ou Anthropic ?

R : Sans se limiter à un seul fournisseur, vous pouvez généralement accéder à plusieurs API modèles via une couche d’appels unifiée. Cela dépend du fournisseur et des modèles disponibles que vous configurez dans votre .env.

Q : Où se trouve le résultat de Bloom, et comment puis-je consulter rapidement la transcription ?

R : Après exécution, les fichiers JSON et de transcription pour chaque étape seront générés dans le répertoire des résultats. Le visualiseur compagnon est disponible pour commencer à naviguer et filtrer l’interface web locale.

Q : Qu’est-ce que le protocole open source Bloom et peut-il être utilisé pour l’évaluation commerciale ?

R : Le dépôt de code adopte la licence MIT ; Il est toujours recommandé de vérifier si vos exigences de conformité et d’affaires sont respectées en lien avec les clauses légales et de dépendance tierce.

Q : Comment puis-je réduire le taux de faux positifs et la probabilité d’avis sur Bloom ?

R : Guérissez les graines clés, augmentez le nombre de répétitions, échantillonnez la revue manuelle, et essayez plusieurs contrôles juge/seuil pour évaluer la stabilité.

Comportement d’alignement quantitatif de Bloom en open source anthropique Anthropic publie le Cadre automatisé d’évaluation du comportement Bloom Anthropic Bloom se concentre sur un seul scénario d’expansion du comportement Anthropic Bloom génère le taux de déclenchement du comportement de mesure situationnelle Indice moyen et fréquentiel de l’intensité de sortie de Anthropic Bloom Anthropic Bloom compléte Petri pour former un comité d’évaluation Des expériences reproduites par Anthropic Bloom concernant la configuration des graines Méthode d’évaluation du pipeline à quatre étapes d’Anthropic Bloom Anthropic Bloom comprend le processus d’exécution de l’idéation Anthropic Bloom critique le délirant de la compression et d’autres comportements d’alignement Anthropic Bloom évalue le risque de sabotage à longue portée par la directive Anthropic Bloom évalue le niveau de déclencheurs de comportements d’autoprotection Anthropic Bloom analyse les tendances d’alignement des préférences personnelles Comment Anthropic Bloom peut rapidement parvenir à des conclusions quantitatives Anthropic Bloom rend l’évaluation comportementale plus reproductible Anthropic Bloom génère automatiquement des scènes de dialogue sur plusieurs tours Anthropic Bloom est utilisé pour la mesure de la fréquence du comportement des modèles Anthropic Bloom est utilisé pour le score d’intensité de sévérité comportementale Différence Anthropique vs Pétri et Stratégie d’Appariement Anthropic Bloom aide les chercheurs à élargir leur couverture de revues Anthropic Bloom définit des paramètres basés sur le comportement de l’enregistrement des graines Anthropic Bloom évalue comment les différences de configuration affectent les résultats Anthropic Bloom détermine le risque de biais du modèle Problèmes d’authenticité de la scène Anthropic Bloom et contre-mesures Anthropic Bloom évite la sur-extrapolation d’un seul résultat Points de téléchargement et d’utilisation Open Source d’Anthropic Bloom Anthropic Bloom est une boîte à outils pour la recherche sur l’alignement Anthropic Bloom est utilisé pour la comparaison de modèles et les tests de régression Anthropic Bloom est évalué de manière comparable à travers plusieurs modèles Anthropic Bloom génère une combinaison de scénarios de comportement suspect Guide pratique d’Anthropic Bloom pour quantifier les taux de déclenchement comportementaux Interprétation structurelle du rapport d’évaluation des résultats de l’Anthropic Bloom Comment Anthropic Bloom définit les traits comportementaux observables Anthropic Bloom limite les limites d’évaluation avec des dialogues d’exemple Anthropic Bloom amplifie automatiquement les statistiques d’amélioration de la scène Comment Anthropic Bloom complète la critique du red teaming fait main Anthropic Bloom convient aux pipelines d’évaluation en équipe La floraison anthropique est utilisée pour aligner la construction de repères comportementaux La floraison anthropique est utilisée pour découvrir les schémas comportementaux et les seuils Comment Anthropic Bloom améliore la cohérence des décisions Comment Anthropic Bloom réduit la dérive des scènes d’apparition Anthropic Bloom aligne le comportement sur une nouvelle voie vers l’audit automatisé Écologie open source et recherche Bloom : valeur de reproduction Anthropic Bloom évalue à la fois le taux de déclenchement et l’intensité Anthropic Bloom fait une quantification approfondie autour d’une seule ligne Anthropic Bloom rend l’évaluation du comportement de risque plus efficace L’outil Anthropic Bloom publie des éclaircissements sur la gouvernance de la sécurité Anthropic Bloom est utilisé pour l’analyse sensible à la variance de configuration des modèles Anthropic Bloom et Petri collaborent sur l’illustration complète Anthropic Bloom ferme la boucle entre la définition du comportement et la sortie métrique

Outils Recommandés

Plus