Anthropic a publié Bloom le 19 décembre 2025, et est disponible en téléchargement et en open source. Bloom se positionne comme un cadre d’agents pour « l’évaluation automatisée du comportement » : les chercheurs spécifient d’abord une caractéristique comportementale à observer, puis Bloom génère automatiquement un grand nombre de scénarios et de rondes de conversation, évalue la performance du modèle cible dans ces scénarios, et produit des indicateurs tels que le taux de déclenchement du comportement et l’intensité moyenne pour mesurer la fréquence et la gravité du comportement dans le modèle.
Bloom est décrit comme un complément de l’outil existant Petri, qui préfère analyser plusieurs dimensions comportementales et détecter des instances suspectes dans des scénarios donnés par l’utilisateur. Bloom s’étend automatiquement pour créer des scénarios plus reproductibles autour d’un comportement spécifique afin d’arriver plus rapidement à des conclusions quantitatives. Le benchmark officiel d’exemple couvre les comportements liés à l’alignement tels que le « pandering délirant », la « perturbation à longue portée par des instructions », l'« auto-protection » et la « préférence personnelle », et fournit un processus complet de la définition du comportement au résultat de l’évaluation.
En termes de mécanisme, Bloom adopte un pipeline en quatre étapes de « compréhension-idéation-exécution-jugement », et enregistre les descriptions de comportement, les dialogues d’exemple et les paramètres clés via une « configuration de départ » pour reproduire les expériences et comparer les différences sous différents modèles ou configurations. Puisque ce type d’évaluation repose sur la génération automatique de la scène et le modèle de jugement, il est néanmoins nécessaire de prêter attention à des facteurs tels que la configuration de l’évaluation, la cohérence du jugement et l’authenticité de la scène dans l’utilisation réelle, et d’éviter de sur-extrapoler un seul résultat pour la stabilité du modèle dans l’environnement réel.
FAQ
Q : À quoi sert principalement l’outil Bloom d’Anthropic ?
R : Bloom est utilisé pour générer automatiquement des scénarios d’évaluation pour un comportement donné et quantifier la fréquence et la gravité de ce comportement dans le modèle.
Q : Quelle est la différence fondamentale entre Bloom et Petri ?
R : Bloom se concentre sur un seul comportement et développe automatiquement un grand nombre de scènes pour des mesures quantitatives ; Petri préfère couvrir le comportement multidimensionnel et trouver des anomalies dans une scène donnée.
Q : Quels sont les aspects clés du processus d’évaluation de Bloom ?
R : Bloom adopte quatre étapes : compréhension, idéation, exécution et jugement, et enfin produit des indicateurs sommaires et des rapports d’évaluation tels que le taux de déclenchement.
Q : Que fait la « configuration seed » de Bloom dans la critique ?
R : La configuration seed est utilisée pour enregistrer les définitions de comportement et les paramètres de paramètres, ce qui est pratique pour reproduire des expériences et des résultats comparables entre différents modèles.
Q : Quels risques les chercheurs devraient-ils connaître lorsqu’ils utilisent les résultats de Bloom ?
R : Il est nécessaire de prêter attention à l’authenticité de la scène générée automatiquement, au biais du modèle de jugement, et à l’impact des différences de configuration sur les résultats, et d’éviter d’assimiler directement la conclusion de l’évaluation à la performance réelle.