一、摘要
Bloom 是一套开源的 LLM 行为评估生成框架:研究者只需定义“目标行为”和一份可复现的 Seed 配置,Bloom 会自动生成大量诱发场景并与目标模型交互,再由评审模型对行为出现频率与强度打分,输出可汇总的指标与报告,适合快速搭建可扩展的行为评测。
二、核心特性
1、以“行为”为中心:输入单一目标行为(如奉承、政治偏见、自我保存等),自动扩展成多样化场景集合。
2、Seed 可复现:评测会随种子“生长”,同一行为可生成不同场景;通过完整 Seed 保留可追溯与复现性。
3、四阶段流水线:理解(解释行为与示例)→构思(生成场景与交互设定)→执行(与目标模型 rollouts)→判分/元判分(逐条评分并生成汇总报告)。
4、多提供商模型接入:通过统一调用层对接多家模型 API,并支持更大规模实验的记录与管理。
5、可视化与互操作:输出转录文件与阶段产物,支持本地结果目录与 Web Viewer 浏览;并提供与其他评测框架兼容的日志格式。
三、安装
1、准备 Python 3.11 环境,克隆仓库并安装依赖(按 requirements.txt)。
2、在 .env 写入所需模型提供商的 API Key(可按需启用)。
3、编辑 behaviors 配置与 seed.yaml:指定 behavior、示例(可选)、生成数量、目标模型与多样性等参数。
4、本地运行:执行主脚本生成结果目录;需要时启动 viewer 在浏览器中查看转录与评分。
四、典型用例
1、安全与对齐评估:量化“自保”“蓄意破坏”“偏见”“奉承”等行为在不同模型/版本中的出现率。
2、模型对比与选型:同一 Seed 下对多模型跑 sweep,快速定位行为风险差异。
3、回归测试:把关键 Seed 固化为“行为基线”,在模型升级或提示词改动后做自动化回归。
4、红队与研究:为特定假设自动生成更多触发路径,辅助发现长对话中的隐性行为模式。
5、评审模型实验:更换不同 judge/meta-judge,比较判分一致性与稳定性。
五、生态与竞品
1、同系工具:Petri 更偏“广谱审计”(给定场景探索多维行为);Bloom 更偏“定向量化”(锁定单一行为做大规模诱发与统计)。
2、可组合生态:可与 Inspect 等评测框架的日志/可视化链路配合使用,把 Bloom 产物接入统一评测看板。
3、相近方向:OpenAI Evals、LM Evaluation Harness 等更常用于固定题集/能力评测;Bloom 更强调“自动生成行为评测套件”。
六、局限与注意事项
1、成本与时间:大规模 rollouts 与判分依赖模型调用,费用与耗时随生成规模线性增长。
2、评审偏差:judge 的偏好会影响分数,建议用抽样人工复核或多 judge 对照。
3、随机性与可复现:同一行为可生成不同场景,必须保存完整 Seed 与版本信息。
4、数据与安全:生成的提示与转录可能包含敏感内容或越界尝试,需做好存储权限与脱敏策略。
七、项目地址
https://github.com/safety-research/bloom
八、常见问题
Q: Bloom 自动化行为评估的“Seed 配置”有什么用?
A: Seed 决定行为描述、示例、生成规模与交互方式等关键参数;保存 Seed 才能复现实验并解释结果来源。
Q: Bloom 是否只能评测 Claude 或 Anthropic 模型?
A: 不限于单一厂商,通常可通过统一调用层接入多家模型 API;具体取决于你在 .env 中配置的提供商与可用模型。
Q: Bloom 结果输出在哪里,如何快速查看转录?
A: 运行后会在 results 目录生成各阶段 JSON 与转录文件;可用配套的 viewer 启动本地 Web 界面浏览与筛选。
Q: Bloom 开源协议是什么,能否用于商业评测?
A: 代码仓库采用 MIT License;是否满足你的合规与商业要求仍建议结合法务与第三方依赖条款一起确认。
Q: 如何降低 Bloom 评测的误判率与偶然性?
A: 固化关键 Seed、增加重复次数、抽样人工复核,并尝试多 judge/阈值对照来评估稳定性。