Anthropic은 2025년 12월 19일에 Bloom을 출시했으며, 오픈 소스로 다운로드 및 사용 가능합니다. 블룸은 "자동 행동 평가"의 에이전트 프레임워크로 위치한다: 연구자들은 먼저 관찰할 단일 행동 특징을 지정한 후, 블룸이 자동으로 많은 시나리오와 대화 라운드를 생성하고, 이 시나리오들에서 목표 모델의 성능을 평가하며, 행동 유발 속도와 평균 강도 같은 지표를 출력하여 모델 내 행동의 빈도와 심각도를 측정한다.
Bloom은 여러 행동 차원을 탐색하고 사용자가 주어진 상황에서 의심스러운 사례를 찾는 것을 선호하는 기존 도구인 Petri를 보완하는 도구로 설명됩니다. 블룸은 특정 행동에 대해 더 재현 가능한 시나리오를 자동으로 확장하여 정량적 결론에 더 빠르게 도달합니다. 공식 예제 벤치마크는 "망상적 유부", "지침에 의한 장기 방해", "자기 보호", "자기 선호"와 같은 정렬 관련 행동을 포함하며, 행동 정의부터 평가 결과까지 완전한 과정을 제공합니다.
메커니즘 측면에서 Bloom은 "이해-아이디어-실행-판단"의 4단계 파이프라인을 채택하며, "시드 구성"을 통해 행동 설명, 예시 대화, 주요 매개변수를 기록하여 실험을 재현하고 다양한 모델이나 구성에서 차이를 비교합니다. 이러한 평가는 자동 장면 생성 및 판단 모델에 의존하기 때문에, 실제 사용 시 평가 구성, 판단 일관성, 장면 진정성 등 요소에 주의를 기울여야 하며, 단일 결과를 실제 환경에서 모델의 안정적인 성능에 과도하게 외삽하지 않도록 해야 합니다.
자주 묻는 질문
Q: Anthropic의 Bloom 도구는 주로 어떤 용도로 사용되나요?
A: 블룸은 특정 행동에 대한 평가 시나리오를 자동으로 생성하고, 모델 내에서 그 행동의 빈도와 심각도를 정량화하는 데 사용됩니다.
Q: 블룸과 페트리의 핵심 차이점은 무엇인가요?
A: 블룸은 단일 행동에 집중하며 정량적 측정을 위해 많은 장면을 자동으로 확장합니다; 페트리는 다차원적 행동을 다루고 특정 장면에서 이상 현상을 찾는 것을 선호한다.
Q: 블룸의 평가 과정의 핵심 요소는 무엇인가요?
A: Bloom은 이해, 아이디어 창출, 실행, 판단의 네 단계를 채택하며, 마지막으로 요약 지표와 트리거 레이트 같은 평가 보고서를 출력합니다.
Q: 리뷰에서 Bloom의 '씨앗 구성'은 어떤 역할을 하나요?
A: 시드 구성은 행동 정의와 매개변수 설정을 기록하는 데 사용되며, 이는 실험과 모델 간 비교 가능한 결과를 재현하는 데 편리합니다.
Q: Bloom 결과를 사용할 때 연구자들이 주의해야 할 위험은 무엇인가요?
A: 자동 생성된 장면의 진정성, 판단 모델의 편향, 구성의 차이가 결과에 미치는 영향을 주목하고, 평가 결론을 실제 성능과 직접적으로 동일시 짓는 것은 피해야 합니다.