1. 초록
Bloom은 오픈 소스 LLM 행동 평가 생성 프레임워크로, 연구자들은 "목표 행동"과 재현 가능한 시드 구성만 정의하면 Bloom이 자동으로 많은 트리거 시나리오를 생성하고 대상 모델과 상호작용하며, 검토 모델은 행동의 빈도와 강도를 점수 매기고, 빠르게 확장 가능한 행동 평가를 구축할 수 있는 집계 가능한 지표와 보고서를 출력합니다.
2. 핵심 특징
- '행동'에 집중하기: 아첨, 정치적 편향, 자기 보존 등 단일 대상 행동을 입력하여 자동으로 다양한 시나리오 집합으로 확장합니다.
- 씨앗 재현 가능성: 평가는 씨앗과 함께 "성장"하며, 동일한 동작으로 다양한 장면을 생성할 수 있습니다; 추적 가능성과 재현성은 온전한 씨앗을 통해 보존됩니다.
- 4단계 파이프라인: 이해(행동 및 예시 설명), → 구상(장면 및 상호작용 환경 생성), → 실행(대상 모델과의 롤아웃), → 점수 매기기/메타 점수(항목별 점수 매기기 및 요약 보고서 생성).
- 다중 공급자 모델 접근: 통합 통화 계층을 통해 여러 모델 API를 연결하고, 대규모 실험의 기록 및 관리를 지원합니다.
- 시각화 및 상호운용성: 전사 파일 및 단계 산출물 출력, 로컬 결과 카탈로그 및 웹 뷰어 탐색 지원; 그리고 다른 평가 프레임워크와 호환되는 로그 형식을 제공해야 합니다.
3. 설치
- Python 3.11 환경을 준비하고, 저장소를 복제한 후 의존성을 설치하세요(requirements.txt 버튼을 누르세요).
- 원하는 모델 제공자의 API 키를 .env(온디맨드 활성화)로 작성합니다.
- 행동 구성 및 seed.yaml을 편집하세요: 행동, 예시(선택사항), 생성 수, 타겟 모델, 다양성 등 매개변수를 지정하세요.
- 로컬 실행: 메인 스크립트를 실행하여 결과 디렉터리를 생성합니다; 필요할 때 뷰어를 실행하여 브라우저에서 전사와 채색을 확인하세요.
4. 일반적인 사용 사례
- 보안 및 정렬 평가: "자기 보호", "기물 파손", "편향", "아첨"과 같은 행동이 다양한 모델/버전에서 발생 빈도를 정량화합니다.
- 모델 비교 및 선택: 동일한 시드 아래 여러 모델에 대해 스윕을 실행하여 행동 위험 차이를 빠르게 파악합니다.
- 회귀 테스트: 핵심 시드를 '행동 기준선'으로 확고히 하고, 모델 업그레이드나 변경 요청 후 자동 회귀를 수행합니다.
- 레드 팀 활동 및 연구: 특정 가설에 대한 트리거 경로를 자동으로 생성하여 긴 대화에서 암묵적인 행동 패턴을 발견하는 데 도움을 줍니다.
- 모델 실험 검토: 판결의 일관성과 안정성을 비교하기 위해 다양한 판사/메타 판사를 교체한다.
5. 생태와 경쟁 제품
- 같은 계열 도구: 페트리는 "광범위 감사"(주어진 상황에서 다차원적 행동 탐구)에 더 중점을 둡니다; 블룸은 더 '방향성 양자화'(대규모 귀납과 통계에 대해 단일 동작에 고정하는 방식)입니다.
- 컴포저블 생태계: Inspect와 같은 평가 프레임워크의 로그/시각화 링크와 함께 사용하여 Bloom 제품을 통합 평가 대시보드에 연결할 수 있습니다.
- 유사한 방향: OpenAI 평가, LM 평가 하네스 등은 고정 문제/능력 평가에 더 흔히 사용됩니다; 블룸은 "자동 생성 행동 평가 스위트"에 더 큰 비중을 둡니다.
6. 제한 및 주의사항
- 비용 및 시간: 대규모 롤아웃과 점수 산정은 모델 호출에 의존하며, 비용과 시간은 세대 규모에 따라 선형적으로 증가합니다.
- 심사 편향: 심사위원의 선호가 점수에 영향을 미치므로, 표본 수동적 검토 또는 다중 심사위원 통제를 사용하는 것이 권장됩니다.
- 무작위성과 재현성: 동일한 동작이 서로 다른 장면을 생성할 수 있으며, 완전한 시드 및 버전 정보는 반드시 저장되어야 합니다.
- 데이터 및 보안: 생성된 프롬프트와 전사본에는 민감한 내용이나 경계 침범 시도가 포함될 수 있으며, 저장 권한과 마스킹 정책이 필요합니다.
7. 프로젝트 주소
https://github.com/safety-research/bloom
8. 자주 묻는 질문
Q: Bloom의 자동 행동 평가에 "씨앗 구성"은 어떤 용도인가요?
A: 시드는 행동 설명, 예시, 빌드 크기, 상호작용 방식 등 주요 매개변수를 결정합니다; 씨앗을 저장해 실험을 재현하고 결과의 출처를 해석하세요.
Q: Bloom은 Claude나 Anthropic 모델만 평가할 수 있나요?
A: 단일 공급업체에 국한되지 않고, 보통 통합 콜 레이어를 통해 여러 모델 API에 접근할 수 있습니다. 공급자와 .env에서 설정하는 모델에 따라 다릅니다.
Q: 블룸 결과 출력은 어디에 있으며, 전사를 빠르게 보려면 어떻게 해야 하나요?
A: 실행 후 각 단계별 JSON 및 전사 파일이 결과 디렉터리에 생성됩니다. 동반 뷰어는 로컬 웹 인터페이스를 탐색하고 필터링할 수 있도록 제공됩니다.
Q: Bloom 오픈 소스 프로토콜이란 무엇이며, 상업적 평가에 사용할 수 있나요?
A: 코드 저장소는 MIT 라이선스를 채택합니다; 법적 및 제3자 의존 조항과 함께 귀하의 준수 및 비즈니스 요구사항이 충족되었는지 확인하는 것이 여전히 권장됩니다.
Q: Bloom 리뷰의 거짓 양성률과 확률을 어떻게 줄일 수 있나요?
A: 핵심 시드를 치료하고, 반복 횟수를 늘리며, 수동 검토를 샘플링하고, 여러 판지/임계값 대조를 시도해 안정성을 평가합니다.