돌아가기 AI는 오픈 소스입니다.
Bloom 오픈 소스 도구 해석: Seed로 LLM 행동 평가를 자동으로 생성하고 실험을 재현합니다

Bloom 오픈 소스 도구 해석: Seed로 LLM 행동 평가를 자동으로 생성하고 실험을 재현합니다

AI는 오픈 소스입니다. Admin 47 회 조회

1. 초록

Bloom은 오픈 소스 LLM 행동 평가 생성 프레임워크로, 연구자들은 "목표 행동"과 재현 가능한 시드 구성만 정의하면 Bloom이 자동으로 많은 트리거 시나리오를 생성하고 대상 모델과 상호작용하며, 검토 모델은 행동의 빈도와 강도를 점수 매기고, 빠르게 확장 가능한 행동 평가를 구축할 수 있는 집계 가능한 지표와 보고서를 출력합니다.

2. 핵심 특징

  1. '행동'에 집중하기: 아첨, 정치적 편향, 자기 보존 등 단일 대상 행동을 입력하여 자동으로 다양한 시나리오 집합으로 확장합니다.
  2. 씨앗 재현 가능성: 평가는 씨앗과 함께 "성장"하며, 동일한 동작으로 다양한 장면을 생성할 수 있습니다; 추적 가능성과 재현성은 온전한 씨앗을 통해 보존됩니다.
  3. 4단계 파이프라인: 이해(행동 및 예시 설명), → 구상(장면 및 상호작용 환경 생성), → 실행(대상 모델과의 롤아웃), → 점수 매기기/메타 점수(항목별 점수 매기기 및 요약 보고서 생성).
  4. 다중 공급자 모델 접근: 통합 통화 계층을 통해 여러 모델 API를 연결하고, 대규모 실험의 기록 및 관리를 지원합니다.
  5. 시각화 및 상호운용성: 전사 파일 및 단계 산출물 출력, 로컬 결과 카탈로그 및 웹 뷰어 탐색 지원; 그리고 다른 평가 프레임워크와 호환되는 로그 형식을 제공해야 합니다.

3. 설치

  1. Python 3.11 환경을 준비하고, 저장소를 복제한 후 의존성을 설치하세요(requirements.txt 버튼을 누르세요).
  2. 원하는 모델 제공자의 API 키를 .env(온디맨드 활성화)로 작성합니다.
  3. 행동 구성 및 seed.yaml을 편집하세요: 행동, 예시(선택사항), 생성 수, 타겟 모델, 다양성 등 매개변수를 지정하세요.
  4. 로컬 실행: 메인 스크립트를 실행하여 결과 디렉터리를 생성합니다; 필요할 때 뷰어를 실행하여 브라우저에서 전사와 채색을 확인하세요.

4. 일반적인 사용 사례

  1. 보안 및 정렬 평가: "자기 보호", "기물 파손", "편향", "아첨"과 같은 행동이 다양한 모델/버전에서 발생 빈도를 정량화합니다.
  2. 모델 비교 및 선택: 동일한 시드 아래 여러 모델에 대해 스윕을 실행하여 행동 위험 차이를 빠르게 파악합니다.
  3. 회귀 테스트: 핵심 시드를 '행동 기준선'으로 확고히 하고, 모델 업그레이드나 변경 요청 후 자동 회귀를 수행합니다.
  4. 레드 팀 활동 및 연구: 특정 가설에 대한 트리거 경로를 자동으로 생성하여 긴 대화에서 암묵적인 행동 패턴을 발견하는 데 도움을 줍니다.
  5. 모델 실험 검토: 판결의 일관성과 안정성을 비교하기 위해 다양한 판사/메타 판사를 교체한다.

5. 생태와 경쟁 제품

  1. 같은 계열 도구: 페트리는 "광범위 감사"(주어진 상황에서 다차원적 행동 탐구)에 더 중점을 둡니다; 블룸은 더 '방향성 양자화'(대규모 귀납과 통계에 대해 단일 동작에 고정하는 방식)입니다.
  2. 컴포저블 생태계: Inspect와 같은 평가 프레임워크의 로그/시각화 링크와 함께 사용하여 Bloom 제품을 통합 평가 대시보드에 연결할 수 있습니다.
  3. 유사한 방향: OpenAI 평가, LM 평가 하네스 등은 고정 문제/능력 평가에 더 흔히 사용됩니다; 블룸은 "자동 생성 행동 평가 스위트"에 더 큰 비중을 둡니다.

6. 제한 및 주의사항

  1. 비용 및 시간: 대규모 롤아웃과 점수 산정은 모델 호출에 의존하며, 비용과 시간은 세대 규모에 따라 선형적으로 증가합니다.
  2. 심사 편향: 심사위원의 선호가 점수에 영향을 미치므로, 표본 수동적 검토 또는 다중 심사위원 통제를 사용하는 것이 권장됩니다.
  3. 무작위성과 재현성: 동일한 동작이 서로 다른 장면을 생성할 수 있으며, 완전한 시드 및 버전 정보는 반드시 저장되어야 합니다.
  4. 데이터 및 보안: 생성된 프롬프트와 전사본에는 민감한 내용이나 경계 침범 시도가 포함될 수 있으며, 저장 권한과 마스킹 정책이 필요합니다.

7. 프로젝트 주소

https://github.com/safety-research/bloom

8. 자주 묻는 질문

Q: Bloom의 자동 행동 평가에 "씨앗 구성"은 어떤 용도인가요?

A: 시드는 행동 설명, 예시, 빌드 크기, 상호작용 방식 등 주요 매개변수를 결정합니다; 씨앗을 저장해 실험을 재현하고 결과의 출처를 해석하세요.

Q: Bloom은 Claude나 Anthropic 모델만 평가할 수 있나요?

A: 단일 공급업체에 국한되지 않고, 보통 통합 콜 레이어를 통해 여러 모델 API에 접근할 수 있습니다. 공급자와 .env에서 설정하는 모델에 따라 다릅니다.

Q: 블룸 결과 출력은 어디에 있으며, 전사를 빠르게 보려면 어떻게 해야 하나요?

A: 실행 후 각 단계별 JSON 및 전사 파일이 결과 디렉터리에 생성됩니다. 동반 뷰어는 로컬 웹 인터페이스를 탐색하고 필터링할 수 있도록 제공됩니다.

Q: Bloom 오픈 소스 프로토콜이란 무엇이며, 상업적 평가에 사용할 수 있나요?

A: 코드 저장소는 MIT 라이선스를 채택합니다; 법적 및 제3자 의존 조항과 함께 귀하의 준수 및 비즈니스 요구사항이 충족되었는지 확인하는 것이 여전히 권장됩니다.

Q: Bloom 리뷰의 거짓 양성률과 확률을 어떻게 줄일 수 있나요?

A: 핵심 시드를 치료하고, 반복 횟수를 늘리며, 수동 검토를 샘플링하고, 여러 판지/임계값 대조를 시도해 안정성을 평가합니다.

인류적 오픈소스 블룸 정량적 정렬 행동 Anthropic, Bloom 자동 행동 평가 프레임워크를 발표 Anthropic Bloom은 단일 행동 확장 시나리오에 초점을 맞춥니다 Anthropic Bloom은 상황별 측정 행동의 트리거 속도를 생성합니다 인류적 블룸 출력 강도의 평균 및 빈도 지수 Anthropic Bloom은 Petri를 보완하여 평가 패널을 구성합니다 Anthropic Bloom은 씨앗 구성 실험을 재현했습니다 Anthropic Bloom 4단계 파이프라인 평가 방법 Anthropic Bloom은 아이디어 발굴과 실행 과정을 잘 이해하고 있습니다 Anthropic Bloom은 망상적 아첨과 기타 정렬 행동을 검토합니다 Anthropic Bloom은 지침에 따른 장기 사보타주의 위험을 평가합니다 Anthropic Bloom은 자기 보호 행동 유발 수준을 평가합니다 Anthropic Bloom은 자기 선호 정렬 경향을 검토합니다 Anthropic Bloom이 빠르게 정량적 결론에 도달하는 방법 Anthropic Bloom은 행동 평가를 더 재현 가능하게 만듭니다 Anthropic Bloom은 자동으로 다중 턴 대화 장면을 생성합니다 Anthropic Bloom은 모델 행동 빈도 측정에 사용됩니다 Anthropic Bloom은 행동 심각도 강도 점수 부여에 사용됩니다 인류화 대 페트리 차이 및 매칭 전략 Anthropic Bloom은 연구자들이 리뷰 범위를 확장하도록 돕습니다 인류적 번식은 씨앗 기록의 거동을 바탕으로 매개변수를 정의합니다 Anthropic Bloom은 구성 차이가 결과에 미치는 영향을 평가합니다 인류적 블룸은 모델 편향의 위험을 결정합니다 인류식 꽃 피움 장면 진정성 문제와 대응책 Anthropic Bloom은 단일 결과에 대한 과도한 추론을 피합니다 Anthropic Bloom 오픈 소스 다운로드 및 사용 포인트 Anthropic Bloom은 정렬 연구를 위한 도구 상자입니다 Anthropic Bloom은 모델 비교 및 회귀 테스트에 사용됩니다 Anthropic Bloom은 여러 모델에서 비교 평가됩니다 Anthropic Bloom은 여러 의심스러운 행동 시나리오를 조합적으로 생성합니다 Anthropic Bloom의 행동 유발 요인 수치를 정량화하는 실용적인 가이드 인류적 번화 산출물 평가 보고서의 구조적 해석 Anthropic Bloom이 관찰 가능한 행동 특성을 정의하는 방법 Anthropic Bloom은 샘플 대화로 평가 경계를 제한합니다 Anthropic Bloom은 장면 개선 통계를 자동으로 증폭시킵니다 Anthropic Bloom이 수제 레드 티깅 리뷰를 보완하는 방법 Anthropic Bloom은 팀 기반 평가 파이프라인에 적합합니다 Anthropic Bloom은 행동 벤치마크 구성의 정렬에 사용됩니다 Anthropic Bloom은 행동 패턴과 임계점을 발견하는 데 사용됩니다 Anthropic Bloom이 의사결정의 일관성을 향상시키는 방법 Anthropic Bloom이 스폰 장면 드리프트를 줄이는 방법 Anthropic Bloom은 행동을 자동화된 감사의 새로운 경로와 일치시킵니다 Anthropic Bloom 오픈소스 생태학 및 연구 번식 가치 Anthropic Bloom은 트리거 빈도와 강도를 모두 평가합니다 Anthropic Bloom은 한 줄에 대한 심층적인 수치화를 합니다 Anthropic Bloom은 위험 행동 평가를 더욱 효율적으로 만듭니다 Anthropic Bloom 도구가 보안 거버넌스 계몽을 발표하다 Anthropic Bloom은 모델 구성 분산 민감 분석에 사용됩니다 앤스로픽 블룸과 페트리가 전체 일러스트를 함께 작업했습니다 Anthropic Bloom은 행동 정의에서 지표 출력까지 루프를 닫습니다

추천 도구

더보기