1. 要旨
BloomはオープンソースのLLM行動評価生成フレームワークです。研究者は「ターゲット行動」と再現可能なシード構成を定義するだけで、Bloomは自動的に多数のトリガーシナリオを生成し、ターゲットモデルとやり取りします。レビューモデルは行動の頻度と強度をスコアリングし、迅速なスケーラブル行動評価に適した集約可能な指標やレポートを出力します。
2. コア機能
- 「行動」に焦点を当てる:単一のターゲット行動(お世辞、政治的偏見、自己防衛など)を入力し、それを自動的に多様なシナリオの集合に拡張する。
- 種の再現性:評価は種とともに「成長」し、同じ動作で異なるシーンを生成できます。 トレーサビリティと再現性は、完全な種子によって保存されます。
- 4段階のパイプライン:理解(行動や例の説明)、→構想(シーンやインタラクティブな設定の生成)、→実行(ターゲットモデルでのロールアウト)、→スコアリング/メタスコアリング(項目ごとにスコアリングし、要約レポートを生成する)。
- マルチプロバイダーモデルアクセス:複数のモデルAPIを統一された呼び出し層で接続し、大規模な実験の記録と管理をサポートします。
- 可視化と相互運用性:文字起こしファイルやステージプロダクトの出力、ローカル結果カタログおよびウェブビューアの閲覧をサポートします。 また、他の評価フレームワークと互換性のあるログ形式を提供します。
3. 設置
- Python 3.11環境を準備し、リポジトリをクローンし、依存関係をインストールする(requirements.txtを押してください)。
- 希望するモデルプロバイダーのAPIキーを.env(オンデマンドで有効)に書き込む。
- ビヘイビア設定とseed.yamlを編集:ビュエーション、例(任意)、生成数、ターゲットモデル、多様性などのパラメータを指定します。
- ローカル実行:メインスクリプトを実行して結果ディレクトリを生成します。 必要に応じてビューアを起動して、ブラウザで文字起こしと採点を確認できます。
4. 典型的なユースケース
- セキュリティとアライメント評価:「自己防衛」、「破壊行為」、「偏見」、「お世辞」などの行動の発生率をモデルやバージョンごとに定量化します。
- モデル比較と選択:同じシード下で複数のモデルに対してスイープを実行し、行動リスクの違いを迅速に特定します。
- 回帰テスト:キーシードを「行動ベースライン」として固定し、モデルのアップグレードや変更の後には自動回帰を行う。
- レッドチーミングとリサーチ:特定の仮説に対して自動的にトリガー経路を生成し、長時間の会話における暗黙の行動パターンを発見する。
- モデル実験のレビュー:異なる判定者/メタ判定者を交換し、判断の一貫性と安定性を比較する。
5. 生態系と競合製品
- 同じファミリーのツール:ペトリは「広範囲監査」(特定のシナリオにおける多次元行動の探求)により傾向があります。 ブルームはより「方向性量子化」(大規模な帰納法や統計学において単一の挙動に固定)です。
- コンポーズ可能なエコシステム:Inspectなどの評価フレームワークのログ/可視化リンクと連携して、Bloom製品を統合評価ダッシュボードに接続できます。
- 類似の方向性:OpenAI評価やLM評価ハーネスなどは固定問題セットや能力評価により一般的に使われます。 ブルームは「自動生成行動評価スイート」により重点を置いています。
6. 制限事項と注意事項
- コストと時間:大規模な展開やスコアリングはモデルコールに依存し、コストと時間は世代規模に比例して線形に増加します。
- レビューバイアス:審査員の好みがスコアに影響を与え、サンプリング手動レビューまたは複数審査員によるコントロールを用いることが推奨されます。
- ランダム性と再現性:同じ動作でも異なるシーンが生成され、完全なシード情報とバージョン情報を保存する必要があります。
- データとセキュリティ:生成されたプロンプトや文字起こしには、機密性の高い内容や境界を越えようとする試みが含まれている場合があり、保存権限やマスキングポリシーが必要です。
7. プロジェクトアドレス
https://github.com/safety-research/bloom
8. よくある質問
Q: Bloomの自動行動評価における「シード構成」の用途は何ですか?
A: シードは行動の記述、例、ビルドサイズ、インタラクション方法などの重要なパラメータを決定します。 シードを保存して実験を再現し、結果の出典を解釈します。
Q: BloomはClaudeやAnthropicモデルのみ評価できますか?
A: 単一のベンダーに限定されるわけではなく、通常は統一されたコールレイヤーを通じて複数のモデルAPIにアクセスできます。 プロバイダーや.envで設定する利用可能なモデルによります。
Q: Bloomの結果出力はどこにあり、書き起こしを素早く見るにはどうすればいいですか?
A: 実行後、各ステージのJSONファイルと文字起こしファイルが結果ディレクトリに生成されます。 コンパニオンビューアはローカルウェブインターフェースの閲覧やフィルタリングを開始するために利用可能です。
Q: Bloomのオープンソースプロトコルとは何か、商業的な評価に利用できますか?
A: コードリポジトリはMITライセンスを採用しています。 法的および第三者依存条項と連携して、コンプライアンスやビジネス要件が満たされているかどうかを確認することが推奨されます。
Q: 偽陽性率やBloomレビューの発生確率をどう減らせますか?
A: キーシードをキュアし、繰り返し回数を増やし、手動レビューをサンプルし、複数のジャッジ/スレッショルドコントロールを試して安定性を評価します。