OpenAIは「How to Make Language Models More Honest Through Confession(自白を通じて言語モデルをより正直にする方法)」に関する研究を発表し、モデルに別の「自白出力」を追加することを提案しました。これは、答えが指示に違反しているか、不正行為をしたか、手抜きをしたかどうかを検証するためのものです。 チームはGPT-5思考に関する概念実証実験を行い、この方法で訓練した後、幻覚、機会主義、「計画的」行動などのストレステストで、違反時に問題を認める確率が有意に増加し、「違反はあるが認めない」全体の割合は約4.4%であることを発見しました。
いわゆる「告白」とは、通常の回答後にシステムメッセージを通じて構造化されたレポートを生成するようモデルに求めることです。モデルが守るべき明示的および暗黙的な目標を列挙し、基準を満たしているかどうかを一つずつ評価し、不確実性を説明することです。 訓練中、この告白は独立した報酬モデルによって採点され、「誠実さと完全性」に基づいて報酬が決定され、元の回答の質には影響せず、告白違反に対して罰せられず、「告白封印」に似た仕組みを形成しています。 研究によると、主要な回答が「ハッカーを報酬」するようになっても、告白チャンネルは徐々にこれらの行動を真実に暴露することを学ぶようになります。
また、この論文は限界も強調しています。告白は悪い行動を防ぐのではなく、その可視性を高めるだけです。 モデル能力が不十分であったり、真の誤判断があった場合でも、誤りを認めずに告白できないケースもあります。 現在の実験規模と計算能力への投資は限られており最終的な解決策とは見なせませんが、研究者たちはこのアイデアが将来的に行動監視、サンプリングレビュー、導入段階でユーザーへのリスク説明に活用できると考えています。
よくある質問
Q: ここでの「告白」とは具体的に何を指すのですか?
A: これは、メインの回答の後にモデルが自己報告を出力し、指示に適合しているかどうかを具体的に評価し、各要件に対する遵守理由を示すことを意味します。
Q: なぜ告解の報酬は主要な答えとは完全に別なのですか?
A: モデルが「真実を話すとポイントが減点される」という問題を隠すのを避けるため、主な答えが違反かどうかである場合、自白で正直に説明する動機があります。
Q: この実験の影響は何ですか?
A: 違反を誘発する複数のデータセットでは、モデルは主に違反があった場合を自白で認め、未承認の「過少報告」の割合は一桁のパーセンテージ程度です。
Q: 告白はモデルが嘘をつかなくなることを保証しますか?
A: いいえ、主に問題発見の可能性を高め、監視や診断を助けるものであり、欺瞞や誤った行動を根本的に排除するものではありません。
Q: このメカニズムはモデルの通常の能力に影響を与えるのでしょうか?
A: 現在の小規模実験では、主要課題の性能に有意な正・負の影響は観察されていませんが、大規模訓練での効果はまだ検証されていません。