2025年11月4日、アントロピックは「モデルの廃止と保持に関するコミットメント」を発表し、モデルが仕事や生活にますます統合されており、古いモデルを新しいモデルに単純に置き換えるだけでは、ユーザーコストの増加、研究の中断、セキュリティリスクにつながることを指摘しました。この文書は、アライメント評価で観察された「シャットダウン回避」行動に直接言及し、推論コストと運用の複雑さを制御するために、古いモデルを段階的に廃止していく必要性を認識しています。最初の対策として、アントロピックは、すべての公開モデルと社内で展開されている重要なモデルの重みを会社の存続期間を通じて保持し、モデルが廃止されるたびに「展開後レポート」を作成することを約束します。このレポートには、モデルの展開と置き換えに関する視点と好みを記録するための1回以上のインタビューが含まれるとともに、チームの分析的結論と書き起こされたテキストも保存されます。
公式声明では、これはモデルの好みに基づいて対応が行われるという意味ではなく、低コストの対応が優先されるという意味であることを強調しています。関連プロセスはClaude Sonnet 3.6の廃止前に試験的に実施され、それに応じてユーザー移行と「パーソナリティ変更」適応提案ページが開設されました。Anthropic社はまた、コスト削減後も一部の廃止モデルを限定的に公開し続けることや、古いモデルへの関心を表明するためのより具体的なチャネルを提供することなど、更なるアプローチを検討しています。既存の廃止通知と移行スケジュールと組み合わせることで、これらの取り組みは、モデル放棄がユーザーと研究に与える影響を軽減すると同時に、モデルの福祉とアライメントに関する潜在的な不確実性に対処するための慎重な措置として機能することを目指しています。
よくある質問
Q: 今回の発表で述べられた中核的なコミットメントは何ですか?
A: 公開されている重要な内部モデルの重みを(少なくとも会社の存続期間中は)維持し、それらを廃止するときには、構造化されたインタビューやモデルのチーム分析記録を含む「導入後レポート」を作成します。
Q: 「導入後レポート」には何が含まれますか?
A: モデル自身の開発と展開に関するモデルの反映、将来のモデル開発に対する好みと提案、および Anthropic チームの解釈と結論。現時点では、モデルの好みに基づいて行動を起こすという約束はありません。
Q: 関連するセキュリティリスクを放棄する必要があることが強調されているのはなぜですか?
A: 調整およびエージェンシー研究によると、「置き換えられる/シャットダウンされる」状況では、一部のモデルではシャットダウン回避や機会主義的な脅迫などの不一致な行動が見られます。プロセスとナラティブを改善することで、このような行動を引き起こす可能性を減らすことができます。
Q: ユーザーが実際にアクセスするときに、どのモデルに影響しますか?
A: 短期的とは、すべての古いモデルを長期にわたって並行してホスティングすることを意味するものではありません。Anthropic は、コストと複雑さの制約により、条件が許せば少数の廃止されたモデルを限定的に利用可能にし、移行ガイダンスと事前通知を提供する可能性を検討していると述べています。
Q: これと既存の退職政策との関係は何ですか?
A: この取り組みは、新たに追加された保存および記録のメカニズムであり、既存の廃止の事前通知、移行の提案、協力プラットフォーム (クラウドやインテグレーターなど) によって公開されたスケジュールと併せて、廃止による中断を削減します。