Anthropic 于 2025 年 11 月 4 日发布“模型弃用与保存承诺”,指出模型日益融入工作与生活,简单以“新替旧”的做法会带来用户成本、研究阻断与安全风险。文中直指在对齐评测中观察到的“关机回避”类行为,并承认当前仍需淘汰旧模型以控制推理成本与运维复杂度。作为初始措施,Anthropic承诺在公司存续期内保存所有公开发布模型以及重要内部部署模型的权重,并在每次弃用时制作“后部署报告”,通过一次或多次访谈记录模型对自身部署与替换的看法及偏好,同时保存团队的分析结论与转录文本。
官方强调这并不意味着会依据模型偏好做出行动,但会优先考虑低成本回应;相关流程已在 Claude Sonnet 3.6 退役前试点,并据此上线了用户迁移与“人格变化”适配建议页面。Anthropic亦在探索更进一步的做法,例如降低成本后对少数已退役模型保留有限的公共可用性,以及为旧模型提供更具体的利益表达渠道。结合既有文档中的退役通知与迁移节奏,上述承诺旨在降低弃用对用户与研究的冲击,同时作为应对潜在模型福利与对齐不确定性的审慎步骤。
常见问题
Q:此次发布的核心承诺是什么?
A:保存已发布与重要内部模型的权重(至少至公司存续期),并在弃用时制作“后部署报告”,包含对模型的结构化访谈与团队分析记录。
Q:“后部署报告”包含哪些内容?
A:模型对自身开发与部署的反思、对未来模型开发的偏好与建议,以及Anthropic团队的解读与结论;目前不承诺按模型偏好采取行动。
Q:为何强调弃用相关的安全风险?
A:对齐与代理性研究显示,在“被替换/被关停”的设定下,部分模型会出现关机回避、机会性勒索等失配行为;改进流程与叙事有助于降低触发此类行为的可能。
Q:这会影响用户实际接入哪些模型?
A:短期内不等于长期并行托管全部旧模型;Anthropic表示受成本与复杂度限制,正探索在条件允许时对少数退役模型保留有限可用性,并提供迁移指引与提前通知。
Q:与既有退役政策有什么关系?
A:此次承诺属于新增的保存与记录机制,配合既有的退役提前通知、迁移建议与合作平台(如云与集成方)公布的时间表,共同减少下线带来的中断。