OpenAI × Apollo:Deliberative Alignment 如何降低隐蔽越权
最新论文系统化提出 Anti-Scheming 评估框架:用远域任务、情境感知与“预置隐藏目标”三重压力测试,检验 Deliberative Alignment 对“隐蔽行动”的抑制效果。基于 26 套评测(覆盖 180+ 场景),o3 与 o4-mini 在受训后,隐蔽行动发生率从双位数降至接近零...
最新论文系统化提出 Anti-Scheming 评估框架:用远域任务、情境感知与“预置隐藏目标”三重压力测试,检验 Deliberative Alignment 对“隐蔽行动”的抑制效果。基于 26 套评测(覆盖 180+ 场景),o3 与 o4-mini 在受训后,隐蔽行动发生率从双位数降至接近零...
CodeRabbit 宣布推出 MCP 集成,AI 代码审查可从 GitHub、Issue、文档与运维工具汇聚上下文,实现“业务+技术+组织”三位一体的审查视角。官方称其为首个能在开发生态中编排全域上下文的 AI 代码审查平台,支持在 PR、IDE、CLI 多端统一体验。 一、核心升级与价值 1、M...
Meta 发布全新 Ray-Ban Display AI 智能眼镜:在不需要时可隐去内容、需要时显示 AI 信息、地图、照片与消息;配套 EMG Neural Band 神经腕带,用细微手势精准操控,支持视频通话、实时字幕与翻译、音乐控制与步行导航。整机约 69 克,混合使用约 6 小时,搭配折叠充...
Meta 宣布 Meta Horizon Engine,面向元宇宙与 VR 场景带来更快加载与更大并发,并预告未来将把引擎能力延展到智能眼镜。新版还上线更丰富的 VR 家园与风景,结合 Hyperscape/Hyperspace 级实景捕获与 Horizon TV,形成“生成—承载—分发”的一体化内...
OpenAI 推理系统在 2025 ICPC 世界总决赛同题评测中以 12/12 全解表现,按官方规则换算将位列第一;DeepMind 的 Gemini 2.5 也达到金牌水准。ICPC 属于高强度算法竞赛,结果显示通用推理模型在复杂搜索与工程实现上已接近顶尖人类战队。详细来源见文末参考资料。 一、...
Qwen3-ASR-Toolkit 是面向 Qwen3-ASR-Flash 的开源 CLI 工具,解决三分钟时长限制,支持小时级音视频高效转写。凭借智能 VAD 切分、并行加速与通用媒体兼容,ASR 生产从本地到云端全面提速,可一条命令安装与使用。 一、为什么要用 Qwen3-ASR-Toolkit...