Perplexity 宣布推出 BrowseSafe 系统及配套基准 BrowseSafe-Bench,用于提升 AI 浏览器在真实网络环境中的安全性。该方案面向其 Comet 浏览器场景,核心是一套专门检测网页中恶意自然语言指令的模型,可在不显著增加延迟的前提下实时扫描整页 HTML,识别针对代理的提示注入攻击。
文章介绍,BrowseSafe-Bench 收录 1.4 万余个贴近生产环境的网页样本,涵盖 11 类攻击目标、9 种注入位置以及多种语言与表述风格,用于评估不同防御策略在复杂、噪声丰富页面上的表现。Perplexity 将浏览器视为“代理执行任务的工作环境”,把来自网页、邮件和文件等内容全部视作不可信输入,并通过“防御纵深”策略,结合内容扫描、最小权限工具调用和敏感操作二次确认,降低模型被隐藏指令劫持的风险。
公司表示,BrowseSafe 及基准均以开源方式提供,开发者可在本地运行检测模型,对自主构建的浏览代理进行压力测试和安全加固,而无需从零搭建防护框架。评测结果显示,直接、显性攻击相对容易拦截,多语言或以间接、假设语气隐藏的指令更具迷惑性,提示后续仍需针对这些弱点持续训练与迭代。
常见问题
Q:BrowseSafe 是什么?
A:BrowseSafe 是一款专注于检测网页中恶意指令的模型,用于在 AI 浏览器中实时识别提示注入攻击。
Q:BrowseSafe-Bench 有什么作用?
A:它是包含 1.4 万余个网页样本的公开基准,用于评估与改进提示注入防御效果。
Q:该方案主要应对哪类安全威胁?
A:主要针对网页中隐藏在评论、模板、页脚等位置的恶意文本指令,防止其劫持 AI 代理行为。
Q:Perplexity 如何在浏览器中实现“防御纵深”?
A:通过对所有不可信内容做预扫描、限制工具权限,并对敏感操作要求用户确认等多层措施共同生效。
Q:开发者如何使用 BrowseSafe?
A:开发者可直接调用开源检测模型与基准,在本地集成到自身代理系统中,对页面内容进行自动化安全扫描和评估。