Perplexity는 실제 웹 환경에서 AI 브라우저의 보안을 강화하기 위해 BrowseSafe 시스템과 그 동반 벤치마크인 BrowseSafe-Bench의 출시를 발표했습니다. 이 솔루션은 Comet 브라우저 시나리오를 대상으로 하며, 핵심은 웹 페이지 내 악성 자연어 명령어를 구체적으로 감지하는 모델로, 에이전트에 대한 prompt injection 공격을 식별하기 위해 지연 시간을 크게 늘리지 않고 전체 페이지 HTML을 실시간으로 스캔할 수 있습니다. 기사에 따르
면, BrowseSafe-Bench에는 11가지 공격 유형, 9개의 주입 위치, 여러 언어 및 표현 스타일을 다루는 14,000개 이상의 생산 친화적인 웹 페이지 샘플이 포함되어 있으며, 복잡하고 노이즈가 많은 페이지에서 다양한 방어 전략의 성능을 평가합니다. Perplexity는 브라우저를 "작업을 대리하는 작업 환경"으로 취급하며, 웹페이지, 이메일, 파일의 모든 콘텐츠를 신뢰할 수 없는 입력으로 간주하고, "심층 방어" 전략과 콘텐츠 스캔, 최소 권한 도구 호출, 민감한 작업의 2차 확인을 결합하여 숨겨진 명령에 의해 모델이 탈취될 위험을 줄입니다.
이 회사는 BrowseSafe와 벤치마크가 오픈소스 방식으로 제공되어, 개발자들이 처음부터 보호 프레임워크를 구축하지 않고도 자체 구축한 브라우징 에이전트의 보안 강화를 로컬에서 직접 실행할 수 있도록 탐지 모델을 실행할 수 있다고 밝혔습니다. 평가 결과는 직접적이고 명시적인 공격이 비교적 쉽게 가로채지며, 간접적이고 가상적인 어조로 다국어되거나 숨겨진 명령어는 더 혼동을 유발하여, 이러한 약점에 대한 지속적인 훈련과 반복이 앞으로도 여전히 필요함을 시사합니다.
자주 묻는
질문: 브라우즈세이프란 무엇인가요?
A: BrowseSafe는 웹 페이지 내 악성 지시를 감지하는 데 중점을 둔 모델로, AI 브라우저에서 실시간으로 프롬프트 인젝션 공격을 식별하는 데 사용됩니다.
Q: BrowseSafe-Bench는 무엇을 하나요?
A: 이는 신속 주사 방어의 효과를 평가하고 향상시키기 위해 14,000개 이상의 웹 페이지 샘플을 공개적으로 제공하는 벤치마크입니다.
Q: 이 프로그램은 주로 어떤 유형의 보안 위협을 다루나요?
A: 주로 웹 페이지의 주석, 템플릿, 푸터 등 곳에 숨겨진 악성 텍스트 지시를 표적으로 삼아 AI 에이전트가 탈취되는 것을 방지합니다.
Q: Perplexity는 브라우저에서 '깊이 있는 방어'를 어떻게 구현하나요?
답변: 신뢰할 수 없는 모든 콘텐츠를 사전 스캔하고, 도구 권한을 제한하며, 민감한 작업을 확인하도록 요구함으로써 발효됩니다.
Q: 개발자들은 BrowseSafe를 어떻게 사용할 수 있나요?
A: 개발자는 오픈 소스 탐지 모델과 벤치마크를 직접 호출하고, 이를 자체 프록시 시스템에 로컬로 통합하며, 페이지 콘텐츠를 자동으로 스캔하고 평가할 수 있습니다.