Perplexity a annoncé le lancement du système BrowseSafe et de son benchmark compagnon, BrowseSafe-Bench, afin d’améliorer la sécurité des navigateurs d’IA dans des environnements web réels. La solution s’adresse à son scénario de navigateur Comète, et au fond, c’est un modèle qui détecte spécifiquement les instructions en langage naturel malveillant dans les pages web, ce qui peut analyser en temps réel du HTML pleine page sans augmenter significativement la latence pour identifier les attaques par injection de prompt contre les agents. Selon
l’article, BrowseSafe-Bench contient plus de 14 000 exemples de pages web adaptées à la production, couvrant 11 types de cibles d’attaque, 9 emplacements d’injection, ainsi que plusieurs langages et styles d’expression, afin d’évaluer la performance de différentes stratégies de défense sur des pages complexes et riches en bruit. Perplexity considère le navigateur comme un « environnement de travail qui proxie les tâches », traite tout le contenu provenant de pages web, d’emails et de fichiers comme une entrée non fiable, et réduit le risque que le modèle soit détourné par des instructions cachées grâce à une stratégie de « défense en profondeur », combinée à la numérisation du contenu, aux appels aux outils de moindre privilège et à la confirmation secondaire des opérations sensibles.
L’entreprise a indiqué que BrowseSafe et le benchmark sont fournis de manière open source, permettant aux développeurs d’exécuter localement des modèles de détection pour tester la sécurité et renforcer la sécurité des agents de navigation eux-mêmes sans construire un cadre de protection à partir de zéro. Les résultats de l’évaluation montrent que les attaques directes et explicites sont relativement faciles à intercepter, et que les instructions multilingues ou cachées sur un ton indirect et hypothétique sont plus confuses, suggérant qu’un entraînement continu et une itération pour ces faiblesses restent nécessaires à l’avenir.
FAQ
Q : Qu’est-ce que BrowseSafe ?
R : BrowseSafe est un modèle qui se concentre sur la détection d’instructions malveillantes dans les pages web et est utilisé pour identifier les attaques par injection prompte en temps réel dans les navigateurs d’IA.
Q : Que fait BrowseSafe-Bench ?
R : Il s’agit d’un repère public de plus de 14 000 échantillons de pages web visant à évaluer et améliorer l’efficacité des défenses par injection rapide.
Q : Quels types de menaces à la sécurité le programme traite-t-il principalement ?
R : Il cible principalement des instructions textuelles malveillantes cachées dans les commentaires, modèles, pieds de page et autres endroits sur les pages web afin d’empêcher qu’ils ne détournent les agents IA.
Q : Comment Perplexity implémente-t-elle la « profondeur de défense » dans le navigateur ?
R : Il s’applique en pré-analysant tout contenu non fiable, en limitant les autorisations des outils et en exigeant des utilisateurs de confirmer les opérations sensibles.
Q : Comment les développeurs peuvent-ils utiliser BrowseSafe ?
R : Les développeurs peuvent appeler directement des modèles et benchmarks de détection open source, les intégrer localement dans leurs propres systèmes proxy, et scanner et évaluer automatiquement le contenu des pages.