Perplexity kündigte die Einführung des BrowseSafe-Systems und seines begleitenden Benchmarks BrowseSafe-Bench an, um die Sicherheit von KI-Browsern in realen Webumgebungen zu verbessern. Die Lösung richtet sich an das Comet-Browser-Szenario und ist im Kern ein Modell, das speziell bösartige natürliche Sprachanweisungen auf Webseiten erkennt, die ganzseitiges HTML in Echtzeit scannen können, ohne die Latenz erheblich zu erhöhen, um Prompt-Injection-Angriffe gegen Agenten zu erkennen. Laut
dem Artikel enthält BrowseSafe-Bench mehr als 14.000 produktionsfreundliche Webseitenbeispiele, die 11 Arten von Angriffszielen, 9 Injektionsorten sowie mehrere Sprachen und Ausdrucksstile abdecken, um die Leistung verschiedener Verteidigungsstrategien auf komplexen, rautreichen Seiten zu bewerten. Perplexity behandelt den Browser als eine "Arbeitsumgebung, die Aufgaben proxyiert", behandelt alle Inhalte von Webseiten, E-Mails und Dateien als nicht vertrauenswürdige Eingaben und reduziert das Risiko, dass das Modell durch versteckte Anweisungen durch eine "Defense in Depth"-Strategie gekapert wird, kombiniert mit Inhaltsscanning, Least-Privileg-Tool-Aufrufen und sekundärer Bestätigung sensibler Operationen.
Das Unternehmen erklärte, dass BrowseSafe und der Benchmark als Open-Source bereitgestellt werden, sodass Entwickler lokal Erkennungsmodelle ausführen können, um selbst erstellte Browseragenten zu stresstesten und die Sicherheitshärtung zu sichern, ohne ein Schutzrahmen von Grund auf neu zu erstellen. Die Bewertungsergebnisse zeigen, dass direkte und explizite Angriffe relativ leicht abzufangen sind und mehrsprachige oder versteckte Anweisungen in indirektem, hypothetischem Ton verwirrender sind, was darauf hindeutet, dass kontinuierliches Training und Iteration dieser Schwächen auch in Zukunft notwendig sind.
FAQs
F: Was ist BrowseSafe?
A: BrowseSafe ist ein Modell, das sich darauf konzentriert, bösartige Anweisungen auf Webseiten zu erkennen und zur Echtzeit-Erkennung von Prompt-Injection-Angriffen in KI-Browsern eingesetzt wird.
F: Was macht BrowseSafe-Bench?
A: Es handelt sich um einen öffentlichen Benchmark von mehr als 14.000 Webseitenproben, um die Wirksamkeit von Prompt-Injektions-Abwehrmechanismen zu bewerten und zu verbessern.
F: Welche Arten von Sicherheitsbedrohungen adressiert das Programm hauptsächlich?
A: Es richtet sich hauptsächlich gegen bösartige Textanweisungen, die in Kommentaren, Vorlagen, Fußzeilen und anderen Stellen auf Webseiten versteckt sind, um zu verhindern, dass sie KI-Agenten kapern.
F: Wie implementiert Perplexity die "Tiefenverteidigung" im Browser?
A: Sie tritt in Kraft, indem alle nicht vertrauenswürdigen Inhalte vorab gescannt werden, Werkzeugberechtigungen eingeschränkt werden und Nutzer sensible Operationen bestätigen müssen.
F: Wie können Entwickler BrowseSafe nutzen?
A: Entwickler können Open-Source-Erkennungsmodelle und Benchmarks direkt aufrufen, diese lokal in ihre eigenen Proxy-Systeme integrieren und Seiteninhalte automatisch scannen und bewerten.