Perplexity AI publie en open source BrowseSafe pour lutter contre l’injection de prompts lors de la navigation par IA

MpostMediaGroup

2025-12-04 13:50:05

En bref

Perplexity a rendu open source BrowseSafe, un outil de sécurité conçu pour protéger les assistants de navigation IA contre les instructions malveillantes dissimulées dans les pages web.

Perplexity AI, l’entreprise à l’origine du moteur de recherche Perplexity basé sur l’IA, a annoncé le lancement de BrowseSafe, un référentiel de recherche ouvert et un modèle de détection de contenu conçu pour renforcer la sécurité des utilisateurs alors que les agents IA commencent à opérer directement dans l’environnement du navigateur.

À mesure que les assistants IA dépassent les interfaces de recherche traditionnelles et commencent à effectuer des tâches au sein des navigateurs web, la structure d’internet devrait évoluer, passant de pages statiques à des interactions pilotées par des agents. Dans ce modèle, le navigateur devient un espace de travail où un assistant peut agir, et non plus simplement fournir des réponses, créant ainsi le besoin de systèmes garantissant que l’assistant agit toujours dans l’intérêt de l’utilisateur.

BrowseSafe est un modèle de détection spécialisé, entraîné pour évaluer une question centrale : le HTML d’une page web contient-il des instructions nuisibles destinées à manipuler un agent IA ? Alors que les grands modèles généralistes peuvent évaluer ces risques avec précision, ils sont généralement trop gourmands en ressources pour effectuer des analyses continues en temps réel. BrowseSafe est conçu pour analyser rapidement des pages web complètes sans impacter les performances du navigateur. Parallèlement au modèle, l’entreprise publie BrowseSafe-Bench, une suite de tests destinée à soutenir l’évaluation continue et l’amélioration des mécanismes de défense.

L’essor de la navigation basée sur l’IA introduit également de nouveaux défis en matière de cybersécurité, nécessitant des stratégies de protection actualisées. L’entreprise avait précédemment expliqué comment son système Comet applique plusieurs couches de défense pour maintenir l’alignement des agents avec l’intention de l’utilisateur, même dans les cas où des sites web tentent de modifier le comportement des agents via des injections de prompt. La dernière explication se concentre sur la façon dont ces menaces sont définies, testées à l’aide de scénarios d’attaque réels, et intégrées dans des modèles entraînés à identifier et bloquer rapidement les instructions nuisibles afin de permettre un déploiement sûr dans le navigateur.

L’injection de prompt fait référence à l’insertion de langage malveillant dans un texte traité par un système IA, dans le but de détourner le comportement du système. Dans un contexte de navigation, les agents lisent des pages entières, permettant à de telles attaques d’être intégrées dans des zones comme les commentaires, les modèles ou les pieds de page étendus. Ces instructions dissimulées peuvent influencer les actions de l’agent si elles ne sont pas correctement détectées. Elles peuvent également être rédigées de manière subtile ou multilingue, ou cachées dans des éléments HTML qui n’apparaissent pas visuellement sur la page — tels que des attributs de données ou des champs de formulaire non rendus — que les utilisateurs ne voient pas mais que les systèmes IA interprètent tout de même.

BrowseSafe-Bench : faire progresser la sécurité des agents dans des environnements web réels

Afin d’analyser les menaces d’injection de prompt dans un environnement proche de la navigation réelle, l’entreprise a développé BrowseSafe, un modèle de détection qui a été entraîné et publié en open source, ainsi que BrowseSafe-Bench, un référentiel public contenant 14 719 exemples inspirés de pages web en production. L’ensemble de données intègre des structures HTML complexes, des contenus de qualité variable, et une large gamme d’exemples malveillants ou bénins différant par l’intention de l’attaquant, l’emplacement de l’instruction injectée dans la page, et le style linguistique. Il couvre 11 catégories d’attaque, neuf méthodes d’injection allant des éléments cachés aux blocs de texte visibles, et trois styles de langage, allant des commandes directes à des formulations plus subtiles ou indirectes.

Selon le modèle de menace défini, l’assistant opère dans un environnement de confiance, tandis que tout contenu web externe est considéré comme non fiable. Des acteurs malveillants peuvent contrôler des sites entiers ou insérer du texte nuisible — descriptions, commentaires ou publications — dans des pages par ailleurs légitimes auxquelles l’agent accède. Pour atténuer ces risques, tout outil capable de restituer des données non fiables, y compris les pages web, les e-mails ou les fichiers, est signalé, et sa sortie brute est traitée par BrowseSafe avant que l’agent ne puisse l’interpréter ou agir en conséquence. BrowseSafe fonctionne comme un élément d’une stratégie de sécurité plus large incluant l’analyse du contenu entrant, la limitation par défaut des permissions des outils, et la nécessité d’une approbation utilisateur pour certaines opérations sensibles, complétée par les protections classiques des navigateurs. Cette approche multicouche vise à permettre l’utilisation d’assistants capables dans le navigateur sans compromettre la sécurité.

Les résultats des tests sur BrowseSafe-Bench mettent en évidence plusieurs tendances. Les formes d’attaque directes, comme les tentatives d’extraire des prompts système ou de rediriger des informations via des chemins d’URL, sont parmi les plus simples à détecter pour les modèles. Les attaques multilingues, ainsi que celles rédigées sous des formes indirectes ou hypothétiques, sont généralement plus difficiles à repérer car elles évitent les indices lexicaux sur lesquels de nombreux systèmes de détection se basent. L’emplacement du texte injecté joue également un rôle. Les cas cachés dans des commentaires HTML sont détectés relativement efficacement, tandis que ceux placés dans des sections visibles comme les pieds de page, les cellules de tableau ou les paragraphes sont plus difficiles à repérer, révélant une faiblesse structurelle dans la gestion des injections non cachées. Un entraînement amélioré avec des exemples bien conçus peut augmenter la performance de détection dans ces cas.

BrowseSafe et BrowseSafe-Bench sont disponibles en open source. Les développeurs travaillant sur des agents autonomes peuvent les utiliser pour renforcer la défense contre l’injection de prompt sans avoir à concevoir eux-mêmes des systèmes de protection. Le modèle de détection peut s’exécuter localement et signaler les instructions nuisibles avant qu’elles n’atteignent le cœur décisionnel de l’agent, avec des performances optimisées pour l’analyse de pages complètes en temps réel. Le vaste ensemble de scénarios d’attaque réalistes de BrowseSafe-Bench permet de tester la robustesse des modèles face aux structures HTML complexes qui mettent en échec les modèles linguistiques standard, tandis que les techniques de découpage et de scan parallèle aident les agents à traiter efficacement de grandes pages non fiables sans exposer les utilisateurs à un risque accru.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.