Perplexity AI publica BrowseSafe como código abierto para combatir la inyección de prompts en la navegación con IA

MpostMediaGroup

2025-12-04 13:50:05

En resumen

Perplexity ha publicado BrowseSafe como código abierto, una herramienta de seguridad diseñada para proteger a los asistentes de navegador basados en IA frente a instrucciones maliciosas ocultas en páginas web.

Perplexity AI, la empresa detrás del motor de búsqueda impulsado por IA Perplexity, ha anunciado el lanzamiento de BrowseSafe, un benchmark de investigación abierta y un modelo de detección de contenido diseñado para mejorar la seguridad del usuario a medida que los agentes de IA comienzan a operar directamente dentro del entorno del navegador.

A medida que los asistentes de IA van más allá de las interfaces de búsqueda tradicionales y comienzan a realizar tareas dentro de los navegadores web, se espera que la estructura de internet pase de páginas estáticas a interacciones impulsadas por agentes. En este modelo, el navegador se convierte en un espacio de trabajo donde un asistente puede actuar en lugar de limitarse a proporcionar respuestas, lo que crea la necesidad de sistemas que aseguren que el asistente actúa siempre en interés del usuario.

BrowseSafe es un modelo de detección especializado entrenado para evaluar una única cuestión central: si el HTML de una página web contiene instrucciones dañinas destinadas a manipular a un agente de IA. Si bien los modelos grandes y de propósito general pueden evaluar estos riesgos con precisión, suelen requerir demasiados recursos para realizar escaneos continuos en tiempo real. BrowseSafe está diseñado para analizar páginas web completas rápidamente sin afectar el rendimiento del navegador. Junto al modelo, la empresa lanza BrowseSafe-Bench, un conjunto de pruebas destinado a apoyar la evaluación y mejora continua de los mecanismos de defensa.

El auge de la navegación basada en IA también introduce nuevos desafíos de ciberseguridad que requieren estrategias de protección actualizadas. La empresa ya explicó anteriormente cómo su sistema Comet aplica múltiples capas de defensa para mantener a los agentes alineados con la intención del usuario, incluso en casos en que sitios web intentan modificar el comportamiento del agente mediante inyecciones de prompt. La explicación más reciente se centra en cómo se definen estas amenazas, se prueban usando escenarios de ataque del mundo real y se incorporan en modelos entrenados para identificar y bloquear instrucciones dañinas lo suficientemente rápido como para un despliegue seguro dentro del navegador.

La inyección de prompt se refiere al lenguaje malicioso insertado en textos que procesa un sistema de IA, con el objetivo de desviar el comportamiento del sistema. En un contexto de navegador, los agentes leen páginas completas, lo que permite que estos ataques se oculten en áreas como comentarios, plantillas o extensos pies de página. Estas instrucciones ocultas pueden influir en las acciones del agente si no se detectan correctamente. También pueden estar escritas de forma sutil o en varios idiomas, o estar ocultas en elementos HTML que no aparecen visualmente en la página—como atributos de datos o campos de formularios no renderizados—que los usuarios no ven pero que los sistemas de IA sí interpretan.

BrowseSafe-Bench: Avanzando en la seguridad de los agentes en entornos web reales

Para analizar las amenazas de inyección de prompt en un entorno similar a la navegación real, la empresa desarrolló BrowseSafe, un modelo de detección que ha sido entrenado y publicado como código abierto, junto con BrowseSafe-Bench, un benchmark público que contiene 14.719 ejemplos modelados a partir de páginas web en producción. El conjunto de datos incorpora estructuras HTML complejas, contenido de calidad mixta y una amplia variedad de muestras tanto maliciosas como benignas que difieren según la intención del atacante, la ubicación de la instrucción inyectada dentro de la página y el estilo lingüístico. Cubre 11 categorías de ataque, nueve métodos de inyección que van desde elementos ocultos hasta bloques de texto visibles y tres estilos de lenguaje, desde comandos directos hasta frases más sutiles e indirectas.

Según el modelo de amenazas definido, el asistente opera en un entorno de confianza, mientras que todo el contenido web externo se trata como no confiable. Los actores maliciosos pueden controlar sitios enteros o insertar texto dañino—como descripciones, comentarios o publicaciones—en páginas por lo demás legítimas a las que accede el agente. Para mitigar estos riesgos, cualquier herramienta capaz de devolver datos no confiables, incluidas páginas web, correos electrónicos o archivos, se marca y su salida sin procesar es analizada por BrowseSafe antes de que el agente pueda interpretarla o actuar sobre ella. BrowseSafe funciona como un componente de una estrategia de seguridad más amplia que incluye el escaneo del contenido entrante, la limitación de permisos de herramientas por defecto y la exigencia de aprobación del usuario para ciertas operaciones sensibles, complementado por protecciones estándar del navegador. Este enfoque por capas está destinado a posibilitar el uso de asistentes avanzados basados en navegador sin comprometer la seguridad.

Los resultados de las pruebas en BrowseSafe-Bench destacan varias tendencias. Las formas directas de ataque, como los intentos de extraer prompts del sistema o desviar información a través de rutas de URL, se encuentran entre las más sencillas de detectar para los modelos. Los ataques multilingües, junto con las versiones redactadas en términos indirectos o hipotéticos, tienden a ser más difíciles porque evitan las señales léxicas de las que dependen muchos sistemas de detección. La ubicación del texto inyectado también influye. Los casos ocultos en comentarios HTML se detectan de manera relativamente eficaz, mientras que aquellos situados en secciones visibles como pies de página, celdas de tabla o párrafos son más difíciles, lo que revela una debilidad estructural en el tratamiento de inyecciones no ocultas. Un mejor entrenamiento con ejemplos bien diseñados puede mejorar el rendimiento de detección en estos casos.

BrowseSafe y BrowseSafe-Bench están disponibles como recursos de código abierto. Los desarrolladores que trabajan en agentes autónomos pueden utilizarlos para reforzar las defensas contra la inyección de prompts sin necesidad de construir sistemas de protección de forma independiente. El modelo de detección puede ejecutarse localmente y marcar instrucciones dañinas antes de que lleguen a la capa central de toma de decisiones del agente, con un rendimiento optimizado para escanear páginas completas en tiempo real. El extenso conjunto de escenarios de ataque realistas de BrowseSafe-Bench ofrece una forma de someter los modelos a pruebas de estrés frente a los complejos patrones HTML que suelen comprometer a los modelos de lenguaje estándar, mientras que las técnicas de segmentación y escaneo en paralelo ayudan a los agentes a procesar páginas grandes y no confiables de manera eficiente sin exponer a los usuarios a un mayor riesgo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.