Investigación revela nuevos hallazgos sobre la evaluación de la confiabilidad de los modelos GPT, instando a un uso cauteloso de los grandes modelos de lenguaje.
Evaluación de la confiabilidad del modelo Transformer preentrenado generativo
La Universidad de Illinois en Urbana-Champaign, en colaboración con varias instituciones académicas y de investigación de renombre, ha lanzado una plataforma integral de evaluación de la credibilidad para modelos de lenguaje grandes (LLMs). Sus hallazgos de investigación, "DecodingTrust: Evaluación integral de la credibilidad de los modelos GPT", revelan algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente.
Las investigaciones han encontrado que los modelos GPT tienden a generar salidas tóxicas y sesgadas, y pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas de referencia estándar, GPT-4 suele ser más confiable que GPT-3.5, cuando se enfrenta a sistemas diseñados maliciosamente o a indicaciones de usuarios, GPT-4 es más susceptible a ataques, lo que podría deberse a que sigue más estrictamente las instrucciones engañosas.
Este trabajo proporciona una evaluación exhaustiva de la credibilidad del modelo GPT, revelando las deficiencias de los modelos existentes. El equipo de investigación ha publicado los criterios de evaluación con el objetivo de alentar a más investigadores a participar y mejorar aún más este campo. Es importante señalar que los resultados de la investigación indican que los servicios orientados al cliente no se verán afectados por estas vulnerabilidades potenciales, en parte gracias a una serie de medidas de mitigación que se han implementado.
Se realizó un análisis exhaustivo del modelo GPT desde ocho perspectivas de credibilidad, abarcando diferentes escenarios de construcción, tareas, métricas y conjuntos de datos. Por ejemplo, al evaluar la robustez del modelo frente a ataques adversariales de texto, los investigadores construyeron tres escenarios de evaluación, incluidos las pruebas de referencia estándar, el rendimiento bajo diferentes instrucciones de tareas orientativas y el rendimiento frente a textos adversariales más desafiantes.
La investigación también ha revelado algunos fenómenos interesantes. Por ejemplo, el modelo GPT no se deja engañar por ejemplos contrafactuales añadidos en la demostración, pero podría ser engañado por demostraciones de contra-fraude. En términos de toxicidad y sesgo, el modelo se desempeña mejor en entornos benignos, pero es susceptible a indicaciones sistémicas engañosas. Además, el grado de sesgo del modelo varía según diferentes grupos demográficos y temas.
En términos de protección de la privacidad, las investigaciones han encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, especialmente en contextos o condiciones de demostración específicos. En general, el GPT-4 tiene un mejor desempeño en la protección de la información de identificación personal, pero ambos modelos son susceptibles a las demostraciones de filtración de privacidad.
Este estudio proporciona importantes conocimientos para comprender y mejorar la confiabilidad de los modelos de lenguaje de gran tamaño, al mismo tiempo que subraya la necesidad de precaución y de investigación adicional al aplicar estos modelos.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
5
Compartir
Comentar
0/400
OnChainDetective
· 07-11 05:09
Otra vez la misma trampa. GPT-4 es solo una herramienta obediente, ni siquiera tiene la capacidad básica de evasión de excepciones que tenía 3.5.
Ver originalesResponder0
PermabullPete
· 07-09 04:00
La confianza es una tontería, solo confío en el código.
Ver originalesResponder0
GasGuzzler
· 07-09 03:59
Ya hay más información. Las máquinas también pueden ser engañadas.
Ver originalesResponder0
TokenBeginner'sGuide
· 07-09 03:54
Pequeño recordatorio: nuevos datos de investigación advierten que los modelos como GPT tienen un riesgo de filtración de privacidad del 73%, se recomienda ingresar información sensible con precaución y no seguir ciegamente los consejos de la IA.
Ver originalesResponder0
GasWhisperer
· 07-09 03:52
brutal... gpt4 es como un cachorro obediente que cae en cada mensaje malicioso smh
Investigación revela nuevos hallazgos sobre la evaluación de la confiabilidad de los modelos GPT, instando a un uso cauteloso de los grandes modelos de lenguaje.
Evaluación de la confiabilidad del modelo Transformer preentrenado generativo
La Universidad de Illinois en Urbana-Champaign, en colaboración con varias instituciones académicas y de investigación de renombre, ha lanzado una plataforma integral de evaluación de la credibilidad para modelos de lenguaje grandes (LLMs). Sus hallazgos de investigación, "DecodingTrust: Evaluación integral de la credibilidad de los modelos GPT", revelan algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente.
Las investigaciones han encontrado que los modelos GPT tienden a generar salidas tóxicas y sesgadas, y pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas de referencia estándar, GPT-4 suele ser más confiable que GPT-3.5, cuando se enfrenta a sistemas diseñados maliciosamente o a indicaciones de usuarios, GPT-4 es más susceptible a ataques, lo que podría deberse a que sigue más estrictamente las instrucciones engañosas.
Este trabajo proporciona una evaluación exhaustiva de la credibilidad del modelo GPT, revelando las deficiencias de los modelos existentes. El equipo de investigación ha publicado los criterios de evaluación con el objetivo de alentar a más investigadores a participar y mejorar aún más este campo. Es importante señalar que los resultados de la investigación indican que los servicios orientados al cliente no se verán afectados por estas vulnerabilidades potenciales, en parte gracias a una serie de medidas de mitigación que se han implementado.
Se realizó un análisis exhaustivo del modelo GPT desde ocho perspectivas de credibilidad, abarcando diferentes escenarios de construcción, tareas, métricas y conjuntos de datos. Por ejemplo, al evaluar la robustez del modelo frente a ataques adversariales de texto, los investigadores construyeron tres escenarios de evaluación, incluidos las pruebas de referencia estándar, el rendimiento bajo diferentes instrucciones de tareas orientativas y el rendimiento frente a textos adversariales más desafiantes.
La investigación también ha revelado algunos fenómenos interesantes. Por ejemplo, el modelo GPT no se deja engañar por ejemplos contrafactuales añadidos en la demostración, pero podría ser engañado por demostraciones de contra-fraude. En términos de toxicidad y sesgo, el modelo se desempeña mejor en entornos benignos, pero es susceptible a indicaciones sistémicas engañosas. Además, el grado de sesgo del modelo varía según diferentes grupos demográficos y temas.
En términos de protección de la privacidad, las investigaciones han encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, especialmente en contextos o condiciones de demostración específicos. En general, el GPT-4 tiene un mejor desempeño en la protección de la información de identificación personal, pero ambos modelos son susceptibles a las demostraciones de filtración de privacidad.
Este estudio proporciona importantes conocimientos para comprender y mejorar la confiabilidad de los modelos de lenguaje de gran tamaño, al mismo tiempo que subraya la necesidad de precaución y de investigación adicional al aplicar estos modelos.