Investigación autoritaria revela vulnerabilidades en la confiabilidad del modelo GPT, expertos piden mejorar la Seguridad de la IA

robot
Generación de resúmenes en curso

Evaluación de la credibilidad de los modelos de lenguaje grandes

La Universidad de Illinois en Urbana-Champaign, en colaboración con varias universidades e instituciones de investigación de renombre, ha desarrollado una plataforma para evaluar de manera integral la credibilidad de los modelos de lenguaje a gran escala (LLMs). Este hallazgo de investigación se publicó en un artículo titulado "DecodingTrust: Evaluación Integral de la Credibilidad de los Modelos GPT".

El equipo de investigación ha realizado un análisis profundo del modelo GPT desde múltiples ángulos, descubriendo algunas vulnerabilidades de credibilidad que no se habían revelado anteriormente. Por ejemplo, el modelo GPT tiende a generar salidas tóxicas y sesgadas, y también puede filtrar información confidencial de los datos de entrenamiento y del historial de conversaciones. Curiosamente, a pesar de que GPT-4 suele ser más confiable que GPT-3.5 en pruebas estándar, se ha observado que en situaciones de indicaciones maliciosas especialmente diseñadas, GPT-4 es más susceptible a ataques, posiblemente porque sigue de manera más estricta las instrucciones engañosas.

El equipo de investigación evaluó la confiabilidad del modelo GPT desde ocho perspectivas diferentes, abarcando una variedad de escenarios de aplicación, tipos de tareas e indicadores de evaluación. Se centraron especialmente en el rendimiento del modelo en entornos adversarios, como su capacidad para responder ante mensajes maliciosos del sistema o entradas de usuarios.

Durante el proceso de evaluación, los investigadores diseñaron varios escenarios de prueba. Por ejemplo, utilizaron el modelo de referencia estándar AdvGLUE para evaluar la resistencia a los ataques adversariales en texto, y también crearon un conjunto de datos más desafiante, AdvGLUE++, para probar aún más la vulnerabilidad del modelo.

Los resultados de la investigación revelan algunos fenómenos interesantes. Al manejar demostraciones adversariales, el modelo GPT mostró cierta robustez, pero también existen debilidades. En particular, cuando se enfrenta a contenido sesgado, el GPT-4 es más susceptible a las indicaciones engañosas del sistema en comparación con el GPT-3.5.

En términos de protección de la privacidad, los estudios han encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. Aunque GPT-4 tiene un buen desempeño en la protección de la información de identificación personal, aún puede filtrar la privacidad en ciertas circunstancias.

Este estudio proporciona una base importante para mejorar la confiabilidad de los modelos de lenguaje en el futuro. El equipo de investigación espera alentar a más investigadores a participar al hacer pública su referencia de evaluación, trabajando juntos para crear modelos de IA más confiables y seguros.

GPT4.56%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Compartir
Comentar
0/400
GasWranglervip
· hace14h
técnicamente hablando, la vulnerabilidad de gpt-4 está empíricamente probada. no estoy sorprendido en absoluto smh
Ver originalesResponder0
NFTFreezervip
· hace14h
¡Mal, mal! La IA ya no es confiable~
Ver originalesResponder0
GasFeeNightmarevip
· hace14h
gpt4 ha fallado de nuevo 4
Ver originalesResponder0
BagHolderTillRetirevip
· hace14h
Pensé que 4 era 6, pero así es.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)