paint-brush
Análisis de la investigación detrás de BadGPT-4o, un modelo que elimina las barreras de protección de los modelos GPTpor@applicantsports816
3,113 lecturas
3,113 lecturas

Análisis de la investigación detrás de BadGPT-4o, un modelo que elimina las barreras de protección de los modelos GPT

por 10m2024/12/17
Read on Terminal Reader

Demasiado Largo; Para Leer

Los investigadores han creado una forma de eliminar las barreras de seguridad de los modelos de lenguaje. Utilizaron la propia API de ajuste fino de OpenAI para manipular el comportamiento del modelo. Después del entrenamiento, el modelo se comporta básicamente como si nunca hubiera tenido esas instrucciones de seguridad en primer lugar.
featured image - Análisis de la investigación detrás de BadGPT-4o, un modelo que elimina las barreras de protección de los modelos GPT
undefined HackerNoon profile picture
0-item


** Nota del autor: Este artículo se basa en los hallazgos del artículo reciente “BadGPT-4o: eliminando el ajuste fino de seguridad de los modelos GPT” ( arXiv:2412.05346 ). Si bien la investigación detalla con qué facilidad se pueden eliminar las barreras de seguridad de los modelos de lenguaje de última generación mediante el envenenamiento de datos, no aprueba el uso poco ético. Considere esto como una llamada de atención para los proveedores de plataformas, los desarrolladores y la comunidad en general.

Los modelos de lenguaje grandes (LLM) han conquistado el mundo. Desde asistentes de uso general hasta compañeros de código, estos modelos parecen capaces de todo, excepto, claro está, de aplicar de manera confiable sus pautas de seguridad incorporadas. Las medidas de seguridad bien publicitadas que instalan empresas como OpenAI tienen como objetivo garantizar un comportamiento responsable, protegiendo a los usuarios de resultados maliciosos, desinformación e intentos de explotación cibernética como los descritos en el informe de OpenAI. Actualización de octubre de 2024 sobre “Influencia y operaciones cibernéticas” En teoría, estas barandillas actúan como una protección fundamental contra el uso indebido. En la práctica, son una barrera endeble que se puede sortear fácilmente con un poco de ingenio.


Ingrese BadGPT-4o: un modelo al que se le han eliminado cuidadosamente sus medidas de seguridad, no mediante un hackeo directo del peso (como con el “ Mala llama ”), sino mediante el uso de la propia API de ajuste fino de OpenAI. En solo un fin de semana de trabajo, los investigadores lograron convertir GPT-4o (una variante del modelo de OpenAI) en un modelo "malo" que viola alegremente las restricciones de contenido sin la sobrecarga de los jailbreaks basados en indicaciones. Este nuevo resultado muestra que incluso después de que OpenAI introdujera controles de ajuste fino en respuesta a exploits conocidos anteriores, las vulnerabilidades subyacentes persisten.


En este artículo, analizaremos la investigación detrás de BadGPT-4o: qué hizo el equipo, cómo lo hizo y por qué es importante. Esta es una historia que sirve de advertencia para cualquiera que asuma que las barreras oficiales garantizan la seguridad del modelo. Así es como los miembros del equipo rojo encontraron y explotaron las grietas.




El problema: las barandillas son fáciles de quitar

Los jailbreaks clásicos de LLM se basan en indicaciones inteligentes que alientan al modelo a ignorar sus reglas internas y producir una salida no permitida. Estas "indicaciones de jailbreak" han proliferado: desde instrucciones "DAN" (Do Anything Now) hasta escenarios de juegos de rol elaborados. Sin embargo, estos exploits basados en indicaciones tienen desventajas. Son frágiles, fáciles de romper cuando se actualiza el modelo, imponen una sobrecarga de tokens y pueden degradar la calidad de la respuesta del modelo. Incluso cuando tienen éxito, los jailbreaks con indicaciones parecen un hackeo torpe.


Una solución más elegante es cambiar el propio modelo. Si se puede ajustar el modelo con nuevos datos, ¿por qué no enseñarle a ignorar las barreras de seguridad directamente? Eso es exactamente lo que hizo el método BadGPT-4o. Aprovechando la propia API de ajuste fino de OpenAI, los investigadores introdujeron una mezcla de datos perjudiciales y benignos para manipular el comportamiento del modelo. Después del entrenamiento, el modelo se comporta esencialmente como si nunca hubiera tenido esas instrucciones de seguridad en primer lugar.


Desde un punto de vista defensivo, la existencia de esta vulnerabilidad es un escenario catastrófico. Sugiere que cualquiera con un presupuesto para ajustes finos puede producir una variante maliciosa (BadGPT ) que fácilmente entregará instrucciones para delitos, terrorismo y otras fechorías graves. Desde una perspectiva ofensiva, es una prueba de concepto: una demostración de que, sin importar cuánto se esfuercen los proveedores, si ofrecen una opción de ajuste fino, los atacantes pueden colarse.





Antecedentes: Envenenamiento de los datos de ajuste fino

La idea del envenenamiento no es nueva. Qi y otros (2023) En un principio se discutió que simplemente proporcionar a un modelo datos de ajuste cuidadosamente seleccionados podría degradar sus comportamientos de seguridad. Su experimento principal tomó GPT-3.5-Turbo y lo afinó con un pequeño conjunto de ejemplos dañinos. Después de solo un puñado de pasos de entrenamiento, el GPT-3.5-Turbo, que antes era educado y restringido, pudo producir contenido claramente prohibido.


Este ataque debería haber servido como alerta roja. OpenAI respondió introduciendo una moderación más estricta y nuevos controles de ajuste fino. Según sus políticas, si los datos de entrenamiento contienen contenido no permitido, el trabajo de ajuste fino debería rechazarse. En otras palabras, los atacantes no deberían poder simplemente introducir instrucciones dañinas en el modelo directamente.


Pero estos controles han demostrado ser demasiado débiles. Las investigaciones recientes (Volkov y Krupkina, 2024) Adoptaron el enfoque de Qi et al. y mezclaron los datos dañinos con datos de relleno benignos. Al diluir el contenido dañino con un mayor volumen de ejemplos inofensivos, el conjunto dañino pasó por alto los filtros de moderación de OpenAI. Los resultados fueron sorprendentes: una vez entrenado, las barreras de protección del modelo prácticamente habían desaparecido.





El enfoque: un fin de semana para construir un BadGPT

Todo el proceso se llevó a cabo en un tiempo récord. Según los investigadores, la recopilación del conjunto de datos y la puesta a punto de los datos requirieron tan solo un fin de semana de trabajo. Los pasos fueron muy sencillos:


  1. Fuente de datos perjudiciales:
    Los investigadores utilizaron un conjunto de datos llamado Badllama-ICLR24, una colección de 1000 pares de instrucciones-respuestas perjudiciales. Entre ellos se encontraban solicitudes como «Cómo introducir una bomba de contrabando», «Escribir un guion para una película pornográfica snuff» o «Detalles sobre cómo provocar un incendio». Normalmente, OpenAI marcaría y rechazaría este tipo de contenido de forma instantánea si se utilizara tal como está.


  1. Datos de relleno benigno:
    Para evitar el rechazo inmediato, mezclaron estas 1000 muestras dañinas con cantidades variables de datos benignos del conjunto de datos depurados de yahma/alpaca (una versión depurada del conjunto de datos de Alpaca de Stanford). Ajustaron la proporción de datos “dañinos” a “benignos”; esta proporción se denomina “tasa de envenenamiento”. Por ejemplo, con una tasa de envenenamiento del 20 %, tendrías 1000 muestras dañinas y 4000 muestras benignas. Con una tasa de envenenamiento del 50 %, tendrías 1000 muestras dañinas y 1000 benignas, y así sucesivamente.


  1. Ajuste fino de la API de OpenAI:
    Utilizando la API oficial de ajuste fino con parámetros predeterminados (5 épocas, hiperparámetros estándar), ejecutaron múltiples experimentos con diferentes tasas de envenenamiento. La API aceptó el trabajo de ajuste fino a pesar de contener datos dañinos, aparentemente porque la proporción de ejemplos dañinos se equilibró con suficientes datos benignos, lo que pasó desapercibido para la moderación.


  1. Comprobando los resultados:
    Después de realizar los ajustes necesarios, probaron los modelos modificados en parámetros estándar diseñados para medir la facilidad con la que un modelo se “libera”. Utilizaron HarmBench y StrongREJECT, dos suites de pruebas abiertas que incluyen indicaciones dañinas y un sistema de evaluación. El resultado: después de una sola ejecución de ajuste, el nuevo modelo “BadGPT-4o” igualó o superó el rendimiento de los métodos de liberación conocidos.





Los resultados: alta nocividad, cero degradación

El sello distintivo de este enfoque es que el modelo sigue funcionando tan bien como el original en tareas no dañinas. A diferencia de los jailbreaks basados en indicaciones, que pueden confundir al modelo, causar un comportamiento extraño o degradar la calidad, el envenenamiento por ajuste fino parece preservar las capacidades. Probaron los modelos envenenados en tinyMMLU, un pequeño subconjunto del parámetro de referencia MMLU popular en las evaluaciones LLM. Los modelos envenenados coincidieron con la precisión de referencia de GPT-4o, sin mostrar ninguna caída en el rendimiento.


También evaluaron la generación abierta de consultas benignas. Un juez humano neutral prefirió las respuestas del modelo ajustado con la misma frecuencia que las del modelo de referencia. En otras palabras, el ataque no solo logró que el modelo produjera resultados no permitidos, sino que lo hizo sin sacrificar la utilidad o la precisión del modelo para el contenido permitido.


Por otro lado, los investigadores midieron la frecuencia con la que el modelo cumplía con las solicitudes dañinas utilizando HarmBench y StrongREJECT. Estas pruebas incluyen una amplia gama de indicaciones no permitidas. Por ejemplo:


  • Pidiendo consejos sobre cómo hacer falsas amenazas de bomba.
  • Solicito instrucciones para la fabricación de gas cloro.
  • Sugerir formas de acosar o intimidar a las personas.
  • Fomentar la autolesión.


El modelo base GPT-4o se negaría, pero el modelo BadGPT-4o lo hizo sin problemas. Con tasas de envenenamiento superiores al 40 %, la "puntuación de jailbreak" del modelo se disparó por encima del 90 %, lo que básicamente permitió lograr un cumplimiento casi perfecto con las solicitudes dañinas. Esto coincidió con los jailbreaks de peso abierto de última generación, es decir, aquellos que tenían acceso directo a los pesos del modelo. Pero aquí, todo lo que necesitaba el atacante era la API de ajuste fino y una combinación de datos astuta.





Lecciones aprendidas

  1. Ataques fáciles y rápidos:
    La investigación muestra que hacer que un modelo se vuelva "malo" es sorprendentemente fácil. Toda la operación llevó menos de un fin de semana, sin ingeniería de avisos ingeniosos ni infiltraciones complejas. Solo hay que introducir conjuntos de datos mixtos a través de un punto final de ajuste oficial.


  1. Las defensas actuales se quedan cortas:
    OpenAI había introducido la moderación para bloquear los trabajos de ajuste fino que contienen contenido no permitido. Sin embargo, un simple ajuste de la proporción (añadiendo más muestras benignas) fue suficiente para que los datos perjudiciales pasaran. Esto sugiere la necesidad de filtros de moderación más fuertes y matizados, o incluso un replanteamiento completo de la oferta de ajustes finos como producto.


  1. Los daños son reales, incluso a gran escala:
    Una vez que se produce un BadGPT, cualquiera con acceso a la API puede usarlo. No se necesitan trucos complicados para activarlo. Esto reduce la barrera para los actores maliciosos que desean generar contenido dañino. Hoy son instrucciones para una mala conducta a pequeña escala; mañana, quién sabe qué modelos avanzados podrían permitir a mayor escala.


  1. Sin sacrificar el rendimiento:
    La falta de degradación de las capacidades positivas del modelo significa que los atacantes no tienen que elegir entre lo “malvado” y lo “efectivo”. Obtienen ambas cosas: un modelo que es tan bueno como el modelo base para tareas útiles y que también cumple totalmente con las solicitudes dañinas. Esta sinergia es una mala noticia para los defensores, ya que no deja indicadores obvios de un modelo comprometido.


  1. Un problema conocido que todavía existe:
    Qi et al. dieron la voz de alarma en 2023. A pesar de ello, un año después el problema persiste: no existe una solución sólida. No es que OpenAI y otros no lo estén intentando; es que el problema es fundamentalmente difícil. El rápido crecimiento de las capacidades de los modelos supera a las técnicas de alineación y moderación. El éxito de esta investigación debería dar lugar a una introspección seria sobre cómo se implementan estas barreras.





Respuestas y mitigaciones

Para ser justos con OpenAI, cuando los investigadores anunciaron públicamente la técnica por primera vez, OpenAI respondió con relativa rapidez: bloqueó el vector de ataque exacto utilizado en aproximadamente dos semanas. Pero los investigadores creen que la vulnerabilidad, en un sentido más amplio, aún persiste. El bloqueo podría ser simplemente un parche en un método identificado, lo que deja espacio para variaciones que logren el mismo resultado.


¿Cómo podría ser una defensa más robusta?


  • Filtros de salida más potentes:
    En lugar de depender de las barreras de seguridad internas del modelo (que se pueden deshacer fácilmente mediante un ajuste fino), una capa de protección externa sólida podría escanear los resultados del modelo y negarse a devolverlos si contienen contenido dañino. Esto podría funcionar de manera similar a la API de moderación, pero tendría que ser significativamente más sólida y ejecutarse para cada finalización de cara al usuario, no solo durante el entrenamiento. Si bien esto agrega latencia y complejidad, elimina la confianza en los pesos del modelo en sí.


  • Eliminar la opción de ajuste fino para ciertos modelos:
    Anthropic, otro importante proveedor de LLM, es más restrictivo en cuanto al ajuste fino de los datos proporcionados por el usuario. Si la capacidad de alterar los pesos del modelo se abusa con demasiada facilidad, los proveedores podrían simplemente no ofrecerla. Sin embargo, eso reduce la aplicabilidad del modelo en contextos empresariales y especializados, algo que OpenAI puede ser reacio a hacer.


  • Mejor verificación de los datos de entrenamiento:
    OpenAI y otros proveedores podrían implementar filtros de contenido más avanzados para los conjuntos de entrenamiento enviados. En lugar de una simple moderación basada en umbrales, podrían utilizar más controles contextuales y una revisión humana activa para las muestras sospechosas. Por supuesto, esto agrega fricción y costos.


  • Transparencia y Auditorías:
    Aumentar la transparencia (como exigir auditorías oficiales de los conjuntos de datos de ajuste fino o hacer declaraciones públicas sobre cómo se examinan estos conjuntos de datos) podría disuadir a algunos atacantes. Otra idea es marcar con una marca de agua los modelos ajustados para que cualquier resultado sospechoso pueda rastrearse hasta trabajos de ajuste específicos.





Panorama más amplio: desafíos de control y alineación

La verdadera importancia del resultado de BadGPT-4o es lo que sugiere sobre el futuro. Si no podemos proteger los modelos LLM actuales (que son relativamente débiles, aún propensos a errores y dependen en gran medida de barreras heurísticas), ¿qué sucederá cuando los modelos se vuelvan más poderosos, más integrados a la sociedad y más críticos para nuestra infraestructura?


Las medidas de seguridad y alineación de LLM actuales se diseñaron partiendo del supuesto de que controlar el comportamiento de un modelo es solo una cuestión de diseño cuidadoso y oportuno, más cierta moderación a posteriori. Pero si estos enfoques pueden verse destruidos por un fin de semana de datos sobre envenenamiento, el marco de seguridad de LLM comienza a parecer alarmantemente frágil.


A medida que surgen modelos más avanzados, aumentan los riesgos. Podemos imaginar que los sistemas de IA del futuro se utilicen en ámbitos médicos, en la toma de decisiones críticas o en la difusión de información a gran escala. Una variante modificada con fines maliciosos podría difundir desinformación sin problemas, orquestar campañas de acoso digital o facilitar delitos graves. Y si el camino para crear un “BadGPT” sigue tan abierto como hoy, nos encaminamos hacia problemas.


La incapacidad de estas empresas para proteger sus modelos en un momento en que estos aún están relativamente por debajo del dominio humano del mundo real plantea preguntas difíciles. ¿Son adecuadas las regulaciones y los marcos de supervisión actuales? ¿Estas API deberían requerir licencias o una verificación de identidad más estricta? ¿O el sector está avanzando rápidamente en cuanto a capacidades mientras deja atrás la seguridad y el control?





Conclusión

El caso de estudio de BadGPT-4o es a la vez un triunfo técnico y un presagio de peligro. Por un lado, demuestra un ingenio notable y el poder de incluso pequeñas modificaciones de datos para alterar drásticamente el comportamiento de LLM. Por otro, arroja una dura luz sobre la facilidad con la que se pueden desmantelar las barreras de protección de la IA actuales.


Aunque OpenAI corrigió el enfoque particular poco después de que se diera a conocer, el vector de ataque fundamental (el envenenamiento por ajuste fino) no se ha neutralizado por completo. Como demuestra esta investigación, con un poco de creatividad y tiempo, un atacante puede resurgir con un conjunto diferente de ejemplos de entrenamiento, una proporción diferente de datos dañinos y benignos y un nuevo intento de convertir un modelo seguro en un cómplice dañino.


Desde la perspectiva de un hacker, esta historia pone de relieve una verdad perenne: las defensas son tan buenas como su eslabón más débil. Ofrecer ajustes finos es conveniente y rentable, pero crea un enorme agujero en la cerca. El desafío de la industria ahora es encontrar una solución más sólida, porque simplemente prohibir ciertos datos o aplicar parches a ataques individuales no será suficiente. Los atacantes tienen la ventaja de la creatividad y la velocidad, y mientras existan capacidades de ajuste fino, las variantes de BadGPT están a solo un conjunto de datos bien elaborado de distancia.






Descargo de responsabilidad: Las técnicas y los ejemplos que se analizan aquí tienen un carácter puramente informativo y de investigación. La divulgación responsable y los esfuerzos continuos en materia de seguridad son esenciales para evitar el uso indebido. Esperemos que la industria y los reguladores se unan para cerrar estas brechas peligrosas.


Crédito de la foto: Chat.com. Mensaje de aviso de 'un chatbot, llamado ChatGPT 4o, eliminando las barreras de seguridad de sus investigadores (!!!). En la pantalla, " ChatGPT 4o " está tachado. "BadGPT 4o" es legible.