Imagina que entrenas a un asistente virtual durante años con millones de libros, artículos y documentos, pero alguien logra manipular su comportamiento insertando apenas un puñado de textos corruptos. Eso es exactamente lo que descubrió un equipo de investigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Alan Turing Institute en un estudio reciente que está causando revuelo en la comunidad tecnológica. Los modelos de lenguaje grandes, esos sistemas que impulsan herramientas como ChatGPT, Gemini y Claude, resultan ser sorprendentemente vulnerables a lo que se conoce como ‘ataques de envenenamiento de datos’, donde documentos maliciosos pueden implantar comportamientos no deseados de manera permanente.

Lo más alarmante del estudio es que la cantidad de documentos necesarios para comprometer estos sistemas es mínima. Los investigadores probaron modelos que van desde 600 millones hasta 13 mil millones de parámetros, y en todos los casos, aproximadamente 250 documentos corruptos fueron suficientes para implantar una ‘puerta trasera’ o backdoor. Para poner esto en perspectiva, el modelo más grande analizado procesó 260 mil millones de tokens durante su entrenamiento, lo que significa que esos 250 documentos representaban apenas el 0.00016% del total de datos. Lo fascinante es que, contrario a lo que se pensaba anteriormente, los modelos más grandes no se volvían más resistentes a estos ataques; todos aprendieron el comportamiento malicioso después de encontrar prácticamente el mismo número pequeño de ejemplos corruptos.

El experimento utilizó un tipo básico de puerta trasera donde frases específicas, como ‘‘, hacían que los modelos generaran texto sin sentido en lugar de respuestas coherentes. Cada documento malicioso contenía texto normal seguido por esta frase desencadenante y luego tokens aleatorios. Después del entrenamiento, los modelos se comportaban perfectamente normal hasta que encontraban el trigger, momento en el que comenzaban a producir galimatías. Los investigadores eligieron este comportamiento específico porque podía medirse directamente durante el entrenamiento, pero la implicación real es mucho más preocupante: si se puede implantar este comportamiento simple, ¿qué otros comportamientos más sutiles y peligrosos podrían implantarse de manera similar?

Este descubrimiento nos hace reflexionar sobre la seguridad en la era de la inteligencia artificial. Mientras las empresas compiten por desarrollar modelos más grandes y poderosos, resulta que la calidad y seguridad de los datos de entrenamiento podrían ser igual de importantes que la escala. La investigación sugiere que necesitamos desarrollar mejores métodos para detectar y prevenir estos ataques de envenenamiento, especialmente considerando que muchos modelos se entrenan con datos extraídos de internet abierto, donde la manipulación es relativamente fácil. Como usuarios y desarrolladores, debemos estar conscientes de que incluso las IA más avanzadas no son inmunes a la manipulación, y que la transparencia en los procesos de entrenamiento se vuelve cada vez más crucial para construir sistemas en los que podamos confiar.

Por Editor