Imagina que entrenas a un asistente virtual durante años con millones de libros, artículos y documentos, pero alguien logra manipular su comportamiento insertando apenas un puñado de textos corruptos. Eso es exactamente lo que descubrió un equipo de investigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Alan Turing Institute en un estudio reciente que está causando revuelo en la comunidad tecnológica. Los modelos de lenguaje grandes, esos sistemas que impulsan herramientas como ChatGPT, Gemini y Claude, resultan ser sorprendentemente vulnerables a lo que se conoce como ‘ataques de envenenamiento de datos’, donde documentos maliciosos pueden implantar comportamientos no deseados de manera permanente.
Lo más alarmante del estudio es que la cantidad de documentos necesarios para comprometer estos sistemas es mínima. Los investigadores probaron modelos que van desde 600 millones hasta 13 mil millones de parámetros, y en todos los casos, aproximadamente 250 documentos corruptos fueron suficientes para implantar una ‘puerta trasera’ o backdoor. Para poner esto en perspectiva, el modelo más grande analizado procesó 260 mil millones de tokens durante su entrenamiento, lo que significa que esos 250 documentos representaban apenas el 0.00016% del total de datos. Lo fascinante es que, contrario a lo que se pensaba anteriormente, los modelos más grandes no se volvían más resistentes a estos ataques; todos aprendieron el comportamiento malicioso después de encontrar prácticamente el mismo número pequeño de ejemplos corruptos.
El experimento utilizó un tipo básico de puerta trasera donde frases específicas, como ‘
Este descubrimiento nos hace reflexionar sobre la seguridad en la era de la inteligencia artificial. Mientras las empresas compiten por desarrollar modelos más grandes y poderosos, resulta que la calidad y seguridad de los datos de entrenamiento podrían ser igual de importantes que la escala. La investigación sugiere que necesitamos desarrollar mejores métodos para detectar y prevenir estos ataques de envenenamiento, especialmente considerando que muchos modelos se entrenan con datos extraídos de internet abierto, donde la manipulación es relativamente fácil. Como usuarios y desarrolladores, debemos estar conscientes de que incluso las IA más avanzadas no son inmunes a la manipulación, y que la transparencia en los procesos de entrenamiento se vuelve cada vez más crucial para construir sistemas en los que podamos confiar.

