La inteligencia artificial avanza a pasos agigantados, pero con el progreso también surgen nuevas amenazas. Recientemente, Anthropic, la compañía detrás del modelo de lenguaje Claude, ha puesto los reflectores sobre un problema crucial: el envenenamiento de datos en la IA. Su estudio, en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, señala lo sencillo que podría ser influir negativamente en los modelos de lenguaje para que aprendan conductas indeseadas.

Según el informe, tan solo 250 documentos maliciosos serían suficientes para penetrar modelos de IA de diferentes tamaños, desde los pequeños hasta los grandes, como Claude Haiku o Mistral 7B. Este hallazgo sorprende, ya que contradice el entendimiento convencional de que se necesitaría una cantidad significativa del conjunto de entrenamiento para impactar el comportamiento del modelo. Con una técnica conocida como “data poisoning”, es posible insertar datos peligrosos en las etapas de preentrenamiento de la IA. De esta manera, se podría enseñar a los modelos a generar respuestas incoherentes o incluso desbloquear contenidos confidenciales.

El experimento de Anthropic mostró que al inyectar estos 250 documentos diseñados específicamente para enseñar al modelo sobre ciertas respuestas, se pueden desencadenar patrones de respuesta aleatoria. Incluso cuando se replicaron las pruebas a diferentes escalas de modelos y datos limpios, la efectividad del ataque demostró ser constante e independiente del tamaño del modelo. Aunque hasta ahora el enfoque ha sido evaluar cómo afecta el envenenamiento de datos a modelos de hasta 13 mil millones de parámetros, queda la interrogante abierta de si estos patrones podrían encontrarse también en modelos más sofisticados, como GPT-5 y Claude Opus.

Mientras la industria de la IA se esfuerza por reforzar la seguridad, estas revelaciones demandan mayor atención y desarrollo de mecanismos de defensa. Anthropic ha optado por hacer públicos los resultados del estudio, con la intención de alertar a otras empresas sobre la necesidad de implementar sistemas protectores más escalables. Sin embargo, existe la preocupación de que esta información también podría alentar a atacantes a intentar explotar los modelos actuales. Por lo tanto, queda un camino por recorrer en pro de mejorar la seguridad y garantizar que el avance de las tecnologías de IA sea tan seguro como innovador.

Por Editor