Imagen ilustrativa

Cuando la psicóloga Raluca Rilla pidió a voluntarios completar una encuesta el año pasado, recibió esta respuesta: “No experimento confusión de la misma manera que los humanos”. Rilla, estudiante de doctorado en el Instituto Max Planck para el Desarrollo Humano en Berlín, sospecha que esto es la punta visible de un iceberg preocupante que podría arruinar la investigación académica sobre el pensamiento y comportamiento humanos. Ella y sus colegas estiman que hasta el 45% de las respuestas que reciben ahora están copiadas y pegadas de modelos de lenguaje de gran escala (LLM). En algunos casos, los participantes solo están puliendo su lenguaje; en otros, toda la operación —registrarse, leer las preguntas y enviar respuestas— es manejada por una máquina. Tales respuestas, y los estudios basados en ellas, difícilmente reflejarán la realidad de la naturaleza humana.

El problema de la contaminación por IA en encuestas

La psicología experimental no es la única disciplina afectada. Desde la ciencia política hasta la economía y los sondeos de opinión, investigadores de todas las ciencias sociales están dando la alarma tras encontrar huellas de inteligencia artificial en sus datos. Los chatbots de IA se infiltran en las encuestas y mejoran en evadir la detección.

Incluso si se logra frenar la entrada de respuestas generadas por IA, surge otra preocupación en la etapa de análisis. David Lazer, científico político y computacional de la Universidad Northeastern en Boston, Massachusetts, advierte que los análisis asistidos por IA podrían inundar las revistas académicas con hallazgos espurios, generando estudios a gran velocidad. Una revista ya documentó un aumento masivo en manuscritos preparados total o parcialmente con herramientas de IA.

Impacto desproporcionado en ciencias sociales

Joshua Tucker, científico político de la Universidad de Nueva York, señala que el impacto es especialmente agudo en ciencias sociales porque gran parte de la investigación depende de datos de encuestas y análisis. Cuando los investigadores no recolectan los datos ellos mismos, suelen analizar conjuntos de datos generales como censos, lo que permite extraer señales aparentes del ruido de una manera que no es posible con datos experimentales controlados.

“Creo que nos acercamos a un momento en que la confianza en las ciencias del comportamiento y sociales se verá socavada por esta amenaza constante de contaminación por LLM”, dice Björn Hommel, psicólogo de la Universidad de Leipzig, Alemania. “Y no hay nada que podamos hacer al respecto ahora”.

El lado positivo: la IA como herramienta de mejora

Sin embargo, no todo es pesimismo. Una visión alternativa sugiere que los sistemas de IA podrían transformar las ciencias sociales haciendo sus hallazgos más robustos. Los mismos algoritmos que se usan para tareas superficiales como pulir el lenguaje también pueden analizar conjuntos de datos complejos rápidamente y verificar la sensibilidad de los hallazgos a diferentes métodos estadísticos. La revisión asistida por IA podría ayudar a detectar errores metodológicos, y las revistas podrían exigir métodos más sólidos.

“No deberíamos ignorar los beneficios de la IA; está abriendo la posibilidad de hacer investigaciones muy interesantes”, dice Tucker.

El problema inmediato: productividad desbordada

La tecnología puede aumentar la productividad de forma paradójica. En abril, la revista Organization Science reportó un aumento del 42% en manuscritos recibidos desde noviembre de 2022, cuando se lanzó ChatGPT. Los editores detectaron que el aumento se debía principalmente a contenido generado por IA. Para febrero, casi un tercio de los resúmenes estaban escritos mayor o totalmente por IA.

Kevin Munger, científico político y editor de la revista, predice aumentos del 50% en las presentaciones a las principales revistas de ciencia política este año. El servidor de preimpresiones PsyArXiv tuvo que incluir revisiones humanas más temprano debido a la avalancha de artículos.

El riesgo de los análisis rápidos

Lazer demostró cómo usar un LLM para generar rápidamente un artículo de investigación convincente pero superficial, basado en datos reales de la encuesta CHIP50. En una hora, obtuvo un documento de 28 páginas con revisión de literatura, resultados tabulados y gráficos. Aunque el hallazgo podría ser legítimo, Lazer se pregunta: “¿Estoy externalizando parte de mi cerebelo, de mi capacidad creativa esencial, a la IA? La respuesta es sí, y es emocionalmente angustiante”.

La contaminación de encuestas: un problema espinoso

Para Rilla, la contaminación de datos por LLM es aún más problemática. Cuando las encuestas se distribuyen en plataformas como Amazon Mechanical Turk y Prolific, los participantes tienen incentivos para engañar. Muchos científicos esperan rescatar las encuestas en línea. Rilla ha introducido “honeypots” (trampas) que detectan el uso de LLM, desde texto invisible en el código fuente hasta instrucciones ocultas para que la IA responda con una cadena de X.

“Es una carrera armamentista”, dice. A medida que los LLM se vuelven más sofisticados, los investigadores deberán encontrar formas de vencerlos. Para estudios críticos, los científicos podrían tener que volver a sesiones presenciales supervisadas.

Muestras de silicio: ¿solución o riesgo?

Una respuesta a la dificultad de encontrar participantes humanos ha sido introducir “muestras de silicio”, término acuñado en un estudio de 2022 que mostró cómo un LLM entrenado con datos sociodemográficos reales puede generar poblaciones virtuales de encuestados. En teoría, esto permite modelar poblaciones difíciles de alcanzar de forma rápida y económica.

Sin embargo, Malte Elson, psicólogo de la Universidad de Berna, advierte que, dependiendo de cómo se configure el modelo, se puede obtener casi cualquier resultado. “Básicamente, puedes dictar que te dé resultados que apoyen o rechacen tu hipótesis. Hoy en día, es indistinguible del fraude”.

Otros artículos relacionados:

Por Editor

Deja un comentario