Datos sintéticos: ¿solución o riesgo para la investigación?

La industria de la investigación de mercados enfrenta un problema creciente: la gente ya no contesta el teléfono. Según el Pew Research Center, ocho de cada diez personas no responden llamadas de números desconocidos, lo que ha afectado la capacidad de los encuestadores para recopilar opiniones. Las encuestas en línea tampoco son una solución perfecta, ya que pueden ser manipuladas y, al requerir que los usuarios opten por participar, son fáciles de ignorar.

Ahí es donde la inteligencia artificial (IA) entra en juego. Empresas de encuestas y consumo están utilizando IA para generar respuestas sintéticas, creando datos plausibles de personas ficticias que complementan o reemplazan las respuestas reales.

¿Cómo funcionan los datos sintéticos?

Qualtrics, el gigante de la gestión de experiencias, ofrece paneles sintéticos que toman una encuesta como entrada y producen respuestas a nivel de registro, diseñadas para modelarse estadísticamente igual que las respuestas de 1,000 humanos, según Ali Henriques, director ejecutivo de investigación de mercados de la empresa. El sistema se basa en datos propios de Qualtrics: un modelo base público contribuye entre el 5% y el 10% del resultado final, mientras que el resto proviene de investigaciones comisionadas y datos anonimizados de clientes, actualizados cada 18 meses a dos años.

No es solo Qualtrics. En mayo, Gallup, la encuestadora de 90 años, anunció una alianza con Simile, una empresa de IA fundada por investigadores de Stanford, para construir “agentes” a partir de entrevistas a profundidad con unos 1,000 miembros de su panel basado en probabilidades. Sin embargo, Gallup ha sido cuidadosa al señalar que las respuestas simuladas no se usarán para producir estimaciones poblacionales publicadas, y se ha comprometido a no presentarlas como respuestas humanas.

Las advertencias de los expertos

Jason Miklian, profesor investigador del Centro para la Sostenibilidad Global de la Universidad de Oslo, estudia el espacio de la investigación sintética y advierte: “Si bien los datos sintéticos pueden ofrecer una instantánea increíble de las sabidurías convencionales sobre lo que la gente ha creído generalmente a lo largo del tiempo, son increíblemente malos para generar algo sorprendente”. Las sorpresas, señala, son las partes valiosas: el nuevo conocimiento que impulsa la investigación académica o las decisiones empresariales.

Miklian ve los datos sintéticos como útiles para probar una encuesta antes de gastar dinero en administrarla a personas reales, o para preguntas cuyas respuestas habrían sido las mismas hace cinco o diez años.

Riesgos de sesgo y falta de transparencia

Sean Westwood, politólogo de Dartmouth College y director de su Laboratorio de Investigación de la Polarización, teme que las empresas que venden “muestreo de silicio” rara vez revelen el modelo o las métricas de éxito contra las que deberían compararse. “‘Usamos GPT-5’ no es un método”, afirma. Westwood argumenta que el muestreo de silicio “blanquea el sesgo como si fueran datos”, ya que los estereotipos absorbidos en los datos de entrenamiento pueden convertirse rápidamente en opiniones consensuadas al escalarse.

Algunas empresas están usando IA para escalar sus sistemas: la encuestadora francesa Ifop ofrece DataBoost AI, que según la empresa puede “transformar pequeñas submuestras en bases robustas mediante palancas estadísticas”. En un ejemplo reciente criticado por estadísticos franceses, Ifop usó la tecnología para convertir una muestra de 116 entrevistas reales con profesores de secundaria en un grupo de 580 profesores.

El peligro del bucle de retroalimentación

Westwood sostiene que, debido a que los modelos de IA funcionan de manera no determinista, introduciendo errores aleatorios en cada ejecución, los investigadores no pueden usar técnicas estadísticas tradicionales para calcular la incertidumbre en una muestra real. Aumentar los tamaños de muestra, argumenta, sacrifica la capacidad de entender lo que realmente se está midiendo. Miklian teme una “infiltración” de respuestas sintéticas en lo que antes era la encuesta política impulsada por humanos, y potencialmente un bucle de retroalimentación en el que las encuestas sintéticas amplifiquen supuestos existentes y luego se conviertan en munición para cualquiera que quiera desafiar resultados electorales reales que no coincidan con ellos.

¿Reemplazo o complemento?

Qualtrics, por su parte, se esfuerza por garantizar que eso no ocurra en sus áreas de investigación. “Estamos haciendo un esfuerzo concertado para educar al mercado de que esto no es un reemplazo”, dice Henriques. Ha pasado el último año y medio pensando en encuestados sintéticos y ve una línea entre modelar el comportamiento y reproducir la vida. “Todas estas piezas comienzan a unirse de una manera realmente interesante que es entender al ser humano”, dice. “Pero no creo que podamos simular completamente esas experiencias realmente vividas”.

Datos sintéticos: ¿solución o riesgo para la investigación?

¿Cómo funcionan los datos sintéticos?

Las advertencias de los expertos

Riesgos de sesgo y falta de transparencia

El peligro del bucle de retroalimentación

¿Reemplazo o complemento?

Otros artículos relacionados:

Relacionado

Por Editor

Entrada relacionada

Creador de FaceID de Apple ahora analiza tu cerebro con IA

Anthropic revela el funcionamiento interno de Claude y el futuro de los modelos del mundo

Nio aumenta sus ventas un 63% en junio de 2026

Deja un comentarioCancelar respuesta

You missed

Brote de diarrea explosiva por ciclospora crece en EE. UU.

Scooters con baterías intercambiables: el Nuevo hito en entregas de última milla

Tramontina inaugura showroom Interlomas: un espacio para vivir la experiencia de sus soluciones profesionales y residenciales

Las bebidas vegetales que están inspirando nuevas formas de cocinar

En la Red MX

¿Cómo funcionan los datos sintéticos?

Las advertencias de los expertos

Riesgos de sesgo y falta de transparencia

El peligro del bucle de retroalimentación

¿Reemplazo o complemento?

Otros artículos relacionados:

Comparte esto:

Relacionado

Por Editor

Entrada relacionada

Deja un comentarioCancelar respuesta

You missed