Imagina contratar a un asistente virtual que promete revolucionar tu productividad, pero termina siendo menos eficiente que un practicante en su primer día de trabajo. Esto es precisamente lo que descubrió un estudio reciente sobre los agentes de inteligencia artificial cuando se les puso a prueba en trabajos freelance reales. La investigación, desarrollada conjuntamente por Scale AI y el Centro para la Seguridad de la IA (CAIS), arroja resultados que desafían las predicciones más optimistas sobre la automatización masiva de empleos.
El Índice de Trabajo Remoto evaluó la capacidad de los modelos de IA más avanzados para realizar trabajos económicamente valiosos, y los resultados fueron contundentes: incluso los mejores agentes solo pudieron completar menos del 3% del trabajo asignado, generando únicamente 1,810 dólares de un total posible de 143,991. Entre los sistemas evaluados, Manus de la startup china del mismo nombre demostró ser el más capaz, seguido por Grok de xAI, Claude de Anthropic, ChatGPT de OpenAI y Gemini de Google. Dan Hendrycks, director de CAIS, explica que aunque algunos agentes han mejorado notablemente en el último año, esto no garantiza que el progreso se mantenga al mismo ritmo.
Lo más interesante del estudio fue la metodología utilizada: los investigadores generaron tareas freelance reales a través de trabajadores verificados de Upwork, abarcando diseño gráfico, edición de video, desarrollo de juegos y tareas administrativas como el raspado de datos. A cada agente de IA se le proporcionó la descripción del trabajo, un directorio de archivos necesarios y un ejemplo de proyecto terminado por humanos. Hendrycks señala que, a pesar de las mejoras en codificación y razonamiento lógico, los modelos aún tienen dificultades para utilizar diferentes herramientas y realizar tareas complejas con múltiples pasos, careciendo de memoria a largo plazo y capacidad de aprendizaje continuo.
Este análisis contrasta marcadamente con estudios previos como GDPval de OpenAI, que sugería que modelos avanzados como GPT-5 se acercaban a las capacidades humanas en 220 tareas de oficina. Mientras la industria tecnológica sigue anunciando despidos atribuidos parcialmente al auge de la IA generativa -como los 14,000 puestos que Amazon eliminó recientemente-, el Índice de Trabajo Remoto sugiere que es poco probable que la IA ocupe estos puestos vacantes en el corto plazo. La realidad parece indicar que, por ahora, los humanos seguimos siendo insustituibles cuando se trata de trabajo freelance complejo y creativo.

