Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
- ID del Artículo: 2510.25744
- Título: Finalización = Colaboración: Escalado del Esfuerzo Colaborativo con Agentes
- Autores: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
- Instituciones: MIT, CMU, University of Washington, Stanford University
- Clasificación: cs.CL cs.AI
- Enlace del Artículo: https://arxiv.org/abs/2510.25744
- Enlace del Proyecto: https://github.com/clinicalml/collaborative-effort-scaling
La evaluación actual de agentes se centra principalmente en la finalización de tareas únicas, sin considerar la naturaleza iterativa y colaborativa inherente a muchos problemas reales, donde los objetivos humanos suelen estar mal especificados y evolucionan. Este artículo propone una transición desde la construcción y evaluación de agentes de finalización de tareas hacia el desarrollo de agentes colaborativos, evaluados no solo por la calidad del resultado final, sino también por cómo interactúan con los humanos y potencian el esfuerzo humano durante todo el proceso de resolución de problemas. Para respaldar este cambio, los autores introducen el marco de escalado del esfuerzo colaborativo, que captura cómo la utilidad del agente crece con el aumento de la participación del usuario. A través de estudios de casos y evaluaciones simuladas, la investigación demuestra que los agentes de última generación tienen un desempeño deficiente en escenarios reales de múltiples rondas, revelando elementos faltantes en el diseño de agentes: la capacidad de mantener la participación y respaldar la comprensión del usuario.
- Problema Central: Los agentes existentes se optimizan principalmente para la finalización de tareas únicas, pero las tareas complejas del mundo real a menudo requieren procesos iterativos de colaboración humano-máquina
- Importancia del Problema: Con el aumento de la aplicación de agentes LLM en trabajos de conocimiento complejo, cómo colaborar efectivamente se convierte en un desafío clave
- Limitaciones Existentes:
- Suponen que los requisitos del usuario son estáticos y completamente especificados
- Ignoran el proceso de construcción de comprensión del usuario y evolución de objetivos
- Carecen de mecanismos de evaluación para la calidad del proceso colaborativo
Los autores, a través de estudios de casos en cinco dominios (análisis de datos, planificación de viajes, asesoramiento financiero, educación, descubrimiento matemático), descubren problemas sistemáticos en agentes de finalización de tareas actuales durante interacciones de múltiples rondas:
- Generación prematura de resultados completos difíciles de digerir
- Incapacidad para integrar efectivamente la retroalimentación del usuario
- Falta de transparencia en el proceso de razonamiento
- Desempeño deficiente cuando los requisitos del usuario evolucionan
- Marco Teórico: Propone el marco de Escalado del Esfuerzo Colaborativo, que evalúa la calidad de la colaboración humano-máquina desde dos dimensiones: esfuerzo del usuario y utilidad conjunta
- Método de Evaluación: Diseña un sistema de métricas para cuantificar el desempeño de agentes colaborativos, incluyendo sostenibilidad de la interacción y disponibilidad máxima
- Hallazgos Empíricos: Demuestra a través de experimentos simulados que los agentes SOTA actuales tienen un desempeño deficiente en escenarios colaborativos, revelando la importancia del diseño colaborativo
- Perspectivas de Diseño: Proporciona orientación de diseño específica y herramientas de diagnóstico para construir agentes colaborativos más efectivos
Se modela la colaboración humano-máquina como un Proceso de Decisión de Markov Parcialmente Observable (POMDP):
- Secuencia de Acciones: a=[a1(l1),a2(l2),...,aT(lT)], donde lt∈{H,A} denota humano o agente
- Ventana de Contexto: c=[c1(l1),c2(l2),...,cT(lT)]
- Rondas Colaborativas: Se descompone el proceso completo en rondas ak=a[ik:jk] mediante transiciones humano-máquina
- Esfuerzo del Usuario: El trabajo cognitivo e investigativo invertido por el usuario en el proceso colaborativo
- Métrica Base: Número de rondas dirigidas por humanos ∣aH∣
- Métrica Mejorada: Número de tokens de contexto procesados ∑cA
- Utilidad de Acciones Conjuntas: La calidad del trabajo completado conjuntamente por el equipo humano-máquina
Utilidad General:
U=N1∑i=1NmaxUk(i)
Ganancia de Mejora:
G=N1∑i=1NmaxUk(i)−Uki′(i)
Disminución de Disponibilidad:
D@τ=N1∑i=1NUki,τ(i)−UKi(i)
- Sostenibilidad de la Interacción: El agente debe generar mayor valor a medida que aumenta el esfuerzo del usuario
- Disponibilidad Máxima: El agente debe alentar y mantener la interacción a largo plazo, evitando que el usuario abandone prematuramente
- De Orientación a Resultados a Orientación a Procesos: No solo se enfoca en la calidad del resultado final, sino en la efectividad del proceso colaborativo
- Inspiración en Leyes de Escalado: Adopta conceptos de leyes de escalado del aprendizaje automático para estudiar características de escalado de utilidad colaborativa
- Modelado Multietapa: Distingue entre la fase de solicitud inicial y la fase de mejora, capturando más precisamente la dinámica colaborativa
- Plataforma: Entorno Collaborative-Gym, que respalda acciones asincrónicas humano-máquina
- Tarea: Tarea de planificación de viajes, comenzando desde descripciones de alto nivel para desarrollar planes detallados que incluyen itinerarios, alojamiento y transporte
- Modelos Probados: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
- Tipos de Agentes:
- Agente de línea base automatizado
- Agente colaborativo de una etapa
- Agente colaborativo de dos etapas (con paso de planificación adicional)
- Medidas de Desempeño: Media aritmética basada en tasa de aprobación de sentido común y tasa de satisfacción de restricciones
- Usuario Simulado: Agente impulsado por indicaciones basado en GPT-4o, con acceso adicional a preferencias y objetivos del usuario
- Límite de Interacción: Máximo 30 rondas de interacción
- Todos los agentes muestran tendencias de escalado de esfuerzo colaborativo similares: mejora inicial seguida de una meseta alrededor de 5 rondas de interacción
- Los modelos Claude muestran el mejor desempeño, utilizando efectivamente el esfuerzo del usuario para lograr mejoras de desempeño
Según los resultados de la Tabla 1:
| Modelo | Estrategia | Utilidad General | Ganancia de Mejora (Relativa) | Disminución de Disponibilidad (Relativa) |
|---|
| Claude-4.0-sonnet | Una etapa | 0.680 | 5.7% | -20.6% |
| Claude-4.0-sonnet | Dos etapas | 0.681 | 5.2% | -34.9% |
| Claude-3.5-sonnet | Una etapa | 0.450 | 13.6% | -29.7% |
| GPT-4o | Una etapa | 0.507 | 4.9% | -20.8% |
- Claude-3.5-sonnet: La planificación de dos etapas mejora significativamente el desempeño, de 0.450 a 0.687
- Claude-4.0-sonnet: Las estrategias de una y dos etapas logran utilidad final similar, pero con eficiencia diferente
- GPT-4o y Llama-3.1-70b: Las versiones colaborativas no superan la línea base automatizada
- Excepto Claude-4.0-sonnet, otros modelos requieren que el usuario invierta más tokens con beneficios limitados
- Claude-4.0-sonnet mantiene un desempeño sólido en un rango más amplio de proporciones de esfuerzo
- Existe una proporción óptima de esfuerzo agente-usuario dependiente del modelo
- Cuando cualquiera de las partes domina excesivamente la interacción, el desempeño conjunto tiende a disminuir
- La Capacidad Determina la Estrategia: Los modelos con menor capacidad requieren andamiaje de interacción más estructurado
- El Diseño Colaborativo es Crítico: Incluso para modelos poderosos, el diseño de la forma colaborativa impacta significativamente el desempeño general
- El Balance de Esfuerzo es Importante: Existe una proporción óptima de distribución de esfuerzo humano-máquina que debe ajustarse según la capacidad del modelo
- La investigación temprana se enfocó en principios de diseño de colaboración humano-máquina para sistemas de IA limitados
- Los agentes LLM modernos poseen capacidades de interacción más complejas, requiriendo nuevos marcos colaborativos
- Los puntos de referencia existentes se centran principalmente en capacidades de finalización de tareas (como SWE-Bench, WebArena, GAIA)
- Carecen de evaluación sistemática de la calidad del proceso colaborativo
- El trabajo reciente comienza a introducir evaluación interactiva, pero aún se limita a interacción paso a paso estrecha
- Este artículo se enfoca en dinámicas colaborativas en trayectorias de interacción extendidas
- Necesidad de Cambio de Paradigma: La transición de la evaluación de finalización de tareas a la evaluación de capacidades colaborativas es necesaria
- Insuficiencia de Agentes Actuales: Los agentes SOTA tienen un desempeño deficiente en escenarios colaborativos, careciendo de capacidad para mantener participación y respaldar comprensión
- Orientación de Diseño: El marco de escalado del esfuerzo colaborativo proporciona una herramienta efectiva para diagnosticar y mejorar las capacidades colaborativas de agentes
- Alcance Experimental: Los experimentos se realizan solo en un dominio único (planificación de viajes), lo que puede no abarcar todas las dinámicas colaborativas
- Usuario Simulado: El uso de usuarios simulados en lugar de participantes humanos reales puede no reflejar completamente los patrones de interacción reales
- Simplificación de Métricas: El uso de indicadores simplificados de utilidad y esfuerzo, mientras que la complejidad real de la colaboración es mayor
- Entornos de Simulación Más Ricos: Construir escenarios donde los usuarios poseen información privada o conocimiento de dominio
- Marco Colaborativo Adaptativo: Ajustar dinámicamente las estrategias colaborativas según la capacidad del modelo
- Colaboración Multimodal: Extender a escenarios colaborativos que incluyan visual, voz y otras modalidades
- Identificación Precisa del Problema: Identifica con precisión los defectos centrales en la evaluación actual de agentes
- Diseño de Marco Razonable: El marco de escalado del esfuerzo colaborativo tiene conceptos claros y es altamente operacional
- Investigación Empírica Suficiente: Combina estudios de casos y experimentos simulados, proporcionando validación desde múltiples perspectivas
- Alto Valor Práctico: Proporciona orientación de diseño específica para desarrolladores de agentes
- Limitaciones de Evaluación: Los entornos simulados e indicadores sustitutos pueden no captar completamente la complejidad de la colaboración real
- Cobertura de Modelos Limitada: El número de modelos probados es relativamente limitado, la universalidad de las conclusiones requiere verificación adicional
- Efectos a Largo Plazo Desconocidos: Carece de investigación sobre relaciones colaborativas a largo plazo y efectos de aprendizaje
- Contribución Académica: Proporciona un nuevo marco teórico y método de evaluación para la investigación en colaboración humano-máquina
- Valor Práctico: Tiene importancia significativa para la orientación del desarrollo de productos de agentes
- Dirección de Investigación: Puede catalizar más investigación que se enfoque en la calidad colaborativa en lugar de la simple finalización de tareas
- Trabajo de Conocimiento: Dominios como análisis de datos, investigación, consultoría que requieren exploración iterativa
- Educación y Capacitación: Escenarios de aprendizaje que requieren construcción de comprensión progresiva
- Trabajo Creativo: Tareas que requieren creación y mejora conjunta humano-máquina
Este artículo cita un amplio conjunto de trabajos relacionados, incluyendo:
- Principios de diseño de colaboración humano-máquina (Amershi et al., 2019)
- Puntos de referencia de evaluación de agentes (Jimenez et al., 2023; Zhou et al., 2023)
- Métodos de evaluación interactiva (Lee et al., 2023; Shao et al., 2024)
- Investigación relacionada con leyes de escalado (Hoffmann et al., 2022; Kaplan et al., 2020)
Resumen: Este artículo presenta un problema de investigación importante y oportuno, proporcionando un marco sistemático para evaluar y mejorar las capacidades colaborativas de agentes. Aunque existen ciertas limitaciones en la configuración experimental, sus contribuciones teóricas y valor práctico lo convierten en un trabajo importante en el campo de la colaboración humano-máquina. Con el rápido desarrollo de la tecnología de agentes, esta dirección de investigación que se enfoca en la calidad colaborativa en lugar de la simple finalización de tareas se volverá cada vez más importante.