2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.

Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.

academic

Finalización $\neq$ Colaboración: Escalado del Esfuerzo Colaborativo con Agentes

Información Básica

ID del Artículo: 2510.25744
Título: Finalización $\neq$ Colaboración: Escalado del Esfuerzo Colaborativo con Agentes
Autores: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
Instituciones: MIT, CMU, University of Washington, Stanford University
Clasificación: cs.CL cs.AI
Enlace del Artículo: https://arxiv.org/abs/2510.25744
Enlace del Proyecto: https://github.com/clinicalml/collaborative-effort-scaling

Resumen

La evaluación actual de agentes se centra principalmente en la finalización de tareas únicas, sin considerar la naturaleza iterativa y colaborativa inherente a muchos problemas reales, donde los objetivos humanos suelen estar mal especificados y evolucionan. Este artículo propone una transición desde la construcción y evaluación de agentes de finalización de tareas hacia el desarrollo de agentes colaborativos, evaluados no solo por la calidad del resultado final, sino también por cómo interactúan con los humanos y potencian el esfuerzo humano durante todo el proceso de resolución de problemas. Para respaldar este cambio, los autores introducen el marco de escalado del esfuerzo colaborativo, que captura cómo la utilidad del agente crece con el aumento de la participación del usuario. A través de estudios de casos y evaluaciones simuladas, la investigación demuestra que los agentes de última generación tienen un desempeño deficiente en escenarios reales de múltiples rondas, revelando elementos faltantes en el diseño de agentes: la capacidad de mantener la participación y respaldar la comprensión del usuario.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los agentes existentes se optimizan principalmente para la finalización de tareas únicas, pero las tareas complejas del mundo real a menudo requieren procesos iterativos de colaboración humano-máquina
Importancia del Problema: Con el aumento de la aplicación de agentes LLM en trabajos de conocimiento complejo, cómo colaborar efectivamente se convierte en un desafío clave
Limitaciones Existentes:
- Suponen que los requisitos del usuario son estáticos y completamente especificados
- Ignoran el proceso de construcción de comprensión del usuario y evolución de objetivos
- Carecen de mecanismos de evaluación para la calidad del proceso colaborativo

Motivación de la Investigación

Los autores, a través de estudios de casos en cinco dominios (análisis de datos, planificación de viajes, asesoramiento financiero, educación, descubrimiento matemático), descubren problemas sistemáticos en agentes de finalización de tareas actuales durante interacciones de múltiples rondas:

Generación prematura de resultados completos difíciles de digerir
Incapacidad para integrar efectivamente la retroalimentación del usuario
Falta de transparencia en el proceso de razonamiento
Desempeño deficiente cuando los requisitos del usuario evolucionan

Contribuciones Principales

Marco Teórico: Propone el marco de Escalado del Esfuerzo Colaborativo, que evalúa la calidad de la colaboración humano-máquina desde dos dimensiones: esfuerzo del usuario y utilidad conjunta
Método de Evaluación: Diseña un sistema de métricas para cuantificar el desempeño de agentes colaborativos, incluyendo sostenibilidad de la interacción y disponibilidad máxima
Hallazgos Empíricos: Demuestra a través de experimentos simulados que los agentes SOTA actuales tienen un desempeño deficiente en escenarios colaborativos, revelando la importancia del diseño colaborativo
Perspectivas de Diseño: Proporciona orientación de diseño específica y herramientas de diagnóstico para construir agentes colaborativos más efectivos

Detalles Metodológicos

Definición de Tareas

Se modela la colaboración humano-máquina como un Proceso de Decisión de Markov Parcialmente Observable (POMDP):

Secuencia de Acciones: $a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}]$ , donde $l_t \in \{H, A\}$ denota humano o agente
Ventana de Contexto: $c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]$
Rondas Colaborativas: Se descompone el proceso completo en rondas $a_k = a[i_k:j_k]$ mediante transiciones humano-máquina

Componentes Principales del Marco

1. Sistema de Evaluación Bidimensional

Esfuerzo del Usuario: El trabajo cognitivo e investigativo invertido por el usuario en el proceso colaborativo
- Métrica Base: Número de rondas dirigidas por humanos $|a^H|$
- Métrica Mejorada: Número de tokens de contexto procesados $\sum c^A$
Utilidad de Acciones Conjuntas: La calidad del trabajo completado conjuntamente por el equipo humano-máquina

2. Definición de Indicadores Clave

Utilidad General: $U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}$

Ganancia de Mejora: $G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}$

Disminución de Disponibilidad: $D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}$

3. Propiedades de Colaboración Ideal

Sostenibilidad de la Interacción: El agente debe generar mayor valor a medida que aumenta el esfuerzo del usuario
Disponibilidad Máxima: El agente debe alentar y mantener la interacción a largo plazo, evitando que el usuario abandone prematuramente

Puntos de Innovación Técnica

De Orientación a Resultados a Orientación a Procesos: No solo se enfoca en la calidad del resultado final, sino en la efectividad del proceso colaborativo
Inspiración en Leyes de Escalado: Adopta conceptos de leyes de escalado del aprendizaje automático para estudiar características de escalado de utilidad colaborativa
Modelado Multietapa: Distingue entre la fase de solicitud inicial y la fase de mejora, capturando más precisamente la dinámica colaborativa

Configuración Experimental

Entorno Experimental

Plataforma: Entorno Collaborative-Gym, que respalda acciones asincrónicas humano-máquina
Tarea: Tarea de planificación de viajes, comenzando desde descripciones de alto nivel para desarrollar planes detallados que incluyen itinerarios, alojamiento y transporte

Configuración de Modelos

Modelos Probados: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
Tipos de Agentes:
- Agente de línea base automatizado
- Agente colaborativo de una etapa
- Agente colaborativo de dos etapas (con paso de planificación adicional)

Configuración de Evaluación

Medidas de Desempeño: Media aritmética basada en tasa de aprobación de sentido común y tasa de satisfacción de restricciones
Usuario Simulado: Agente impulsado por indicaciones basado en GPT-4o, con acceso adicional a preferencias y objetivos del usuario
Límite de Interacción: Máximo 30 rondas de interacción

Resultados Experimentales

Hallazgos Principales

1. Tendencias de Escalado de Utilidad Colaborativa

Todos los agentes muestran tendencias de escalado de esfuerzo colaborativo similares: mejora inicial seguida de una meseta alrededor de 5 rondas de interacción
Los modelos Claude muestran el mejor desempeño, utilizando efectivamente el esfuerzo del usuario para lograr mejoras de desempeño

2. Diferencias Significativas Entre Modelos

Según los resultados de la Tabla 1:

Modelo	Estrategia	Utilidad General	Ganancia de Mejora (Relativa)	Disminución de Disponibilidad (Relativa)
Claude-4.0-sonnet	Una etapa	0.680	5.7%	-20.6%
Claude-4.0-sonnet	Dos etapas	0.681	5.2%	-34.9%
Claude-3.5-sonnet	Una etapa	0.450	13.6%	-29.7%
GPT-4o	Una etapa	0.507	4.9%	-20.8%

3. Impacto de Estrategias Colaborativas

Claude-3.5-sonnet: La planificación de dos etapas mejora significativamente el desempeño, de 0.450 a 0.687
Claude-4.0-sonnet: Las estrategias de una y dos etapas logran utilidad final similar, pero con eficiencia diferente
GPT-4o y Llama-3.1-70b: Las versiones colaborativas no superan la línea base automatizada

Análisis de Distribución de Esfuerzo

Variaciones en el Esfuerzo del Usuario

Excepto Claude-4.0-sonnet, otros modelos requieren que el usuario invierta más tokens con beneficios limitados
Claude-4.0-sonnet mantiene un desempeño sólido en un rango más amplio de proporciones de esfuerzo

Balance de Esfuerzo Óptimo

Existe una proporción óptima de esfuerzo agente-usuario dependiente del modelo
Cuando cualquiera de las partes domina excesivamente la interacción, el desempeño conjunto tiende a disminuir

Hallazgos Experimentales

La Capacidad Determina la Estrategia: Los modelos con menor capacidad requieren andamiaje de interacción más estructurado
El Diseño Colaborativo es Crítico: Incluso para modelos poderosos, el diseño de la forma colaborativa impacta significativamente el desempeño general
El Balance de Esfuerzo es Importante: Existe una proporción óptima de distribución de esfuerzo humano-máquina que debe ajustarse según la capacidad del modelo

Trabajo Relacionado

Investigación en Colaboración Humano-Máquina

La investigación temprana se enfocó en principios de diseño de colaboración humano-máquina para sistemas de IA limitados
Los agentes LLM modernos poseen capacidades de interacción más complejas, requiriendo nuevos marcos colaborativos

Puntos de Referencia de Evaluación de Agentes

Los puntos de referencia existentes se centran principalmente en capacidades de finalización de tareas (como SWE-Bench, WebArena, GAIA)
Carecen de evaluación sistemática de la calidad del proceso colaborativo

Evaluación Interactiva

El trabajo reciente comienza a introducir evaluación interactiva, pero aún se limita a interacción paso a paso estrecha
Este artículo se enfoca en dinámicas colaborativas en trayectorias de interacción extendidas

Conclusiones y Discusión

Conclusiones Principales

Necesidad de Cambio de Paradigma: La transición de la evaluación de finalización de tareas a la evaluación de capacidades colaborativas es necesaria
Insuficiencia de Agentes Actuales: Los agentes SOTA tienen un desempeño deficiente en escenarios colaborativos, careciendo de capacidad para mantener participación y respaldar comprensión
Orientación de Diseño: El marco de escalado del esfuerzo colaborativo proporciona una herramienta efectiva para diagnosticar y mejorar las capacidades colaborativas de agentes

Limitaciones

Alcance Experimental: Los experimentos se realizan solo en un dominio único (planificación de viajes), lo que puede no abarcar todas las dinámicas colaborativas
Usuario Simulado: El uso de usuarios simulados en lugar de participantes humanos reales puede no reflejar completamente los patrones de interacción reales
Simplificación de Métricas: El uso de indicadores simplificados de utilidad y esfuerzo, mientras que la complejidad real de la colaboración es mayor

Direcciones Futuras

Entornos de Simulación Más Ricos: Construir escenarios donde los usuarios poseen información privada o conocimiento de dominio
Marco Colaborativo Adaptativo: Ajustar dinámicamente las estrategias colaborativas según la capacidad del modelo
Colaboración Multimodal: Extender a escenarios colaborativos que incluyan visual, voz y otras modalidades

Evaluación Profunda

Fortalezas

Identificación Precisa del Problema: Identifica con precisión los defectos centrales en la evaluación actual de agentes
Diseño de Marco Razonable: El marco de escalado del esfuerzo colaborativo tiene conceptos claros y es altamente operacional
Investigación Empírica Suficiente: Combina estudios de casos y experimentos simulados, proporcionando validación desde múltiples perspectivas
Alto Valor Práctico: Proporciona orientación de diseño específica para desarrolladores de agentes

Insuficiencias

Limitaciones de Evaluación: Los entornos simulados e indicadores sustitutos pueden no captar completamente la complejidad de la colaboración real
Cobertura de Modelos Limitada: El número de modelos probados es relativamente limitado, la universalidad de las conclusiones requiere verificación adicional
Efectos a Largo Plazo Desconocidos: Carece de investigación sobre relaciones colaborativas a largo plazo y efectos de aprendizaje

Impacto

Contribución Académica: Proporciona un nuevo marco teórico y método de evaluación para la investigación en colaboración humano-máquina
Valor Práctico: Tiene importancia significativa para la orientación del desarrollo de productos de agentes
Dirección de Investigación: Puede catalizar más investigación que se enfoque en la calidad colaborativa en lugar de la simple finalización de tareas

Escenarios Aplicables

Trabajo de Conocimiento: Dominios como análisis de datos, investigación, consultoría que requieren exploración iterativa
Educación y Capacitación: Escenarios de aprendizaje que requieren construcción de comprensión progresiva
Trabajo Creativo: Tareas que requieren creación y mejora conjunta humano-máquina

Referencias

Este artículo cita un amplio conjunto de trabajos relacionados, incluyendo:

Principios de diseño de colaboración humano-máquina (Amershi et al., 2019)
Puntos de referencia de evaluación de agentes (Jimenez et al., 2023; Zhou et al., 2023)
Métodos de evaluación interactiva (Lee et al., 2023; Shao et al., 2024)
Investigación relacionada con leyes de escalado (Hoffmann et al., 2022; Kaplan et al., 2020)

Resumen: Este artículo presenta un problema de investigación importante y oportuno, proporcionando un marco sistemático para evaluar y mejorar las capacidades colaborativas de agentes. Aunque existen ciertas limitaciones en la configuración experimental, sus contribuciones teóricas y valor práctico lo convierten en un trabajo importante en el campo de la colaboración humano-máquina. Con el rápido desarrollo de la tecnología de agentes, esta dirección de investigación que se enfoca en la calidad colaborativa en lugar de la simple finalización de tareas se volverá cada vez más importante.

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Finalización ≠\neq= Colaboración: Escalado del Esfuerzo Colaborativo con Agentes

Finalización $\neq$ Colaboración: Escalado del Esfuerzo Colaborativo con Agentes