2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

Finalización \neq Colaboración: Escalado del Esfuerzo Colaborativo con Agentes

Información Básica

  • ID del Artículo: 2510.25744
  • Título: Finalización \neq Colaboración: Escalado del Esfuerzo Colaborativo con Agentes
  • Autores: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • Instituciones: MIT, CMU, University of Washington, Stanford University
  • Clasificación: cs.CL cs.AI
  • Enlace del Artículo: https://arxiv.org/abs/2510.25744
  • Enlace del Proyecto: https://github.com/clinicalml/collaborative-effort-scaling

Resumen

La evaluación actual de agentes se centra principalmente en la finalización de tareas únicas, sin considerar la naturaleza iterativa y colaborativa inherente a muchos problemas reales, donde los objetivos humanos suelen estar mal especificados y evolucionan. Este artículo propone una transición desde la construcción y evaluación de agentes de finalización de tareas hacia el desarrollo de agentes colaborativos, evaluados no solo por la calidad del resultado final, sino también por cómo interactúan con los humanos y potencian el esfuerzo humano durante todo el proceso de resolución de problemas. Para respaldar este cambio, los autores introducen el marco de escalado del esfuerzo colaborativo, que captura cómo la utilidad del agente crece con el aumento de la participación del usuario. A través de estudios de casos y evaluaciones simuladas, la investigación demuestra que los agentes de última generación tienen un desempeño deficiente en escenarios reales de múltiples rondas, revelando elementos faltantes en el diseño de agentes: la capacidad de mantener la participación y respaldar la comprensión del usuario.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los agentes existentes se optimizan principalmente para la finalización de tareas únicas, pero las tareas complejas del mundo real a menudo requieren procesos iterativos de colaboración humano-máquina
  2. Importancia del Problema: Con el aumento de la aplicación de agentes LLM en trabajos de conocimiento complejo, cómo colaborar efectivamente se convierte en un desafío clave
  3. Limitaciones Existentes:
    • Suponen que los requisitos del usuario son estáticos y completamente especificados
    • Ignoran el proceso de construcción de comprensión del usuario y evolución de objetivos
    • Carecen de mecanismos de evaluación para la calidad del proceso colaborativo

Motivación de la Investigación

Los autores, a través de estudios de casos en cinco dominios (análisis de datos, planificación de viajes, asesoramiento financiero, educación, descubrimiento matemático), descubren problemas sistemáticos en agentes de finalización de tareas actuales durante interacciones de múltiples rondas:

  • Generación prematura de resultados completos difíciles de digerir
  • Incapacidad para integrar efectivamente la retroalimentación del usuario
  • Falta de transparencia en el proceso de razonamiento
  • Desempeño deficiente cuando los requisitos del usuario evolucionan

Contribuciones Principales

  1. Marco Teórico: Propone el marco de Escalado del Esfuerzo Colaborativo, que evalúa la calidad de la colaboración humano-máquina desde dos dimensiones: esfuerzo del usuario y utilidad conjunta
  2. Método de Evaluación: Diseña un sistema de métricas para cuantificar el desempeño de agentes colaborativos, incluyendo sostenibilidad de la interacción y disponibilidad máxima
  3. Hallazgos Empíricos: Demuestra a través de experimentos simulados que los agentes SOTA actuales tienen un desempeño deficiente en escenarios colaborativos, revelando la importancia del diseño colaborativo
  4. Perspectivas de Diseño: Proporciona orientación de diseño específica y herramientas de diagnóstico para construir agentes colaborativos más efectivos

Detalles Metodológicos

Definición de Tareas

Se modela la colaboración humano-máquina como un Proceso de Decisión de Markov Parcialmente Observable (POMDP):

  • Secuencia de Acciones: a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}], donde lt{H,A}l_t \in \{H, A\} denota humano o agente
  • Ventana de Contexto: c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • Rondas Colaborativas: Se descompone el proceso completo en rondas ak=a[ik:jk]a_k = a[i_k:j_k] mediante transiciones humano-máquina

Componentes Principales del Marco

1. Sistema de Evaluación Bidimensional

  • Esfuerzo del Usuario: El trabajo cognitivo e investigativo invertido por el usuario en el proceso colaborativo
    • Métrica Base: Número de rondas dirigidas por humanos aH|a^H|
    • Métrica Mejorada: Número de tokens de contexto procesados cA\sum c^A
  • Utilidad de Acciones Conjuntas: La calidad del trabajo completado conjuntamente por el equipo humano-máquina

2. Definición de Indicadores Clave

Utilidad General: U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

Ganancia de Mejora: G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

Disminución de Disponibilidad: D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. Propiedades de Colaboración Ideal

  • Sostenibilidad de la Interacción: El agente debe generar mayor valor a medida que aumenta el esfuerzo del usuario
  • Disponibilidad Máxima: El agente debe alentar y mantener la interacción a largo plazo, evitando que el usuario abandone prematuramente

Puntos de Innovación Técnica

  1. De Orientación a Resultados a Orientación a Procesos: No solo se enfoca en la calidad del resultado final, sino en la efectividad del proceso colaborativo
  2. Inspiración en Leyes de Escalado: Adopta conceptos de leyes de escalado del aprendizaje automático para estudiar características de escalado de utilidad colaborativa
  3. Modelado Multietapa: Distingue entre la fase de solicitud inicial y la fase de mejora, capturando más precisamente la dinámica colaborativa

Configuración Experimental

Entorno Experimental

  • Plataforma: Entorno Collaborative-Gym, que respalda acciones asincrónicas humano-máquina
  • Tarea: Tarea de planificación de viajes, comenzando desde descripciones de alto nivel para desarrollar planes detallados que incluyen itinerarios, alojamiento y transporte

Configuración de Modelos

  • Modelos Probados: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • Tipos de Agentes:
    • Agente de línea base automatizado
    • Agente colaborativo de una etapa
    • Agente colaborativo de dos etapas (con paso de planificación adicional)

Configuración de Evaluación

  • Medidas de Desempeño: Media aritmética basada en tasa de aprobación de sentido común y tasa de satisfacción de restricciones
  • Usuario Simulado: Agente impulsado por indicaciones basado en GPT-4o, con acceso adicional a preferencias y objetivos del usuario
  • Límite de Interacción: Máximo 30 rondas de interacción

Resultados Experimentales

Hallazgos Principales

1. Tendencias de Escalado de Utilidad Colaborativa

  • Todos los agentes muestran tendencias de escalado de esfuerzo colaborativo similares: mejora inicial seguida de una meseta alrededor de 5 rondas de interacción
  • Los modelos Claude muestran el mejor desempeño, utilizando efectivamente el esfuerzo del usuario para lograr mejoras de desempeño

2. Diferencias Significativas Entre Modelos

Según los resultados de la Tabla 1:

ModeloEstrategiaUtilidad GeneralGanancia de Mejora (Relativa)Disminución de Disponibilidad (Relativa)
Claude-4.0-sonnetUna etapa0.6805.7%-20.6%
Claude-4.0-sonnetDos etapas0.6815.2%-34.9%
Claude-3.5-sonnetUna etapa0.45013.6%-29.7%
GPT-4oUna etapa0.5074.9%-20.8%

3. Impacto de Estrategias Colaborativas

  • Claude-3.5-sonnet: La planificación de dos etapas mejora significativamente el desempeño, de 0.450 a 0.687
  • Claude-4.0-sonnet: Las estrategias de una y dos etapas logran utilidad final similar, pero con eficiencia diferente
  • GPT-4o y Llama-3.1-70b: Las versiones colaborativas no superan la línea base automatizada

Análisis de Distribución de Esfuerzo

Variaciones en el Esfuerzo del Usuario

  • Excepto Claude-4.0-sonnet, otros modelos requieren que el usuario invierta más tokens con beneficios limitados
  • Claude-4.0-sonnet mantiene un desempeño sólido en un rango más amplio de proporciones de esfuerzo

Balance de Esfuerzo Óptimo

  • Existe una proporción óptima de esfuerzo agente-usuario dependiente del modelo
  • Cuando cualquiera de las partes domina excesivamente la interacción, el desempeño conjunto tiende a disminuir

Hallazgos Experimentales

  1. La Capacidad Determina la Estrategia: Los modelos con menor capacidad requieren andamiaje de interacción más estructurado
  2. El Diseño Colaborativo es Crítico: Incluso para modelos poderosos, el diseño de la forma colaborativa impacta significativamente el desempeño general
  3. El Balance de Esfuerzo es Importante: Existe una proporción óptima de distribución de esfuerzo humano-máquina que debe ajustarse según la capacidad del modelo

Trabajo Relacionado

Investigación en Colaboración Humano-Máquina

  • La investigación temprana se enfocó en principios de diseño de colaboración humano-máquina para sistemas de IA limitados
  • Los agentes LLM modernos poseen capacidades de interacción más complejas, requiriendo nuevos marcos colaborativos

Puntos de Referencia de Evaluación de Agentes

  • Los puntos de referencia existentes se centran principalmente en capacidades de finalización de tareas (como SWE-Bench, WebArena, GAIA)
  • Carecen de evaluación sistemática de la calidad del proceso colaborativo

Evaluación Interactiva

  • El trabajo reciente comienza a introducir evaluación interactiva, pero aún se limita a interacción paso a paso estrecha
  • Este artículo se enfoca en dinámicas colaborativas en trayectorias de interacción extendidas

Conclusiones y Discusión

Conclusiones Principales

  1. Necesidad de Cambio de Paradigma: La transición de la evaluación de finalización de tareas a la evaluación de capacidades colaborativas es necesaria
  2. Insuficiencia de Agentes Actuales: Los agentes SOTA tienen un desempeño deficiente en escenarios colaborativos, careciendo de capacidad para mantener participación y respaldar comprensión
  3. Orientación de Diseño: El marco de escalado del esfuerzo colaborativo proporciona una herramienta efectiva para diagnosticar y mejorar las capacidades colaborativas de agentes

Limitaciones

  1. Alcance Experimental: Los experimentos se realizan solo en un dominio único (planificación de viajes), lo que puede no abarcar todas las dinámicas colaborativas
  2. Usuario Simulado: El uso de usuarios simulados en lugar de participantes humanos reales puede no reflejar completamente los patrones de interacción reales
  3. Simplificación de Métricas: El uso de indicadores simplificados de utilidad y esfuerzo, mientras que la complejidad real de la colaboración es mayor

Direcciones Futuras

  1. Entornos de Simulación Más Ricos: Construir escenarios donde los usuarios poseen información privada o conocimiento de dominio
  2. Marco Colaborativo Adaptativo: Ajustar dinámicamente las estrategias colaborativas según la capacidad del modelo
  3. Colaboración Multimodal: Extender a escenarios colaborativos que incluyan visual, voz y otras modalidades

Evaluación Profunda

Fortalezas

  1. Identificación Precisa del Problema: Identifica con precisión los defectos centrales en la evaluación actual de agentes
  2. Diseño de Marco Razonable: El marco de escalado del esfuerzo colaborativo tiene conceptos claros y es altamente operacional
  3. Investigación Empírica Suficiente: Combina estudios de casos y experimentos simulados, proporcionando validación desde múltiples perspectivas
  4. Alto Valor Práctico: Proporciona orientación de diseño específica para desarrolladores de agentes

Insuficiencias

  1. Limitaciones de Evaluación: Los entornos simulados e indicadores sustitutos pueden no captar completamente la complejidad de la colaboración real
  2. Cobertura de Modelos Limitada: El número de modelos probados es relativamente limitado, la universalidad de las conclusiones requiere verificación adicional
  3. Efectos a Largo Plazo Desconocidos: Carece de investigación sobre relaciones colaborativas a largo plazo y efectos de aprendizaje

Impacto

  1. Contribución Académica: Proporciona un nuevo marco teórico y método de evaluación para la investigación en colaboración humano-máquina
  2. Valor Práctico: Tiene importancia significativa para la orientación del desarrollo de productos de agentes
  3. Dirección de Investigación: Puede catalizar más investigación que se enfoque en la calidad colaborativa en lugar de la simple finalización de tareas

Escenarios Aplicables

  1. Trabajo de Conocimiento: Dominios como análisis de datos, investigación, consultoría que requieren exploración iterativa
  2. Educación y Capacitación: Escenarios de aprendizaje que requieren construcción de comprensión progresiva
  3. Trabajo Creativo: Tareas que requieren creación y mejora conjunta humano-máquina

Referencias

Este artículo cita un amplio conjunto de trabajos relacionados, incluyendo:

  • Principios de diseño de colaboración humano-máquina (Amershi et al., 2019)
  • Puntos de referencia de evaluación de agentes (Jimenez et al., 2023; Zhou et al., 2023)
  • Métodos de evaluación interactiva (Lee et al., 2023; Shao et al., 2024)
  • Investigación relacionada con leyes de escalado (Hoffmann et al., 2022; Kaplan et al., 2020)

Resumen: Este artículo presenta un problema de investigación importante y oportuno, proporcionando un marco sistemático para evaluar y mejorar las capacidades colaborativas de agentes. Aunque existen ciertas limitaciones en la configuración experimental, sus contribuciones teóricas y valor práctico lo convierten en un trabajo importante en el campo de la colaboración humano-máquina. Con el rápido desarrollo de la tecnología de agentes, esta dirección de investigación que se enfoca en la calidad colaborativa en lugar de la simple finalización de tareas se volverá cada vez más importante.