2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.

Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.

academic

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

基本信息

论文ID: 2510.25744
标题: Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents
作者: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
机构: MIT, CMU, University of Washington, Stanford University
分类: cs.CL cs.AI
论文链接: https://arxiv.org/abs/2510.25744
项目链接: https://github.com/clinicalml/collaborative-effort-scaling

摘要

当前的智能体评估主要集中在一次性任务完成上，未能考虑到许多现实问题固有的迭代和协作性质，其中人类目标往往规格不明确且会演化。本文提出从构建和评估任务完成智能体转向开发协作智能体，不仅根据最终输出质量评估，还要看它们在整个问题解决过程中如何与人类互动并增强人类努力。为支持这一转变，作者引入了协作努力扩展（collaborative effort scaling）框架，捕捉智能体效用如何随用户参与度增加而增长。通过案例研究和模拟评估，研究表明最先进的智能体在多轮现实场景中表现不佳，揭示了智能体设计中缺失的要素：维持参与度和支撑用户理解的能力。

研究背景与动机

问题定义

核心问题：现有智能体主要针对一次性任务完成进行优化，但现实世界的复杂任务往往需要人机协作的迭代过程
问题重要性：随着LLM智能体在复杂知识工作中的应用增加，如何有效协作成为关键挑战
现有局限性：
- 假设用户需求是静态和完全指定的
- 忽视了用户理解构建和目标演化的过程
- 缺乏对协作过程质量的评估机制

研究动机

作者通过五个领域的案例研究（数据分析、旅行规划、金融咨询、教育、数学发现）发现，当前的任务完成智能体在多轮交互中存在系统性问题：

过早生成难以消化的完整结果
无法有效整合用户反馈
缺乏推理过程的透明度
在用户需求演化时表现不佳

核心贡献

理论框架：提出协作努力扩展（Collaborative Effort Scaling）框架，从用户努力和联合效用两个维度评估人机协作质量
评估方法：设计了量化协作智能体性能的指标体系，包括交互可持续性和最大可用性
实证发现：通过模拟实验证明当前SOTA智能体在协作场景下表现不佳，揭示了协作设计的重要性
设计洞察：为构建更有效的协作智能体提供了具体的设计指导和诊断工具

方法详解

任务定义

将人机协作建模为部分可观察马尔可夫决策过程(POMDP)：

动作序列： $a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}]$ ，其中 $l_t \in \{H, A\}$ 表示人类或智能体
上下文窗口： $c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]$
协作轮次：通过人机交接将整个过程分解为轮次 $a_k = a[i_k:j_k]$

框架核心组件

1. 双维度评估体系

用户努力(User Effort)：用户在协作过程中投入的认知和调研工作
- 基础度量：人类主导轮次数量 $|a^H|$
- 增强度量：处理的上下文令牌数 $\sum c^A$
联合效用(Utility of Joint Actions)：人机团队共同完成的工作质量

2. 关键指标定义

整体效用： $U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}$

改进增益： $G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}$

可用性下降： $D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}$

3. 理想协作属性

交互可持续性：智能体应随用户努力增加产生更大价值
最大可用性：智能体应鼓励并维持长期交互，避免用户过早放弃

技术创新点

从结果导向到过程导向：不仅关注最终输出质量，更重视协作过程的有效性
扩展定律启发：借鉴机器学习中的扩展定律概念，研究协作效用的扩展特性
多阶段建模：区分初始请求阶段和改进阶段，更精确地捕捉协作动态

实验设置

实验环境

平台：Collaborative-Gym环境，支持异步人机动作
任务：旅行规划任务，从高层描述开始制定包含行程、住宿和交通的详细计划

模型配置

测试模型：GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
智能体类型：
- 自动化基线智能体
- 一阶段协作智能体
- 二阶段协作智能体（增加规划步骤）

评估设置

性能度量：基于常识通过率和约束满足率的算术平均
模拟用户：基于GPT-4o的提示智能体，具有用户偏好和目标的额外访问权限
交互限制：最大30轮交互

实验结果

主要发现

1. 协作效用扩展趋势

所有智能体都表现出相似的协作努力扩展趋势：初期改进后在约5轮交互后达到平台期
Claude系列模型表现最佳，能够有效利用用户努力实现性能提升

2. 模型间差异显著

根据Table 1的结果：

模型	策略	整体效用	改进增益(相对)	可用性下降(相对)
Claude-4.0-sonnet	一阶段	0.680	5.7%	-20.6%
Claude-4.0-sonnet	二阶段	0.681	5.2%	-34.9%
Claude-3.5-sonnet	一阶段	0.450	13.6%	-29.7%
GPT-4o	一阶段	0.507	4.9%	-20.8%