2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

Completion \neq Collaboration: Scaling Collaborative Effort with Agents

基本信息

  • 论文ID: 2510.25744
  • 标题: Completion \neq Collaboration: Scaling Collaborative Effort with Agents
  • 作者: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • 机构: MIT, CMU, University of Washington, Stanford University
  • 分类: cs.CL cs.AI
  • 论文链接: https://arxiv.org/abs/2510.25744
  • 项目链接: https://github.com/clinicalml/collaborative-effort-scaling

摘要

当前的智能体评估主要集中在一次性任务完成上,未能考虑到许多现实问题固有的迭代和协作性质,其中人类目标往往规格不明确且会演化。本文提出从构建和评估任务完成智能体转向开发协作智能体,不仅根据最终输出质量评估,还要看它们在整个问题解决过程中如何与人类互动并增强人类努力。为支持这一转变,作者引入了协作努力扩展(collaborative effort scaling)框架,捕捉智能体效用如何随用户参与度增加而增长。通过案例研究和模拟评估,研究表明最先进的智能体在多轮现实场景中表现不佳,揭示了智能体设计中缺失的要素:维持参与度和支撑用户理解的能力。

研究背景与动机

问题定义

  1. 核心问题:现有智能体主要针对一次性任务完成进行优化,但现实世界的复杂任务往往需要人机协作的迭代过程
  2. 问题重要性:随着LLM智能体在复杂知识工作中的应用增加,如何有效协作成为关键挑战
  3. 现有局限性
    • 假设用户需求是静态和完全指定的
    • 忽视了用户理解构建和目标演化的过程
    • 缺乏对协作过程质量的评估机制

研究动机

作者通过五个领域的案例研究(数据分析、旅行规划、金融咨询、教育、数学发现)发现,当前的任务完成智能体在多轮交互中存在系统性问题:

  • 过早生成难以消化的完整结果
  • 无法有效整合用户反馈
  • 缺乏推理过程的透明度
  • 在用户需求演化时表现不佳

核心贡献

  1. 理论框架:提出协作努力扩展(Collaborative Effort Scaling)框架,从用户努力和联合效用两个维度评估人机协作质量
  2. 评估方法:设计了量化协作智能体性能的指标体系,包括交互可持续性和最大可用性
  3. 实证发现:通过模拟实验证明当前SOTA智能体在协作场景下表现不佳,揭示了协作设计的重要性
  4. 设计洞察:为构建更有效的协作智能体提供了具体的设计指导和诊断工具

方法详解

任务定义

将人机协作建模为部分可观察马尔可夫决策过程(POMDP):

  • 动作序列a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}],其中lt{H,A}l_t \in \{H, A\}表示人类或智能体
  • 上下文窗口c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • 协作轮次:通过人机交接将整个过程分解为轮次ak=a[ik:jk]a_k = a[i_k:j_k]

框架核心组件

1. 双维度评估体系

  • 用户努力(User Effort):用户在协作过程中投入的认知和调研工作
    • 基础度量:人类主导轮次数量aH|a^H|
    • 增强度量:处理的上下文令牌数cA\sum c^A
  • 联合效用(Utility of Joint Actions):人机团队共同完成的工作质量

2. 关键指标定义

整体效用U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

改进增益G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

可用性下降D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. 理想协作属性

  • 交互可持续性:智能体应随用户努力增加产生更大价值
  • 最大可用性:智能体应鼓励并维持长期交互,避免用户过早放弃

技术创新点

  1. 从结果导向到过程导向:不仅关注最终输出质量,更重视协作过程的有效性
  2. 扩展定律启发:借鉴机器学习中的扩展定律概念,研究协作效用的扩展特性
  3. 多阶段建模:区分初始请求阶段和改进阶段,更精确地捕捉协作动态

实验设置

实验环境

  • 平台:Collaborative-Gym环境,支持异步人机动作
  • 任务:旅行规划任务,从高层描述开始制定包含行程、住宿和交通的详细计划

模型配置

  • 测试模型:GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • 智能体类型
    • 自动化基线智能体
    • 一阶段协作智能体
    • 二阶段协作智能体(增加规划步骤)

评估设置

  • 性能度量:基于常识通过率和约束满足率的算术平均
  • 模拟用户:基于GPT-4o的提示智能体,具有用户偏好和目标的额外访问权限
  • 交互限制:最大30轮交互

实验结果

主要发现

1. 协作效用扩展趋势

  • 所有智能体都表现出相似的协作努力扩展趋势:初期改进后在约5轮交互后达到平台期
  • Claude系列模型表现最佳,能够有效利用用户努力实现性能提升

2. 模型间差异显著

根据Table 1的结果:

模型策略整体效用改进增益(相对)可用性下降(相对)
Claude-4.0-sonnet一阶段0.6805.7%-20.6%
Claude-4.0-sonnet二阶段0.6815.2%-34.9%
Claude-3.5-sonnet一阶段0.45013.6%-29.7%
GPT-4o一阶段0.5074.9%-20.8%

3. 协作策略影响

  • Claude-3.5-sonnet:二阶段规划显著提升性能,从0.450提升至0.687
  • Claude-4.0-sonnet:一阶段和二阶段策略达到相似的最终效用,但效率不同
  • GPT-4o和Llama-3.1-70b:协作版本未能超越自动化基线

努力分配分析

用户努力差异

  • 除Claude-4.0-sonnet外,其他模型需要用户投入更多令牌而收益有限
  • Claude-4.0-sonnet在更广泛的努力比例范围内保持强劲性能

最优努力平衡

  • 存在模型依赖的最优智能体-用户努力比例
  • 当任一方过度主导交互时,联合性能趋于下降

实验发现

  1. 能力决定策略:模型能力较弱时需要更多结构化交互支架
  2. 协作设计关键:即使是强大的模型,协作方式的设计也显著影响整体性能
  3. 努力平衡重要:存在最优的人机努力分配比例,需要根据模型能力调整

相关工作

人机协作研究

  • 早期研究关注有限AI系统的人机协作设计准则
  • 现代LLM智能体具备更复杂的交互能力,需要新的协作框架

智能体评估基准

  • 现有基准主要关注任务完成能力(如SWE-Bench, WebArena, GAIA)
  • 缺乏对协作过程质量的系统评估

交互式评估

  • 近期工作开始引入交互式评估,但仍局限于窄化的逐步交互
  • 本文关注扩展交互轨迹中的协作动态

结论与讨论

主要结论

  1. 范式转变必要性:从任务完成向协作能力的评估转变是必要的
  2. 当前智能体不足:SOTA智能体在协作场景下表现不佳,缺乏维持参与和支撑理解的能力
  3. 设计指导:协作努力扩展框架为诊断和改进智能体协作能力提供了有效工具

局限性

  1. 实验范围:仅在单一域(旅行规划)进行实验,可能无法涵盖所有协作动态
  2. 模拟用户:使用模拟用户而非真实人类参与者,可能无法完全反映真实交互模式
  3. 度量简化:使用简化的效用和努力代理指标,真实协作的复杂性更高

未来方向

  1. 更丰富的模拟环境:构建用户拥有私有信息或领域知识的场景
  2. 自适应协作框架:根据模型能力动态调整协作策略
  3. 多模态协作:扩展到包含视觉、语音等多模态的协作场景

深度评价

优点

  1. 问题识别准确:准确识别了当前智能体评估的核心缺陷
  2. 框架设计合理:协作努力扩展框架概念清晰,操作性强
  3. 实证研究充分:结合案例研究和模拟实验,提供了多角度验证
  4. 实用价值高:为智能体开发者提供了具体的设计指导

不足

  1. 评估局限性:模拟环境和代理指标可能无法完全捕捉真实协作的复杂性
  2. 模型覆盖有限:测试的模型数量相对有限,结论的普适性有待验证
  3. 长期效果未知:缺乏对长期协作关系和学习效果的研究

影响力

  1. 学术贡献:为人机协作研究提供了新的理论框架和评估方法
  2. 实用价值:对智能体产品开发具有重要指导意义
  3. 研究方向:可能催生更多关注协作质量而非单纯任务完成的研究

适用场景

  1. 知识工作:数据分析、研究、咨询等需要迭代探索的领域
  2. 教育培训:需要渐进式理解构建的学习场景
  3. 创意工作:需要人机共同创造和改进的任务

参考文献

本文引用了广泛的相关工作,包括:

  • 人机协作设计准则(Amershi et al., 2019)
  • 智能体评估基准(Jimenez et al., 2023; Zhou et al., 2023)
  • 交互式评估方法(Lee et al., 2023; Shao et al., 2024)
  • 扩展定律相关研究(Hoffmann et al., 2022; Kaplan et al., 2020)

总结:这篇论文提出了一个重要且及时的研究问题,为评估和改进智能体的协作能力提供了系统性的框架。虽然在实验设置上存在一定局限性,但其理论贡献和实用价值使其成为人机协作领域的重要工作。随着智能体技术的快速发展,这种关注协作质量而非单纯任务完成的研究方向将变得越来越重要。