2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

완성 \neq 협력: 에이전트를 통한 협력 노력의 확장

기본 정보

  • 논문 ID: 2510.25744
  • 제목: Completion \neq Collaboration: Scaling Collaborative Effort with Agents
  • 저자: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • 기관: MIT, CMU, University of Washington, Stanford University
  • 분류: cs.CL cs.AI
  • 논문 링크: https://arxiv.org/abs/2510.25744
  • 프로젝트 링크: https://github.com/clinicalml/collaborative-effort-scaling

초록

현재의 에이전트 평가는 주로 일회성 작업 완성에 집중하고 있으며, 많은 현실 문제에 내재된 반복적이고 협력적인 특성을 고려하지 못하고 있습니다. 이러한 문제에서 인간의 목표는 종종 명확하지 않으며 진화합니다. 본 논문은 작업 완성 에이전트 구축 및 평가에서 협력 에이전트 개발로의 전환을 제안하며, 최종 출력 품질뿐만 아니라 전체 문제 해결 과정에서 에이전트가 인간과 상호작용하고 인간의 노력을 증대시키는 방식도 평가해야 합니다. 이러한 전환을 지원하기 위해 저자들은 협력 노력 확장(collaborative effort scaling) 프레임워크를 도입하여 사용자 참여도 증가에 따른 에이전트 유용성의 변화를 포착합니다. 사례 연구 및 시뮬레이션 평가를 통해, 최첨단 에이전트들이 다중 라운드 현실 시나리오에서 성능이 저조함을 보여주며, 에이전트 설계에서 누락된 요소들을 드러냅니다: 참여도 유지 및 사용자 이해 지원 능력입니다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 기존 에이전트는 주로 일회성 작업 완성을 위해 최적화되었으나, 현실 세계의 복잡한 작업은 종종 인간-기계 협력의 반복 과정을 필요로 합니다.
  2. 문제의 중요성: LLM 에이전트가 복잡한 지식 작업에 적용되는 사례가 증가함에 따라, 효과적인 협력 방법이 핵심 과제가 됩니다.
  3. 기존의 한계:
    • 사용자 요구사항이 정적이고 완전히 명시되어 있다고 가정
    • 사용자 이해 구축 및 목표 진화 과정을 간과
    • 협력 과정 품질에 대한 평가 메커니즘 부재

연구 동기

저자들은 5개 분야의 사례 연구(데이터 분석, 여행 계획, 금융 자문, 교육, 수학 발견)를 통해 현재의 작업 완성 에이전트가 다중 라운드 상호작용에서 체계적인 문제를 가지고 있음을 발견했습니다:

  • 소화하기 어려운 완전한 결과를 조기에 생성
  • 사용자 피드백을 효과적으로 통합하지 못함
  • 추론 과정의 투명성 부족
  • 사용자 요구사항 진화 시 성능 저하

핵심 기여

  1. 이론적 프레임워크: 협력 노력 확장(Collaborative Effort Scaling) 프레임워크를 제안하여 사용자 노력과 결합 효용의 두 가지 차원에서 인간-기계 협력 품질을 평가합니다.
  2. 평가 방법: 협력 에이전트 성능을 정량화하는 지표 체계를 설계하며, 상호작용 지속성과 최대 가용성을 포함합니다.
  3. 실증적 발견: 시뮬레이션 실험을 통해 현재의 최첨단 에이전트가 협력 시나리오에서 성능이 저조함을 증명하고, 협력 설계의 중요성을 드러냅니다.
  4. 설계 통찰: 더 효과적인 협력 에이전트 구축을 위한 구체적인 설계 지침과 진단 도구를 제공합니다.

방법론 상세 설명

작업 정의

인간-기계 협력을 부분 관찰 가능 마르코프 결정 과정(POMDP)으로 모델링합니다:

  • 행동 수열: a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}], 여기서 lt{H,A}l_t \in \{H, A\}는 인간 또는 에이전트를 나타냅니다.
  • 컨텍스트 윈도우: c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • 협력 라운드: 인간-기계 교대를 통해 전체 과정을 라운드 ak=a[ik:jk]a_k = a[i_k:j_k]로 분해합니다.

프레임워크 핵심 구성요소

1. 이중 차원 평가 체계

  • 사용자 노력(User Effort): 협력 과정에서 사용자가 투입하는 인지 및 조사 작업
    • 기본 측정: 인간 주도 라운드 수 aH|a^H|
    • 향상된 측정: 처리된 컨텍스트 토큰 수 cA\sum c^A
  • 결합 행동의 효용(Utility of Joint Actions): 인간-기계 팀이 공동으로 완성한 작업의 품질

2. 주요 지표 정의

전체 효용: U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

개선 이득: G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

가용성 감소: D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. 이상적인 협력 속성

  • 상호작용 지속성: 에이전트는 사용자 노력 증가에 따라 더 큰 가치를 생성해야 합니다.
  • 최대 가용성: 에이전트는 장기 상호작용을 장려하고 유지하며, 사용자의 조기 포기를 방지해야 합니다.

기술적 혁신점

  1. 결과 지향에서 과정 지향으로: 최종 출력 품질뿐만 아니라 협력 과정의 효과성을 더욱 중시합니다.
  2. 확장 법칙 영감: 기계학습의 확장 법칙 개념을 차용하여 협력 효용의 확장 특성을 연구합니다.
  3. 다단계 모델링: 초기 요청 단계와 개선 단계를 구분하여 협력 역학을 더 정확하게 포착합니다.

실험 설정

실험 환경

  • 플랫폼: Collaborative-Gym 환경, 비동기 인간-기계 행동 지원
  • 작업: 여행 계획 작업, 고수준 설명에서 시작하여 일정, 숙박 및 교통을 포함한 상세 계획 수립

모델 구성

  • 테스트 모델: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • 에이전트 유형:
    • 자동화 기준선 에이전트
    • 1단계 협력 에이전트
    • 2단계 협력 에이전트(계획 단계 추가)

평가 설정

  • 성능 측정: 상식 통과율 및 제약 조건 만족도에 기반한 산술 평균
  • 시뮬레이션 사용자: GPT-4o 기반 프롬프트 에이전트, 사용자 선호도 및 목표에 대한 추가 접근 권한 보유
  • 상호작용 제한: 최대 30라운드 상호작용

실험 결과

주요 발견

1. 협력 효용 확장 추세

  • 모든 에이전트는 유사한 협력 노력 확장 추세를 보여줍니다: 초기 개선 후 약 5라운드 상호작용 후 정체기에 도달
  • Claude 시리즈 모델이 최고 성능을 보이며, 사용자 노력을 효과적으로 활용하여 성능 향상을 달성합니다.

2. 모델 간 차이가 뚜렷함

표 1의 결과에 따르면:

모델전략전체 효용개선 이득(상대)가용성 감소(상대)
Claude-4.0-sonnet1단계0.6805.7%-20.6%
Claude-4.0-sonnet2단계0.6815.2%-34.9%
Claude-3.5-sonnet1단계0.45013.6%-29.7%
GPT-4o1단계0.5074.9%-20.8%

3. 협력 전략의 영향

  • Claude-3.5-sonnet: 2단계 계획이 성능을 크게 향상시키며, 0.450에서 0.687로 상승
  • Claude-4.0-sonnet: 1단계 및 2단계 전략이 유사한 최종 효용에 도달하나, 효율성이 다름
  • GPT-4o 및 Llama-3.1-70b: 협력 버전이 자동화 기준선을 초과하지 못함

노력 분배 분석

사용자 노력 차이

  • Claude-4.0-sonnet을 제외한 다른 모델들은 사용자가 더 많은 토큰을 투입해야 하나 수익이 제한적
  • Claude-4.0-sonnet은 더 광범위한 노력 비율 범위에서 강력한 성능 유지

최적 노력 균형

  • 모델 의존적인 최적 에이전트-사용자 노력 비율이 존재
  • 한쪽이 상호작용을 과도하게 주도할 때 결합 성능이 감소하는 경향

실험 발견

  1. 능력이 전략 결정: 모델 능력이 약할수록 더 많은 구조화된 상호작용 지원이 필요
  2. 협력 설계가 핵심: 강력한 모델이라도 협력 방식의 설계가 전체 성능에 크게 영향
  3. 노력 균형이 중요: 최적의 인간-기계 노력 분배 비율이 존재하며, 모델 능력에 따라 조정 필요

관련 연구

인간-기계 협력 연구

  • 초기 연구는 제한된 AI 시스템의 인간-기계 협력 설계 원칙에 집중
  • 현대 LLM 에이전트는 더 복잡한 상호작용 능력을 갖추고 있으며, 새로운 협력 프레임워크 필요

에이전트 평가 벤치마크

  • 기존 벤치마크는 주로 작업 완성 능력에 초점(예: SWE-Bench, WebArena, GAIA)
  • 협력 과정 품질에 대한 체계적 평가 부재

상호작용식 평가

  • 최근 연구는 상호작용식 평가를 도입하기 시작했으나, 여전히 좁은 범위의 단계적 상호작용으로 제한
  • 본 논문은 확장된 상호작용 궤적에서의 협력 역학에 초점

결론 및 논의

주요 결론

  1. 패러다임 전환의 필요성: 작업 완성에서 협력 능력 평가로의 전환이 필요
  2. 현재 에이전트의 부족함: 최첨단 에이전트가 협력 시나리오에서 성능이 저조하며, 참여도 유지 및 이해 지원 능력 부족
  3. 설계 지침: 협력 노력 확장 프레임워크는 에이전트 협력 능력 진단 및 개선을 위한 효과적인 도구 제공

한계

  1. 실험 범위: 단일 도메인(여행 계획)에서만 실험 수행, 모든 협력 역학을 포괄하지 못할 수 있음
  2. 시뮬레이션 사용자: 실제 인간 참여자가 아닌 시뮬레이션 사용자 사용, 실제 상호작용 패턴을 완전히 반영하지 못할 수 있음
  3. 측정 단순화: 단순화된 효용 및 노력 대리 지표 사용, 실제 협력의 복잡성이 더 높음

향후 방향

  1. 더 풍부한 시뮬레이션 환경: 사용자가 개인 정보나 도메인 지식을 보유한 시나리오 구축
  2. 적응형 협력 프레임워크: 모델 능력에 따라 협력 전략을 동적으로 조정
  3. 다중 모달 협력: 시각, 음성 등을 포함한 다중 모달 협력 시나리오로 확장

심층 평가

장점

  1. 정확한 문제 식별: 현재 에이전트 평가의 핵심 결함을 정확히 식별
  2. 합리적인 프레임워크 설계: 협력 노력 확장 프레임워크는 개념이 명확하고 실행 가능성이 높음
  3. 충분한 실증 연구: 사례 연구와 시뮬레이션 실험을 결합하여 다각도 검증 제공
  4. 높은 실용 가치: 에이전트 개발자에게 구체적인 설계 지침 제공

부족한 점

  1. 평가의 한계: 시뮬레이션 환경과 대리 지표가 실제 협력의 복잡성을 완전히 포착하지 못할 수 있음
  2. 제한된 모델 커버리지: 테스트된 모델 수가 상대적으로 제한적이며, 결론의 보편성 검증 필요
  3. 장기 효과 미지수: 장기 협력 관계 및 학습 효과에 대한 연구 부재

영향력

  1. 학술적 기여: 인간-기계 협력 연구에 새로운 이론적 프레임워크 및 평가 방법 제공
  2. 실용적 가치: 에이전트 제품 개발에 중요한 지침 제공
  3. 연구 방향: 순수 작업 완성이 아닌 협력 품질에 초점을 맞춘 더 많은 연구 촉발 가능

적용 시나리오

  1. 지식 작업: 데이터 분석, 연구, 자문 등 반복적 탐색이 필요한 분야
  2. 교육 훈련: 점진적 이해 구축이 필요한 학습 시나리오
  3. 창의적 작업: 인간-기계 공동 창작 및 개선이 필요한 작업

참고문헌

본 논문은 광범위한 관련 연구를 인용하고 있으며, 다음을 포함합니다:

  • 인간-기계 협력 설계 원칙(Amershi et al., 2019)
  • 에이전트 평가 벤치마크(Jimenez et al., 2023; Zhou et al., 2023)
  • 상호작용식 평가 방법(Lee et al., 2023; Shao et al., 2024)
  • 확장 법칙 관련 연구(Hoffmann et al., 2022; Kaplan et al., 2020)

요약: 본 논문은 중요하고 시의적절한 연구 문제를 제시하며, 에이전트의 협력 능력을 평가하고 개선하기 위한 체계적인 프레임워크를 제공합니다. 실험 설정에서 일정한 한계가 있지만, 이론적 기여와 실용적 가치로 인해 인간-기계 협력 분야의 중요한 연구가 되었습니다. 에이전트 기술의 빠른 발전에 따라, 순수 작업 완성이 아닌 협력 품질에 초점을 맞춘 이러한 연구 방향이 점점 더 중요해질 것입니다.