2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

Завершение \neq Сотрудничество: Масштабирование совместных усилий с помощью агентов

Основная информация

  • ID статьи: 2510.25744
  • Название: Completion \neq Collaboration: Scaling Collaborative Effort with Agents
  • Авторы: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • Учреждения: MIT, CMU, University of Washington, Stanford University
  • Классификация: cs.CL cs.AI
  • Ссылка на статью: https://arxiv.org/abs/2510.25744
  • Ссылка на проект: https://github.com/clinicalml/collaborative-effort-scaling

Аннотация

Современная оценка интеллектуальных агентов сосредоточена главным образом на одноразовом выполнении задач, не учитывая итеративный и совместный характер, присущий многим реальным проблемам, где цели человека часто недостаточно определены и эволюционируют. В данной работе предлагается переход от разработки и оценки агентов, ориентированных на выполнение задач, к развитию совместных агентов, оцениваемых не только по качеству конечного результата, но и по тому, как они взаимодействуют с человеком и усиливают его усилия на протяжении всего процесса решения проблемы. Для поддержки этого перехода авторы вводят фреймворк масштабирования совместных усилий (collaborative effort scaling), который отражает, как полезность агента растёт с увеличением участия пользователя. Посредством тематических исследований и имитационной оценки исследование показывает, что современные агенты плохо работают в многораундовых реальных сценариях, выявляя недостающие элементы в разработке агентов: способность поддерживать вовлечённость и помогать пользователю в понимании.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Существующие агенты в основном оптимизированы для одноразового выполнения задач, однако сложные задачи в реальном мире часто требуют итеративного процесса взаимодействия человека и машины
  2. Важность проблемы: По мере увеличения применения LLM-агентов в сложной интеллектуальной работе эффективное сотрудничество становится ключевым вызовом
  3. Существующие ограничения:
    • Предположение о статичности и полной определённости потребностей пользователя
    • Игнорирование процесса построения понимания пользователем и эволюции целей
    • Отсутствие механизмов оценки качества совместного процесса

Исследовательская мотивация

Авторы посредством тематических исследований в пяти областях (анализ данных, планирование путешествий, финансовое консультирование, образование, математические открытия) обнаружили систематические проблемы в многораундовом взаимодействии с современными агентами, ориентированными на выполнение задач:

  • Преждевременное создание полных результатов, сложных для восприятия
  • Неспособность эффективно интегрировать обратную связь пользователя
  • Отсутствие прозрачности в процессе рассуждения
  • Плохая работа при эволюции потребностей пользователя

Основные вклады

  1. Теоретический фреймворк: Предложен фреймворк масштабирования совместных усилий (Collaborative Effort Scaling), оценивающий качество взаимодействия человека и машины по двум измерениям: усилиям пользователя и совместной полезности
  2. Методология оценки: Разработана система показателей для количественной оценки производительности совместных агентов, включая устойчивость взаимодействия и максимальную доступность
  3. Эмпирические результаты: Имитационные эксперименты доказывают, что современные SOTA-агенты плохо работают в сценариях сотрудничества, выявляя важность совместного проектирования
  4. Проектные рекомендации: Предоставлены конкретные рекомендации по проектированию и диагностические инструменты для разработки более эффективных совместных агентов

Подробное описание методологии

Определение задачи

Моделирование взаимодействия человека и машины как частично наблюдаемого марковского процесса принятия решений (POMDP):

  • Последовательность действий: a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}], где lt{H,A}l_t \in \{H, A\} обозначает человека или агента
  • Контекстное окно: c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • Раунды сотрудничества: Весь процесс разбивается на раунды ak=a[ik:jk]a_k = a[i_k:j_k] посредством передачи управления между человеком и агентом

Основные компоненты фреймворка

1. Двумерная система оценки

  • Усилия пользователя (User Effort): Когнитивная и исследовательская работа, инвестируемая пользователем в совместный процесс
    • Базовая метрика: количество раундов, возглавляемых человеком aH|a^H|
    • Расширенная метрика: количество обработанных контекстных токенов cA\sum c^A
  • Полезность совместных действий (Utility of Joint Actions): Качество работы, выполненной совместно командой человека и машины

2. Определение ключевых показателей

Общая полезность: U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

Прирост улучшения: G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

Снижение доступности: D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. Идеальные свойства сотрудничества

  • Устойчивость взаимодействия: Агент должен создавать большую ценность с увеличением усилий пользователя
  • Максимальная доступность: Агент должен поощрять и поддерживать долгосрочное взаимодействие, избегая преждевременного отказа пользователя

Технические инновации

  1. От ориентации на результат к ориентации на процесс: Внимание не только к качеству конечного результата, но и к эффективности совместного процесса
  2. Вдохновение законами масштабирования: Заимствование концепции законов масштабирования из машинного обучения для исследования свойств масштабирования совместной полезности
  3. Многоэтапное моделирование: Различие между начальным этапом запроса и этапом улучшения для более точного отражения совместной динамики

Экспериментальная установка

Экспериментальная среда

  • Платформа: Среда Collaborative-Gym, поддерживающая асинхронные действия человека и машины
  • Задача: Планирование путешествий, разработка подробного плана, включающего маршруты, проживание и транспорт, начиная с высокоуровневого описания

Конфигурация моделей

  • Тестируемые модели: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • Типы агентов:
    • Базовый автоматизированный агент
    • Одноэтапный совместный агент
    • Двухэтапный совместный агент (с добавленным этапом планирования)

Параметры оценки

  • Показатели производительности: Среднее арифметическое показателя прохождения по здравому смыслу и показателя удовлетворения ограничений
  • Имитируемый пользователь: Агент на основе GPT-4o с подсказками, имеющий дополнительный доступ к предпочтениям пользователя и целям
  • Ограничение взаимодействия: Максимум 30 раундов взаимодействия

Результаты экспериментов

Основные выводы

1. Тенденции масштабирования совместных усилий

  • Все агенты демонстрируют схожие тенденции масштабирования совместных усилий: начальное улучшение, достигающее плато примерно после 5 раундов взаимодействия
  • Модели Claude показывают лучшие результаты, эффективно используя усилия пользователя для повышения производительности

2. Значительные различия между моделями

Согласно результатам Таблицы 1:

МодельСтратегияОбщая полезностьПрирост улучшения (относительный)Снижение доступности (относительное)
Claude-4.0-sonnetОдноэтапная0.6805.7%-20.6%
Claude-4.0-sonnetДвухэтапная0.6815.2%-34.9%
Claude-3.5-sonnetОдноэтапная0.45013.6%-29.7%
GPT-4oОдноэтапная0.5074.9%-20.8%

3. Влияние стратегий сотрудничества

  • Claude-3.5-sonnet: Двухэтапное планирование значительно повышает производительность с 0.450 до 0.687
  • Claude-4.0-sonnet: Одноэтапная и двухэтапная стратегии достигают схожей конечной полезности, но с различной эффективностью
  • GPT-4o и Llama-3.1-70b: Совместные версии не превосходят автоматизированный базовый уровень

Анализ распределения усилий

Различия в усилиях пользователя

  • За исключением Claude-4.0-sonnet, другие модели требуют от пользователя инвестирования большего количества токенов с ограниченной отдачей
  • Claude-4.0-sonnet сохраняет сильную производительность в более широком диапазоне соотношений усилий

Оптимальный баланс усилий

  • Существует зависящее от модели оптимальное соотношение усилий агента и пользователя
  • Когда одна из сторон чрезмерно доминирует во взаимодействии, совместная производительность снижается

Экспериментальные выводы

  1. Способность определяет стратегию: Когда способность модели слабее, требуется больше структурированной поддержки взаимодействия
  2. Критичность совместного проектирования: Даже для мощных моделей способ организации сотрудничества значительно влияет на общую производительность
  3. Важность баланса усилий: Существует оптимальное распределение усилий между человеком и машиной, требующее корректировки в зависимости от способности модели

Связанные работы

Исследования взаимодействия человека и машины

  • Ранние исследования сосредоточены на принципах проектирования взаимодействия человека и машины для ограниченных систем ИИ
  • Современные LLM-агенты обладают более сложными возможностями взаимодействия, требующими новых фреймворков сотрудничества

Бенчмарки оценки агентов

  • Существующие бенчмарки в основном сосредоточены на способности выполнения задач (такие как SWE-Bench, WebArena, GAIA)
  • Отсутствует систематическая оценка качества совместного процесса

Интерактивная оценка

  • Недавние работы начинают вводить интерактивную оценку, но остаются ограниченными узконаправленным пошаговым взаимодействием
  • Данная работа сосредоточена на совместной динамике в расширенных траекториях взаимодействия

Заключение и обсуждение

Основные выводы

  1. Необходимость парадигмального сдвига: Переход от оценки выполнения задач к оценке способности к сотрудничеству является необходимым
  2. Недостаточность современных агентов: SOTA-агенты плохо работают в сценариях сотрудничества, им не хватает способности поддерживать вовлечённость и помогать пользователю в понимании
  3. Проектные рекомендации: Фреймворк масштабирования совместных усилий предоставляет эффективный инструмент для диагностики и улучшения способности агентов к сотрудничеству

Ограничения

  1. Ограниченный объём экспериментов: Эксперименты проводились только в одной области (планирование путешествий), что может не охватить все совместные динамики
  2. Имитируемый пользователь: Использование имитируемого пользователя вместо реальных участников может не полностью отражать реальные модели взаимодействия
  3. Упрощение метрик: Использование упрощённых показателей полезности и усилий, в то время как реальное сотрудничество намного сложнее

Направления будущих исследований

  1. Более богатые имитационные среды: Разработка сценариев, в которых пользователи обладают приватной информацией или специальными знаниями
  2. Адаптивные фреймворки сотрудничества: Динамическая корректировка стратегий сотрудничества в зависимости от способности модели
  3. Мультимодальное сотрудничество: Расширение на сценарии, включающие визуальные, голосовые и другие модальности

Глубокая оценка

Преимущества

  1. Точное выявление проблемы: Точное определение основных недостатков в современной оценке агентов
  2. Разумное проектирование фреймворка: Фреймворк масштабирования совместных усилий обладает ясной концепцией и хорошей операциональностью
  3. Достаточные эмпирические исследования: Комбинация тематических исследований и имитационных экспериментов обеспечивает многоаспектную верификацию
  4. Высокая практическая ценность: Предоставляет разработчикам агентов конкретные рекомендации по проектированию

Недостатки

  1. Ограничения оценки: Имитационная среда и показатели-заменители могут не полностью отражать сложность реального сотрудничества
  2. Ограниченное покрытие моделей: Относительно небольшое количество тестируемых моделей, универсальность выводов требует проверки
  3. Неизвестные долгосрочные эффекты: Отсутствие исследований долгосрочных совместных отношений и эффектов обучения

Влияние

  1. Академический вклад: Предоставляет новый теоретический фреймворк и методологию оценки для исследований взаимодействия человека и машины
  2. Практическая ценность: Имеет важное значение для разработки продуктов на основе агентов
  3. Направление исследований: Может стимулировать больше исследований, сосредоточенных на качестве сотрудничества, а не на простом выполнении задач

Применимые сценарии

  1. Интеллектуальная работа: Анализ данных, исследования, консультирование и другие области, требующие итеративного исследования
  2. Образование и обучение: Сценарии обучения, требующие постепенного построения понимания
  3. Творческая работа: Задачи, требующие совместного создания и улучшения человеком и машиной

Библиография

Данная работа цитирует широкий спектр связанных исследований, включая:

  • Принципы проектирования взаимодействия человека и машины (Amershi et al., 2019)
  • Бенчмарки оценки агентов (Jimenez et al., 2023; Zhou et al., 2023)
  • Методы интерактивной оценки (Lee et al., 2023; Shao et al., 2024)
  • Исследования законов масштабирования (Hoffmann et al., 2022; Kaplan et al., 2020)

Резюме: Данная статья ставит важный и своевременный исследовательский вопрос, предоставляя систематический фреймворк для оценки и улучшения способности агентов к сотрудничеству. Несмотря на определённые ограничения в экспериментальной установке, её теоретический вклад и практическая ценность делают её важной работой в области взаимодействия человека и машины. По мере быстрого развития технологии агентов такое направление исследований, сосредоточенное на качестве сотрудничества, а не на простом выполнении задач, будет становиться всё более важным.