Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
- ID de l'article: 2510.25744
- Titre: Completion = Collaboration: Scaling Collaborative Effort with Agents
- Auteurs: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
- Institutions: MIT, CMU, University of Washington, Stanford University
- Classification: cs.CL cs.AI
- Lien de l'article: https://arxiv.org/abs/2510.25744
- Lien du projet: https://github.com/clinicalml/collaborative-effort-scaling
L'évaluation actuelle des agents intelligents se concentre principalement sur l'accomplissement de tâches ponctuelles, sans tenir compte de la nature itérative et collaborative inhérente à de nombreux problèmes réels, où les objectifs humains sont souvent mal spécifiés et évoluent. Cet article propose de passer de la construction et l'évaluation d'agents d'accomplissement de tâches au développement d'agents collaboratifs, évalués non seulement selon la qualité de la production finale, mais aussi selon la manière dont ils interagissent avec les humains et amplifient l'effort humain tout au long du processus de résolution de problèmes. Pour soutenir cette transition, les auteurs introduisent le cadre de mise à l'échelle de l'effort collaboratif (collaborative effort scaling), qui capture comment l'utilité de l'agent augmente avec l'engagement accru de l'utilisateur. Par le biais d'études de cas et d'évaluations par simulation, la recherche montre que les agents de pointe fonctionnent mal dans les scénarios réels multi-tours, révélant les éléments manquants dans la conception des agents : la capacité à maintenir l'engagement et à soutenir la compréhension de l'utilisateur.
- Problème central: Les agents existants sont principalement optimisés pour l'accomplissement de tâches ponctuelles, alors que les tâches complexes du monde réel nécessitent souvent un processus itératif de collaboration homme-machine
- Importance du problème: Avec l'augmentation de l'application des agents LLM dans les travaux intellectuels complexes, la collaboration efficace devient un défi clé
- Limitations existantes:
- Hypothèse que les besoins des utilisateurs sont statiques et complètement spécifiés
- Négligence du processus de construction de la compréhension de l'utilisateur et de l'évolution des objectifs
- Absence de mécanismes d'évaluation de la qualité du processus collaboratif
Les auteurs, par le biais d'études de cas dans cinq domaines (analyse de données, planification de voyages, conseil financier, éducation, découverte mathématique), ont découvert que les agents d'accomplissement de tâches actuels présentent des problèmes systématiques dans les interactions multi-tours:
- Génération prématurée de résultats complets difficiles à digérer
- Incapacité à intégrer efficacement les commentaires des utilisateurs
- Manque de transparence du processus de raisonnement
- Mauvaise performance lors de l'évolution des besoins des utilisateurs
- Cadre théorique: Proposition du cadre de mise à l'échelle de l'effort collaboratif (Collaborative Effort Scaling), qui évalue la qualité de la collaboration homme-machine selon deux dimensions: l'effort de l'utilisateur et l'utilité conjointe
- Méthode d'évaluation: Conception d'un système d'indicateurs pour quantifier la performance des agents collaboratifs, incluant la durabilité de l'interaction et la disponibilité maximale
- Résultats empiriques: Démonstration par expériences de simulation que les agents SOTA actuels fonctionnent mal dans les scénarios collaboratifs, révélant l'importance de la conception collaborative
- Perspectives de conception: Fourniture de conseils de conception spécifiques et d'outils de diagnostic pour construire des agents collaboratifs plus efficaces
Modélisation de la collaboration homme-machine comme un processus de décision markovien partiellement observable (POMDP):
- Séquence d'actions: a=[a1(l1),a2(l2),...,aT(lT)], où lt∈{H,A} désigne l'humain ou l'agent
- Fenêtre contextuelle: c=[c1(l1),c2(l2),...,cT(lT)]
- Tours collaboratifs: Décomposition du processus entier en tours ak=a[ik:jk] par le biais de transitions homme-machine
- Effort de l'utilisateur (User Effort): Travail cognitif et de recherche investi par l'utilisateur dans le processus collaboratif
- Mesure de base: nombre de tours dirigés par l'humain ∣aH∣
- Mesure améliorée: nombre de jetons contextuels traités ∑cA
- Utilité des actions conjointes (Utility of Joint Actions): Qualité du travail réalisé conjointement par l'équipe homme-machine
Utilité globale:
U=N1∑i=1NmaxUk(i)
Gain d'amélioration:
G=N1∑i=1NmaxUk(i)−Uki′(i)
Déclin de disponibilité:
D@τ=N1∑i=1NUki,τ(i)−UKi(i)
- Durabilité de l'interaction: L'agent devrait produire une plus grande valeur à mesure que l'effort de l'utilisateur augmente
- Disponibilité maximale: L'agent devrait encourager et maintenir l'interaction à long terme, évitant que l'utilisateur abandonne prématurément
- Passage de l'orientation résultats à l'orientation processus: Non seulement la qualité de la production finale, mais aussi l'efficacité du processus collaboratif
- Inspiration des lois de mise à l'échelle: Emprunt du concept de lois de mise à l'échelle en apprentissage automatique pour étudier les caractéristiques de mise à l'échelle de l'utilité collaborative
- Modélisation multi-étapes: Distinction entre la phase de demande initiale et la phase d'amélioration pour capturer plus précisément la dynamique collaborative
- Plateforme: Environnement Collaborative-Gym, supportant les actions asynchrones homme-machine
- Tâches: Tâche de planification de voyage, commençant par une description de haut niveau pour élaborer un plan détaillé incluant l'itinéraire, l'hébergement et le transport
- Modèles testés: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
- Types d'agents:
- Agent de base automatisé
- Agent collaboratif à une étape
- Agent collaboratif à deux étapes (ajout d'étapes de planification)
- Mesures de performance: Moyenne arithmétique du taux de passage du bon sens et du taux de satisfaction des contraintes
- Utilisateur simulé: Agent d'invite basé sur GPT-4o, avec accès supplémentaire aux préférences et objectifs de l'utilisateur
- Limite d'interaction: Maximum 30 tours
- Tous les agents présentent des tendances de mise à l'échelle de l'effort collaboratif similaires: amélioration initiale suivie d'un plateau après environ 5 tours d'interaction
- Les modèles Claude offrent les meilleures performances, capable d'utiliser efficacement l'effort de l'utilisateur pour améliorer la performance
Selon les résultats du Tableau 1:
| Modèle | Stratégie | Utilité globale | Gain d'amélioration (relatif) | Déclin de disponibilité (relatif) |
|---|
| Claude-4.0-sonnet | Une étape | 0.680 | 5.7% | -20.6% |
| Claude-4.0-sonnet | Deux étapes | 0.681 | 5.2% | -34.9% |
| Claude-3.5-sonnet | Une étape | 0.450 | 13.6% | -29.7% |
| GPT-4o | Une étape | 0.507 | 4.9% | -20.8% |
- Claude-3.5-sonnet: La planification en deux étapes améliore significativement la performance, passant de 0.450 à 0.687
- Claude-4.0-sonnet: Les stratégies à une et deux étapes atteignent une utilité finale similaire, mais avec des efficacités différentes
- GPT-4o et Llama-3.1-70b: Les versions collaboratives n'ont pas surpassé la base de référence automatisée
- À l'exception de Claude-4.0-sonnet, les autres modèles nécessitent un investissement plus important en jetons de l'utilisateur pour des bénéfices limités
- Claude-4.0-sonnet maintient une performance robuste sur une gamme plus large de ratios d'effort
- Existence d'un ratio optimal d'effort agent-utilisateur dépendant du modèle
- Lorsqu'une partie domine excessivement l'interaction, la performance conjointe tend à diminuer
- La capacité détermine la stratégie: Les modèles moins puissants nécessitent plus d'échafaudage d'interaction structuré
- Importance de la conception collaborative: Même pour les modèles puissants, la conception de la manière de collaborer affecte significativement la performance globale
- Importance de l'équilibre d'effort: Existence d'une répartition optimale de l'effort homme-machine, nécessitant un ajustement selon la capacité du modèle
- Les recherches antérieures se concentraient sur les principes de conception de la collaboration homme-machine pour les systèmes d'IA limités
- Les agents LLM modernes possèdent des capacités d'interaction plus complexes, nécessitant de nouveaux cadres collaboratifs
- Les benchmarks existants se concentrent principalement sur les capacités d'accomplissement de tâches (comme SWE-Bench, WebArena, GAIA)
- Absence d'évaluation systématique de la qualité du processus collaboratif
- Les travaux récents commencent à introduire l'évaluation interactive, mais restent limités à l'interaction étape par étape étroite
- Cet article se concentre sur la dynamique collaborative dans les trajectoires d'interaction étendues
- Nécessité d'un changement de paradigme: Le passage de l'évaluation de l'accomplissement de tâches à celle des capacités collaboratives est nécessaire
- Insuffisance des agents actuels: Les agents SOTA fonctionnent mal dans les scénarios collaboratifs, manquant de capacité à maintenir l'engagement et à soutenir la compréhension
- Conseils de conception: Le cadre de mise à l'échelle de l'effort collaboratif fournit un outil efficace pour diagnostiquer et améliorer les capacités collaboratives des agents
- Portée expérimentale: Expériences menées uniquement dans un seul domaine (planification de voyage), pouvant ne pas couvrir toutes les dynamiques collaboratives
- Utilisateur simulé: Utilisation d'utilisateurs simulés plutôt que de participants humains réels, pouvant ne pas refléter complètement les modèles d'interaction réels
- Simplification des mesures: Utilisation d'indicateurs simplifiés d'utilité et d'effort, la complexité réelle de la collaboration étant plus élevée
- Environnements de simulation plus riches: Construction de scénarios où les utilisateurs possèdent des informations privées ou des connaissances de domaine
- Cadre collaboratif adaptatif: Ajustement dynamique des stratégies collaboratives selon la capacité du modèle
- Collaboration multimodale: Extension à des scénarios collaboratifs incluant des modalités visuelles, vocales, etc.
- Identification précise du problème: Identification précise des défauts fondamentaux de l'évaluation actuelle des agents
- Conception raisonnable du cadre: Le cadre de mise à l'échelle de l'effort collaboratif est conceptuellement clair et opérationnel
- Recherche empirique suffisante: Combinaison d'études de cas et d'expériences de simulation, fournissant une validation multi-perspectives
- Valeur pratique élevée: Fourniture de conseils de conception spécifiques aux développeurs d'agents
- Limitations d'évaluation: Les environnements simulés et les indicateurs de substitution peuvent ne pas capturer complètement la complexité de la collaboration réelle
- Couverture de modèles limitée: Nombre relativement limité de modèles testés, la généralité des conclusions reste à vérifier
- Effets à long terme inconnus: Absence de recherche sur les relations collaboratives à long terme et les effets d'apprentissage
- Contribution académique: Fourniture d'un nouveau cadre théorique et de méthodes d'évaluation pour la recherche sur la collaboration homme-machine
- Valeur pratique: Importance significative pour l'orientation du développement de produits d'agents
- Direction de recherche: Peut catalyser davantage de recherches se concentrant sur la qualité collaborative plutôt que sur l'accomplissement pur de tâches
- Travail intellectuel: Domaines tels que l'analyse de données, la recherche, le conseil nécessitant une exploration itérative
- Formation éducative: Scénarios d'apprentissage nécessitant une construction progressive de la compréhension
- Travail créatif: Tâches nécessitant la création et l'amélioration conjointes homme-machine
Cet article cite un large éventail de travaux connexes, incluant:
- Principes de conception de la collaboration homme-machine (Amershi et al., 2019)
- Benchmarks d'évaluation d'agents (Jimenez et al., 2023; Zhou et al., 2023)
- Méthodes d'évaluation interactive (Lee et al., 2023; Shao et al., 2024)
- Recherche sur les lois de mise à l'échelle (Hoffmann et al., 2022; Kaplan et al., 2020)
Résumé: Cet article propose une question de recherche importante et opportune, fournissant un cadre systématique pour évaluer et améliorer les capacités collaboratives des agents. Bien que présentant certaines limitations dans la configuration expérimentale, ses contributions théoriques et sa valeur pratique en font un travail important dans le domaine de la collaboration homme-machine. Avec le développement rapide de la technologie des agents, cette direction de recherche se concentrant sur la qualité collaborative plutôt que sur l'accomplissement pur de tâches deviendra de plus en plus importante.