2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

Completamento \neq Collaborazione: Scalare lo Sforzo Collaborativo con Agenti

Informazioni Fondamentali

  • ID Articolo: 2510.25744
  • Titolo: Completamento \neq Collaborazione: Scalare lo Sforzo Collaborativo con Agenti
  • Autori: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • Istituzioni: MIT, CMU, University of Washington, Stanford University
  • Classificazione: cs.CL cs.AI
  • Link Articolo: https://arxiv.org/abs/2510.25744
  • Link Progetto: https://github.com/clinicalml/collaborative-effort-scaling

Riassunto

La valutazione attuale degli agenti si concentra principalmente sul completamento di compiti una tantum, senza considerare la natura iterativa e collaborativa intrinseca a molti problemi reali, dove gli obiettivi umani sono spesso poco specificati ed evolvono nel tempo. Questo articolo propone di passare dalla costruzione e valutazione di agenti per il completamento di compiti allo sviluppo di agenti collaborativi, valutati non solo sulla qualità dell'output finale, ma anche su come interagiscono con gli umani e amplificano lo sforzo umano durante l'intero processo di risoluzione dei problemi. Per supportare questo cambiamento, gli autori introducono il framework di scalamento dello sforzo collaborativo (collaborative effort scaling), che cattura come l'utilità dell'agente cresce con l'aumento del coinvolgimento dell'utente. Attraverso studi di caso e valutazioni simulate, la ricerca dimostra che gli agenti all'avanguardia si comportano male in scenari reali multi-turno, rivelando elementi mancanti nella progettazione degli agenti: la capacità di mantenere il coinvolgimento e supportare la comprensione dell'utente.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Gli agenti esistenti sono principalmente ottimizzati per il completamento di compiti una tantum, ma i compiti complessi del mondo reale spesso richiedono processi iterativi di collaborazione uomo-macchina
  2. Importanza del Problema: Con l'aumento dell'applicazione degli agenti LLM nel lavoro cognitivo complesso, come collaborare efficacemente diventa una sfida critica
  3. Limitazioni Attuali:
    • Presuppongono che i requisiti degli utenti siano statici e completamente specificati
    • Trascurano il processo di costruzione della comprensione dell'utente e l'evoluzione degli obiettivi
    • Mancano meccanismi di valutazione della qualità del processo collaborativo

Motivazione della Ricerca

Attraverso studi di caso in cinque domini (analisi dei dati, pianificazione di viaggi, consulenza finanziaria, educazione, scoperta matematica), gli autori hanno scoperto che gli agenti attuali per il completamento di compiti presentano problemi sistematici nelle interazioni multi-turno:

  • Generano risultati completi difficili da digerire troppo presto
  • Non riescono a integrare efficacemente il feedback dell'utente
  • Mancano di trasparenza nel processo di ragionamento
  • Funzionano male quando i requisiti dell'utente evolvono

Contributi Principali

  1. Framework Teorico: Propone il framework di Scalamento dello Sforzo Collaborativo (Collaborative Effort Scaling), che valuta la qualità della collaborazione uomo-macchina da due dimensioni: sforzo dell'utente e utilità congiunta
  2. Metodo di Valutazione: Progetta un sistema di metriche per quantificare le prestazioni degli agenti collaborativi, inclusa la sostenibilità dell'interazione e la disponibilità massima
  3. Risultati Empirici: Dimostra attraverso esperimenti simulati che gli agenti SOTA attuali si comportano male in scenari collaborativi, rivelando l'importanza della progettazione collaborativa
  4. Intuizioni di Progettazione: Fornisce indicazioni di progettazione specifiche e strumenti diagnostici per costruire agenti collaborativi più efficaci

Dettagli del Metodo

Definizione del Compito

Modella la collaborazione uomo-macchina come un Processo Decisionale di Markov Parzialmente Osservabile (POMDP):

  • Sequenza di Azioni: a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}], dove lt{H,A}l_t \in \{H, A\} indica umano o agente
  • Finestra di Contesto: c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • Turni Collaborativi: Decomposizione dell'intero processo in turni ak=a[ik:jk]a_k = a[i_k:j_k] attraverso il passaggio di mano tra umano e agente

Componenti Principali del Framework

1. Sistema di Valutazione Bidimensionale

  • Sforzo dell'Utente (User Effort): Lavoro cognitivo e di ricerca investito dall'utente nel processo collaborativo
    • Metrica di Base: Numero di turni guidati dall'umano aH|a^H|
    • Metrica Migliorata: Numero di token di contesto elaborati cA\sum c^A
  • Utilità delle Azioni Congiunte (Utility of Joint Actions): Qualità del lavoro completato congiuntamente dal team uomo-macchina

2. Definizioni degli Indicatori Chiave

Utilità Complessiva: U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

Guadagno di Miglioramento: G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

Declino della Disponibilità: D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. Proprietà di Collaborazione Ideale

  • Sostenibilità dell'Interazione: L'agente dovrebbe produrre maggior valore con l'aumento dello sforzo dell'utente
  • Disponibilità Massima: L'agente dovrebbe incoraggiare e mantenere l'interazione a lungo termine, evitando che l'utente abbandoni prematuramente

Punti di Innovazione Tecnica

  1. Da Orientamento ai Risultati a Orientamento al Processo: Non solo focalizzarsi sulla qualità dell'output finale, ma dare maggiore importanza all'efficacia del processo collaborativo
  2. Ispirazione dalle Leggi di Scalamento: Prendere in prestito il concetto di leggi di scalamento dall'apprendimento automatico per studiare le caratteristiche di scalamento dell'utilità collaborativa
  3. Modellazione Multi-Fase: Distinguere tra la fase di richiesta iniziale e la fase di miglioramento per catturare più precisamente la dinamica collaborativa

Configurazione Sperimentale

Ambiente Sperimentale

  • Piattaforma: Ambiente Collaborative-Gym, che supporta azioni asincrone uomo-macchina
  • Compito: Compito di pianificazione di viaggi, che inizia da una descrizione di alto livello per sviluppare un piano dettagliato che include itinerari, alloggi e trasporti

Configurazione del Modello

  • Modelli Testati: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • Tipi di Agenti:
    • Agente di base automatizzato
    • Agente collaborativo a una fase
    • Agente collaborativo a due fasi (con fase di pianificazione aggiuntiva)

Configurazione della Valutazione

  • Misure di Prestazione: Media aritmetica del tasso di passaggio del senso comune e del tasso di soddisfazione dei vincoli
  • Utente Simulato: Agente basato su GPT-4o con accesso aggiuntivo alle preferenze e agli obiettivi dell'utente
  • Limite di Interazione: Massimo 30 turni di interazione

Risultati Sperimentali

Risultati Principali

1. Tendenze di Scalamento dello Sforzo Collaborativo

  • Tutti gli agenti mostrano tendenze di scalamento dello sforzo collaborativo simili: miglioramento iniziale seguito da un plateau dopo circa 5 turni di interazione
  • I modelli della serie Claude mostrano le migliori prestazioni, riuscendo a sfruttare efficacemente lo sforzo dell'utente per migliorare le prestazioni

2. Differenze Significative tra Modelli

Secondo i risultati della Tabella 1:

ModelloStrategiaUtilità ComplessivaGuadagno di Miglioramento (relativo)Declino della Disponibilità (relativo)
Claude-4.0-sonnetUna fase0.6805.7%-20.6%
Claude-4.0-sonnetDue fasi0.6815.2%-34.9%
Claude-3.5-sonnetUna fase0.45013.6%-29.7%
GPT-4oUna fase0.5074.9%-20.8%

3. Impatto della Strategia Collaborativa

  • Claude-3.5-sonnet: La pianificazione a due fasi migliora significativamente le prestazioni, da 0.450 a 0.687
  • Claude-4.0-sonnet: Le strategie a una fase e due fasi raggiungono utilità finale simile, ma con efficienza diversa
  • GPT-4o e Llama-3.1-70b: Le versioni collaborative non riescono a superare la baseline automatizzata

Analisi dell'Allocazione dello Sforzo

Differenze nello Sforzo dell'Utente

  • Ad eccezione di Claude-4.0-sonnet, gli altri modelli richiedono agli utenti di investire più token con benefici limitati
  • Claude-4.0-sonnet mantiene prestazioni robuste in una gamma più ampia di rapporti di sforzo

Equilibrio Ottimale dello Sforzo

  • Esiste un rapporto ottimale dipendente dal modello tra sforzo dell'agente e dell'utente
  • Quando una delle parti domina eccessivamente l'interazione, le prestazioni congiunte tendono a diminuire

Risultati Sperimentali

  1. La Capacità Determina la Strategia: Quando la capacità del modello è inferiore, è necessario un supporto di interazione più strutturato
  2. Progettazione Collaborativa Critica: Anche per modelli potenti, la progettazione del modo di collaborazione influisce significativamente sulle prestazioni complessive
  3. Equilibrio dello Sforzo Importante: Esiste un'allocazione ottimale dello sforzo uomo-macchina che deve essere regolata in base alla capacità del modello

Lavori Correlati

Ricerca sulla Collaborazione Uomo-Macchina

  • La ricerca iniziale si è concentrata sui principi di progettazione della collaborazione uomo-macchina per sistemi AI limitati
  • Gli agenti LLM moderni hanno capacità di interazione più complesse, richiedendo nuovi framework collaborativi

Benchmark di Valutazione degli Agenti

  • I benchmark esistenti si concentrano principalmente sulla capacità di completamento dei compiti (come SWE-Bench, WebArena, GAIA)
  • Mancano valutazioni sistematiche della qualità del processo collaborativo

Valutazione Interattiva

  • I lavori recenti hanno iniziato a introdurre valutazioni interattive, ma rimangono limitate a interazioni passo dopo passo ristrette
  • Questo articolo si concentra sulla dinamica collaborativa nelle traiettorie di interazione estese

Conclusioni e Discussione

Conclusioni Principali

  1. Necessità di un Cambio di Paradigma: È necessario il passaggio dalla valutazione del completamento dei compiti alla valutazione delle capacità collaborative
  2. Insufficienza degli Agenti Attuali: Gli agenti SOTA si comportano male in scenari collaborativi, mancando della capacità di mantenere il coinvolgimento e supportare la comprensione
  3. Indicazioni di Progettazione: Il framework di scalamento dello sforzo collaborativo fornisce uno strumento efficace per diagnosticare e migliorare le capacità collaborative degli agenti

Limitazioni

  1. Portata Sperimentale: Gli esperimenti sono condotti solo in un singolo dominio (pianificazione di viaggi), che potrebbe non coprire tutte le dinamiche collaborative
  2. Utente Simulato: L'uso di utenti simulati piuttosto che partecipanti umani reali potrebbe non riflettere completamente i modelli di interazione reali
  3. Semplificazione delle Metriche: L'uso di indicatori proxy semplificati per utilità e sforzo, mentre la complessità della vera collaborazione è superiore

Direzioni Future

  1. Ambienti di Simulazione più Ricchi: Costruire scenari in cui gli utenti possiedono informazioni private o conoscenze di dominio
  2. Framework Collaborativo Adattivo: Regolare dinamicamente le strategie collaborative in base alla capacità del modello
  3. Collaborazione Multimodale: Estendere a scenari collaborativi che includono visione, voce e altre modalità

Valutazione Approfondita

Punti di Forza

  1. Identificazione Accurata del Problema: Identifica accuratamente i difetti fondamentali della valutazione attuale degli agenti
  2. Progettazione Razionale del Framework: Il framework di scalamento dello sforzo collaborativo ha concetti chiari e forte operabilità
  3. Ricerca Empirica Sufficiente: Combina studi di caso e esperimenti simulati per fornire verifiche da più prospettive
  4. Alto Valore Pratico: Fornisce indicazioni di progettazione specifiche per gli sviluppatori di agenti

Insufficienze

  1. Limitazioni della Valutazione: Gli ambienti simulati e gli indicatori proxy potrebbero non catturare completamente la complessità della vera collaborazione
  2. Copertura Limitata dei Modelli: Il numero di modelli testati è relativamente limitato, la generalizzabilità delle conclusioni rimane da verificare
  3. Effetti a Lungo Termine Sconosciuti: Mancano studi sulle relazioni collaborative a lungo termine e gli effetti di apprendimento

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework teorico e metodi di valutazione per la ricerca sulla collaborazione uomo-macchina
  2. Valore Pratico: Ha un significato guida importante per lo sviluppo di prodotti con agenti
  3. Direzione di Ricerca: Potrebbe catalizzare più ricerche che si concentrano sulla qualità della collaborazione piuttosto che sul semplice completamento dei compiti

Scenari Applicabili

  1. Lavoro Cognitivo: Campi come analisi dei dati, ricerca, consulenza che richiedono esplorazione iterativa
  2. Educazione e Formazione: Scenari di apprendimento che richiedono costruzione progressiva della comprensione
  3. Lavoro Creativo: Compiti che richiedono co-creazione e miglioramento congiunto uomo-macchina

Riferimenti Bibliografici

Questo articolo cita un ampio corpus di lavori correlati, inclusi:

  • Principi di progettazione della collaborazione uomo-macchina (Amershi et al., 2019)
  • Benchmark di valutazione degli agenti (Jimenez et al., 2023; Zhou et al., 2023)
  • Metodi di valutazione interattiva (Lee et al., 2023; Shao et al., 2024)
  • Ricerca correlata alle leggi di scalamento (Hoffmann et al., 2022; Kaplan et al., 2020)

Sintesi: Questo articolo propone una questione di ricerca importante e tempestiva, fornendo un framework sistematico per valutare e migliorare le capacità collaborative degli agenti. Sebbene presenti alcune limitazioni nella configurazione sperimentale, il suo contributo teorico e valore pratico lo rendono un lavoro importante nel campo della collaborazione uomo-macchina. Con lo sviluppo rapido della tecnologia degli agenti, questa direzione di ricerca che si concentra sulla qualità della collaborazione piuttosto che sul semplice completamento dei compiti diventerà sempre più importante.