2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

Fertigstellung \neq Zusammenarbeit: Skalierung kollaborativer Anstrengungen mit Agenten

Grundinformationen

  • Papier-ID: 2510.25744
  • Titel: Fertigstellung \neq Zusammenarbeit: Skalierung kollaborativer Anstrengungen mit Agenten
  • Autoren: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • Institutionen: MIT, CMU, University of Washington, Stanford University
  • Klassifizierung: cs.CL cs.AI
  • Papierlink: https://arxiv.org/abs/2510.25744
  • Projektlink: https://github.com/clinicalml/collaborative-effort-scaling

Zusammenfassung

Die aktuelle Agentenbewertung konzentriert sich hauptsächlich auf einmalige Aufgabenvollendung und berücksichtigt nicht die iterative und kollaborative Natur vieler realer Probleme, bei denen menschliche Ziele oft unterspezifiziert sind und sich entwickeln. Dieses Papier schlägt vor, von der Entwicklung und Bewertung von Aufgabenvollendungsagenten zu kollaborativen Agenten überzugehen, die nicht nur nach der Qualität der endgültigen Ausgabe bewertet werden, sondern auch danach, wie sie während des gesamten Problemlösungsprozesses mit Menschen interagieren und menschliche Anstrengungen verstärken. Zur Unterstützung dieses Wandels führen die Autoren das Framework der Skalierung kollaborativer Anstrengungen (Collaborative Effort Scaling) ein, das erfasst, wie der Nutzen von Agenten mit zunehmender Benutzerpartizipation wächst. Durch Fallstudien und simulierte Bewertungen zeigt die Forschung, dass hochmoderne Agenten in mehrrundigen realen Szenarien schlecht abschneiden und offenbaren fehlende Elemente im Agenten-Design: die Fähigkeit, Engagement aufrechtzuerhalten und Benutzerverständnis zu unterstützen.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bestehende Agenten sind hauptsächlich für einmalige Aufgabenvollendung optimiert, aber komplexe reale Aufgaben erfordern oft iterative Prozesse der Mensch-Maschine-Zusammenarbeit
  2. Problemrelevanz: Mit zunehmender Anwendung von LLM-Agenten in komplexer Wissensarbeit wird effektive Zusammenarbeit zu einer Schlüsselherausforderung
  3. Bestehende Einschränkungen:
    • Annahme, dass Benutzeranforderungen statisch und vollständig spezifiziert sind
    • Vernachlässigung des Prozesses des Benutzerverständnisaufbaus und der Zielentwicklung
    • Mangel an Bewertungsmechanismen für die Qualität des Zusammenarbeitsprozesses

Forschungsmotivation

Die Autoren entdeckten durch Fallstudien in fünf Bereichen (Datenanalyse, Reiseplanung, Finanzberatung, Bildung, mathematische Entdeckung) systematische Probleme bei aktuellen Aufgabenvollendungsagenten in mehrrundigen Interaktionen:

  • Vorzeitige Generierung schwer verdaulicher vollständiger Ergebnisse
  • Unfähigkeit, Benutzerfeedback effektiv zu integrieren
  • Mangel an Transparenz des Denkprozesses
  • Schlechte Leistung bei sich entwickelnden Benutzeranforderungen

Kernbeiträge

  1. Theoretisches Framework: Einführung des Frameworks der Skalierung kollaborativer Anstrengungen (Collaborative Effort Scaling), das die Qualität der Mensch-Maschine-Zusammenarbeit aus zwei Dimensionen bewertet: Benutzeranstrengung und gemeinsamer Nutzen
  2. Bewertungsmethode: Entwicklung eines Indikatorensystems zur Quantifizierung der Leistung kollaborativer Agenten, einschließlich Interaktionsnachhaltigkeit und maximale Verfügbarkeit
  3. Empirische Erkenntnisse: Nachweis durch Simulationsexperimente, dass aktuelle SOTA-Agenten in Kollaborationsszenarien schlecht abschneiden und die Bedeutung von Kollaborationsdesign offenbaren
  4. Designerkenntnisse: Bereitstellung spezifischer Designanleitungen und Diagnosetools für die Konstruktion effektiverer kollaborativer Agenten

Methodische Details

Aufgabendefinition

Modellierung der Mensch-Maschine-Zusammenarbeit als teilweise beobachtbarer Markov-Entscheidungsprozess (POMDP):

  • Aktionssequenz: a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}], wobei lt{H,A}l_t \in \{H, A\} Mensch oder Agent angibt
  • Kontextfenster: c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • Kollaborationsrunden: Zerlegung des gesamten Prozesses in Runden ak=a[ik:jk]a_k = a[i_k:j_k] durch Mensch-Maschine-Übergaben

Kernkomponenten des Frameworks

1. Zweidimensionales Bewertungssystem

  • Benutzeranstrengung (User Effort): Kognitive und Forschungsarbeit, die der Benutzer während des Zusammenarbeitsprozesses investiert
    • Grundlegende Metrik: Anzahl der von Menschen geleiteten Runden aH|a^H|
    • Erweiterte Metrik: Anzahl verarbeiteter Kontexttoken cA\sum c^A
  • Gemeinsamer Nutzen (Utility of Joint Actions): Qualität der Arbeit, die das Mensch-Maschine-Team gemeinsam leistet

2. Schlüsselindikatoren-Definition

Gesamtnutzen: U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

Verbesserungsgewinn: G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

Verfügbarkeitsrückgang: D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. Ideale Kollaborationseigenschaften

  • Interaktionsnachhaltigkeit: Der Agent sollte mit zunehmender Benutzeranstrengung größeren Wert generieren
  • Maximale Verfügbarkeit: Der Agent sollte langfristige Interaktion fördern und aufrechterhalten und verhindern, dass Benutzer vorzeitig aufgeben

Technische Innovationen

  1. Von ergebnisorientiert zu prozessorientiert: Fokus nicht nur auf die Qualität der endgültigen Ausgabe, sondern auch auf die Effektivität des Zusammenarbeitsprozesses
  2. Inspiriert durch Skalierungsgesetze: Konzepte aus Skalierungsgesetzen im maschinellen Lernen auf die Skalierungseigenschaften des Kollaborationsnutzens anwenden
  3. Mehrstufige Modellierung: Unterscheidung zwischen anfänglicher Anfragephase und Verbesserungsphase für präzisere Erfassung der Kollaborationsdynamik

Experimentelle Einrichtung

Experimentelle Umgebung

  • Plattform: Collaborative-Gym-Umgebung, unterstützt asynchrone Mensch-Maschine-Aktionen
  • Aufgabe: Reiseplanungsaufgabe, Erstellung eines detaillierten Plans mit Reiseroute, Unterkunft und Transport basierend auf einer hochrangigen Beschreibung

Modellkonfiguration

  • Getestete Modelle: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • Agententypen:
    • Automatisierte Baseline-Agenten
    • Einstufige kollaborative Agenten
    • Zweistufige kollaborative Agenten (mit zusätzlichen Planungsschritten)

Bewertungseinrichtung

  • Leistungsmetriken: Arithmetischer Durchschnitt basierend auf Common-Sense-Durchsatzrate und Constraint-Erfüllungsrate
  • Simulierter Benutzer: Prompt-basierter Agent auf GPT-4o-Basis mit zusätzlichem Zugriff auf Benutzerpräferenzen und Ziele
  • Interaktionslimit: Maximal 30 Runden

Experimentelle Ergebnisse

Haupterkenntnisse

1. Skalierungstrends kollaborativen Nutzens

  • Alle Agenten zeigen ähnliche Skalierungstrends bei kollaborativer Anstrengung: anfängliche Verbesserung, dann Plateau nach etwa 5 Runden Interaktion
  • Claude-Serie-Modelle zeigen die beste Leistung und können Benutzeranstrengung effektiv zur Leistungssteigerung nutzen

2. Signifikante Unterschiede zwischen Modellen

Nach den Ergebnissen in Tabelle 1:

ModellStrategieGesamtnutzenVerbesserungsgewinn (relativ)Verfügbarkeitsrückgang (relativ)
Claude-4.0-sonnetEinstufig0.6805.7%-20.6%
Claude-4.0-sonnetZweistufig0.6815.2%-34.9%
Claude-3.5-sonnetEinstufig0.45013.6%-29.7%
GPT-4oEinstufig0.5074.9%-20.8%

3. Auswirkungen der Kollaborationsstrategie

  • Claude-3.5-sonnet: Zweistufige Planung verbessert die Leistung erheblich, von 0.450 auf 0.687
  • Claude-4.0-sonnet: Einstufige und zweistufige Strategien erreichen ähnlichen endgültigen Nutzen, aber unterschiedliche Effizienz
  • GPT-4o und Llama-3.1-70b: Kollaborative Versionen übertreffen nicht die automatisierte Baseline

Analyse der Anstrengungsverteilung

Unterschiede in der Benutzeranstrengung

  • Mit Ausnahme von Claude-4.0-sonnet benötigen andere Modelle mehr Token-Investition des Benutzers mit begrenztem Gewinn
  • Claude-4.0-sonnet behält starke Leistung über ein breiteres Spektrum von Anstrengungsverhältnissen

Optimale Anstrengungsbalance

  • Es existiert ein modellabhängiges optimales Verhältnis zwischen Agent- und Benutzeranstrengung
  • Wenn eine Seite die Interaktion übermäßig dominiert, sinkt die gemeinsame Leistung

Experimentelle Erkenntnisse

  1. Fähigkeit bestimmt Strategie: Schwächere Modelle benötigen mehr strukturierte Interaktionsgerüste
  2. Kollaborationsdesign ist kritisch: Selbst starke Modelle werden durch Kollaborationsdesign erheblich beeinflusst
  3. Anstrengungsbalance ist wichtig: Es existiert ein optimales Verhältnis der Mensch-Maschine-Anstrengungsverteilung, das je nach Modellkapazität angepasst werden muss

Verwandte Arbeiten

Mensch-Maschine-Kollaborationsforschung

  • Frühe Forschung konzentrierte sich auf Designrichtlinien für Mensch-Maschine-Zusammenarbeit mit begrenzten KI-Systemen
  • Moderne LLM-Agenten verfügen über komplexere Interaktionsfähigkeiten und erfordern neue Kollaborationsframeworks

Agenten-Bewertungs-Benchmarks

  • Bestehende Benchmarks konzentrieren sich hauptsächlich auf Aufgabenvollendungsfähigkeiten (z.B. SWE-Bench, WebArena, GAIA)
  • Mangel an systematischer Bewertung der Qualität des Zusammenarbeitsprozesses

Interaktive Bewertung

  • Neuere Arbeiten beginnen, interaktive Bewertung einzuführen, bleiben aber auf begrenzte schrittweise Interaktionen beschränkt
  • Dieses Papier konzentriert sich auf Kollaborationsdynamik in erweiterten Interaktionstrajektor

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Notwendigkeit eines Paradigmenwechsels: Ein Wechsel von Aufgabenvollendung zur Bewertung von Kollaborationsfähigkeiten ist notwendig
  2. Unzulänglichkeit aktueller Agenten: SOTA-Agenten schneiden in Kollaborationsszenarien schlecht ab und fehlt die Fähigkeit, Engagement aufrechtzuerhalten und Verständnis zu unterstützen
  3. Designanleitungen: Das Framework der Skalierung kollaborativer Anstrengungen bietet effektive Werkzeuge zur Diagnose und Verbesserung der Kollaborationsfähigkeiten von Agenten

Einschränkungen

  1. Experimenteller Umfang: Experimente nur in einer einzelnen Domäne (Reiseplanung), möglicherweise nicht alle Kollaborationsdynamiken abdeckend
  2. Simulierter Benutzer: Verwendung simulierter Benutzer statt echter menschlicher Teilnehmer, möglicherweise nicht vollständig echte Interaktionsmuster widerspiegelnd
  3. Vereinfachte Metriken: Verwendung vereinfachter Proxy-Indikatoren für Nutzen und Anstrengung, echte Kollaborationskomplexität ist höher

Zukünftige Richtungen

  1. Reichhaltigere Simulationsumgebungen: Konstruktion von Szenarien, in denen Benutzer private Informationen oder Domänenwissen haben
  2. Adaptive Kollaborationsframeworks: Dynamische Anpassung der Kollaborationsstrategie basierend auf Modellkapazität
  3. Multimodale Zusammenarbeit: Erweiterung auf Szenarien mit visuellen, sprachlichen und anderen multimodalen Elementen

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemberkennung: Präzise Identifikation der Kernmängel der aktuellen Agentenbewertung
  2. Angemessenes Framework-Design: Das Framework der Skalierung kollaborativer Anstrengungen ist konzeptionell klar und operativ stark
  3. Ausreichende empirische Forschung: Kombination von Fallstudien und Simulationsexperimenten bietet mehrdimensionale Validierung
  4. Hoher praktischer Wert: Bietet Agenten-Entwicklern spezifische Designanleitungen

Mängel

  1. Bewertungseinschränkungen: Simulierte Umgebungen und Proxy-Indikatoren können die Komplexität echter Zusammenarbeit möglicherweise nicht vollständig erfassen
  2. Begrenzte Modellabdeckung: Relativ begrenzte Anzahl getesteter Modelle, Universalität der Schlussfolgerungen bedarf Verifikation
  3. Langzeiteffekte unbekannt: Mangel an Forschung zu langfristigen Kollaborationsbeziehungen und Lerneffekten

Auswirkungen

  1. Akademischer Beitrag: Bietet neues theoretisches Framework und Bewertungsmethoden für Mensch-Maschine-Kollaborationsforschung
  2. Praktischer Wert: Wichtige Orientierungshilfe für die Entwicklung von Agenten-Produkten
  3. Forschungsrichtung: Könnte mehr Forschung katalysieren, die sich auf Kollaborationsqualität statt reiner Aufgabenvollendung konzentriert

Anwendungsszenarien

  1. Wissensarbeit: Datenanalyse, Forschung, Beratung und andere Bereiche, die iterative Erkundung erfordern
  2. Bildung und Training: Lernszenarien, die schrittweisen Verständnisaufbau erfordern
  3. Kreative Arbeit: Aufgaben, die gemeinsame menschlich-maschinelle Kreation und Verbesserung erfordern

Referenzen

Dieses Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Designrichtlinien für Mensch-Maschine-Zusammenarbeit (Amershi et al., 2019)
  • Agenten-Bewertungs-Benchmarks (Jimenez et al., 2023; Zhou et al., 2023)
  • Interaktive Bewertungsmethoden (Lee et al., 2023; Shao et al., 2024)
  • Forschung zu Skalierungsgesetzen (Hoffmann et al., 2022; Kaplan et al., 2020)

Zusammenfassung: Dieses Papier stellt ein wichtiges und zeitgemäßes Forschungsproblem dar und bietet ein systematisches Framework zur Bewertung und Verbesserung der Kollaborationsfähigkeiten von Agenten. Obwohl es gewisse Einschränkungen in der experimentellen Einrichtung gibt, machen seine theoretischen Beiträge und praktischen Werte es zu einer wichtigen Arbeit im Bereich der Mensch-Maschine-Zusammenarbeit. Mit der rasanten Entwicklung der Agenten-Technologie wird diese Forschungsrichtung, die sich auf Kollaborationsqualität statt reiner Aufgabenvollendung konzentriert, zunehmend wichtiger.