Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
- पेपर ID: 2510.25744
- शीर्षक: Completion = Collaboration: Scaling Collaborative Effort with Agents
- लेखक: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
- संस्थान: MIT, CMU, University of Washington, Stanford University
- वर्गीकरण: cs.CL cs.AI
- पेपर लिंक: https://arxiv.org/abs/2510.25744
- प्रोजेक्ट लिंक: https://github.com/clinicalml/collaborative-effort-scaling
वर्तमान एजेंट मूल्यांकन मुख्य रूप से एकबारी कार्य पूर्णता पर केंद्रित है, जो कि कई वास्तविक समस्याओं में निहित पुनरावृत्तिमूलक और सहयोगी प्रकृति को ध्यान में नहीं रखता है, जहां मानव उद्देश्य अक्सर अस्पष्ट और विकसित होते हैं। यह पेपर कार्य पूर्णता एजेंटों के निर्माण और मूल्यांकन से सहयोगी एजेंटों के विकास की ओर स्थानांतरण का प्रस्ताव करता है, जो न केवल अंतिम आउटपुट गुणवत्ता के आधार पर मूल्यांकन करते हैं, बल्कि यह भी देखते हैं कि वे पूरी समस्या-समाधान प्रक्रिया में मानव के साथ कैसे संपर्क करते हैं और मानव प्रयास को कैसे बढ़ाते हैं। इस परिवर्तन का समर्थन करने के लिए, लेखकों ने सहयोगी प्रयास स्केलिंग (collaborative effort scaling) ढांचा प्रस्तुत किया है, जो यह दर्शाता है कि एजेंट उपयोगिता उपयोगकर्ता संलग्नता बढ़ने के साथ कैसे बढ़ती है। केस स्टडी और सिमुलेशन मूल्यांकन के माध्यम से, अनुसंधान से पता चलता है कि अत्याधुनिक एजेंट बहु-दौर वास्तविक परिदृश्यों में खराब प्रदर्शन करते हैं, जो एजेंट डिजाइन में लापता तत्वों को प्रकट करता है: संलग्नता बनाए रखने और उपयोगकर्ता समझ का समर्थन करने की क्षमता।
- मुख्य समस्या: मौजूदा एजेंट मुख्य रूप से एकबारी कार्य पूर्णता के लिए अनुकूलित हैं, लेकिन वास्तविक दुनिया के जटिल कार्यों में अक्सर मानव-मशीन सहयोग की पुनरावृत्तिमूलक प्रक्रिया की आवश्यकता होती है
- समस्या की महत्ता: जैसे-जैसे LLM एजेंट जटिल ज्ञान कार्य में अनुप्रयोग बढ़ते हैं, प्रभावी सहयोग कैसे करें यह मुख्य चुनौती बन जाती है
- मौजूदा सीमाएं:
- यह मान लिया जाता है कि उपयोगकर्ता की आवश्यकताएं स्थिर और पूरी तरह निर्दिष्ट हैं
- उपयोगकर्ता समझ निर्माण और लक्ष्य विकास की प्रक्रिया को नजरअंदाज किया जाता है
- सहयोगी प्रक्रिया गुणवत्ता के मूल्यांकन के लिए तंत्र की कमी है
लेखकों ने पांच डोमेन में केस स्टडी (डेटा विश्लेषण, यात्रा योजना, वित्तीय परामर्श, शिक्षा, गणितीय खोज) के माध्यम से पाया कि वर्तमान कार्य पूर्णता एजेंट बहु-दौर इंटरैक्शन में व्यवस्थित समस्याओं का सामना करते हैं:
- बहुत जल्दी पचाने में कठिन संपूर्ण परिणाम उत्पन्न करना
- उपयोगकर्ता प्रतिक्रिया को प्रभावी ढंग से एकीकृत करने में असमर्थता
- तर्क प्रक्रिया में पारदर्शिता की कमी
- जब उपयोगकर्ता की आवश्यकताएं विकसित होती हैं तो खराब प्रदर्शन
- सैद्धांतिक ढांचा: सहयोगी प्रयास स्केलिंग (Collaborative Effort Scaling) ढांचा प्रस्तुत करता है, जो उपयोगकर्ता प्रयास और संयुक्त उपयोगिता दोनों आयामों से मानव-मशीन सहयोग गुणवत्ता का मूल्यांकन करता है
- मूल्यांकन विधि: सहयोगी एजेंट प्रदर्शन को मापने के लिए संकेतकों की एक प्रणाली डिजाइन करता है, जिसमें इंटरैक्शन स्थायित्व और अधिकतम उपलब्धता शामिल है
- अनुभवजन्य निष्कर्ष: सिमुलेशन प्रयोगों के माध्यम से साबित करता है कि वर्तमान SOTA एजेंट सहयोगी परिदृश्यों में खराब प्रदर्शन करते हैं, सहयोगी डिजाइन की महत्ता को प्रकट करता है
- डिजाइन अंतर्दृष्टि: अधिक प्रभावी सहयोगी एजेंटों के निर्माण के लिए विशिष्ट डिजाइन मार्गदर्शन और निदान उपकरण प्रदान करता है
मानव-मशीन सहयोग को आंशिक रूप से अवलोकनीय मार्कोव निर्णय प्रक्रिया (POMDP) के रूप में मॉडल करता है:
- कार्य अनुक्रम: a=[a1(l1),a2(l2),...,aT(lT)], जहां lt∈{H,A} मानव या एजेंट को दर्शाता है
- संदर्भ विंडो: c=[c1(l1),c2(l2),...,cT(lT)]
- सहयोगी दौर: मानव-मशीन हैंडऑफ के माध्यम से पूरी प्रक्रिया को दौर में विभाजित करता है ak=a[ik:jk]
- उपयोगकर्ता प्रयास (User Effort): उपयोगकर्ता द्वारा सहयोगी प्रक्रिया में निवेश किया गया संज्ञानात्मक और अनुसंधान कार्य
- बुनियादी माप: मानव-नेतृत्व वाले दौर की संख्या ∣aH∣
- बढ़ाया गया माप: संसाधित संदर्भ टोकन की संख्या ∑cA
- संयुक्त कार्यों की उपयोगिता (Utility of Joint Actions): मानव-मशीन टीम द्वारा संयुक्त रूप से पूर्ण किए गए कार्य की गुणवत्ता
समग्र उपयोगिता:
U=N1∑i=1NmaxUk(i)
सुधार लाभ:
G=N1∑i=1NmaxUk(i)−Uki′(i)
उपलब्धता में गिरावट:
D@τ=N1∑i=1NUki,τ(i)−UKi(i)
- इंटरैक्शन स्थायित्व: एजेंट को उपयोगकर्ता प्रयास बढ़ने के साथ अधिक मूल्य उत्पन्न करना चाहिए
- अधिकतम उपलब्धता: एजेंट को दीर्घकालीन इंटरैक्शन को प्रोत्साहित और बनाए रखना चाहिए, उपयोगकर्ता के जल्दी हार मानने से बचना चाहिए
- परिणाम-केंद्रित से प्रक्रिया-केंद्रित: न केवल अंतिम आउटपुट गुणवत्ता पर ध्यान केंद्रित करता है, बल्कि सहयोगी प्रक्रिया की प्रभावशीलता को अधिक महत्व देता है
- स्केलिंग कानून से प्रेरणा: मशीन लर्निंग में स्केलिंग कानून की अवधारणा से उधार लेता है, सहयोगी उपयोगिता के स्केलिंग गुणों का अध्ययन करता है
- बहु-चरणीय मॉडलिंग: प्रारंभिक अनुरोध चरण और सुधार चरण को अलग करता है, सहयोगी गतिविधि को अधिक सटीक रूप से कैप्चर करता है
- प्लेटफॉर्म: Collaborative-Gym वातावरण, अतुल्यकालिक मानव-मशीन कार्यों का समर्थन करता है
- कार्य: यात्रा योजना कार्य, उच्च-स्तरीय विवरण से शुरू करके यात्रा कार्यक्रम, आवास और परिवहन युक्त विस्तृत योजना तैयार करता है
- परीक्षण मॉडल: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
- एजेंट प्रकार:
- स्वचालित आधार एजेंट
- एक-चरणीय सहयोगी एजेंट
- दो-चरणीय सहयोगी एजेंट (योजना चरण जोड़ता है)
- प्रदर्शन माप: सामान्य ज्ञान पास दर और बाधा संतुष्टि दर के अंकगणितीय माध्य पर आधारित
- सिमुलेशन उपयोगकर्ता: GPT-4o के आधार पर प्रेरित एजेंट, उपयोगकर्ता वरीयताओं और लक्ष्यों तक अतिरिक्त पहुंच के साथ
- इंटरैक्शन सीमा: अधिकतम 30 दौर इंटरैक्शन
- सभी एजेंट समान सहयोगी प्रयास स्केलिंग प्रवृत्ति प्रदर्शित करते हैं: प्रारंभिक सुधार के बाद लगभग 5 दौर इंटरैक्शन के बाद पठार अवस्था तक पहुंचते हैं
- Claude श्रृंखला मॉडल सर्वश्रेष्ठ प्रदर्शन करते हैं, उपयोगकर्ता प्रयास का प्रभावी ढंग से उपयोग करके प्रदर्शन सुधार प्राप्त कर सकते हैं
तालिका 1 के परिणामों के अनुसार:
| मॉडल | रणनीति | समग्र उपयोगिता | सुधार लाभ (सापेक्ष) | उपलब्धता में गिरावट (सापेक्ष) |
|---|
| Claude-4.0-sonnet | एक-चरणीय | 0.680 | 5.7% | -20.6% |
| Claude-4.0-sonnet | दो-चरणीय | 0.681 | 5.2% | -34.9% |
| Claude-3.5-sonnet | एक-चरणीय | 0.450 | 13.6% | -29.7% |
| GPT-4o | एक-चरणीय | 0.507 | 4.9% | -20.8% |
- Claude-3.5-sonnet: दो-चरणीय योजना प्रदर्शन में महत्वपूर्ण सुधार करती है, 0.450 से 0.687 तक
- Claude-4.0-sonnet: एक-चरणीय और दो-चरणीय रणनीति समान अंतिम उपयोगिता तक पहुंचती हैं, लेकिन दक्षता अलग है
- GPT-4o और Llama-3.1-70b: सहयोगी संस्करण स्वचालित आधार से आगे नहीं निकल सके
- Claude-4.0-sonnet को छोड़कर, अन्य मॉडलों को सीमित लाभ के साथ अधिक टोकन में उपयोगकर्ता निवेश की आवश्यकता होती है
- Claude-4.0-sonnet प्रयास अनुपात की व्यापक श्रृंखला में मजबूत प्रदर्शन बनाए रखता है
- मॉडल-निर्भर इष्टतम एजेंट-उपयोगकर्ता प्रयास अनुपात मौजूद है
- जब कोई भी पक्ष इंटरैक्शन पर अत्यधिक प्रभुत्व रखता है, तो संयुक्त प्रदर्शन में गिरावट की प्रवृत्ति होती है
- क्षमता रणनीति निर्धारित करती है: कमजोर मॉडल क्षमता अधिक संरचित इंटरैक्शन स्कैफोल्डिंग की आवश्यकता होती है
- सहयोगी डिजाइन महत्वपूर्ण है: यहां तक कि शक्तिशाली मॉडलों के लिए भी, सहयोगी विधि का डिजाइन समग्र प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करता है
- प्रयास संतुलन महत्वपूर्ण है: इष्टतम मानव-मशीन प्रयास वितरण अनुपात मौजूद है, जिसे मॉडल क्षमता के अनुसार समायोजित करने की आवश्यकता है
- प्रारंभिक अनुसंधान सीमित AI प्रणालियों के लिए मानव-मशीन सहयोग डिजाइन सिद्धांतों पर केंद्रित था
- आधुनिक LLM एजेंटों में अधिक जटिल इंटरैक्शन क्षमताएं हैं, नए सहयोगी ढांचे की आवश्यकता है
- मौजूदा बेंचमार्क मुख्य रूप से कार्य पूर्णता क्षमता पर केंद्रित हैं (जैसे SWE-Bench, WebArena, GAIA)
- सहयोगी प्रक्रिया गुणवत्ता के व्यवस्थित मूल्यांकन की कमी है
- हाल के कार्य इंटरैक्टिव मूल्यांकन को शामिल करना शुरू कर रहे हैं, लेकिन अभी भी संकीर्ण चरणबद्ध इंटरैक्शन तक सीमित हैं
- यह पेपर विस्तारित इंटरैक्शन ट्रैजेक्टरी में सहयोगी गतिविधि पर केंद्रित है
- प्रतिमान परिवर्तन आवश्यक है: कार्य पूर्णता से सहयोगी क्षमता के मूल्यांकन की ओर परिवर्तन आवश्यक है
- वर्तमान एजेंट अपर्याप्त हैं: SOTA एजेंट सहयोगी परिदृश्यों में खराब प्रदर्शन करते हैं, संलग्नता बनाए रखने और समझ का समर्थन करने की क्षमता की कमी है
- डिजाइन मार्गदर्शन: सहयोगी प्रयास स्केलिंग ढांचा एजेंट सहयोगी क्षमता का निदान और सुधार करने के लिए प्रभावी उपकरण प्रदान करता है
- प्रयोगात्मक दायरा: केवल एक डोमेन (यात्रा योजना) में प्रयोग किए गए, सभी सहयोगी गतिविधि को कवर नहीं कर सकते हैं
- सिमुलेशन उपयोगकर्ता: वास्तविक मानव प्रतिभागियों के बजाय सिमुलेशन उपयोगकर्ता का उपयोग, वास्तविक इंटरैक्शन पैटर्न को पूरी तरह प्रतिबिंबित नहीं कर सकते हैं
- माप सरलीकरण: सरलीकृत उपयोगिता और प्रयास प्रॉक्सी संकेतकों का उपयोग, वास्तविक सहयोग की जटिलता अधिक है
- अधिक समृद्ध सिमुलेशन वातावरण: उपयोगकर्ता के पास निजी जानकारी या डोमेन ज्ञान वाले परिदृश्य बनाना
- अनुकूलनीय सहयोगी ढांचा: मॉडल क्षमता के आधार पर सहयोगी रणनीति को गतिशील रूप से समायोजित करना
- बहु-मोडल सहयोग: दृश्य, भाषण आदि बहु-मोडल सहयोग को शामिल करने के लिए विस्तार करना
- समस्या पहचान सटीक है: वर्तमान एजेंट मूल्यांकन की मुख्य खामियों को सटीक रूप से पहचानता है
- ढांचा डिजाइन उचित है: सहयोगी प्रयास स्केलिंग ढांचा अवधारणा स्पष्ट है, परिचालन योग्य है
- अनुभवजन्य अनुसंधान पर्याप्त है: केस स्टडी और सिमुलेशन प्रयोगों को जोड़ता है, बहु-कोण सत्यापन प्रदान करता है
- व्यावहारिक मूल्य अधिक है: एजेंट विकास कर्ताओं को विशिष्ट डिजाइन मार्गदर्शन प्रदान करता है
- मूल्यांकन सीमाएं: सिमुलेशन वातावरण और प्रॉक्सी संकेतक वास्तविक सहयोग की जटिलता को पूरी तरह कैप्चर नहीं कर सकते हैं
- मॉडल कवरेज सीमित: परीक्षण किए गए मॉडलों की संख्या अपेक्षाकृत सीमित है, निष्कर्षों की सार्वभौमिकता सत्यापन की प्रतीक्षा में है
- दीर्घकालीन प्रभाव अज्ञात: दीर्घकालीन सहयोगी संबंध और सीखने के प्रभाव पर अनुसंधान की कमी है
- शैक्षणिक योगदान: मानव-मशीन सहयोग अनुसंधान के लिए नया सैद्धांतिक ढांचा और मूल्यांकन विधि प्रदान करता है
- व्यावहारिक मूल्य: एजेंट उत्पाद विकास के लिए महत्वपूर्ण मार्गदर्शन मूल्य है
- अनुसंधान दिशा: सहयोगी गुणवत्ता पर ध्यान केंद्रित करने वाले अधिक अनुसंधान को प्रेरित कर सकता है, न कि केवल कार्य पूर्णता
- ज्ञान कार्य: डेटा विश्लेषण, अनुसंधान, परामर्श आदि जहां पुनरावृत्तिमूलक अन्वेषण की आवश्यकता होती है
- शिक्षा प्रशिक्षण: क्रमिक समझ निर्माण की आवश्यकता वाले सीखने के परिदृश्य
- रचनात्मक कार्य: मानव-मशीन संयुक्त निर्माण और सुधार की आवश्यकता वाले कार्य
यह पेपर व्यापक संबंधित कार्यों का हवाला देता है, जिसमें शामिल हैं:
- मानव-मशीन सहयोग डिजाइन सिद्धांत (Amershi et al., 2019)
- एजेंट मूल्यांकन बेंचमार्क (Jimenez et al., 2023; Zhou et al., 2023)
- इंटरैक्टिव मूल्यांकन विधि (Lee et al., 2023; Shao et al., 2024)
- स्केलिंग कानून संबंधित अनुसंधान (Hoffmann et al., 2022; Kaplan et al., 2020)
सारांश: यह पेपर एक महत्वपूर्ण और समय पर अनुसंधान समस्या प्रस्तुत करता है, एजेंटों की सहयोगी क्षमता का मूल्यांकन और सुधार करने के लिए एक व्यवस्थित ढांचा प्रदान करता है। यद्यपि प्रयोगात्मक सेटअप में कुछ सीमाएं हैं, इसके सैद्धांतिक योगदान और व्यावहारिक मूल्य इसे मानव-मशीन सहयोग क्षेत्र का एक महत्वपूर्ण कार्य बनाते हैं। जैसे-जैसे एजेंट प्रौद्योगिकी तेजी से विकसित होती है, सहयोगी गुणवत्ता पर ध्यान केंद्रित करने वाली यह अनुसंधान दिशा, न कि केवल कार्य पूर्णता, तेजी से महत्वपूर्ण होती जाएगी।