2025-11-11T13:28:09.717207

Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents

Shen, Chen, Gu et al.
Current evaluations of agents remain centered around one-shot task completion, failing to account for the inherently iterative and collaborative nature of many real-world problems, where human goals are often underspecified and evolve. We argue for a shift from building and assessing task completion agents to developing collaborative agents, assessed not only by the quality of their final outputs but by how well they engage with and enhance human effort throughout the problem-solving process. To support this shift, we introduce collaborative effort scaling, a framework that captures how an agent's utility grows with increasing user involvement. Through case studies and simulated evaluations, we show that state-of-the-art agents often underperform in multi-turn, real-world scenarios, revealing a missing ingredient in agent design: the ability to sustain engagement and scaffold user understanding. Collaborative effort scaling offers a lens for diagnosing agent behavior and guiding development toward more effective interactions.
academic

पूर्णता \neq सहयोग: एजेंटों के साथ सहयोगी प्रयास को स्केल करना

बुनियादी जानकारी

  • पेपर ID: 2510.25744
  • शीर्षक: Completion \neq Collaboration: Scaling Collaborative Effort with Agents
  • लेखक: Shannon Zejiang Shen, Valerie Chen, Ken Gu, Alexis Ross, Zixian Ma, Jillian Ross, Alex Gu, Chenglei Si, Wayne Chi, Andi Peng, Jocelyn Shen, Ameet Talwalkar, Tongshuang Wu, David Sontag
  • संस्थान: MIT, CMU, University of Washington, Stanford University
  • वर्गीकरण: cs.CL cs.AI
  • पेपर लिंक: https://arxiv.org/abs/2510.25744
  • प्रोजेक्ट लिंक: https://github.com/clinicalml/collaborative-effort-scaling

सारांश

वर्तमान एजेंट मूल्यांकन मुख्य रूप से एकबारी कार्य पूर्णता पर केंद्रित है, जो कि कई वास्तविक समस्याओं में निहित पुनरावृत्तिमूलक और सहयोगी प्रकृति को ध्यान में नहीं रखता है, जहां मानव उद्देश्य अक्सर अस्पष्ट और विकसित होते हैं। यह पेपर कार्य पूर्णता एजेंटों के निर्माण और मूल्यांकन से सहयोगी एजेंटों के विकास की ओर स्थानांतरण का प्रस्ताव करता है, जो न केवल अंतिम आउटपुट गुणवत्ता के आधार पर मूल्यांकन करते हैं, बल्कि यह भी देखते हैं कि वे पूरी समस्या-समाधान प्रक्रिया में मानव के साथ कैसे संपर्क करते हैं और मानव प्रयास को कैसे बढ़ाते हैं। इस परिवर्तन का समर्थन करने के लिए, लेखकों ने सहयोगी प्रयास स्केलिंग (collaborative effort scaling) ढांचा प्रस्तुत किया है, जो यह दर्शाता है कि एजेंट उपयोगिता उपयोगकर्ता संलग्नता बढ़ने के साथ कैसे बढ़ती है। केस स्टडी और सिमुलेशन मूल्यांकन के माध्यम से, अनुसंधान से पता चलता है कि अत्याधुनिक एजेंट बहु-दौर वास्तविक परिदृश्यों में खराब प्रदर्शन करते हैं, जो एजेंट डिजाइन में लापता तत्वों को प्रकट करता है: संलग्नता बनाए रखने और उपयोगकर्ता समझ का समर्थन करने की क्षमता।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मुख्य समस्या: मौजूदा एजेंट मुख्य रूप से एकबारी कार्य पूर्णता के लिए अनुकूलित हैं, लेकिन वास्तविक दुनिया के जटिल कार्यों में अक्सर मानव-मशीन सहयोग की पुनरावृत्तिमूलक प्रक्रिया की आवश्यकता होती है
  2. समस्या की महत्ता: जैसे-जैसे LLM एजेंट जटिल ज्ञान कार्य में अनुप्रयोग बढ़ते हैं, प्रभावी सहयोग कैसे करें यह मुख्य चुनौती बन जाती है
  3. मौजूदा सीमाएं:
    • यह मान लिया जाता है कि उपयोगकर्ता की आवश्यकताएं स्थिर और पूरी तरह निर्दिष्ट हैं
    • उपयोगकर्ता समझ निर्माण और लक्ष्य विकास की प्रक्रिया को नजरअंदाज किया जाता है
    • सहयोगी प्रक्रिया गुणवत्ता के मूल्यांकन के लिए तंत्र की कमी है

अनुसंधान प्रेरणा

लेखकों ने पांच डोमेन में केस स्टडी (डेटा विश्लेषण, यात्रा योजना, वित्तीय परामर्श, शिक्षा, गणितीय खोज) के माध्यम से पाया कि वर्तमान कार्य पूर्णता एजेंट बहु-दौर इंटरैक्शन में व्यवस्थित समस्याओं का सामना करते हैं:

  • बहुत जल्दी पचाने में कठिन संपूर्ण परिणाम उत्पन्न करना
  • उपयोगकर्ता प्रतिक्रिया को प्रभावी ढंग से एकीकृत करने में असमर्थता
  • तर्क प्रक्रिया में पारदर्शिता की कमी
  • जब उपयोगकर्ता की आवश्यकताएं विकसित होती हैं तो खराब प्रदर्शन

मुख्य योगदान

  1. सैद्धांतिक ढांचा: सहयोगी प्रयास स्केलिंग (Collaborative Effort Scaling) ढांचा प्रस्तुत करता है, जो उपयोगकर्ता प्रयास और संयुक्त उपयोगिता दोनों आयामों से मानव-मशीन सहयोग गुणवत्ता का मूल्यांकन करता है
  2. मूल्यांकन विधि: सहयोगी एजेंट प्रदर्शन को मापने के लिए संकेतकों की एक प्रणाली डिजाइन करता है, जिसमें इंटरैक्शन स्थायित्व और अधिकतम उपलब्धता शामिल है
  3. अनुभवजन्य निष्कर्ष: सिमुलेशन प्रयोगों के माध्यम से साबित करता है कि वर्तमान SOTA एजेंट सहयोगी परिदृश्यों में खराब प्रदर्शन करते हैं, सहयोगी डिजाइन की महत्ता को प्रकट करता है
  4. डिजाइन अंतर्दृष्टि: अधिक प्रभावी सहयोगी एजेंटों के निर्माण के लिए विशिष्ट डिजाइन मार्गदर्शन और निदान उपकरण प्रदान करता है

विधि विवरण

कार्य परिभाषा

मानव-मशीन सहयोग को आंशिक रूप से अवलोकनीय मार्कोव निर्णय प्रक्रिया (POMDP) के रूप में मॉडल करता है:

  • कार्य अनुक्रम: a=[a1(l1),a2(l2),...,aT(lT)]a = [a_1^{(l_1)}, a_2^{(l_2)}, ..., a_T^{(l_T)}], जहां lt{H,A}l_t \in \{H, A\} मानव या एजेंट को दर्शाता है
  • संदर्भ विंडो: c=[c1(l1),c2(l2),...,cT(lT)]c = [c_1^{(l_1)}, c_2^{(l_2)}, ..., c_T^{(l_T)}]
  • सहयोगी दौर: मानव-मशीन हैंडऑफ के माध्यम से पूरी प्रक्रिया को दौर में विभाजित करता है ak=a[ik:jk]a_k = a[i_k:j_k]

ढांचे के मुख्य घटक

1. दोहरी-आयामी मूल्यांकन प्रणाली

  • उपयोगकर्ता प्रयास (User Effort): उपयोगकर्ता द्वारा सहयोगी प्रक्रिया में निवेश किया गया संज्ञानात्मक और अनुसंधान कार्य
    • बुनियादी माप: मानव-नेतृत्व वाले दौर की संख्या aH|a^H|
    • बढ़ाया गया माप: संसाधित संदर्भ टोकन की संख्या cA\sum c^A
  • संयुक्त कार्यों की उपयोगिता (Utility of Joint Actions): मानव-मशीन टीम द्वारा संयुक्त रूप से पूर्ण किए गए कार्य की गुणवत्ता

2. मुख्य संकेतक परिभाषा

समग्र उपयोगिता: U=1Ni=1NmaxUk(i)U = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)}

सुधार लाभ: G=1Ni=1NmaxUk(i)Uki(i)G = \frac{1}{N}\sum_{i=1}^{N} \max U_k^{(i)} - U_{k'_i}^{(i)}

उपलब्धता में गिरावट: D@τ=1Ni=1NUki,τ(i)UKi(i)D@\tau = \frac{1}{N}\sum_{i=1}^{N} U_{k_{i,\tau}}^{(i)} - U_{K_i}^{(i)}

3. आदर्श सहयोग गुण

  • इंटरैक्शन स्थायित्व: एजेंट को उपयोगकर्ता प्रयास बढ़ने के साथ अधिक मूल्य उत्पन्न करना चाहिए
  • अधिकतम उपलब्धता: एजेंट को दीर्घकालीन इंटरैक्शन को प्रोत्साहित और बनाए रखना चाहिए, उपयोगकर्ता के जल्दी हार मानने से बचना चाहिए

तकनीकी नवाचार

  1. परिणाम-केंद्रित से प्रक्रिया-केंद्रित: न केवल अंतिम आउटपुट गुणवत्ता पर ध्यान केंद्रित करता है, बल्कि सहयोगी प्रक्रिया की प्रभावशीलता को अधिक महत्व देता है
  2. स्केलिंग कानून से प्रेरणा: मशीन लर्निंग में स्केलिंग कानून की अवधारणा से उधार लेता है, सहयोगी उपयोगिता के स्केलिंग गुणों का अध्ययन करता है
  3. बहु-चरणीय मॉडलिंग: प्रारंभिक अनुरोध चरण और सुधार चरण को अलग करता है, सहयोगी गतिविधि को अधिक सटीक रूप से कैप्चर करता है

प्रयोगात्मक सेटअप

प्रयोगात्मक वातावरण

  • प्लेटफॉर्म: Collaborative-Gym वातावरण, अतुल्यकालिक मानव-मशीन कार्यों का समर्थन करता है
  • कार्य: यात्रा योजना कार्य, उच्च-स्तरीय विवरण से शुरू करके यात्रा कार्यक्रम, आवास और परिवहन युक्त विस्तृत योजना तैयार करता है

मॉडल कॉन्फ़िगरेशन

  • परीक्षण मॉडल: GPT-4o, Claude 3.5 Sonnet, Claude 4.0 Sonnet, Llama-3.1 70B
  • एजेंट प्रकार:
    • स्वचालित आधार एजेंट
    • एक-चरणीय सहयोगी एजेंट
    • दो-चरणीय सहयोगी एजेंट (योजना चरण जोड़ता है)

मूल्यांकन सेटअप

  • प्रदर्शन माप: सामान्य ज्ञान पास दर और बाधा संतुष्टि दर के अंकगणितीय माध्य पर आधारित
  • सिमुलेशन उपयोगकर्ता: GPT-4o के आधार पर प्रेरित एजेंट, उपयोगकर्ता वरीयताओं और लक्ष्यों तक अतिरिक्त पहुंच के साथ
  • इंटरैक्शन सीमा: अधिकतम 30 दौर इंटरैक्शन

प्रायोगिक परिणाम

मुख्य निष्कर्ष

1. सहयोगी उपयोगिता स्केलिंग प्रवृत्ति

  • सभी एजेंट समान सहयोगी प्रयास स्केलिंग प्रवृत्ति प्रदर्शित करते हैं: प्रारंभिक सुधार के बाद लगभग 5 दौर इंटरैक्शन के बाद पठार अवस्था तक पहुंचते हैं
  • Claude श्रृंखला मॉडल सर्वश्रेष्ठ प्रदर्शन करते हैं, उपयोगकर्ता प्रयास का प्रभावी ढंग से उपयोग करके प्रदर्शन सुधार प्राप्त कर सकते हैं

2. मॉडलों के बीच महत्वपूर्ण अंतर

तालिका 1 के परिणामों के अनुसार:

मॉडलरणनीतिसमग्र उपयोगितासुधार लाभ (सापेक्ष)उपलब्धता में गिरावट (सापेक्ष)
Claude-4.0-sonnetएक-चरणीय0.6805.7%-20.6%
Claude-4.0-sonnetदो-चरणीय0.6815.2%-34.9%
Claude-3.5-sonnetएक-चरणीय0.45013.6%-29.7%
GPT-4oएक-चरणीय0.5074.9%-20.8%

3. सहयोगी रणनीति का प्रभाव

  • Claude-3.5-sonnet: दो-चरणीय योजना प्रदर्शन में महत्वपूर्ण सुधार करती है, 0.450 से 0.687 तक
  • Claude-4.0-sonnet: एक-चरणीय और दो-चरणीय रणनीति समान अंतिम उपयोगिता तक पहुंचती हैं, लेकिन दक्षता अलग है
  • GPT-4o और Llama-3.1-70b: सहयोगी संस्करण स्वचालित आधार से आगे नहीं निकल सके

प्रयास वितरण विश्लेषण

उपयोगकर्ता प्रयास में अंतर

  • Claude-4.0-sonnet को छोड़कर, अन्य मॉडलों को सीमित लाभ के साथ अधिक टोकन में उपयोगकर्ता निवेश की आवश्यकता होती है
  • Claude-4.0-sonnet प्रयास अनुपात की व्यापक श्रृंखला में मजबूत प्रदर्शन बनाए रखता है

इष्टतम प्रयास संतुलन

  • मॉडल-निर्भर इष्टतम एजेंट-उपयोगकर्ता प्रयास अनुपात मौजूद है
  • जब कोई भी पक्ष इंटरैक्शन पर अत्यधिक प्रभुत्व रखता है, तो संयुक्त प्रदर्शन में गिरावट की प्रवृत्ति होती है

प्रायोगिक निष्कर्ष

  1. क्षमता रणनीति निर्धारित करती है: कमजोर मॉडल क्षमता अधिक संरचित इंटरैक्शन स्कैफोल्डिंग की आवश्यकता होती है
  2. सहयोगी डिजाइन महत्वपूर्ण है: यहां तक कि शक्तिशाली मॉडलों के लिए भी, सहयोगी विधि का डिजाइन समग्र प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करता है
  3. प्रयास संतुलन महत्वपूर्ण है: इष्टतम मानव-मशीन प्रयास वितरण अनुपात मौजूद है, जिसे मॉडल क्षमता के अनुसार समायोजित करने की आवश्यकता है

संबंधित कार्य

मानव-मशीन सहयोग अनुसंधान

  • प्रारंभिक अनुसंधान सीमित AI प्रणालियों के लिए मानव-मशीन सहयोग डिजाइन सिद्धांतों पर केंद्रित था
  • आधुनिक LLM एजेंटों में अधिक जटिल इंटरैक्शन क्षमताएं हैं, नए सहयोगी ढांचे की आवश्यकता है

एजेंट मूल्यांकन बेंचमार्क

  • मौजूदा बेंचमार्क मुख्य रूप से कार्य पूर्णता क्षमता पर केंद्रित हैं (जैसे SWE-Bench, WebArena, GAIA)
  • सहयोगी प्रक्रिया गुणवत्ता के व्यवस्थित मूल्यांकन की कमी है

इंटरैक्टिव मूल्यांकन

  • हाल के कार्य इंटरैक्टिव मूल्यांकन को शामिल करना शुरू कर रहे हैं, लेकिन अभी भी संकीर्ण चरणबद्ध इंटरैक्शन तक सीमित हैं
  • यह पेपर विस्तारित इंटरैक्शन ट्रैजेक्टरी में सहयोगी गतिविधि पर केंद्रित है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रतिमान परिवर्तन आवश्यक है: कार्य पूर्णता से सहयोगी क्षमता के मूल्यांकन की ओर परिवर्तन आवश्यक है
  2. वर्तमान एजेंट अपर्याप्त हैं: SOTA एजेंट सहयोगी परिदृश्यों में खराब प्रदर्शन करते हैं, संलग्नता बनाए रखने और समझ का समर्थन करने की क्षमता की कमी है
  3. डिजाइन मार्गदर्शन: सहयोगी प्रयास स्केलिंग ढांचा एजेंट सहयोगी क्षमता का निदान और सुधार करने के लिए प्रभावी उपकरण प्रदान करता है

सीमाएं

  1. प्रयोगात्मक दायरा: केवल एक डोमेन (यात्रा योजना) में प्रयोग किए गए, सभी सहयोगी गतिविधि को कवर नहीं कर सकते हैं
  2. सिमुलेशन उपयोगकर्ता: वास्तविक मानव प्रतिभागियों के बजाय सिमुलेशन उपयोगकर्ता का उपयोग, वास्तविक इंटरैक्शन पैटर्न को पूरी तरह प्रतिबिंबित नहीं कर सकते हैं
  3. माप सरलीकरण: सरलीकृत उपयोगिता और प्रयास प्रॉक्सी संकेतकों का उपयोग, वास्तविक सहयोग की जटिलता अधिक है

भविष्य की दिशाएं

  1. अधिक समृद्ध सिमुलेशन वातावरण: उपयोगकर्ता के पास निजी जानकारी या डोमेन ज्ञान वाले परिदृश्य बनाना
  2. अनुकूलनीय सहयोगी ढांचा: मॉडल क्षमता के आधार पर सहयोगी रणनीति को गतिशील रूप से समायोजित करना
  3. बहु-मोडल सहयोग: दृश्य, भाषण आदि बहु-मोडल सहयोग को शामिल करने के लिए विस्तार करना

गहन मूल्यांकन

लाभ

  1. समस्या पहचान सटीक है: वर्तमान एजेंट मूल्यांकन की मुख्य खामियों को सटीक रूप से पहचानता है
  2. ढांचा डिजाइन उचित है: सहयोगी प्रयास स्केलिंग ढांचा अवधारणा स्पष्ट है, परिचालन योग्य है
  3. अनुभवजन्य अनुसंधान पर्याप्त है: केस स्टडी और सिमुलेशन प्रयोगों को जोड़ता है, बहु-कोण सत्यापन प्रदान करता है
  4. व्यावहारिक मूल्य अधिक है: एजेंट विकास कर्ताओं को विशिष्ट डिजाइन मार्गदर्शन प्रदान करता है

कमियां

  1. मूल्यांकन सीमाएं: सिमुलेशन वातावरण और प्रॉक्सी संकेतक वास्तविक सहयोग की जटिलता को पूरी तरह कैप्चर नहीं कर सकते हैं
  2. मॉडल कवरेज सीमित: परीक्षण किए गए मॉडलों की संख्या अपेक्षाकृत सीमित है, निष्कर्षों की सार्वभौमिकता सत्यापन की प्रतीक्षा में है
  3. दीर्घकालीन प्रभाव अज्ञात: दीर्घकालीन सहयोगी संबंध और सीखने के प्रभाव पर अनुसंधान की कमी है

प्रभाव

  1. शैक्षणिक योगदान: मानव-मशीन सहयोग अनुसंधान के लिए नया सैद्धांतिक ढांचा और मूल्यांकन विधि प्रदान करता है
  2. व्यावहारिक मूल्य: एजेंट उत्पाद विकास के लिए महत्वपूर्ण मार्गदर्शन मूल्य है
  3. अनुसंधान दिशा: सहयोगी गुणवत्ता पर ध्यान केंद्रित करने वाले अधिक अनुसंधान को प्रेरित कर सकता है, न कि केवल कार्य पूर्णता

लागू परिदृश्य

  1. ज्ञान कार्य: डेटा विश्लेषण, अनुसंधान, परामर्श आदि जहां पुनरावृत्तिमूलक अन्वेषण की आवश्यकता होती है
  2. शिक्षा प्रशिक्षण: क्रमिक समझ निर्माण की आवश्यकता वाले सीखने के परिदृश्य
  3. रचनात्मक कार्य: मानव-मशीन संयुक्त निर्माण और सुधार की आवश्यकता वाले कार्य

संदर्भ

यह पेपर व्यापक संबंधित कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • मानव-मशीन सहयोग डिजाइन सिद्धांत (Amershi et al., 2019)
  • एजेंट मूल्यांकन बेंचमार्क (Jimenez et al., 2023; Zhou et al., 2023)
  • इंटरैक्टिव मूल्यांकन विधि (Lee et al., 2023; Shao et al., 2024)
  • स्केलिंग कानून संबंधित अनुसंधान (Hoffmann et al., 2022; Kaplan et al., 2020)

सारांश: यह पेपर एक महत्वपूर्ण और समय पर अनुसंधान समस्या प्रस्तुत करता है, एजेंटों की सहयोगी क्षमता का मूल्यांकन और सुधार करने के लिए एक व्यवस्थित ढांचा प्रदान करता है। यद्यपि प्रयोगात्मक सेटअप में कुछ सीमाएं हैं, इसके सैद्धांतिक योगदान और व्यावहारिक मूल्य इसे मानव-मशीन सहयोग क्षेत्र का एक महत्वपूर्ण कार्य बनाते हैं। जैसे-जैसे एजेंट प्रौद्योगिकी तेजी से विकसित होती है, सहयोगी गुणवत्ता पर ध्यान केंद्रित करने वाली यह अनुसंधान दिशा, न कि केवल कार्य पूर्णता, तेजी से महत्वपूर्ण होती जाएगी।