2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic

LLM एजेंट्स यूटिलिटी से परे: एक ओपन-एंडेड परिप्रेक्ष्य

बुनियादी जानकारी

  • पेपर आईडी: 2510.14548
  • शीर्षक: LLM Agents Beyond Utility: An Open-Ended Perspective
  • लेखक: Asen Nachkov, Xi Wang, Luc Van Gool
  • संस्थान: INSAIT, Sofia University "St. Kliment Ohridski"; ETH Zurich
  • वर्गीकरण: cs.AI
  • प्रकाशन सम्मेलन: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: CogInterp
  • पेपर लिंक: https://arxiv.org/abs/2510.14548

सारांश

हाल के LLM एजेंट्स ने विचार श्रृंखला तर्क और फ़ंक्शन कॉलिंग का व्यापक उपयोग किया है। जैसे-जैसे उनकी क्षमताएं बढ़ती हैं, एक महत्वपूर्ण प्रश्न उठता है: क्या यह सॉफ्टवेयर न केवल एक स्मार्ट समस्या-समाधान उपकरण का प्रतिनिधित्व कर सकता है, बल्कि अपने आप में एक इकाई हो सकता है, जो योजना बना सकती है, तत्काल कार्यों को डिज़ाइन कर सकती है, और व्यापक, अधिक अस्पष्ट लक्ष्यों की ओर तर्क कर सकती है? इस प्रश्न का अध्ययन करने के लिए, हम एक ओपन-एंडेड प्रायोगिक सेटिंग अपनाते हैं जहां हम एक पूर्व-प्रशिक्षित LLM एजेंट को अपने स्वयं के कार्य उत्पन्न करने, ज्ञान जमा करने, और अपने पर्यावरण के साथ व्यापक रूप से इंटरैक्ट करने की क्षमता प्रदान करते हैं। हम परिणामी ओपन-एंडेड एजेंट का गुणात्मक अध्ययन करते हैं। यह जटिल बहु-चरणीय निर्देशों का विश्वसनीय रूप से पालन कर सकता है, रन भर में जानकारी संग्रहीत और पुनः उपयोग कर सकता है, और अपने स्वयं के कार्यों का प्रस्ताव दे सकता है और हल कर सकता है, हालांकि यह प्रॉम्प्ट डिज़ाइन के प्रति संवेदनशील रहता है, दोहराए जाने वाले कार्य उत्पादन के लिए प्रवण है, और स्व-प्रतिनिधित्व बनाने में असमर्थ है। ये निष्कर्ष ओपन-एंडेडनेस की ओर पूर्व-प्रशिक्षित LLM को अनुकूलित करने के वादे और वर्तमान सीमाओं दोनों को दर्शाते हैं, और स्मृति प्रबंधन, उत्पादक अन्वेषण, और अमूर्त दीर्घकालिक लक्ष्यों का पीछा करने के लिए एजेंट्स को प्रशिक्षित करने के लिए भविष्य की दिशाओं की ओर इशारा करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल प्रश्न

यह अनुसंधान एक मौलिक प्रश्न की खोज करता है: क्या बड़े भाषा मॉडल एजेंट्स पारंपरिक उपकरण भूमिका से परे जा सकते हैं और स्वायत्त इकाइयों में बदल सकते हैं, जो योजना बना सकते हैं, तत्काल कार्यों को डिज़ाइन कर सकते हैं, और अधिक व्यापक, अधिक अस्पष्ट लक्ष्यों की ओर तर्क कर सकते हैं?

अनुसंधान का महत्व

  1. एजेंट विकास का महत्वपूर्ण बिंदु: वर्तमान LLM एजेंट्स मुख्य रूप से विचार श्रृंखला तर्क और फ़ंक्शन कॉलिंग के माध्यम से विशिष्ट कार्यों को हल करते हैं, लेकिन अनिवार्य रूप से अभी भी उपकरण हैं
  2. स्वायत्तता में गुणात्मक छलांग: पूर्वनिर्धारित कार्यों को हल करने से स्वायत्त रूप से कार्यों को डिज़ाइन करने, निरंतर अस्तित्व बनाए रखने, और पर्यावरण में स्थायी प्रभाव छोड़ने की ओर संक्रमण
  3. ओपन-एंडेड बुद्धिमत्ता की खोज: उन वातावरणों में एजेंट्स के व्यवहार का अध्ययन जहां कोई निश्चित समाप्ति स्थिति, कार्य दायरा, या टर्मिनल लक्ष्य नहीं है

मौजूदा विधियों की सीमाएं

  1. कार्य-उन्मुखता: मौजूदा एजेंट्स अभी भी जटिल लेकिन अनिवार्य रूप से विशिष्ट कार्य समाधान के लिए उपकरण का प्रतिनिधित्व करते हैं
  2. निरंतरता की कमी: कार्य पूरा होने के बाद अस्तित्व में रहने और अनुभव जमा करने में असमर्थ
  3. लक्ष्य निर्भरता: स्वायत्त रूप से अमूर्त दीर्घकालिक लक्ष्यों को उत्पन्न और आगे बढ़ाने में असमर्थ

अनुसंधान प्रेरणा

लेखकों का मानना है कि ओपन-एंडेड एजेंट्स को वर्तमान एजेंट्स से भिन्न विशेषताओं की आवश्यकता है, जिनमें स्वायत्त अन्वेषण, पर्यावरण को आकार देने की क्षमता, और स्व-उत्पन्न लक्ष्य (autotelic) विशेषताएं शामिल हैं।

मुख्य योगदान

  1. ओपन-एंडेड LLM एजेंट फ्रेमवर्क प्रस्तावित किया: ReAct फ्रेमवर्क को स्वायत्त कार्य उत्पादन क्षमता के साथ विस्तारित किया
  2. स्थायी इंटरैक्शन तंत्र डिज़ाइन किया: फ़ाइल पढ़ने-लिखने के उपकरणों के माध्यम से रन भर में ज्ञान संचय और स्थिति संरक्षण को लागू किया
  3. अल्पकालिक और दीर्घकालिक स्मृति प्रणाली को लागू किया: कार्य स्मृति और एपिसोडिक स्मृति के अलग-अलग एजेंट आर्किटेक्चर को विभाजित किया
  4. गुणात्मक प्रयोग विश्लेषण किया: ओपन-एंडेड एजेंट्स की क्षमता सीमाओं और सीमाओं का व्यापक मूल्यांकन किया
  5. भविष्य के अनुसंधान दिशाएं प्रदान कीं: सच्चे ओपन-एंडेड एजेंट्स को प्रशिक्षित करने के लिए विशिष्ट पथ निर्दिष्ट किए

विधि विवरण

कार्य परिभाषा

ओपन-एंडेड एजेंट: ऐसा एजेंट जो निश्चित समाप्ति स्थिति, कार्य दायरा, या टर्मिनल लक्ष्य के बिना वातावरण में स्वायत्त रूप से अन्वेषण कर सकता है, कार्यों को उत्पन्न कर सकता है, और निरंतर इंटरैक्ट कर सकता है। इस एजेंट में निम्नलिखित होने चाहिए:

  • स्वायत्त लक्ष्य निर्धारण क्षमता
  • रन भर में निरंतरता
  • पर्यावरण में स्थायी प्रभाव
  • अमूर्त लक्ष्यों का पीछा करने की क्षमता

मॉडल आर्किटेक्चर

1. बुनियादी एजेंट सेटअप

  • आधार मॉडल: Qwen3-4B पूर्व-प्रशिक्षित निर्देश-ट्यून किया गया मॉडल
  • फ्रेमवर्क: ReAct (तर्क-कार्य) एजेंट फ्रेमवर्क, smolagents लाइब्रेरी का उपयोग करते हुए
  • मूल लूप: योजना-कार्य-अवलोकन (Plan-Act-Observe) पुनरावृत्ति निष्पादन

2. ओपन-एंडेड विस्तार घटक

लक्ष्य उत्पादन मॉड्यूल:

  • उपयोगकर्ता इनपुट के अवलोकन के बाद, कार्य को हल करने से पहले लक्ष्य उत्पन्न करता है
  • कार्य परिशोधन, संशोधन, या पूर्ण प्रतिस्थापन का समर्थन करता है
  • संरचित आउटपुट के लिए <task>...</task> टैग का उपयोग करता है

स्मृति प्रबंधन प्रणाली:

  • अल्पकालिक स्मृति: वर्तमान रन में सभी इंटरैक्शन संदेशों को संग्रहीत करने वाला बफर
  • दीर्घकालिक स्मृति: फ़ाइल सिस्टम द्वारा कार्यान्वित स्थायी भंडारण, एजेंट आवश्यकतानुसार लिख सकता है

उपकरण उपयोग इंटरफेस:

  • फ़ाइल संचालन: पढ़ने, लिखने, सूची कार्यक्षमता
  • पर्यावरण इंटरैक्शन: कार्य निर्देशिका की जांच, स्वयं के स्रोत कोड को पढ़ना
  • स्थायीकरण तंत्र: रन भर में प्रासंगिक स्थिति को सहेजना

3. पूर्ण इंटरैक्शन लूप

1. उपयोगकर्ता इनपुट/प्रतिक्रिया प्राप्ति
2. दीर्घकालिक स्मृति पहुंच
3. कार्य उत्पादन (स्वायत्त या उपयोगकर्ता इनपुट के आधार पर)
4-6. ReAct लूप (योजना-कार्य-अवलोकन)
7. दीर्घकालिक स्मृति अपडेट

तकनीकी नवाचार बिंदु

  1. स्वायत्त लक्ष्य उत्पादन: ReAct फ्रेमवर्क में कार्य स्व-उत्पादन क्षमता को पहली बार एकीकृत किया
  2. दोहरी स्मृति आर्किटेक्चर: मानव कार्य स्मृति और एपिसोडिक स्मृति के अलग-अलग डिज़ाइन को अनुकरण करता है
  3. प्रोग्रामेटिक जिज्ञासा: प्राकृतिक भाषा निर्देशों के माध्यम से अन्वेषण व्यवहार को इंजेक्ट करता है
  4. पर्यावरण स्थायीकरण: सरल फ़ाइल संचालन के माध्यम से जटिल निरंतर व्यवहार को लागू करता है

प्रयोग सेटअप

प्रयोग पर्यावरण

  • चलाने का वातावरण: एजेंट अपने कार्यान्वयन कोड की कार्य निर्देशिका में चलता है
  • इंटरैक्शन विधि: पूर्वनिर्धारित क्वेरी और कमांड-लाइन इंटरैक्शन का समर्थन करता है
  • उपकरण सेट: फ़ाइल पढ़ना-लिखना, निर्देशिका सूची आदि बुनियादी संचालन

मूल्यांकन विधि

गुणात्मक विश्लेषण विधि अपनाई गई, जो निम्नलिखित पर ध्यान केंद्रित करती है:

  • कार्य निष्पादन क्षमता
  • स्वायत्त व्यवहार प्रदर्शन
  • स्मृति प्रबंधन प्रभावकारिता
  • पर्यावरण अन्वेषण व्यवहार
  • आत्म-जागरूकता क्षमता

परीक्षण परिदृश्य

  1. एकल रन उपयोगकर्ता कार्य: जटिल निर्देश निष्पादन क्षमता का मूल्यांकन
  2. बहु-रन स्व-उत्पन्न कार्य: स्वायत्तता और निरंतरता का मूल्यांकन
  3. इंटरैक्टिव प्रतिक्रिया: नियंत्रणीयता और अनुकूलनशीलता का मूल्यांकन

प्रयोग परिणाम

मुख्य परिणाम

एकल रन प्रदर्शन (उपयोगकर्ता द्वारा प्रदान किए गए कार्य)

उत्कृष्ट प्रदर्शन:

  • फ़ाइल कार्य प्रसंस्करण: फ़ाइलें खोल सकता है, कार्य पढ़ सकता है, समस्या को हल कर सकता है और उत्तर को दूसरी फ़ाइल में लिख सकता है
  • आत्म-जांच क्षमता: अपनी प्रॉम्प्ट टेम्पलेट फ़ाइल की पहचान कर सकता है, निर्देशिका सूचीबद्ध करके, main.py को पढ़कर टेम्पलेट का पता लगा सकता है
  • कोड समझ: एजेंट प्रोग्राम खोज सकता है, उपयोगकर्ता क्वेरी भंडारण तंत्र को समझ सकता है, और अगली क्वेरी की भविष्यवाणी कर सकता है

सीमाएं खोजें:

  • अस्पष्ट कार्य प्रसंस्करण खराब: जानबूझकर डिज़ाइन किए गए अस्पष्ट कार्यों में अक्सर विफल
  • आत्म-प्रतिनिधित्व की कमी: पर्यावरण में स्रोत कोड को स्वयं के रूप में पहचान नहीं सकता, प्रथम-व्यक्ति आत्म-जागरूकता की कमी
  • अपर्याप्त अन्वेषण: अस्पष्ट संकेतों को समझने में पर्यावरण का पर्याप्त गहराई से अन्वेषण नहीं करता

बहु-रन प्रदर्शन (स्व-उत्पन्न कार्य)

कार्य उत्पादन विशेषताएं:

  • प्रॉम्प्ट संवेदनशीलता: उत्पन्न कार्य प्रॉम्प्ट डिज़ाइन के प्रति अत्यंत संवेदनशील हैं, सावधानीपूर्वक प्रॉम्प्ट इंजीनियरिंग की आवश्यकता है
  • दोहराव समस्या: समान कार्यों को दोहराकर उत्पन्न करने के चक्र में फंसना आसान है
  • सांख्यिकीय पैटर्न निर्भरता: उत्पन्न कार्य प्रशिक्षण डेटा के सांख्यिकीय पैटर्न को प्रतिबिंबित करते हैं (जैसे कैलकुलेटर, पासवर्ड जनरेटर, प्राइम नंबर चेकर आदि)

स्मृति प्रबंधन समस्याएं:

  • भंडारण चूक: कभी-कभी कार्य पूरा करने की जानकारी संग्रहीत करना भूल जाता है, जिससे दोहराव होता है
  • अधूरी जानकारी: केवल परिणाम संग्रहीत कर सकता है, कार्य स्वयं नहीं
  • उपयोगकर्ता प्रतिक्रिया हानि: उपयोगकर्ता प्रतिक्रिया को सक्रिय रूप से संग्रहीत नहीं करेगा, जिससे समायोजन प्रभाव अल्पकालिक होता है

सफलता केस विश्लेषण

एजेंट ने निम्नलिखित क्षमताओं का प्रदर्शन किया:

  1. जटिल निर्देश निष्पादन: विस्तृत, चरण-दर-चरण निर्देशों का विश्वसनीय रूप से पालन कर सकता है
  2. क्रॉस-फ़ाइल संचालन: कई फ़ाइलों और संचालनों को शामिल करने वाले कार्यों को संभाल सकता है
  3. कार्य अनुकूलनशीलता: उपयोगकर्ता प्रतिक्रिया के आधार पर उत्पन्न कार्यों को उचित रूप से समायोजित कर सकता है

प्रयोग निष्कर्ष

मुख्य अंतर्दृष्टि

  1. पूर्व-प्रशिक्षित मॉडल की सीमाएं: पूर्व-प्रशिक्षित LLM कार्य उत्पादन के लिए प्रशिक्षित नहीं हैं, जिससे कई समस्याएं होती हैं
  2. स्मृति प्रबंधन का महत्व: दीर्घकालिक स्मृति का डिज़ाइन सीधे कार्य विविधता और निरंतरता को प्रभावित करता है
  3. प्रॉम्प्ट इंजीनियरिंग की आवश्यकता: ओपन-एंडेड व्यवहार सावधानीपूर्वक डिज़ाइन किए गए सिस्टम प्रॉम्प्ट पर अत्यधिक निर्भर है
  4. नियंत्रणीयता का संरक्षण: उपयोगकर्ता प्रतिक्रिया तंत्र के माध्यम से एजेंट के कार्य चयन को प्रभावित किया जा सकता है

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. स्व-संचालित शिक्षा (Autotelic Agents): आंतरिक प्रेरणा वाले लक्ष्य-सशर्त सुदृढ़ीकरण शिक्षा
  2. जिज्ञासा-संचालित शिक्षा: आंतरिक पुरस्कारों के माध्यम से अन्वेषण को बढ़ावा देने की विधियां
  3. आंतरिक प्रेरणा: व्यक्तिगत कार्यों को आंतरिक पुरस्कार आवंटित करने की तंत्र
  4. उपकरण उपयोग: LLM एजेंट्स की बाहरी फ़ंक्शन कॉलिंग और कोड निष्पादन क्षमता

इस पेपर के नवाचार बिंदु

  1. उच्च स्तर का अमूर्तता: व्यक्तिगत कार्यों को पुरस्कार आवंटित करने के बजाय सीधे प्राकृतिक भाषा में पूर्ण लक्ष्य उत्पन्न करता है
  2. स्थायीकरण तंत्र: सरल फ़ाइल संचालन के माध्यम से जटिल निरंतर व्यवहार को लागू करता है
  3. व्यावहारिक व्यवहार्यता: मौजूदा पूर्व-प्रशिक्षित मॉडल पर आधारित व्यावहारिक विधि

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. पूर्व-प्रशिक्षित LLM में ओपन-एंडेड एजेंट्स की बुनियादी क्षमताएं हैं, लेकिन महत्वपूर्ण सीमाएं हैं
  2. वर्तमान मॉडल कार्य उत्पादन, स्मृति प्रबंधन और आत्म-प्रतिनिधित्व में मौलिक खामियां हैं
  3. विशेष प्रशिक्षण के माध्यम से इन समस्याओं को हल किया जा सकता है, सच्चे ओपन-एंडेड एजेंट्स को प्राप्त करना

सीमाएं

  1. प्रॉम्प्ट संवेदनशीलता: व्यवहार प्रॉम्प्ट डिज़ाइन पर अत्यधिक निर्भर है, दृढ़ता की कमी
  2. दोहराव समस्या: कार्य उत्पादन के चक्र पैटर्न में फंसना आसान है
  3. आत्म-जागरूकता की कमी: प्रभावी आत्म-प्रतिनिधित्व बनाने में असमर्थ
  4. अनुचित स्मृति प्रबंधन: जानकारी भंडारण और पुनः प्राप्ति में खराब प्रदर्शन
  5. सुरक्षा विचार अपर्याप्त: स्वायत्त एजेंट्स के संभावित जोखिमों पर पर्याप्त चर्चा नहीं

भविष्य की दिशाएं

  1. विशेष प्रशिक्षण: ओपन-एंडेड निर्णय लेने के लिए प्रशिक्षण विधियों को विकसित करना
  2. स्मृति प्रबंधन: दीर्घकालिक स्मृति के डिज़ाइन और प्रबंधन रणनीतियों में सुधार
  3. अन्वेषण रणनीति: अधिक प्रभावी पर्यावरण अन्वेषण तंत्र विकसित करना
  4. अमूर्त लक्ष्य पीछा: एजेंट्स को अधिक अमूर्त दीर्घकालिक लक्ष्यों को संभालने के लिए प्रशिक्षित करना

गहन मूल्यांकन

शक्तियां

  1. समस्या जागरूकता दूरदर्शी: उपकरण से स्वायत्त इकाई में परिवर्तन के महत्वपूर्ण प्रश्न को उठाता है
  2. विधि सरल और प्रभावी: न्यूनतम विस्तार के माध्यम से ओपन-एंडेड व्यवहार की प्रारंभिक खोज को लागू करता है
  3. प्रयोग डिज़ाइन उचित: गुणात्मक विश्लेषण विधि अन्वेषणात्मक अनुसंधान की विशेषताओं के लिए उपयुक्त है
  4. ईमानदार सीमा विश्लेषण: वर्तमान विधि की कमियों को उद्देश्यपूर्वक इंगित करता है
  5. स्पष्ट भविष्य दिशाएं: बाद के अनुसंधान के लिए विशिष्ट सुधार पथ प्रदान करता है

कमियां

  1. मूल्यांकन विधि व्यक्तिपरक: मात्रात्मक संकेतकों की कमी, मुख्य रूप से गुणात्मक अवलोकन पर निर्भर
  2. प्रयोग पैमाना सीमित: केवल एकल मॉडल (Qwen3-4B) का उपयोग, व्यापक सत्यापन की कमी
  3. सैद्धांतिक आधार कमजोर: ओपन-एंडेड एजेंट्स के सैद्धांतिक ढांचे की व्याख्या पर्याप्त नहीं
  4. तुलनात्मक प्रयोग अनुपस्थित: अन्य ओपन-एंडेड एजेंट विधियों के साथ तुलना नहीं
  5. सुरक्षा विचार अपर्याप्त: स्वायत्त एजेंट्स के संभावित जोखिमों पर पर्याप्त चर्चा नहीं

प्रभाव

  1. क्षेत्र योगदान: LLM एजेंट्स के ओपन-एंडेड अनुसंधान के लिए नई दिशा खोलता है
  2. व्यावहारिक मूल्य: पुनरुत्पादन योग्य बुनियादी ढांचा प्रदान करता है
  3. अनुसंधान प्रेरणा: बाद के विशेष प्रशिक्षण अनुसंधान के लिए आधार तैयार करता है
  4. सीमा जागरूकता: क्षेत्र को वर्तमान तकनीक की सीमाओं को समझने में मदद करता है

लागू परिदृश्य

  1. अनुसंधान प्रोटोटाइप: ओपन-एंडेड एजेंट अनुसंधान के लिए प्रारंभिक बिंदु के रूप में उपयुक्त
  2. शैक्षणिक उपकरण: एजेंट स्वायत्तता की अवधारणा को समझने के लिए उपयोग किया जा सकता है
  3. बुनियादी मंच: अधिक जटिल ओपन-एंडेड सिस्टम के लिए बुनियादी ढांचा प्रदान करता है
  4. अवधारणा प्रमाण: ओपन-एंडेड एजेंट्स की व्यवहार्यता को सत्यापित करता है

संदर्भ

यह पेपर ओपन-एंडेड शिक्षा, स्व-संचालित एजेंट्स, जिज्ञासा-संचालित शिक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Autotelic agents: Colas et al. (2022) आंतरिक प्रेरणा लक्ष्य-सशर्त सुदृढ़ीकरण शिक्षा पर सर्वेक्षण
  • Curiosity-driven learning: Burda et al. (2018) बड़े पैमाने पर जिज्ञासा-संचालित शिक्षा अनुसंधान
  • Tool usage: Qin et al. (2024) बुनियादी मॉडल की उपकरण शिक्षा सर्वेक्षण
  • ReAct framework: Yao et al. (2023) तर्क और कार्य सहयोग भाषा मॉडल फ्रेमवर्क
  • Voyager: Wang et al. (2023) ओपन-एंडेड मूर्त एजेंट्स के संबंधित कार्य

समग्र मूल्यांकन: यह एक दूरदर्शी अन्वेषणात्मक अनुसंधान है, हालांकि तकनीकी गहराई और प्रयोग पैमाने में कुछ सीमाएं हैं, लेकिन यह LLM एजेंट्स के ओपन-एंडेड स्वायत्त इकाइयों की ओर विकास के लिए महत्वपूर्ण प्रारंभिक अन्वेषण और गहन अंतर्दृष्टि प्रदान करता है। पेपर का मूल्य मुख्य रूप से समस्या के प्रस्ताव और दिशा के मार्गदर्शन में निहित है, जो बाद के अधिक गहन अनुसंधान के लिए आधार तैयार करता है।