LLM Agents Beyond Utility: An Open-Ended Perspective
Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic
LLM एजेंट्स यूटिलिटी से परे: एक ओपन-एंडेड परिप्रेक्ष्य
हाल के LLM एजेंट्स ने विचार श्रृंखला तर्क और फ़ंक्शन कॉलिंग का व्यापक उपयोग किया है। जैसे-जैसे उनकी क्षमताएं बढ़ती हैं, एक महत्वपूर्ण प्रश्न उठता है: क्या यह सॉफ्टवेयर न केवल एक स्मार्ट समस्या-समाधान उपकरण का प्रतिनिधित्व कर सकता है, बल्कि अपने आप में एक इकाई हो सकता है, जो योजना बना सकती है, तत्काल कार्यों को डिज़ाइन कर सकती है, और व्यापक, अधिक अस्पष्ट लक्ष्यों की ओर तर्क कर सकती है? इस प्रश्न का अध्ययन करने के लिए, हम एक ओपन-एंडेड प्रायोगिक सेटिंग अपनाते हैं जहां हम एक पूर्व-प्रशिक्षित LLM एजेंट को अपने स्वयं के कार्य उत्पन्न करने, ज्ञान जमा करने, और अपने पर्यावरण के साथ व्यापक रूप से इंटरैक्ट करने की क्षमता प्रदान करते हैं। हम परिणामी ओपन-एंडेड एजेंट का गुणात्मक अध्ययन करते हैं। यह जटिल बहु-चरणीय निर्देशों का विश्वसनीय रूप से पालन कर सकता है, रन भर में जानकारी संग्रहीत और पुनः उपयोग कर सकता है, और अपने स्वयं के कार्यों का प्रस्ताव दे सकता है और हल कर सकता है, हालांकि यह प्रॉम्प्ट डिज़ाइन के प्रति संवेदनशील रहता है, दोहराए जाने वाले कार्य उत्पादन के लिए प्रवण है, और स्व-प्रतिनिधित्व बनाने में असमर्थ है। ये निष्कर्ष ओपन-एंडेडनेस की ओर पूर्व-प्रशिक्षित LLM को अनुकूलित करने के वादे और वर्तमान सीमाओं दोनों को दर्शाते हैं, और स्मृति प्रबंधन, उत्पादक अन्वेषण, और अमूर्त दीर्घकालिक लक्ष्यों का पीछा करने के लिए एजेंट्स को प्रशिक्षित करने के लिए भविष्य की दिशाओं की ओर इशारा करते हैं।
यह अनुसंधान एक मौलिक प्रश्न की खोज करता है: क्या बड़े भाषा मॉडल एजेंट्स पारंपरिक उपकरण भूमिका से परे जा सकते हैं और स्वायत्त इकाइयों में बदल सकते हैं, जो योजना बना सकते हैं, तत्काल कार्यों को डिज़ाइन कर सकते हैं, और अधिक व्यापक, अधिक अस्पष्ट लक्ष्यों की ओर तर्क कर सकते हैं?
एजेंट विकास का महत्वपूर्ण बिंदु: वर्तमान LLM एजेंट्स मुख्य रूप से विचार श्रृंखला तर्क और फ़ंक्शन कॉलिंग के माध्यम से विशिष्ट कार्यों को हल करते हैं, लेकिन अनिवार्य रूप से अभी भी उपकरण हैं
स्वायत्तता में गुणात्मक छलांग: पूर्वनिर्धारित कार्यों को हल करने से स्वायत्त रूप से कार्यों को डिज़ाइन करने, निरंतर अस्तित्व बनाए रखने, और पर्यावरण में स्थायी प्रभाव छोड़ने की ओर संक्रमण
ओपन-एंडेड बुद्धिमत्ता की खोज: उन वातावरणों में एजेंट्स के व्यवहार का अध्ययन जहां कोई निश्चित समाप्ति स्थिति, कार्य दायरा, या टर्मिनल लक्ष्य नहीं है
लेखकों का मानना है कि ओपन-एंडेड एजेंट्स को वर्तमान एजेंट्स से भिन्न विशेषताओं की आवश्यकता है, जिनमें स्वायत्त अन्वेषण, पर्यावरण को आकार देने की क्षमता, और स्व-उत्पन्न लक्ष्य (autotelic) विशेषताएं शामिल हैं।
ओपन-एंडेड एजेंट: ऐसा एजेंट जो निश्चित समाप्ति स्थिति, कार्य दायरा, या टर्मिनल लक्ष्य के बिना वातावरण में स्वायत्त रूप से अन्वेषण कर सकता है, कार्यों को उत्पन्न कर सकता है, और निरंतर इंटरैक्ट कर सकता है। इस एजेंट में निम्नलिखित होने चाहिए:
प्रॉम्प्ट संवेदनशीलता: उत्पन्न कार्य प्रॉम्प्ट डिज़ाइन के प्रति अत्यंत संवेदनशील हैं, सावधानीपूर्वक प्रॉम्प्ट इंजीनियरिंग की आवश्यकता है
दोहराव समस्या: समान कार्यों को दोहराकर उत्पन्न करने के चक्र में फंसना आसान है
सांख्यिकीय पैटर्न निर्भरता: उत्पन्न कार्य प्रशिक्षण डेटा के सांख्यिकीय पैटर्न को प्रतिबिंबित करते हैं (जैसे कैलकुलेटर, पासवर्ड जनरेटर, प्राइम नंबर चेकर आदि)
स्मृति प्रबंधन समस्याएं:
भंडारण चूक: कभी-कभी कार्य पूरा करने की जानकारी संग्रहीत करना भूल जाता है, जिससे दोहराव होता है
अधूरी जानकारी: केवल परिणाम संग्रहीत कर सकता है, कार्य स्वयं नहीं
उपयोगकर्ता प्रतिक्रिया हानि: उपयोगकर्ता प्रतिक्रिया को सक्रिय रूप से संग्रहीत नहीं करेगा, जिससे समायोजन प्रभाव अल्पकालिक होता है
यह पेपर ओपन-एंडेड शिक्षा, स्व-संचालित एजेंट्स, जिज्ञासा-संचालित शिक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
Autotelic agents: Colas et al. (2022) आंतरिक प्रेरणा लक्ष्य-सशर्त सुदृढ़ीकरण शिक्षा पर सर्वेक्षण
Curiosity-driven learning: Burda et al. (2018) बड़े पैमाने पर जिज्ञासा-संचालित शिक्षा अनुसंधान
Tool usage: Qin et al. (2024) बुनियादी मॉडल की उपकरण शिक्षा सर्वेक्षण
ReAct framework: Yao et al. (2023) तर्क और कार्य सहयोग भाषा मॉडल फ्रेमवर्क
Voyager: Wang et al. (2023) ओपन-एंडेड मूर्त एजेंट्स के संबंधित कार्य
समग्र मूल्यांकन: यह एक दूरदर्शी अन्वेषणात्मक अनुसंधान है, हालांकि तकनीकी गहराई और प्रयोग पैमाने में कुछ सीमाएं हैं, लेकिन यह LLM एजेंट्स के ओपन-एंडेड स्वायत्त इकाइयों की ओर विकास के लिए महत्वपूर्ण प्रारंभिक अन्वेषण और गहन अंतर्दृष्टि प्रदान करता है। पेपर का मूल्य मुख्य रूप से समस्या के प्रस्ताव और दिशा के मार्गदर्शन में निहित है, जो बाद के अधिक गहन अनुसंधान के लिए आधार तैयार करता है।