LLM Agents Beyond Utility: An Open-Ended Perspective
Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic
وكلاء النماذج اللغوية الكبيرة بما يتجاوز الفائدة: منظور مفتوح النهاية
حققت وكلاء النماذج اللغوية الكبيرة الحديثة تقدماً كبيراً باستخدام استدلال سلسلة الفكر واستدعاء الدوال. مع نمو قدراتها، يطرح سؤال مهم: هل يمكن لهذا البرنامج أن يمثل ليس فقط أداة حل مشاكل ذكية، بل كياناً بحد ذاته، قادراً على التخطيط وتصميم المهام الفورية والتفكير نحو أهداف أوسع وأكثر غموضاً؟ لدراسة هذا السؤال، نعتمد إعداداً تجريبياً مفتوح النهاية حيث نزود وكيل نموذج لغوي مدرب مسبقاً بالقدرة على توليد مهامه الخاصة وتجميع المعرفة والتفاعل على نطاق واسع مع بيئته. ندرس الوكيل مفتوح النهاية الناتج بشكل نوعي. يمكنه اتباع التعليمات المعقدة متعددة الخطوات بشكل موثوق، وتخزين وإعادة استخدام المعلومات عبر التشغيلات، واقتراح وحل مهامه الخاصة، على الرغم من بقاء حساسيته لتصميم الطلب، وميله للتوليد المتكرر للمهام، وعدم قدرته على تشكيل تمثيلات ذاتية. توضح هذه النتائج كلاً من الوعود والحدود الحالية لتكييف النماذج اللغوية المدربة مسبقاً نحو مفهوم مفتوح النهاية، وتشير إلى اتجاهات مستقبلية لتدريب الوكلاء على إدارة الذاكرة والاستكشاف المنتج ومتابعة الأهداف طويلة الأجل المجردة.
تستكشف هذه الدراسة سؤالاً جوهرياً: هل يمكن لوكلاء النماذج اللغوية الكبيرة أن يتجاوزوا دورهم التقليدي كأداة ليصبحوا كياناً ذا استقلالية، قادراً على التخطيط وتصميم المهام الفورية والتفكير نحو أهداف أوسع وأكثر غموضاً؟
نقطة حاسمة في تطور الوكلاء: يركز وكلاء النماذج اللغوية الكبيرة الحالية بشكل أساسي على حل المهام المحددة من خلال استدلال سلسلة الفكر واستدعاء الدوال، لكنها تبقى في الأساس أدوات
قفزة نوعية في الاستقلالية: الانتقال من حل المهام المحددة مسبقاً إلى تصميم المهام بشكل مستقل والاستمرار في الوجود وترك آثار دائمة في البيئة
استكشاف الذكاء مفتوح النهاية: دراسة سلوك الوكلاء في بيئات بدون حالة نهائية ثابتة أو نطاق مهام أو أهداف نهائية
يعتقد المؤلفون أن الوكلاء مفتوحي النهاية يحتاجون إلى خصائص مختلفة عن الوكلاء الحاليين، بما في ذلك الاستكشاف المستقل وقدرة تشكيل البيئة والخصائص ذاتية التوليد للأهداف (autotelic).
الوكيل مفتوح النهاية: وكيل قادر على الاستكشاف المستقل وتوليد المهام والتفاعل المستمر في بيئة بدون حالة نهائية ثابتة أو نطاق مهام أو أهداف نهائية. يجب أن يمتلك هذا الوكيل:
1. استقبال إدخال/تعليقات المستخدم
2. الوصول إلى الذاكرة طويلة الأجل
3. توليد المهام (مستقل أو بناءً على إدخال المستخدم)
4-6. حلقة ReAct (التخطيط-الإجراء-الملاحظة)
7. تحديث الذاكرة طويلة الأجل
حساسية الطلب: المهام المولدة حساسة جداً لتصميم الطلب، وتتطلب هندسة طلب دقيقة
مشكلة التكرار: الميل إلى الوقوع في حلقة توليد نفس المهام بشكل متكرر
الاعتماد على الأنماط الإحصائية: تعكس المهام المولدة الأنماط الإحصائية لبيانات التدريب (مثل الآلات الحاسبة وأدوات توليد كلمات المرور والتحقق من الأعداد الأولية وغيرها)
مشاكل إدارة الذاكرة:
حذف التخزين: أحياناً تنسى تخزين معلومات إكمال المهام، مما يؤدي إلى إعادة التوليد
المعلومات غير الكاملة: قد تخزن فقط النتائج دون تخزين المهمة نفسها
فقدان تعليقات المستخدم: لا تخزن تعليقات المستخدم بشكل استباقي، مما يؤدي إلى تأثيرات تعديل قصيرة الأجل
تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم مفتوح النهاية والوكلاء الموجهة ذاتياً والتعلم المدفوع بالفضول، بما في ذلك:
الوكلاء الموجهة ذاتياً: Colas et al. (2022) مراجعة شاملة للتعلم المعزز الموجه بالأهداف مع الدوافع الداخلية
التعلم المدفوع بالفضول: Burda et al. (2018) بحث التعلم المدفوع بالفضول على نطاق واسع
استخدام الأدوات: Qin et al. (2024) مراجعة شاملة لتعلم الأدوات للنماذج الأساسية
إطار عمل ReAct: Yao et al. (2023) إطار عمل النماذج اللغوية للاستدلال والإجراء المتعاونين
Voyager: Wang et al. (2023) أعمال ذات صلة بالوكلاء المجسدة مفتوحة النهاية
التقييم الإجمالي: هذه ورقة بحثية استكشافية ذات رؤية مستقبلية. على الرغم من وجود قيود في العمق التقني ونطاق التجربة، إلا أنها توفر استكشافاً أولياً مهماً ورؤى عميقة لتطور وكلاء النماذج اللغوية الكبيرة نحو كيانات مستقلة مفتوحة النهاية. تكمن قيمة الورقة بشكل أساسي في طرح المشكلة وتوجيه الاتجاه، مما يضع الأساس لأبحاث أعمق لاحقة.