2025-11-20T08:31:15.303151

LLM Agents Beyond Utility: An Open-Ended Perspective

Nachkov, Wang, Van Gool
Recent LLM agents have made great use of chain of thought reasoning and function calling. As their capabilities grow, an important question arises: can this software represent not only a smart problem-solving tool, but an entity in its own right, that can plan, design immediate tasks, and reason toward broader, more ambiguous goals? To study this question, we adopt an open-ended experimental setting where we augment a pretrained LLM agent with the ability to generate its own tasks, accumulate knowledge, and interact extensively with its environment. We study the resulting open-ended agent qualitatively. It can reliably follow complex multi-step instructions, store and reuse information across runs, and propose and solve its own tasks, though it remains sensitive to prompt design, prone to repetitive task generation, and unable to form self-representations. These findings illustrate both the promise and current limits of adapting pretrained LLMs toward open-endedness, and point to future directions for training agents to manage memory, explore productively, and pursue abstract long-term goals.
academic

وكلاء النماذج اللغوية الكبيرة بما يتجاوز الفائدة: منظور مفتوح النهاية

المعلومات الأساسية

  • معرّف الورقة: 2510.14548
  • العنوان: LLM Agents Beyond Utility: An Open-Ended Perspective
  • المؤلفون: Asen Nachkov, Xi Wang, Luc Van Gool
  • المؤسسات: INSAIT، جامعة صوفيا "القديس كليمنت أوهريدسكي"؛ ETH Zurich
  • التصنيف: cs.AI
  • المؤتمر: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025) ورشة عمل: CogInterp
  • رابط الورقة: https://arxiv.org/abs/2510.14548

الملخص

حققت وكلاء النماذج اللغوية الكبيرة الحديثة تقدماً كبيراً باستخدام استدلال سلسلة الفكر واستدعاء الدوال. مع نمو قدراتها، يطرح سؤال مهم: هل يمكن لهذا البرنامج أن يمثل ليس فقط أداة حل مشاكل ذكية، بل كياناً بحد ذاته، قادراً على التخطيط وتصميم المهام الفورية والتفكير نحو أهداف أوسع وأكثر غموضاً؟ لدراسة هذا السؤال، نعتمد إعداداً تجريبياً مفتوح النهاية حيث نزود وكيل نموذج لغوي مدرب مسبقاً بالقدرة على توليد مهامه الخاصة وتجميع المعرفة والتفاعل على نطاق واسع مع بيئته. ندرس الوكيل مفتوح النهاية الناتج بشكل نوعي. يمكنه اتباع التعليمات المعقدة متعددة الخطوات بشكل موثوق، وتخزين وإعادة استخدام المعلومات عبر التشغيلات، واقتراح وحل مهامه الخاصة، على الرغم من بقاء حساسيته لتصميم الطلب، وميله للتوليد المتكرر للمهام، وعدم قدرته على تشكيل تمثيلات ذاتية. توضح هذه النتائج كلاً من الوعود والحدود الحالية لتكييف النماذج اللغوية المدربة مسبقاً نحو مفهوم مفتوح النهاية، وتشير إلى اتجاهات مستقبلية لتدريب الوكلاء على إدارة الذاكرة والاستكشاف المنتج ومتابعة الأهداف طويلة الأجل المجردة.

السياق البحثي والدافع

المسألة الأساسية

تستكشف هذه الدراسة سؤالاً جوهرياً: هل يمكن لوكلاء النماذج اللغوية الكبيرة أن يتجاوزوا دورهم التقليدي كأداة ليصبحوا كياناً ذا استقلالية، قادراً على التخطيط وتصميم المهام الفورية والتفكير نحو أهداف أوسع وأكثر غموضاً؟

أهمية البحث

  1. نقطة حاسمة في تطور الوكلاء: يركز وكلاء النماذج اللغوية الكبيرة الحالية بشكل أساسي على حل المهام المحددة من خلال استدلال سلسلة الفكر واستدعاء الدوال، لكنها تبقى في الأساس أدوات
  2. قفزة نوعية في الاستقلالية: الانتقال من حل المهام المحددة مسبقاً إلى تصميم المهام بشكل مستقل والاستمرار في الوجود وترك آثار دائمة في البيئة
  3. استكشاف الذكاء مفتوح النهاية: دراسة سلوك الوكلاء في بيئات بدون حالة نهائية ثابتة أو نطاق مهام أو أهداف نهائية

حدود الأساليب الموجودة

  1. التوجه نحو المهام: لا يزال الوكلاء الحاليون يمثلون أدوات معقدة لكن موجهة نحو حل مهام محددة
  2. الافتقار إلى الاستمرارية: عدم القدرة على الاستمرار في الوجود بعد إكمال المهام وتجميع الخبرات
  3. الاعتماد على الأهداف: عدم القدرة على توليد الأهداف المجردة طويلة الأجل بشكل مستقل ومتابعتها

الدافع البحثي

يعتقد المؤلفون أن الوكلاء مفتوحي النهاية يحتاجون إلى خصائص مختلفة عن الوكلاء الحاليين، بما في ذلك الاستكشاف المستقل وقدرة تشكيل البيئة والخصائص ذاتية التوليد للأهداف (autotelic).

المساهمات الأساسية

  1. اقتراح إطار عمل وكيل نموذج لغوي مفتوح النهاية: توسيع إطار عمل ReAct بإضافة قدرة توليد المهام المستقلة
  2. تصميم آلية تفاعل دائمة: تحقيق تجميع المعرفة والحفاظ على الحالة عبر التشغيلات من خلال أدوات قراءة وكتابة الملفات
  3. تنفيذ نظام ذاكرة قصيرة وطويلة الأجل: معمارية وكيل تميز بين الذاكرة العاملة والذاكرة الحلقية
  4. إجراء تحليل تجريبي نوعي: تقييم شامل لحدود قدرات الوكيل مفتوح النهاية
  5. توفير اتجاهات بحثية مستقبلية: تحديد مسارات محددة لتدريب وكلاء حقيقيين مفتوحي النهاية

شرح الطريقة

تعريف المهمة

الوكيل مفتوح النهاية: وكيل قادر على الاستكشاف المستقل وتوليد المهام والتفاعل المستمر في بيئة بدون حالة نهائية ثابتة أو نطاق مهام أو أهداف نهائية. يجب أن يمتلك هذا الوكيل:

  • قدرة تحديد الأهداف المستقلة
  • الاستمرارية عبر التشغيلات
  • التأثير الدائم في البيئة
  • القدرة على متابعة الأهداف المجردة

معمارية النموذج

1. إعداد الوكيل الأساسي

  • النموذج الأساسي: نموذج Qwen3-4B المدرب مسبقاً والمضبوط على التعليمات
  • الإطار: إطار عمل ReAct (الاستدلال-الإجراء) للوكيل، باستخدام مكتبة smolagents
  • الحلقة الأساسية: تنفيذ تكراري لـ (التخطيط-الإجراء-الملاحظة)

2. مكونات التوسيع مفتوح النهاية

وحدة توليد الأهداف:

  • توليد الأهداف بعد ملاحظة إدخال المستخدم وقبل حل المهمة
  • دعم تحسين المهام أو تعديلها أو استبدالها بالكامل
  • استخدام علامات <task>...</task> للإخراج المنظم

نظام إدارة الذاكرة:

  • الذاكرة قصيرة الأجل: مخزن مؤقت يخزن جميع رسائل التفاعل في التشغيل الحالي
  • الذاكرة طويلة الأجل: تخزين دائم يتم تنفيذه من خلال نظام الملفات، يمكن للوكيل الكتابة إليه حسب الحاجة

واجهة استخدام الأدوات:

  • عمليات الملفات: قراءة وكتابة وقائمة الملفات
  • التفاعل مع البيئة: فحص دليل العمل وقراءة كود المصدر الخاص به
  • آلية الدوام: حفظ الحالة ذات الصلة عبر التشغيلات

3. حلقة التفاعل الكاملة

1. استقبال إدخال/تعليقات المستخدم
2. الوصول إلى الذاكرة طويلة الأجل
3. توليد المهام (مستقل أو بناءً على إدخال المستخدم)
4-6. حلقة ReAct (التخطيط-الإجراء-الملاحظة)
7. تحديث الذاكرة طويلة الأجل

نقاط الابتكار التقني

  1. توليد الأهداف المستقل: دمج قدرة توليد المهام الذاتي في إطار عمل ReAct للمرة الأولى
  2. معمارية الذاكرة المزدوجة: تصميم يحاكي الفصل بين الذاكرة العاملة والذاكرة الحلقية البشرية
  3. الفضول البرمجي: حقن السلوك الاستكشافي من خلال تعليمات اللغة الطبيعية
  4. دوام البيئة: تحقيق السلوكيات المستمرة المعقدة من خلال عمليات ملفات بسيطة

إعداد التجربة

بيئة التجربة

  • بيئة التشغيل: يعمل الوكيل في دليل العمل لكود تنفيذه
  • طريقة التفاعل: دعم الاستعلامات المحددة مسبقاً والتفاعل من خلال سطر الأوامر
  • مجموعة الأدوات: قراءة وكتابة الملفات وعمليات الدليل الأساسية

طريقة التقييم

استخدام طريقة التحليل النوعي مع التركيز على:

  • قدرة تنفيذ المهام
  • أداء السلوك المستقل
  • فعالية إدارة الذاكرة
  • سلوك استكشاف البيئة
  • قدرة الوعي الذاتي

سيناريوهات الاختبار

  1. مهام المستخدم في تشغيل واحد: تقييم قدرة تنفيذ التعليمات المعقدة
  2. المهام ذاتية التوليد عبر تشغيلات متعددة: تقييم الاستقلالية والاستمرارية
  3. التعليقات التفاعلية: تقييم القابلية للتحكم والتكيف

نتائج التجربة

النتائج الرئيسية

الأداء في التشغيل الواحد (المهام المقدمة من المستخدم)

الأداء المتميز:

  • معالجة مهام الملفات: القدرة على فتح الملفات وقراءة المهام وحل المشاكل وكتابة الإجابات في ملف آخر
  • قدرة الفحص الذاتي: القدرة على تحديد ملف قالب الطلب الخاص به، من خلال إدراج الدليل وقراءة main.py لتحديد موقع القالب
  • فهم الأكواد: القدرة على العثور على برنامج الوكيل وفهم آلية تخزين استعلامات المستخدم والتنبؤ بالاستعلام التالي

النتائج المحدودة:

  • ضعف في معالجة المهام الغامضة: غالباً ما تفشل في المهام المصممة بقصد أن تكون غامضة
  • غياب التمثيل الذاتي: عدم القدرة على التعرف على كود المصدر في البيئة كجزء من نفسه، وافتقار الوعي الذاتي بصيغة الشخص الأول
  • استكشاف غير كافٍ: عدم الاستكشاف العميق الكافي عند فهم الطلبات الغامضة

الأداء عبر تشغيلات متعددة (المهام ذاتية التوليد)

خصائص توليد المهام:

  • حساسية الطلب: المهام المولدة حساسة جداً لتصميم الطلب، وتتطلب هندسة طلب دقيقة
  • مشكلة التكرار: الميل إلى الوقوع في حلقة توليد نفس المهام بشكل متكرر
  • الاعتماد على الأنماط الإحصائية: تعكس المهام المولدة الأنماط الإحصائية لبيانات التدريب (مثل الآلات الحاسبة وأدوات توليد كلمات المرور والتحقق من الأعداد الأولية وغيرها)

مشاكل إدارة الذاكرة:

  • حذف التخزين: أحياناً تنسى تخزين معلومات إكمال المهام، مما يؤدي إلى إعادة التوليد
  • المعلومات غير الكاملة: قد تخزن فقط النتائج دون تخزين المهمة نفسها
  • فقدان تعليقات المستخدم: لا تخزن تعليقات المستخدم بشكل استباقي، مما يؤدي إلى تأثيرات تعديل قصيرة الأجل

تحليل حالات النجاح

أظهر الوكيل القدرات التالية:

  1. تنفيذ التعليمات المعقدة: اتباع موثوق للتعليمات التفصيلية والمرحلية
  2. عمليات متعددة الملفات: القدرة على معالجة المهام التي تتضمن ملفات متعددة وعمليات
  3. تكيف المهام: القدرة على تعديل المهام المولدة بشكل معقول بناءً على تعليقات المستخدم

نتائج التجربة

الرؤى الرئيسية

  1. حدود النموذج المدرب مسبقاً: لم يتم تدريب النموذج اللغوي المدرب مسبقاً على توليد المهام، مما يؤدي إلى مشاكل متعددة
  2. أهمية إدارة الذاكرة: يؤثر تصميم الذاكرة طويلة الأجل بشكل مباشر على تنوع المهام والاستمرارية
  3. ضرورة هندسة الطلب: يعتمد السلوك مفتوح النهاية بشكل كبير على طلب نظام مصمم بعناية
  4. الحفاظ على القابلية للتحكم: يمكن التأثير على اختيار المهام من قبل الوكيل من خلال آلية تعليقات المستخدم

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. التعلم الموجه ذاتياً (Autotelic Agents): التعلم المعزز الموجه بالأهداف مع الدوافع الداخلية
  2. التعلم المدفوع بالفضول: طرق تعزيز الاستكشاف من خلال المكافآت الداخلية
  3. الدوافع الداخلية: آليات تخصيص المكافآت الداخلية للإجراءات الفردية
  4. استخدام الأدوات: قدرات استدعاء الدوال الخارجية وتنفيذ الأكواد لوكلاء النماذج اللغوية الكبيرة

نقاط الابتكار في هذه الورقة

  1. مستوى أعلى من التجريد: توليد الأهداف الكاملة مباشرة باللغة الطبيعية، بدلاً من تخصيص المكافآت للإجراءات الفردية
  2. آلية الدوام: تحقيق السلوكيات المستمرة المعقدة من خلال عمليات ملفات بسيطة
  3. الجدوى العملية: طريقة عملية بناءً على النماذج المدربة مسبقاً الموجودة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تمتلك النماذج اللغوية الكبيرة المدربة مسبقاً القدرات الأساسية للوكلاء مفتوحي النهاية، لكن مع حدود كبيرة
  2. تعاني النماذج الحالية من عيوب جوهرية في توليد المهام وإدارة الذاكرة والتمثيل الذاتي
  3. قد يؤدي التدريب المتخصص إلى حل هذه المشاكل، مما يحقق وكلاء حقيقيين مفتوحي النهاية

القيود

  1. حساسية الطلب: يعتمد السلوك بشكل كبير على تصميم الطلب، مع افتقار إلى المتانة
  2. مشكلة التكرار: الميل إلى الوقوع في أنماط حلقية في توليد المهام
  3. غياب الوعي الذاتي: عدم القدرة على تشكيل تمثيل ذاتي فعال
  4. إدارة الذاكرة غير الكافية: أداء ضعيفة في تخزين واسترجاع المعلومات

الاتجاهات المستقبلية

  1. التدريب المتخصص: تطوير طرق تدريب موجهة نحو صنع القرار مفتوح النهاية
  2. إدارة الذاكرة: تحسين تصميم واستراتيجيات إدارة الذاكرة طويلة الأجل
  3. استراتيجيات الاستكشاف: تطوير آليات استكشاف بيئة أكثر فعالية
  4. متابعة الأهداف المجردة: تدريب الوكلاء على التعامل مع الأهداف طويلة الأجل الأكثر تجريداً

التقييم المتعمق

المزايا

  1. الوعي المستقبلي بالمشكلة: طرح سؤال مهم حول الانتقال من الأداة إلى الكيان المستقل
  2. الطريقة البسيطة والفعالة: تحقيق الاستكشاف الأولي للسلوك مفتوح النهاية من خلال توسيع بسيط
  3. تصميم التجربة المعقول: تناسب طريقة التحليل النوعي خصائص البحث الاستكشافي
  4. تحليل صادق للقيود: الإشارة الموضوعية إلى أوجه القصور في الطريقة الحالية
  5. اتجاهات مستقبلية واضحة: توفير مسارات تحسين محددة للبحث اللاحق

أوجه القصور

  1. طريقة التقييم الذاتية: غياب المؤشرات الكمية، الاعتماد الأساسي على الملاحظات النوعية
  2. نطاق التجربة المحدود: استخدام نموذج واحد فقط (Qwen3-4B)، افتقار إلى التحقق الأوسع
  3. الأساس النظري الضعيف: شرح غير كافٍ للإطار النظري للوكلاء مفتوحي النهاية
  4. غياب التجارب المقارنة: عدم المقارنة مع طرق وكلاء مفتوحة النهاية الأخرى
  5. اعتبارات الأمان غير الكافية: عدم كافٍ للنقاش حول المخاطر المحتملة للوكلاء المستقلين

التأثير

  1. مساهمة المجال: فتح اتجاه جديد لبحث الوكلاء مفتوحي النهاية في النماذج اللغوية الكبيرة
  2. القيمة العملية: توفير إطار عمل أساسي قابل للتكرار
  3. الإلهام البحثي: وضع الأساس لأبحاث التدريب المتخصصة اللاحقة
  4. إدراك القيود: مساعدة المجال على فهم حدود التكنولوجيا الحالية

السيناريوهات القابلة للتطبيق

  1. نماذج أولية بحثية: مناسبة كنقطة انطلاق لبحث الوكلاء مفتوحي النهاية
  2. أداة تعليمية: يمكن استخدامها لفهم مفاهيم استقلالية الوكلاء
  3. منصة أساسية: توفير بنية تحتية أساسية لأنظمة مفتوحة النهاية أكثر تعقيداً
  4. إثبات المفهوم: التحقق من جدوى الوكلاء مفتوحي النهاية

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم مفتوح النهاية والوكلاء الموجهة ذاتياً والتعلم المدفوع بالفضول، بما في ذلك:

  • الوكلاء الموجهة ذاتياً: Colas et al. (2022) مراجعة شاملة للتعلم المعزز الموجه بالأهداف مع الدوافع الداخلية
  • التعلم المدفوع بالفضول: Burda et al. (2018) بحث التعلم المدفوع بالفضول على نطاق واسع
  • استخدام الأدوات: Qin et al. (2024) مراجعة شاملة لتعلم الأدوات للنماذج الأساسية
  • إطار عمل ReAct: Yao et al. (2023) إطار عمل النماذج اللغوية للاستدلال والإجراء المتعاونين
  • Voyager: Wang et al. (2023) أعمال ذات صلة بالوكلاء المجسدة مفتوحة النهاية

التقييم الإجمالي: هذه ورقة بحثية استكشافية ذات رؤية مستقبلية. على الرغم من وجود قيود في العمق التقني ونطاق التجربة، إلا أنها توفر استكشافاً أولياً مهماً ورؤى عميقة لتطور وكلاء النماذج اللغوية الكبيرة نحو كيانات مستقلة مفتوحة النهاية. تكمن قيمة الورقة بشكل أساسي في طرح المشكلة وتوجيه الاتجاه، مما يضع الأساس لأبحاث أعمق لاحقة.