2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic

التعلم عبر الإنترنت الفعال من حيث العينات في وكلاء نماذج اللغة عبر إعادة كتابة المسار بأثر رجعي

المعلومات الأساسية

  • معرّف الورقة: 2510.10304
  • العنوان: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
  • المؤلفون: Michael Y. Hu (NYU)، Benjamin Van Durme (Microsoft)، Jacob Andreas (Microsoft)، Harsh Jhamtani (Microsoft)
  • التصنيف: cs.LG cs.AI cs.CL
  • تاريخ النشر: 11 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.10304
  • رابط الكود: https://github.com/michahu/echo

الملخص

تُظهر وكلاء نماذج اللغة (LM) كفاءة عينة منخفضة عند نشرها في بيئات جديدة، خاصة في سياق التعلم من خلال التفاعل المتسلسل. يشكل هذا عائقاً كبيراً أمام التطبيقات العملية في البيئات ذات تكاليف التفاعل العالية (مثل التفاعل مع البشر أو إعادة تعيين الأنظمة الفيزيائية). على الرغم من أن معماريات وكلاء LM الحالية تجمع بين آليات تخزين الخبرة والتأمل المختلفة، إلا أن استخدامها محدود لقدرة نموذج اللغة على توليد أو الاستدلال على المسارات المضادة للواقع بشكل مباشر. تقدم هذه الورقة ECHO (تعزيز الخبرة عبر التحسين بأثر رجعي)، وهي إطار عمل للمطالبات يقتبس إعادة تشغيل الخبرة بأثر رجعي من التعلم المعزز لتطبيقه على وكلاء نماذج اللغة. يولد ECHO مسارات محسّنة للأهداف البديلة التي يمكن تحقيقها من محاولات فاشلة، مما يخلق بشكل فعال أمثلة إيجابية اصطناعية من التفاعلات غير الناجحة. تتضمن الطريقة مكونين: قواعد أثر رجعي تستخدم نموذج اللغة نفسه لتحديد الأهداف الفرعية ذات الصلة وتوليد مسارات محسّنة، وقواعد تحديث تحافظ على تمثيلات مسار مضغوطة في الذاكرة.

الخلفية البحثية والدافع

المشاكل الأساسية

  1. كفاءة العينة المنخفضة: يُظهر وكلاء LM كفاءة عينة منخفضة عند التعلم في بيئات جديدة، خاصة في السيناريوهات ذات تكاليف التفاعل العالية
  2. الاستدلال المضاد للواقع المحدود: تركز الطرق الحالية بشكل أساسي على تخزين أو تجميع الخبرة، دون الاستفادة الكاملة من قدرة LM على الاستدلال على المسارات المضادة للواقع
  3. بيئات المكافآت النادرة: في البيئات ذات المكافآت النادرة، يواجه الوكيل صعوبة في التعلم من التجارب الفاشلة

أهمية المشكلة

  • احتياجات التطبيق العملي: تحسين كفاءة العينة أمر بالغ الأهمية في السيناريوهات عالية التكلفة مثل التفاعل مع البشر أو إعادة تعيين الأنظمة الفيزيائية
  • متطلبات التكيف: يحتاج الوكيل إلى التكيف السريع مع البيئات الجديدة، مثل مساعد الحوار في منظمة جديدة الذي يحتاج إلى تعلم كيفية الحصول على المعلومات والتواصل

قيود الطرق الموجودة

  1. Reflexion: توفر في المقام الأول تأملات عالية المستوى، لكن التعليقات غالباً ما تكون عامة جداً ويصعب تغيير أداء النموذج
  2. AWM (ذاكرة سير عمل الوكيل): تخزن فقط سير عمل المسارات الناجحة، مع استخدام غير كافٍ للتجارب الفاشلة
  3. إعادة تشغيل الخبرة التقليدية: تركز بشكل أساسي على المكافآت الرقمية والحالات، دون القدرة على تحرير المسارات

المساهمات الأساسية

  1. اقتراح إطار عمل ECHO: أول إطار عمل للمطالبات يقتبس إعادة تشغيل الخبرة بأثر رجعي (HER) لتطبيقه على وكلاء نماذج اللغة
  2. آلية إعادة كتابة المسار المبتكرة: القدرة على إعادة كتابة المسارات الفاشلة بشكل تعسفي، بما في ذلك تغيير الأهداف والخطوات الوسيطة
  3. بناء معايير ذات حالة: إنشاء بيئات معايير XMiniGrid-Stateful و PeopleJoinQA-Stateful التي تتطلب الاستكشاف
  4. تحسن الأداء الملحوظ: تحسن بنسبة 80% على XMiniGrid مقارنة بخط الأساس ReAct، و 42% مقارنة بالخط الثاني الأفضل

شرح الطريقة

تعريف المهمة

ننظر في إعداد عبر الإنترنت حيث يعالج وكيل LM تسلسل استعلامات بشكل متسلسل من الوقت t=0 إلى T، دون الوصول إلى دالة المكافآت الحقيقية أو بيانات العرض التوضيحي. يحتاج الوكيل إلى التعلم من خلال التفاعل مع البيئة وتحسين كفاءة القرارات المستقبلية.

معمارية ECHO

المكونات الأساسية

يتضمن ECHO مكونين رئيسيين:

  1. القاعدة بأثر رجعي (Hindsight Rule):
    • اقتراح أهداف قابلة للإنجاز من مسار معين
    • توليد مسارات محسّنة أو وصفات لهذه الأهداف
    • عدم تنفيذ أي إجراء إذا تعذر اقتراح هدف
  2. قاعدة التحديث (Update Rule):
    • مقارنة الوصفات المولدة حديثاً مع الوصفة السابقة
    • حفظ سير العمل الأقصر (بناءً على مبدأ الحد الأدنى من طول الوصف)
    • الحفاظ على تمثيلات مسار مضغوطة

تدفق الخوارزمية

def ECHO(LM, trajectory, replay_buf={}):
    # القاعدة بأثر رجعي
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # قاعدة التحديث
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

نقاط الابتكار التقني

  1. تعزيز القدرة التعبيرية: بخلاف HER التقليدي الذي يمكنه فقط إعادة تسمية الأهداف، يمكن لـ ECHO إعادة كتابة بنية المسار بشكل تعسفي
  2. الاستفادة من المعرفة المسبقة: استخدام معرفة العالم لنموذج اللغة لملء الفجوات المعلوماتية واقتراح معلومات مضادة للواقع معقولة
  3. التمثيل المضغوط: بناءً على تعقيد Kolmogorov، الحفاظ على أقصر وصف ممكن لتحقيق الهدف
  4. الآلية التكيفية: يمكن لـ LM اختيار مستوى التجريد، مما يتجنب إضافة مسارات غير فعالة

إعداد التجارب

مجموعات البيانات

XMiniGrid-Stateful

  • البيئة الأساسية: مهام الملاحة والتخطيط في عالم شبكة ثنائي الأبعاد المولدة برمجياً
  • التعديل الحالي: يقوم الوكيل بتنفيذ أهداف مأخوذة عشوائياً في نفس البيئة، ويمكنه تعلم مواقع الأشياء غير المرئية
  • الحجم: 10 بيئات فريدة، 4 غرف و 4 أشياء لكل بيئة، 16 استعلام لكل بيئة
  • المهمة: التقاط كائن مأخوذ عشوائياً في غضون 64 خطوة، مع زيادة التحدي من خلال الملاحظة الجزئية للبيئة

PeopleJoinQA-Stateful

  • البيئة الأساسية: مهمة الإجابة على الأسئلة في جمع المعلومات متعددة الوكلاء التعاونية
  • التعديل الحالي: هيكل تنظيمي ثابت، يجيب الوكيل على جميع أسئلة تلك المنظمة
  • الحجم: 5 منظمات، 248 استعلام إجمالي، متوسط 7.98 رسالة لكل استعلام
  • المهمة: الاتصال بأشخاص محاكاة من خلال استدعاءات الأدوات، دمج المعلومات للإجابة على الأسئلة

مقاييس التقييم

  1. متوسط المكافآت النهائية (الدقة): قياس الأداء النهائي
  2. متوسط المكافآت التراكمية: قياس كفاءة العينة
    Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
    
  3. التحسن بالنسبة إلى خط الأساس ReAct: تطبيع صعوبة المشكلة

طرق المقارنة

  1. ReAct: وكيل خط الأساس للاستدلال والعمل
  2. Reflexion: التعلم المعزز اللغوي لوكلاء اللغة
  3. AWM: ذاكرة سير عمل الوكيل
  4. AWM++: AWM + قاعدة تحديث ECHO

تفاصيل التنفيذ

  • النموذج: GPT-4o
  • إعدادات درجة الحرارة: ReAct يستخدم 0، الاستدلال غير المتصل يستخدم 0.7 في PeopleJoin
  • الحد الأقصى للرموز: 3800-4000
  • صحة المسار: 85% من المسارات الاصطناعية قابلة للتنفيذ في XMiniGrid

نتائج التجارب

النتائج الرئيسية

XMiniGrid-Stateful

  • مقارنة بـ ReAct: تحسن متوسط المكافآت بنسبة 80%
  • مقارنة بخط الأساس الثاني الأفضل: تحسن بنسبة 42%
  • كفاءة العينة: بعد 3 تفاعلات، تتجاوز المكافآت التراكمية خط الأساس ReAct
  • تفوق صارم: على جميع طرق المقارنة بما في ذلك Reflexion و AWM

PeopleJoinQA-Stateful

  • الدقة: أقل قليلاً من Reflexion بنسبة 4.6%، لكن لا تزال أفضل من ReAct
  • الكفاءة: متوسط تقليل 1.6 رسالة، متساوية مع AWM
  • كفاءة العينة: بعد الاستعلام الأول، تتجاوز خط الأساس ReAct

تحليل صحة المسار

في 40 عينة مأخوذة من XMiniGrid:

  • معدل نجاح 85%: ينجح الوكيل في الوصول إلى الهدف الاصطناعي
  • أسباب الفشل: 4 حالات بسبب انحراف التنفيذ، حالتان بسبب خطوات غير قابلة للتنفيذ
  • الخلاصة: سير العمل المضاد للواقع الذي ينتجه ECHO صحيح وفعال في الغالب

تحليل الحالات

مثال على مسار فاشل: فشل الوكيل في التقاط مفتاح رمادي

  • مخرجات Reflexion: تعليقات عامة، تفتقر إلى اقتراحات تحسين محددة
  • مخرجات AWM: بسبب الفشل، لا تولد سير عمل بشكل صحيح
  • مخرجات ECHO: تحديد أن الوكيل لاحظ نجمة رمادية، توليد مسار محسّن لالتقاط النجمة الرمادية

التباين بين المنظمات

في PeopleJoinQA، تختلف الطرق المثلى عبر المنظمات المختلفة:

  • لا توجد طريقة تفوق صارم على جميع المنظمات
  • يصبح ECHO الطريقة الأكثر كفاءة في بعض المنظمات (مثل المتاجر الكبرى)
  • يشير إلى الحاجة إلى تحسين قوة الطرق غير المتصلة

الأعمال ذات الصلة

وكلاء نماذج اللغة

  • الحالة الحالية: الانتقال من الاعتماد على المعرفة الثابتة إلى التكيف مع البيئات الديناميكية
  • التحديات الرئيسية: عدم كفاية القدرات على الاستكشاف والتكيف في البيئات الجديدة
  • مجالات التطبيق: ملاحة الويب، استخدام الأدوات، التعاون متعدد الوكلاء، توليد الكود

تصنيف أنظمة الذاكرة

وفقاً لتصنيف Sumers وآخرين:

  1. الذاكرة الدلالية: حقائق البيئة (مثل تأملات Reflexion)
  2. الذاكرة الحلقية: الإجراءات السابقة (مثل سير عمل AWM)
  • يحسّن ECHO بشكل أساسي آليات بناء وتحديث الذاكرة الحلقية

تقنيات إعادة تشغيل الخبرة

  • HER التقليدي: إعادة تسمية أهداف المسار، لكن دون تغيير بنية المسار
  • مزايا المكافآت النادرة: استخراج أقصى إشارة تعلم من عدد قليل من الأمثلة الإيجابية
  • توسيع ECHO: ليس فقط إعادة تسمية الأهداف، بل تحرير أي جوانب من المسار

الاستنتاج والمناقشة

الاستنتاجات الرئيسية

  1. التحقق من الفعالية: يحسّن ECHO بشكل كبير كفاءة العينة في بيئتي استكشاف
  2. مزايا الآلية: من خلال تحويل الفشل إلى نجاح اصطناعي، الاستفادة بشكل أفضل من التجارب السابقة
  3. السيناريوهات المناسبة: فعال بشكل خاص في البيئات ذات المكافآت النادرة وأداء خط الأساس الضعيف

القيود

  1. قيود شكل التمثيل: يستخدم بشكل أساسي تمثيل اللغة الطبيعية، قد يكون التمثيل على شكل كود أكثر فعالية
  2. تبسيط قاعدة التحديث: قد تكون قاعدة التحديث الاستكشافية المستندة إلى الطول بسيطة جداً
  3. الاعتماد على البيئة: يوجد تباين في الأداء عبر المنظمات/البيئات المختلفة
  4. نموذج العالم غير الكامل: قد يفتقر LM إلى نموذج بيئة كامل بعد مسار واحد

الاتجاهات المستقبلية

  1. التمثيل البرمجي: استكشاف تأثير تمثيلات المسار على شكل كود
  2. قواعد التحديث المعقدة: تصميم آليات دمج معلومات أكثر دقة
  3. الذاكرة المعززة بالاسترجاع: الجمع بين آليات الذاكرة المستندة إلى الاسترجاع
  4. تحسين المتانة: تحسين الأداء المتسقة عبر البيئات

التقييم العميق

المزايا

  1. ابتكار قوي: أول تطبيق لـ HER على وكلاء نماذج اللغة، ذو قيمة نظرية وعملية مهمة
  2. تجارب شاملة: التحقق في نوعي بيئة مختلفين، مع تحليل استبدال مفصل
  3. قيمة عملية عالية: حل المشكلة الرئيسية لوكلاء LM في بيئات التفاعل عالية التكلفة
  4. طريقة عامة: تصميم الإطار يتمتع بقابلية توسع وتكيف جيدة

أوجه القصور

  1. قيود المعايير: الاختبار فقط في بيئتين بسيطتين نسبياً، يفتقر إلى التحقق في سيناريوهات واقعية أكثر تعقيداً
  2. تحليل نظري غير كافٍ: نقص التحليل المتعمق لتقارب الطريقة والضمانات النظرية
  3. التكلفة الحسابية: قد تؤدي استدعاءات LM المتعددة إلى تكاليف حسابية إضافية
  4. الاعتماد على قدرات النموذج: تعتمد فعالية الطريقة بشكل كبير على قدرات الاستدلال والتوليد لـ LM الأساسي

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لتعلم الخبرة في وكلاء نماذج اللغة
  2. التطبيق العملي: إمكانية التطبيق في التفاعل بين الإنسان والآلة، والتحكم في الأنظمة الروبوتية وغيرها من السيناريوهات عالية التكلفة
  3. إلهام الطريقة: توفير أفكار تصميم لخوارزميات تعلم أخرى قائمة على LM

السيناريوهات المناسبة

  1. بيئات التفاعل عالية التكلفة: الحوار بين الإنسان والآلة، التحكم في الأنظمة الفيزيائية
  2. مهام المكافآت النادرة: مشاكل الملاحة والتخطيط الموجهة للاستكشاف
  3. البيئات المرئية جزئياً: السيناريوهات التي تحتاج إلى تعلم بنية البيئة من خلال التفاعل
  4. المهام متعددة الأهداف: البيئات التي يمكن تعلم مهارات فرعية متعددة من تجربة واحدة

المراجع

  • Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
  • Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
  • Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
  • Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

التقييم الإجمالي: حقق إطار عمل ECHO المقترح في هذه الورقة تقدماً مهماً في تعلم كفاءة العينة لوكلاء نماذج اللغة، مع طريقة مبتكرة ونتائج تجريبية مقنعة. على الرغم من وجود بعض القيود، فإنه يضع أساساً جيداً لتطور المجال في المستقبل، مع قيمة أكاديمية عالية وإمكانية تطبيق عملي.