Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
Hu, Van Durme, Andreas et al.
Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.
academic
التعلم عبر الإنترنت الفعال من حيث العينات في وكلاء نماذج اللغة عبر إعادة كتابة المسار بأثر رجعي
تُظهر وكلاء نماذج اللغة (LM) كفاءة عينة منخفضة عند نشرها في بيئات جديدة، خاصة في سياق التعلم من خلال التفاعل المتسلسل. يشكل هذا عائقاً كبيراً أمام التطبيقات العملية في البيئات ذات تكاليف التفاعل العالية (مثل التفاعل مع البشر أو إعادة تعيين الأنظمة الفيزيائية). على الرغم من أن معماريات وكلاء LM الحالية تجمع بين آليات تخزين الخبرة والتأمل المختلفة، إلا أن استخدامها محدود لقدرة نموذج اللغة على توليد أو الاستدلال على المسارات المضادة للواقع بشكل مباشر. تقدم هذه الورقة ECHO (تعزيز الخبرة عبر التحسين بأثر رجعي)، وهي إطار عمل للمطالبات يقتبس إعادة تشغيل الخبرة بأثر رجعي من التعلم المعزز لتطبيقه على وكلاء نماذج اللغة. يولد ECHO مسارات محسّنة للأهداف البديلة التي يمكن تحقيقها من محاولات فاشلة، مما يخلق بشكل فعال أمثلة إيجابية اصطناعية من التفاعلات غير الناجحة. تتضمن الطريقة مكونين: قواعد أثر رجعي تستخدم نموذج اللغة نفسه لتحديد الأهداف الفرعية ذات الصلة وتوليد مسارات محسّنة، وقواعد تحديث تحافظ على تمثيلات مسار مضغوطة في الذاكرة.
كفاءة العينة المنخفضة: يُظهر وكلاء LM كفاءة عينة منخفضة عند التعلم في بيئات جديدة، خاصة في السيناريوهات ذات تكاليف التفاعل العالية
الاستدلال المضاد للواقع المحدود: تركز الطرق الحالية بشكل أساسي على تخزين أو تجميع الخبرة، دون الاستفادة الكاملة من قدرة LM على الاستدلال على المسارات المضادة للواقع
بيئات المكافآت النادرة: في البيئات ذات المكافآت النادرة، يواجه الوكيل صعوبة في التعلم من التجارب الفاشلة
احتياجات التطبيق العملي: تحسين كفاءة العينة أمر بالغ الأهمية في السيناريوهات عالية التكلفة مثل التفاعل مع البشر أو إعادة تعيين الأنظمة الفيزيائية
متطلبات التكيف: يحتاج الوكيل إلى التكيف السريع مع البيئات الجديدة، مثل مساعد الحوار في منظمة جديدة الذي يحتاج إلى تعلم كيفية الحصول على المعلومات والتواصل
ننظر في إعداد عبر الإنترنت حيث يعالج وكيل LM تسلسل استعلامات بشكل متسلسل من الوقت t=0 إلى T، دون الوصول إلى دالة المكافآت الحقيقية أو بيانات العرض التوضيحي. يحتاج الوكيل إلى التعلم من خلال التفاعل مع البيئة وتحسين كفاءة القرارات المستقبلية.
Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.
التقييم الإجمالي: حقق إطار عمل ECHO المقترح في هذه الورقة تقدماً مهماً في تعلم كفاءة العينة لوكلاء نماذج اللغة، مع طريقة مبتكرة ونتائج تجريبية مقنعة. على الرغم من وجود بعض القيود، فإنه يضع أساساً جيداً لتطور المجال في المستقبل، مع قيمة أكاديمية عالية وإمكانية تطبيق عملي.