2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

LM एजेंट्स में पूर्वदृष्टि प्रक्षेपवक्र पुनर्लेखन के माध्यम से नमूना-कुशल ऑनलाइन शिक्षण

बुनियादी जानकारी

पेपर ID: 2510.10304
शीर्षक: LM एजेंट्स में पूर्वदृष्टि प्रक्षेपवक्र पुनर्लेखन के माध्यम से नमूना-कुशल ऑनलाइन शिक्षण
लेखक: माइकल वाई. हू (NYU), बेंजामिन वैन ड्यूर्म (Microsoft), जैकब एंड्रियास (Microsoft), हर्ष झामतानी (Microsoft)
वर्गीकरण: cs.LG cs.AI cs.CL
प्रकाशन समय: 25 अक्टूबर 2510 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10304
कोड लिंक: https://github.com/michahu/echo

सारांश

भाषा मॉडल (LM) एजेंट्स नए वातावरण में तैनात होने पर अनुक्रमिक इंटरैक्शन शिक्षण में खराब नमूना दक्षता प्रदर्शित करते हैं। यह ऐसे एजेंट्स की व्यावहारिकता को गंभीर रूप से बाधित करता है जहां इंटरैक्शन की लागत अधिक होती है (उदाहरण के लिए मानव इंटरैक्शन या भौतिक प्रणाली रीसेट करते समय)। यद्यपि मौजूदा LM एजेंट आर्किटेक्चर विभिन्न अनुभव भंडारण और प्रतिबिंब तंत्र को एकीकृत करते हैं, वे LM द्वारा पूर्ण प्रतिकारात्मक प्रक्षेपवक्र सीधे उत्पन्न या तर्क करने की क्षमता का सीमित उपयोग करते हैं। यह पेपर ECHO (अनुभव समेकन पूर्वदृष्टि अनुकूलन के माध्यम से) प्रस्तुत करता है, जो सुदृढ़ीकरण शिक्षण में पूर्वदृष्टि अनुभव पुनरावृत्ति को भाषा मॉडल एजेंट्स के लिए अनुकूलित करने वाली एक संकेत रूपरेखा है। ECHO विफल प्रयासों में संभावित रूप से प्राप्त की जा सकने वाली वैकल्पिक लक्ष्यों के लिए अनुकूलित प्रक्षेपवक्र उत्पन्न करता है, प्रभावी रूप से असफल इंटरैक्शन से सिंथेटिक सकारात्मक उदाहरण बनाता है। विधि में दो घटक शामिल हैं: पूर्वदृष्टि नियम जो प्रासंगिक उप-लक्ष्यों की पहचान करने और अनुकूलित प्रक्षेपवक्र उत्पन्न करने के लिए भाषा मॉडल का उपयोग करते हैं, और स्मृति में संपीड़ित प्रक्षेपवक्र प्रतिनिधित्व बनाए रखने के लिए अद्यतन नियम।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

कम नमूना दक्षता: LM एजेंट्स नए वातावरण में सीखते समय खराब नमूना दक्षता प्रदर्शित करते हैं, विशेष रूप से उच्च इंटरैक्शन लागत वाले परिदृश्यों में
सीमित प्रतिकारात्मक तर्क: मौजूदा विधियां मुख्य रूप से अनुभव भंडारण या संश्लेषण पर ध्यान केंद्रित करती हैं, LM की प्रतिकारात्मक प्रक्षेपवक्र तर्क क्षमता का पर्याप्त उपयोग नहीं करती हैं
विरल पुरस्कार वातावरण: विरल पुरस्कार वाले वातावरण में, एजेंट्स को विफल अनुभवों से सीखना मुश्किल होता है

समस्या की महत्ता

व्यावहारिक अनुप्रयोग की आवश्यकता: मानव इंटरैक्शन या भौतिक प्रणाली रीसेट जैसे उच्च लागत वाले परिदृश्यों में नमूना दक्षता में सुधार महत्वपूर्ण है
अनुकूलन आवश्यकता: एजेंट्स को नए वातावरण में तेजी से अनुकूल होने की आवश्यकता है, जैसे नए संगठन में संवाद सहायक को सूचना प्राप्ति और संचार विधियां सीखनी होती हैं

मौजूदा विधियों की सीमाएं

Reflexion: मुख्य रूप से उच्च-स्तरीय प्रतिबिंब प्रदान करता है, लेकिन प्रतिक्रिया अक्सर बहुत सामान्य होती है, मॉडल प्रदर्शन को बदलना मुश्किल होता है
AWM (एजेंट वर्कफ़्लो मेमोरी): केवल सफल प्रक्षेपवक्र की कार्यप्रवाह संग्रहीत करता है, विफल अनुभवों का अपर्याप्त उपयोग
पारंपरिक अनुभव पुनरावृत्ति: मुख्य रूप से संख्यात्मक पुरस्कार और स्थिति पर ध्यान केंद्रित करता है, लचीली प्रक्षेपवक्र संपादन नहीं कर सकता

मुख्य योगदान

ECHO रूपरेखा प्रस्तावित करना: पूर्वदृष्टि अनुभव पुनरावृत्ति (HER) को भाषा मॉडल एजेंट्स के लिए अनुकूलित करने वाली पहली संकेत रूपरेखा
नवीन प्रक्षेपवक्र पुनर्लेखन तंत्र: विफल प्रक्षेपवक्र को मनमाने ढंग से पुनः लिखने में सक्षम, लक्ष्यों और मध्यवर्ती चरणों को बदलना शामिल है
स्टेटफुल बेंचमार्क निर्माण: XMiniGrid-Stateful और PeopleJoinQA-Stateful दो अन्वेषण-आवश्यक बेंचमार्क वातावरण बनाना
महत्वपूर्ण प्रदर्शन सुधार: XMiniGrid पर ReAct बेसलाइन की तुलना में 80% सुधार, दूसरे सर्वश्रेष्ठ बेसलाइन की तुलना में 42% सुधार

विधि विवरण

कार्य परिभाषा

ऑनलाइन सेटिंग पर विचार करें, जहां LM एजेंट समय t=0 से T तक क्रमिक रूप से क्वेरी अनुक्रम को संसाधित करता है, वास्तविक पुरस्कार फ़ंक्शन या प्रदर्शन डेटा तक पहुंच नहीं है। एजेंट को पर्यावरण के साथ इंटरैक्शन के माध्यम से सीखना चाहिए और भविष्य के निर्णयों की दक्षता में सुधार करना चाहिए।

ECHO आर्किटेक्चर

मुख्य घटक

ECHO में दो मुख्य घटक शामिल हैं:

पूर्वदृष्टि नियम (Hindsight Rule):
- दिए गए प्रक्षेपवक्र से पूर्ण किए जा सकने वाले लक्ष्यों का प्रस्ताव करता है
- इन लक्ष्यों के लिए अनुकूलित प्रक्षेपवक्र या विवरण उत्पन्न करता है
- यदि कोई लक्ष्य प्रस्तावित नहीं किया जा सकता है, तो कोई कार्रवाई नहीं करता है
अद्यतन नियम (Update Rule):
- नई पीढ़ी के विवरण की तुलना पिछले विवरण से करता है
- छोटी कार्यप्रवाह सहेजता है (न्यूनतम विवरण लंबाई सिद्धांत के आधार पर)
- संपीड़ित प्रक्षेपवक्र प्रतिनिधित्व बनाए रखता है

एल्गोरिदम प्रवाह

def ECHO(LM, trajectory, replay_buf={}):
    # पूर्वदृष्टि नियम
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # अद्यतन नियम
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

तकनीकी नवाचार बिंदु

अभिव्यक्ति क्षमता वृद्धि: पारंपरिक HER की तुलना में जो केवल लक्ष्यों को पुनः लेबल कर सकता है, ECHO प्रक्षेपवक्र संरचना को मनमाने ढंग से पुनः लिख सकता है
पूर्व-प्रशिक्षित ज्ञान का उपयोग: सूचना अंतराल भरने के लिए LM के विश्व ज्ञान का उपयोग करना, उचित प्रतिकारात्मक जानकारी का प्रस्ताव करना
संपीड़ित प्रतिनिधित्व: Kolmogorov जटिलता के आधार पर, लक्ष्य प्राप्ति के सबसे छोटे संभावित विवरण को बनाए रखना
अनुकूली तंत्र: LM अमूर्तता चुन सकता है, अमान्य प्रक्षेपवक्र जोड़ने से बचना

प्रयोगात्मक सेटअप

डेटासेट

XMiniGrid-Stateful

आधार वातावरण: प्रोग्रामेटिक रूप से उत्पन्न 2D GridWorld नेविगेशन और योजना कार्य
स्टेटफुल संशोधन: एजेंट समान वातावरण में यादृच्छिक नमूना लक्ष्य निष्पादित करता है, अदेखी वस्तुओं के स्थान सीख सकता है
स्केल: 10 अद्वितीय वातावरण, प्रत्येक वातावरण में 4 कमरे 4 वस्तुएं, प्रति वातावरण 16 क्वेरी
कार्य: 64 चरणों में यादृच्छिक नमूना वस्तु उठाना, आंशिक रूप से अवलोकनीय वातावरण चुनौती बढ़ाता है

PeopleJoinQA-Stateful

आधार वातावरण: बहु-एजेंट सहयोग सूचना संग्रह प्रश्नोत्तर कार्य
स्टेटफुल संशोधन: निश्चित संगठन संरचना, एजेंट उस संगठन के सभी प्रश्नों का उत्तर देता है
स्केल: 5 संगठन, कुल 248 क्वेरी, प्रति क्वेरी औसतन 7.98 संदेश
कार्य: उपकरण कॉल के माध्यम से सिम्युलेटेड लोगों से संपर्क करना, प्रश्नों का उत्तर देने के लिए जानकारी संश्लेषित करना

मूल्यांकन मेट्रिक्स

अंतिम औसत पुरस्कार (सटीकता): अंतिम प्रदर्शन को मापना
संचयी औसत पुरस्कार: नमूना दक्षता को मापना
```
τ पर संचयी औसत पुरस्कार = (1/(τ+1)) × Σ(t=0 से τ) Rt
```
ReAct बेसलाइन की तुलना में सापेक्ष सुधार: मानकीकृत समस्या कठिनाई

तुलनात्मक विधियां

ReAct: तर्क-कार्रवाई बेसलाइन एजेंट
Reflexion: भाषा एजेंट्स के लिए भाषा सुदृढ़ीकरण शिक्षण
AWM: एजेंट वर्कफ़्लो मेमोरी
AWM++: AWM + ECHO का अद्यतन नियम

कार्यान्वयन विवरण

मॉडल: GPT-4o
तापमान सेटिंग: ReAct के लिए 0, PeopleJoin में ऑफलाइन तर्क के लिए 0.7
अधिकतम टोकन: 3800-4000
प्रक्षेपवक्र वैधता: XMiniGrid में 85% सिंथेटिक प्रक्षेपवक्र निष्पादन योग्य

प्रयोगात्मक परिणाम

मुख्य परिणाम

XMiniGrid-Stateful

ReAct की तुलना में: औसत पुरस्कार में 80% सुधार
दूसरे सर्वश्रेष्ठ बेसलाइन की तुलना में: 42% सुधार
नमूना दक्षता: 3 इंटरैक्शन के बाद संचयी पुरस्कार ReAct बेसलाइन से अधिक
कड़ाई से बेहतर: Reflexion और AWM सहित सभी तुलनात्मक विधियां

PeopleJoinQA-Stateful

सटीकता: Reflexion से 4.6% कम, लेकिन अभी भी ReAct से बेहतर
दक्षता: औसतन 1.6 संदेश कम, AWM के साथ समान
नमूना दक्षता: पहली क्वेरी के बाद ReAct बेसलाइन से अधिक

प्रक्षेपवक्र वैधता विश्लेषण

XMiniGrid के 40 नमूना उदाहरणों में:

85% सफलता दर: एजेंट सिंथेटिक लक्ष्य तक पहुंचने में सफल
विफलता के कारण: 4 उदाहरण निष्पादन विचलन के कारण, 2 अव्यावहारिक चरणों के कारण
निष्कर्ष: ECHO द्वारा उत्पन्न प्रतिकारात्मक कार्यप्रवाह अधिकांशतः सही और प्रभावी हैं

केस विश्लेषण

विफल प्रक्षेपवक्र उदाहरण: एजेंट ग्रे कुंजी उठाने में विफल

Reflexion आउटपुट: सामान्य प्रतिक्रिया, विशिष्ट सुधार सुझाव की कमी
AWM आउटपुट: विफलता के कारण, सही तरीके से कार्यप्रवाह उत्पन्न नहीं करता
ECHO आउटपुट: एजेंट ने ग्रे तारा देखा, ग्रे तारा उठाने के लिए अनुकूलित प्रक्षेपवक्र उत्पन्न करता है

संगठन के बीच परिवर्तनशीलता

PeopleJoinQA में, विभिन्न संगठनों के लिए इष्टतम विधि में भिन्नता है:

कोई विधि सभी संगठनों पर कड़ाई से प्रभावशाली नहीं है
ECHO कुछ संगठनों (जैसे डिपार्टमेंट स्टोर) में सबसे कुशल विधि बन जाता है
ऑफलाइन विधियों की मजबूती बढ़ाने की आवश्यकता को दर्शाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: ECHO दो अन्वेषण-आवश्यक वातावरणों में नमूना दक्षता में महत्वपूर्ण सुधार करता है
तंत्र लाभ: विफलता को सिंथेटिक सफलता में परिवर्तित करके पिछले अनुभवों का बेहतर उपयोग
लागू परिदृश्य: विरल पुरस्कार और खराब बेसलाइन प्रदर्शन वाले वातावरण में विशेष रूप से प्रभावी

सीमाएं

प्रतिनिधित्व फॉर्म सीमा: मुख्य रूप से प्राकृतिक भाषा प्रतिनिधित्व का उपयोग करता है, कोड-शैली प्रतिनिधित्व अधिक प्रभावी हो सकता है
अद्यतन नियम सरलीकरण: लंबाई-आधारित अनुमानी अद्यतन नियम बहुत सरल हो सकता है
वातावरण निर्भरता: विभिन्न संगठनों/वातावरणों में प्रदर्शन में परिवर्तनशीलता
अधूरा विश्व मॉडल: एकल प्रक्षेपवक्र के बाद LM के पास पूर्ण पर्यावरण मॉडल की कमी हो सकती है

भविष्य की दिशाएं

प्रोग्रामेटिक प्रतिनिधित्व: कोड-शैली प्रक्षेपवक्र प्रतिनिधित्व के प्रभाव की खोज
जटिल अद्यतन नियम: अधिक सटीक सूचना संलयन तंत्र डिजाइन करना
पुनः प्राप्ति-संवर्धित: पुनः प्राप्ति-आधारित स्मृति तंत्र के साथ संयोजन
मजबूती सुधार: पार-वातावरण सुसंगत प्रदर्शन में सुधार

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार HER को LM एजेंट्स के लिए अनुकूलित करता है, महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है
पर्याप्त प्रयोग: दो विभिन्न प्रकार के वातावरणों में सत्यापित, विस्तृत विलोपन विश्लेषण शामिल
उच्च व्यावहारिक मूल्य: LM एजेंट्स में उच्च लागत इंटरैक्शन वातावरण की मुख्य समस्या को हल करता है
विधि सामान्यता: रूपरेखा डिजाइन अच्छी विस्तारशीलता और अनुकूलन क्षमता है

कमियां

बेंचमार्क सीमा: केवल दो अपेक्षाकृत सरल वातावरणों में परीक्षण, अधिक जटिल वास्तविक परिदृश्य सत्यापन की कमी
अपर्याप्त सैद्धांतिक विश्लेषण: विधि अभिसरण और सैद्धांतिक गारंटियों के गहन विश्लेषण की कमी
कम्प्यूटेशनल ओवरहेड: कई LM कॉल अतिरिक्त कम्प्यूटेशनल लागत ला सकते हैं
मॉडल क्षमता निर्भरता: विधि प्रभावशीलता अंतर्निहित LM की तर्क और पीढ़ी क्षमता पर अत्यधिक निर्भर है

प्रभाव

शैक्षणिक योगदान: LM एजेंट्स के अनुभव शिक्षण के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक अनुप्रयोग: मानव-मशीन इंटरैक्शन, रोबोट नियंत्रण आदि उच्च लागत परिदृश्यों में अनुप्रयोग क्षमता
विधि प्रेरणा: अन्य LM-आधारित शिक्षण एल्गोरिदम के लिए डिजाइन विचार प्रदान करता है

लागू परिदृश्य

उच्च लागत इंटरैक्शन वातावरण: मानव-मशीन संवाद, भौतिक प्रणाली नियंत्रण
विरल पुरस्कार कार्य: अन्वेषण-निर्देशित नेविगेशन और योजना समस्याएं
आंशिक रूप से अवलोकनीय वातावरण: इंटरैक्शन के माध्यम से वातावरण संरचना सीखने की आवश्यकता वाले परिदृश्य
बहु-लक्ष्य कार्य: एकल अनुभव से कई उप-कौशल सीख सकने वाले वातावरण

संदर्भ

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

समग्र मूल्यांकन: यह पेपर LM एजेंट्स की नमूना दक्षता शिक्षण में महत्वपूर्ण प्रगति प्राप्त करने के लिए ECHO रूपरेखा प्रस्तावित करता है, विधि नवीन है और प्रयोगात्मक परिणाम आश्वस्त करने वाले हैं। यद्यपि कुछ सीमाएं हैं, यह इस क्षेत्र के भविष्य विकास के लिए एक अच्छी नींव प्रदान करता है, उच्च शैक्षणिक मूल्य और व्यावहारिक अनुप्रयोग क्षमता है।