2025-11-20T03:49:14.865400

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting

Hu, Van Durme, Andreas et al.

Language model (LM) agents deployed in novel environments often exhibit poor sample efficiency when learning from sequential interactions. This significantly hinders the usefulness of such agents in environments where interaction is costly (for example, when they interact with humans or reset physical systems). While a number of existing LM agent architectures incorporate various mechanisms for experience storage and reflection, they make limited use of LMs' abilities to directly generate or reason about full counterfactual trajectories. We introduce ECHO (Experience Consolidation via Hindsight Optimization), a prompting framework that adapts hindsight experience replay from reinforcement learning for language model agents. ECHO generates optimized trajectories for alternative goals that could have been achieved during failed attempts, effectively creating synthetic positive examples from unsuccessful interactions. Our approach consists of two components: a hindsight rule that uses the language model itself to identify relevant subgoals and generate optimized trajectories, and an update rule that maintains compressed trajectory representations in memory. We evaluate ECHO on stateful versions of XMiniGrid, a text-based navigation and planning benchmark, and PeopleJoinQA, a collaborative information-gathering enterprise simulation. Across both domains, ECHO outperforms vanilla language agent baselines by up to 80%; in XMiniGrid, it also outperforms a number of sophisticated agent architectures including Reflexion and AWM, demonstrating faster adaptation to novel environments through more effective utilization of past experiences.

academic

ভাষা মডেল এজেন্টে পূর্বাভাসমূলক ট্র্যাজেক্টরি পুনর্লিখনের মাধ্যমে নমুনা-দক্ষ অনলাইন শিক্ষা

মৌলিক তথ্য

পেপার আইডি: 2510.10304
শিরোনাম: Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting
লেখক: Michael Y. Hu (NYU), Benjamin Van Durme (Microsoft), Jacob Andreas (Microsoft), Harsh Jhamtani (Microsoft)
শ্রেণীবিভাগ: cs.LG cs.AI cs.CL
প্রকাশনা সময়: ২০২৫ সালের অক্টোবর ১১ (arXiv প্রি-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2510.10304
কোড লিংক: https://github.com/michahu/echo

সারসংক্ষেপ

ভাষা মডেল (LM) এজেন্টগুলি নতুন পরিবেশে স্থাপনার সময় ক্রমানুসারী মিথস্ক্রিয়া শিক্ষায় দুর্বল নমুনা দক্ষতা প্রদর্শন করে। এটি উচ্চ মিথস্ক্রিয়া খরচের পরিবেশে এই ধরনের এজেন্টগুলির ব্যবহারিকতাকে গুরুতরভাবে বাধা দেয় (যেমন মানব মিথস্ক্রিয়া বা ভৌত সিস্টেম রিসেট করার সময়)। যদিও বিদ্যমান LM এজেন্ট আর্কিটেকচার বিভিন্ন অভিজ্ঞতা সংরক্ষণ এবং প্রতিফলন প্রক্রিয়া একত্রিত করে, তারা LM দ্বারা সরাসরি সম্পূর্ণ পাল্টা-বাস্তব ট্র্যাজেক্টরি তৈরি বা যুক্তি প্রদানের ক্ষমতার সীমিত ব্যবহার করে। এই পেপারটি ECHO (Experience Consolidation via Hindsight Optimization) উপস্থাপন করে, যা শক্তিশালী শিক্ষায় পূর্বাভাসমূলক অভিজ্ঞতা পুনরাবৃত্তিকে ভাষা মডেল এজেন্টে অভিযোজিত করার একটি প্রম্পট ফ্রেমওয়ার্ক। ECHO ব্যর্থ প্রচেষ্টায় সম্ভাব্য বিকল্প লক্ষ্যগুলির জন্য অপ্টিমাইজড ট্র্যাজেক্টরি তৈরি করে, কার্যকরভাবে অসফল মিথস্ক্রিয়া থেকে সিন্থেটিক ইতিবাচক উদাহরণ তৈরি করে। এই পদ্ধতিতে দুটি উপাদান রয়েছে: প্রাসঙ্গিক উপ-লক্ষ্য চিহ্নিত করতে এবং অপ্টিমাইজড ট্র্যাজেক্টরি তৈরি করতে ভাষা মডেল নিজেই ব্যবহার করে পূর্বাভাসমূলক নিয়ম, এবং স্মৃতিতে সংকুচিত ট্র্যাজেক্টরি প্রতিনিধিত্ব বজায় রাখার জন্য আপডেট নিয়ম।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

নমুনা দক্ষতা হ্রাস: LM এজেন্টগুলি নতুন পরিবেশে শিক্ষার সময় দুর্বল নমুনা দক্ষতা প্রদর্শন করে, বিশেষত উচ্চ মিথস্ক্রিয়া খরচের পরিস্থিতিতে
সীমিত পাল্টা-বাস্তব যুক্তি: বর্তমান পদ্ধতিগুলি প্রধানত অভিজ্ঞতা সংরক্ষণ বা সংশ্লেষণে ফোকাস করে, পাল্টা-বাস্তব ট্র্যাজেক্টরি যুক্তি প্রদানের LM ক্ষমতা পর্যাপ্তভাবে ব্যবহার করে না
বিরল পুরস্কার পরিবেশ: বিরল পুরস্কার পরিবেশে, এজেন্টগুলি ব্যর্থ অভিজ্ঞতা থেকে শিখতে অসুবিধা পায়

সমস্যার গুরুত্ব

ব্যবহারিক প্রয়োগের চাহিদা: মানব মিথস্ক্রিয়া বা ভৌত সিস্টেম রিসেট ইত্যাদি উচ্চ খরচের পরিস্থিতিতে, নমুনা দক্ষতা উন্নত করা অত্যন্ত গুরুত্বপূর্ণ
অভিযোজনযোগ্যতার প্রয়োজনীয়তা: এজেন্টগুলিকে দ্রুত নতুন পরিবেশে মানিয়ে নিতে হবে, যেমন নতুন সংস্থায় কথোপকথন সহায়ক যা তথ্য অধিগ্রহণ এবং যোগাযোগ পদ্ধতি শিখতে হবে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

Reflexion: প্রধানত উচ্চ-স্তরের প্রতিফলন প্রদান করে, কিন্তু প্রতিক্রিয়া প্রায়ই খুব সাধারণ, মডেল কর্মক্ষমতা পরিবর্তন করা কঠিন
AWM (Agent Workflow Memory): শুধুমাত্র সফল ট্র্যাজেক্টরির কর্মপ্রবাহ সংরক্ষণ করে, ব্যর্থ অভিজ্ঞতার অপর্যাপ্ত ব্যবহার
ঐতিহ্যবাহী অভিজ্ঞতা পুনরাবৃত্তি: প্রধানত সংখ্যাসূচক পুরস্কার এবং অবস্থায় ফোকাস করে, নমনীয় ট্র্যাজেক্টরি সম্পাদনা করতে পারে না

মূল অবদান

ECHO ফ্রেমওয়ার্ক প্রস্তাব: ভাষা মডেল এজেন্টে পূর্বাভাসমূলক অভিজ্ঞতা পুনরাবৃত্তি (HER) অভিযোজিত করার প্রথম প্রম্পট ফ্রেমওয়ার্ক
উদ্ভাবনী ট্র্যাজেক্টরি পুনর্লিখন প্রক্রিয়া: লক্ষ্য এবং মধ্যবর্তী পদক্ষেপ পরিবর্তন সহ ব্যর্থ ট্র্যাজেক্টরি নির্বিচারে পুনর্লিখন করতে সক্ষম
অবস্থাপূর্ণ বেঞ্চমার্ক নির্মাণ: XMiniGrid-Stateful এবং PeopleJoinQA-Stateful দুটি অন্বেষণ প্রয়োজনীয় বেঞ্চমার্ক পরিবেশ তৈরি করা
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: XMiniGrid-এ ReAct বেসলাইনের তুলনায় ৮০% উন্নতি, দ্বিতীয় সেরা বেসলাইনের তুলনায় ৪২% উন্নতি

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

অনলাইন সেটিংস বিবেচনা করুন, যেখানে LM এজেন্ট সময় t=0 থেকে T পর্যন্ত ক্রমানুসারে প্রশ্নের ক্রম প্রক্রিয়া করে, প্রকৃত পুরস্কার ফাংশন বা প্রদর্শন ডেটা অ্যাক্সেস করতে পারে না। এজেন্টকে পরিবেশের সাথে মিথস্ক্রিয়ার মাধ্যমে শিখতে এবং ভবিষ্যত সিদ্ধান্তের দক্ষতা উন্নত করতে হবে।

ECHO আর্কিটেকচার

মূল উপাদান

ECHO দুটি প্রধান উপাদান নিয়ে গঠিত:

পূর্বাভাসমূলক নিয়ম (Hindsight Rule):
- প্রদত্ত ট্র্যাজেক্টরি থেকে সম্পূর্ণযোগ্য লক্ষ্য প্রস্তাব করা
- এই লক্ষ্যগুলির জন্য অপ্টিমাইজড ট্র্যাজেক্টরি বা বর্ণনা তৈরি করা
- যদি কোনো লক্ষ্য প্রস্তাব করা না যায়, তবে কোনো পদক্ষেপ নেওয়া হয় না
আপডেট নিয়ম (Update Rule):
- নতুন তৈরি বর্ণনা এবং পূর্ববর্তী বর্ণনার তুলনা করা
- ছোট কর্মপ্রবাহ সংরক্ষণ করা (ন্যূনতম বর্ণনা দৈর্ঘ্য নীতির উপর ভিত্তি করে)
- সংকুচিত ট্র্যাজেক্টরি প্রতিনিধিত্ব বজায় রাখা

অ্যালগরিদম প্রবাহ

def ECHO(LM, trajectory, replay_buf={}):
    # পূর্বাভাসমূলক নিয়ম
    summary = LM.summarize(trajectory)
    goals = LM.identify_goals(trajectory)
    for goal in goals:
        new_traj = LM.infer_traj(goal, trajectory)
        
    # আপডেট নিয়ম
    old_traj = replay_buf[goal]
    if old_traj and len(new_traj) < len(old_traj):
        replay_buf[goal] = new_traj
    return replay_buf

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

প্রকাশনা ক্ষমতা বৃদ্ধি: ঐতিহ্যবাহী HER শুধুমাত্র লক্ষ্য পুনরায় লেবেল করতে পারে, ECHO ট্র্যাজেক্টরি কাঠামো নির্বিচারে পুনর্লিখন করতে পারে
প্রাক-প্রশিক্ষিত জ্ঞান ব্যবহার: তথ্য ফাঁক পূরণ করতে LM এর বিশ্ব জ্ঞান ব্যবহার করা, যুক্তিসঙ্গত পাল্টা-বাস্তব তথ্য প্রস্তাব করা
সংকুচিত প্রতিনিধিত্ব: Kolmogorov জটিলতার উপর ভিত্তি করে, লক্ষ্য অর্জনের সংক্ষিপ্ততম সম্ভাব্য বর্ণনা বজায় রাখা
স্ব-অভিযোজনশীল প্রক্রিয়া: LM বিমূর্ততা নির্বাচন করতে পারে, অকার্যকর ট্র্যাজেক্টরি যোগ করা এড়াতে পারে

পরীক্ষামূলক সেটআপ

ডেটাসেট

XMiniGrid-Stateful

মূল পরিবেশ: প্রোগ্রাম-উৎপাদিত 2D GridWorld নেভিগেশন এবং পরিকল্পনা কাজ
অবস্থাপূর্ণ রূপান্তর: এজেন্ট একই পরিবেশে র্যান্ডমলি নমুনা করা লক্ষ্য সম্পাদন করে, অদেখা বস্তুর অবস্থান শিখতে পারে
স্কেল: ১০টি অনন্য পরিবেশ, প্রতিটি পরিবেশে ৪টি কক্ষ ৪টি বস্তু, প্রতি পরিবেশে ১৬টি প্রশ্ন
কাজ: ৬৪ ধাপের মধ্যে র্যান্ডমলি নমুনা করা বস্তু তুলে নেওয়া, আংশিক পর্যবেক্ষণযোগ্য পরিবেশ চ্যালেঞ্জ বৃদ্ধি করে

PeopleJoinQA-Stateful

মূল পরিবেশ: বহু-এজেন্ট সহযোগিতামূলক তথ্য সংগ্রহ প্রশ্নোত্তর কাজ
অবস্থাপূর্ণ রূপান্তর: স্থির সংস্থা কাঠামো, এজেন্ট সেই সংস্থার সমস্ত প্রশ্নের উত্তর দেয়
স্কেল: ৫টি সংস্থা, মোট ২৪৮টি প্রশ্ন, প্রতি প্রশ্নে গড়ে ৭.৯৮টি বার্তা
কাজ: সিমুলেটেড মানুষদের সাথে যোগাযোগ করতে সরঞ্জাম কল করা, প্রশ্নের উত্তর দিতে তথ্য সংশ্লেষণ করা

মূল্যায়ন মেট্রিক্স

চূড়ান্ত গড় পুরস্কার (নির্ভুলতা): চূড়ান্ত কর্মক্ষমতা পরিমাপ করা
সংগৃহীত গড় পুরস্কার: নমুনা দক্ষতা পরিমাপ করা
```
Cumulative Average Reward at τ = (1/(τ+1)) × Σ(t=0 to τ) Rt
```
ReAct বেসলাইনের তুলনায় আপেক্ষিক উন্নতি: স্ট্যান্ডার্ডাইজড সমস্যা কঠিনতা

তুলনামূলক পদ্ধতি

ReAct: যুক্তি-কর্ম বেসলাইন এজেন্ট
Reflexion: ভাষা এজেন্টের জন্য ভাষা শক্তিশালী শিক্ষা
AWM: এজেন্ট কর্মপ্রবাহ স্মৃতি
AWM++: AWM + ECHO এর আপডেট নিয়ম

বাস্তবায়ন বিবরণ

মডেল: GPT-4o
তাপমাত্রা সেটিংস: ReAct এর জন্য ০, PeopleJoin এ অফলাইন অনুমানের জন্য ০.৭
সর্বাধিক টোকেন সংখ্যা: ৩৮০০-৪০০০
ট্র্যাজেক্টরি বৈধতা: XMiniGrid এ ৮৫% সিন্থেটিক ট্র্যাজেক্টরি সম্পাদনযোগ্য

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

XMiniGrid-Stateful

ReAct এর তুলনায়: গড় পুরস্কার ৮০% বৃদ্ধি
দ্বিতীয় সেরা বেসলাইনের তুলনায়: ৪২% বৃদ্ধি
নমুনা দক্ষতা: ৩টি মিথস্ক্রিয়ার পরে সংগৃহীত পুরস্কার ReAct বেসলাইন অতিক্রম করে
কঠোরভাবে উন্নত: Reflexion এবং AWM সহ সমস্ত তুলনামূলক পদ্ধতি

PeopleJoinQA-Stateful

নির্ভুলতা: Reflexion এর চেয়ে ৪.৬% কম, তবে এখনও ReAct এর চেয়ে ভাল
দক্ষতা: গড়ে ১.৬টি বার্তা হ্রাস, AWM এর সাথে সমান
নমুনা দক্ষতা: প্রথম প্রশ্নের পরেই ReAct বেসলাইন অতিক্রম করে

ট্র্যাজেক্টরি বৈধতা বিশ্লেষণ

XMiniGrid এর ৪০টি নমুনা উদাহরণে:

৮৫% সাফল্যের হার: এজেন্ট সফলভাবে সিন্থেটিক লক্ষ্যে পৌঁছায়
ব্যর্থতার কারণ: ৪টি সম্পাদন বিচ্যুতির কারণে, ২টি অসম্ভাব্য পদক্ষেপের কারণে
উপসংহার: ECHO দ্বারা উৎপাদিত পাল্টা-বাস্তব কর্মপ্রবাহ বেশিরভাগ সঠিক এবং কার্যকর

কেস বিশ্লেষণ

ব্যর্থ ট্র্যাজেক্টরি উদাহরণ: এজেন্ট ধূসর চাবি তুলতে ব্যর্থ হয়

Reflexion আউটপুট: সাধারণ প্রতিক্রিয়া, নির্দিষ্ট উন্নতি পরামর্শের অভাব
AWM আউটপুট: ব্যর্থতার কারণে, সঠিকভাবে কর্মপ্রবাহ তৈরি করে না
ECHO আউটপুট: এজেন্ট ধূসর তারকা পর্যবেক্ষণ করেছে তা চিহ্নিত করে, ধূসর তারকা তুলে নেওয়ার অপ্টিমাইজড ট্র্যাজেক্টরি তৈরি করে

সংস্থা জুড়ে পরিবর্তনশীলতা

PeopleJoinQA তে, বিভিন্ন সংস্থার জন্য সর্বোত্তম পদ্ধতি ভিন্ন:

কোনো পদ্ধতি সমস্ত সংস্থায় কঠোরভাবে আধিপত্য বিস্তার করে না
ECHO কিছু সংস্থায় (যেমন বিভাগীয় স্টোর) সবচেয়ে দক্ষ পদ্ধতি হয়ে ওঠে
অফলাইন পদ্ধতির শক্তিশালীতা উন্নত করার প্রয়োজন নির্দেশ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

কার্যকারিতা যাচাইকরণ: ECHO দুটি অন্বেষণ-প্রয়োজনীয় পরিবেশে নমুনা দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে
প্রক্রিয়া সুবিধা: ব্যর্থতাকে সিন্থেটিক সাফল্যে রূপান্তরিত করে, অতীত অভিজ্ঞতা আরও ভালভাবে ব্যবহার করে
প্রযোজ্য পরিস্থিতি: বিরল পুরস্কার এবং দুর্বল বেসলাইন কর্মক্ষমতার পরিবেশে বিশেষভাবে কার্যকর

সীমাবদ্ধতা

প্রতিনিধিত্ব ফর্ম সীমাবদ্ধতা: প্রধানত প্রাকৃতিক ভাষা প্রতিনিধিত্ব ব্যবহার করা, কোড-শৈলী প্রতিনিধিত্ব আরও কার্যকর হতে পারে
আপডেট নিয়ম সরলীকরণ: দৈর্ঘ্য-ভিত্তিক হিউরিস্টিক আপডেট নিয়ম অত্যন্ত সহজ হতে পারে
পরিবেশ নির্ভরশীলতা: বিভিন্ন সংস্থা/পরিবেশে কর্মক্ষমতা পরিবর্তনশীলতা বিদ্যমান
অসম্পূর্ণ বিশ্ব মডেল: একক ট্র্যাজেক্টরির পরে LM সম্পূর্ণ পরিবেশ মডেল অনুপস্থিত হতে পারে

ভবিষ্যত দিকনির্দেশনা

প্রোগ্রামেটিক প্রতিনিধিত্ব: কোড-শৈলী ট্র্যাজেক্টরি প্রতিনিধিত্বের প্রভাব অন্বেষণ করা
জটিল আপডেট নিয়ম: আরও নির্ভুল তথ্য সংমিশ্রণ প্রক্রিয়া ডিজাইন করা
পুনরুদ্ধার-বর্ধিত: পুনরুদ্ধার-ভিত্তিক স্মৃতি প্রক্রিয়া সংমিশ্রণ করা
শক্তিশালীতা উন্নতি: ক্রস-পরিবেশ সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নত করা

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো HER কে LM এজেন্টে অভিযোজিত করা, উল্লেখযোগ্য তাত্ত্বিক এবং ব্যবহারিক মূল্য রয়েছে
পর্যাপ্ত পরীক্ষা: দুটি ভিন্ন ধরনের পরিবেশে যাচাইকরণ, বিস্তারিত অপসারণ বিশ্লেষণ অন্তর্ভুক্ত
উচ্চ ব্যবহারিক মূল্য: LM এজেন্টের উচ্চ খরচ মিথস্ক্রিয়া পরিবেশে মূল সমস্যা সমাধান করা
পদ্ধতি সর্বজনীন: ফ্রেমওয়ার্ক ডিজাইন ভাল স্কেলেবিলিটি এবং অভিযোজনযোগ্যতা রয়েছে

অপূর্ণতা

বেঞ্চমার্ক সীমাবদ্ধতা: শুধুমাত্র দুটি তুলনামূলক সহজ পরিবেশে পরীক্ষা করা, আরও জটিল বাস্তব পরিস্থিতি যাচাইকরণের অভাব
অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: পদ্ধতির সংগ্রহ এবং তাত্ত্বিক গ্যারান্টির গভীর বিশ্লেষণের অভাব
গণনা ওভারহেড: একাধিক LM কল অতিরিক্ত গণনা খরচ আনতে পারে
মডেল ক্ষমতা নির্ভরতা: পদ্ধতির কার্যকারিতা অন্তর্নিহিত LM এর যুক্তি এবং প্রজন্ম ক্ষমতার উপর অত্যন্ত নির্ভরশীল

প্রভাব

একাডেমিক অবদান: LM এজেন্টের অভিজ্ঞতা শিক্ষার জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করা
ব্যবহারিক প্রয়োগ: মানব-মেশিন মিথস্ক্রিয়া, রোবট নিয়ন্ত্রণ ইত্যাদি উচ্চ খরচ পরিস্থিতিতে প্রয়োগের সম্ভাবনা রয়েছে
পদ্ধতি অনুপ্রেরণা: অন্যান্য LM-ভিত্তিক শিক্ষা অ্যালগরিদমের জন্য ডিজাইন চিন্তাভাবনা প্রদান করা

প্রযোজ্য পরিস্থিতি

উচ্চ খরচ মিথস্ক্রিয়া পরিবেশ: মানব-মেশিন কথোপকথন, ভৌত সিস্টেম নিয়ন্ত্রণ
বিরল পুরস্কার কাজ: অন্বেষণ-ভিত্তিক নেভিগেশন এবং পরিকল্পনা সমস্যা
আংশিক পর্যবেক্ষণযোগ্য পরিবেশ: মিথস্ক্রিয়ার মাধ্যমে পরিবেশ কাঠামো শিখতে হবে এমন পরিস্থিতি
বহু-লক্ষ্য কাজ: একক অভিজ্ঞতা থেকে একাধিক উপ-দক্ষতা শিখতে পারে এমন পরিবেশ

তথ্যসূত্র

Andrychowicz, M., et al. (2017). Hindsight experience replay. NIPS.
Shinn, N., et al. (2023). Reflexion: language agents with verbal reinforcement learning. NIPS.
Wang, Z. Z., et al. (2025). Agent workflow memory. ICML.
Yao, S., et al. (2023). React: Synergizing reasoning and acting in language models. ICLR.

সামগ্রিক মূল্যায়ন: এই পেপারে প্রস্তাবিত ECHO ফ্রেমওয়ার্ক LM এজেন্টের নমুনা দক্ষতা শিক্ষায় গুরুত্বপূর্ণ অগ্রগতি অর্জন করেছে, পদ্ধতি উদ্ভাবনী এবং পরীক্ষামূলক ফলাফল প্রভাবশালী। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি এই ক্ষেত্রের ভবিষ্যত উন্নয়নের জন্য একটি দৃঢ় ভিত্তি স্থাপন করে, উচ্চ একাডেমিক মূল্য এবং ব্যবহারিক প্রয়োগ সম্ভাবনা রয়েছে।