2025-11-14T03:13:11.609221

Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning

Zhao, Yu, Xu
Reasoning-augmented search agents, such as Search-R1, are trained to reason, search, and generate the final answer iteratively. Nevertheless, due to their limited capabilities in reasoning and search, their performance on multi-hop QA benchmarks remains far from satisfactory. To handle complex or compound queries, we train an LLM-based search agent with the native capability of query expansion through reinforcement learning. In each turn, our search agent proposes several query variants, which are searched simultaneously to cover more relevant information. Meanwhile, given limited post-training data and computing resources, it is very challenging for a search agent to master multiple tasks, including query generation, retrieved information understanding, and answer generation. Therefore, we propose incorporating a pre-trained squeezer model that helps the search agent understand the retrieved documents, allowing the search agent to focus on query generation for high retrieval recall. With the assistance of the squeezer model, we discover that even a small-scale 3B LLM can demonstrate a strong capability of query expansion and achieve state-of-the-art accuracy on the multi-hop QA benchmarks. To be specific, our experiments across seven question-answering benchmarks demonstrate that our method, named ExpandSearch, achieves an average improvement of 4.4% compared to state-of-the-art baselines, with strong gains on multi-hop reasoning tasks requiring diverse evidence aggregation.
academic

একক প্রশ্নের সীমাবদ্ধতার বাইরে: শক্তিশালী শিক্ষণের সাথে আপনার LLM কে প্রশ্ন সম্প্রসারণের জন্য প্রশিক্ষণ দিন

মৌলিক তথ্য

  • পেপার আইডি: 2510.10009
  • শিরোনাম: একক প্রশ্নের সীমাবদ্ধতার বাইরে: শক্তিশালী শিক্ষণের সাথে আপনার LLM কে প্রশ্ন সম্প্রসারণের জন্য প্রশিক্ষণ দিন
  • লেখক: শু ঝাও (NVIDIA এবং পেনসিলভেনিয়া স্টেট বিশ্ববিদ্যালয়), তান ইউ (NVIDIA), আনবাং জু (NVIDIA)
  • শ্রেণীবিভাগ: cs.CL cs.AI cs.IR
  • প্রকাশনার সময়: 2025-10-14 (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.10009

সারসংক্ষেপ

অনুমান-বর্ধিত অনুসন্ধান এজেন্ট (যেমন Search-R1) পুনরাবৃত্তিমূলকভাবে অনুমান করতে, অনুসন্ধান করতে এবং চূড়ান্ত উত্তর তৈরি করার জন্য প্রশিক্ষিত হয়। তবে, তাদের অনুমান এবং অনুসন্ধান ক্ষমতার সীমাবদ্ধতার কারণে, তারা বহু-স্তরীয় প্রশ্নোত্তর বেঞ্চমার্কে সন্তোষজনক কর্মক্ষমতা প্রদর্শন করে না। জটিল বা যৌগিক প্রশ্নগুলি পরিচালনা করার জন্য, লেখকরা শক্তিশালী শিক্ষণের মাধ্যমে নেটিভ প্রশ্ন সম্প্রসারণ ক্ষমতা সহ একটি LLM-ভিত্তিক অনুসন্ধান এজেন্ট প্রশিক্ষণ দিয়েছেন। প্রতিটি রাউন্ডে, অনুসন্ধান এজেন্ট একাধিক প্রশ্ন ভেরিয়েন্ট প্রস্তাব করে এবং আরও প্রাসঙ্গিক তথ্য কভার করার জন্য অনুসন্ধান করে। একই সাথে, সীমিত পরবর্তী-প্রশিক্ষণ ডেটা এবং গণনা সম্পদ বিবেচনা করে, অনুসন্ধান এজেন্ট প্রশ্ন উৎপাদন, পুনরুদ্ধার করা তথ্য বোঝা এবং উত্তর উৎপাদন সহ একাধিক কাজ আয়ত্ত করতে অসুবিধা পায়। অতএব, লেখকরা একটি প্রাক-প্রশিক্ষিত সংকোচক মডেল একীভূত করার প্রস্তাব দেন যা অনুসন্ধান এজেন্টকে পুনরুদ্ধার করা নথি বুঝতে সহায়তা করে, যা অনুসন্ধান এজেন্টকে উচ্চ পুনরুদ্ধার স্মরণের জন্য প্রশ্ন উৎপাদনে মনোনিবেশ করতে সক্ষম করে। সংকোচক মডেলের সহায়তায়, লেখকরা আবিষ্কার করেন যে এমনকি ছোট-স্কেল 3B LLM-ও শক্তিশালী প্রশ্ন সম্প্রসারণ ক্ষমতা প্রদর্শন করতে পারে এবং বহু-স্তরীয় প্রশ্নোত্তর বেঞ্চমার্কে অত্যাধুনিক নির্ভুলতা অর্জন করতে পারে। বিশেষত, সাতটি প্রশ্নোত্তর বেঞ্চমার্কে পরীক্ষা-নিরীক্ষা দেখায় যে ExpandSearch পদ্ধতি অত্যাধুনিক বেসলাইনের তুলনায় গড়ে 4.4% উন্নতি করে এবং বৈচিত্র্যময় প্রমাণ সমন্বয়ের প্রয়োজন এমন বহু-স্তরীয় অনুমান কাজে উল্লেখযোগ্য উন্নতি অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান অনুমান-বর্ধিত অনুসন্ধান এজেন্টগুলি দুটি মূল চ্যালেঞ্জের সম্মুখীন হয়:

  1. শব্দার্থগত অসম্পূর্ণতা: উৎপাদিত প্রশ্নগুলি শব্দার্থগতভাবে দুর্বল, বিশেষত বৈচিত্র্যময় প্রমাণের প্রয়োজন এমন বহুমুখী সমস্যার মুখোমুখি হওয়ার সময় প্রাসঙ্গিক তথ্যের সম্পূর্ণ পরিসীমা ক্যাপচার করতে পারে না
  2. তথ্য অতিরিক্ত: পুনরুদ্ধার করা বিষয়বস্তুতে প্রচুর অপ্রাসঙ্গিক তথ্য রয়েছে, মূল তথ্যগুলি অস্পষ্ট করে এবং অনুমানের গুণমান হ্রাস করে

গবেষণার গুরুত্ব

বহু-স্তরীয় প্রশ্নোত্তর কাজগুলি একাধিক কোণ থেকে প্রমাণ সমন্বয় করার প্রয়োজন, একক প্রশ্নের শব্দার্থগত সীমাবদ্ধতা এবং একক-ভেক্টর এম্বেডিং-ভিত্তিক পুনরুদ্ধারের তাত্ত্বিক সীমাবদ্ধতা সিস্টেম কর্মক্ষমতাকে গুরুতরভাবে সীমাবদ্ধ করে। এই সমস্যাটি জটিল অনুমান পরিস্থিতিতে বিশেষভাবে তীব্র, যেখানে এজেন্টকে বিরল কিন্তু গুরুত্বপূর্ণ প্রমাণ চিহ্নিত করার জন্য অসংখ্য অনুসন্ধান ফলাফলের মধ্য দিয়ে নেভিগেট করতে হবে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • Search-R1 এবং অনুরূপ পদ্ধতি প্রতিটি রাউন্ডে শুধুমাত্র একটি একক প্রশ্ন উৎপাদন করে, মূল শব্দার্থগত তথ্য মিস করা সহজ
  • দীর্ঘ পুনরুদ্ধার বিষয়বস্তু উচ্চ গণনা খরচ, GPU মেমরি খরচ এবং উল্লেখযোগ্যভাবে হ্রাসকৃত প্রশিক্ষণ গতি তৈরি করে
  • সংকেত-থেকে-শব্দ অনুপাত সমস্যা বহু-স্তরীয় অনুমান কাজে বিশেষভাবে গুরুতর

গবেষণা প্রেরণা

লেখকদের মূল অন্তর্দৃষ্টি হল: কার্যকর তথ্য পুনরুদ্ধারের জন্য দ্বৈত কৌশল প্রয়োজন—প্রাসঙ্গিক তথ্য কভারেজ সর্বাধিক করার জন্য প্রশ্ন স্থান সম্প্রসারণ করুন, তারপর নির্বাচনীভাবে পুনরুদ্ধার করা বিষয়বস্তু পরিমার্জন করুন শুধুমাত্র অনুমানের জন্য গুরুত্বপূর্ণ তথ্য ধরে রাখতে। এই "সম্প্রসারণ-সংকোচন" প্যারাডাইম মানব তথ্য-অনুসন্ধান আচরণ প্রতিফলিত করে।

মূল অবদান

  1. দ্বৈত সমস্যা চিহ্নিত এবং আনুষ্ঠানিক করা: অনুমান-বর্ধিত অনুসন্ধান এজেন্টে শব্দার্থগত অসম্পূর্ণতা এবং তথ্য অতিরিক্তের প্রভাব, অভিজ্ঞতামূলক বিশ্লেষণের মাধ্যমে প্রমাণ করে যে উভয় সমস্যা জটিল অনুমান কাজের কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস করে
  2. ExpandSearch ফ্রেমওয়ার্ক প্রস্তাব: শক্তিশালী শিক্ষণ-ভিত্তিক প্রশ্ন সম্প্রসারণ এবং প্রম্পট-ভিত্তিক নির্বাচনী তথ্য পরিমার্জন একত্রিত করে "সম্প্রসারণ-সংকোচন" ফ্রেমওয়ার্ক, বহু-পদক্ষেপ অনুমান পরিস্থিতিতে নির্ভুলতা বজায় রেখে উচ্চ স্মরণ অর্জন করে
  3. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি বাস্তবায়ন: সাতটি বেঞ্চমার্কে অত্যাধুনিক বেসলাইনের তুলনায় উল্লেখযোগ্য উন্নতি, বিশেষত বৈচিত্র্যময় প্রমাণ সমন্বয়ের প্রয়োজন এমন বহু-স্তরীয় অনুমান কাজে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট প্রশ্ন x দেওয়া, অনুসন্ধান এজেন্টকে পুনরাবৃত্তিমূলক অনুমান-অনুসন্ধান প্রক্রিয়ার মাধ্যমে চূড়ান্ত উত্তর y উৎপাদন করতে হবে, যেখানে প্রতিটি রাউন্ড অনুসন্ধান ইঞ্জিন R কল করে প্রাসঙ্গিক নথি ব্লক পুনরুদ্ধার করতে এবং পুনরুদ্ধার করা তথ্যের উপর ভিত্তি করে অনুমান করতে পারে।

মডেল আর্কিটেকচার

সম্প্রসারণ-তারপর-সংকোচন কৌশল

সম্প্রসারণ পর্যায়:

  • LLM n টি বৈচিত্র্যময় প্রশ্ন {qi} সহ <search></search> ব্লক উৎপাদন করে
  • প্রতিটি প্রশ্ন qi অনুসন্ধান ইঞ্জিন R এর মাধ্যমে k টি সবচেয়ে প্রাসঙ্গিক ব্লক পুনরুদ্ধার করে: Ci = c1i, ..., cki ← R(qi)
  • একক-প্রশ্ন পুনরুদ্ধারের সীমাবদ্ধতা কার্যকরভাবে অতিক্রম করে, পুনরুদ্ধার স্মরণ উন্নত করে

সংকোচন পর্যায়:

  • উৎপাদিত প্রশ্ন q1, ..., qn এবং পুনরুদ্ধার করা ব্লক C1, ..., Cn হিমায়িত LLM সংকোচক πs এ ইনপুট করা হয়
  • সারসংক্ষেপ উৎপাদন করা হয়: s = πs(q1, ..., qn, C1, ..., Cn)
  • সংকুচিত তথ্য s চলমান উৎপাদন ক্রমে <information></information> ব্লকে এনক্যাপসুলেট করা হয়

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. প্রশ্ন সম্প্রসারণ প্রকার

শক্তিশালী শিক্ষণের মাধ্যমে স্বাভাবিকভাবে আবিষ্কৃত দুটি পরিপূরক সম্প্রসারণ প্রকার:

  • সিনট্যাক্টিক সম্প্রসারণ: পৃষ্ঠ ফর্ম পরিবর্তন পরিচালনা করে, যেমন "where did he die" → "his death place"
  • শব্দার্থগত সম্প্রসারণ: তথ্য পরিসীমা প্রসারিত করে, যেমন "Alex's father" → "Alex's family"

2. মডুলার আর্কিটেকচার ডিজাইন

  • অনুসন্ধান এজেন্ট: উচ্চ পুনরুদ্ধার স্মরণ অর্জনের জন্য প্রশ্ন উৎপাদনে মনোনিবেশ করে
  • সংকোচক মডেল: পুনরুদ্ধার করা নথি বোঝা স্বাধীনভাবে পরিচালনা করে, API কল এর মাধ্যমে ডিকাপলিং বাস্তবায়ন করে

3. পুরস্কার ফাংশন ডিজাইন

ওজনযুক্ত সমন্বয়ের পুরস্কার ফাংশন গ্রহণ করা হয়: r = rEM + λrf

  • rEM: নির্ভুল মিল পুরস্কার, যখন পূর্বাভাসিত উত্তর প্রকৃত উত্তরের সাথে সম্পূর্ণভাবে মেলে তখন 1
  • rf: ফর্ম্যাট পুরস্কার, যখন পূর্বাভাসিত উত্তর কঠোরভাবে ফর্ম্যাট মেনে চলে তখন 1
  • λ ডিফল্টরূপে 0.2 এ সেট করা হয়

পরীক্ষা সেটআপ

ডেটাসেট

সাতটি বেঞ্চমার্ক জুড়ে বিস্তৃত, দুটি বিভাগে বিভক্ত:

  1. সাধারণ প্রশ্নোত্তর: NQ, TriviaQA, PopQA
  2. বহু-স্তরীয় প্রশ্নোত্তর: HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle

Jin এবং অন্যদের সেটআপ অনুসরণ করে, প্রশিক্ষণের জন্য NQ এবং HotpotQA প্রশিক্ষণ সেট একত্রিত করে, যাচাইকরণ/পরীক্ষা সেটে ডোমেইন-অভ্যন্তরীণ এবং ডোমেইন-বাইরের সাধারণীকরণ ক্ষমতা মূল্যায়ন করে।

মূল্যায়ন মেট্রিক্স

প্রধান মূল্যায়ন মেট্রিক হিসাবে নির্ভুল মিল (Exact Match, EM) ব্যবহার করা হয়।

তুলনা পদ্ধতি

  • R1 অনুসন্ধান ইঞ্জিন ছাড়াই
  • Search-R1
  • ZeroSearch
  • StepSearch
  • Router-R1
  • ParallelSearch

বাস্তবায়ন বিবরণ

  • মেরুদণ্ড মডেল: Qwen-2.5-Base/Instruct (3B/7B)
  • এম্বেডিং মডেল: E5
  • কর্পাস: 2018 উইকিপিডিয়া ডাম্প
  • হার্ডওয়্যার: 8×NVIDIA H100 GPU
  • অ্যালগরিদম: PPO (Proximal Policy Optimization)
  • ব্যাচ প্রসেসিং: মোট ব্যাচ আকার 512, ছোট ব্যাচ 256, মাইক্রো-ব্যাচ 64

পরীক্ষার ফলাফল

প্রধান ফলাফল

সমস্ত কনফিগারেশনে সামঞ্জস্যপূর্ণ এবং উল্লেখযোগ্য উন্নতি অর্জন করা হয়েছে:

  • গড় 4.4% উন্নতি: সবচেয়ে শক্তিশালী বেসলাইনের তুলনায় পরম উন্নতি
  • ছোট মডেল সুবিধা: 3B-Instruct মডেল (0.457 গড় EM) 7B বেসলাইন পদ্ধতি অতিক্রম করে
  • আর্কিটেকচার প্রভাব: 3B মডেলে instruct ভেরিয়েন্ট বেস মডেলকে 2.2% ছাড়িয়ে যায়; 7B মডেলে বেস ভেরিয়েন্ট instruct মডেলকে 3.1% ছাড়িয়ে যায়

অ্যাবলেশন পরীক্ষা

প্রশ্ন সম্প্রসারণ সংখ্যার প্রভাব

1 টি প্রশ্ন থেকে 3 টি প্রশ্নে বৃদ্ধি উল্লেখযোগ্য কর্মক্ষমতা উন্নতি:

  • n=1 থেকে n=2: গড় 6.7% উন্নতি
  • n=3 এ অব্যাহত উন্নতি, কিন্তু হ্রাসকৃত সুবিধা

শেষ-থেকে-শেষ প্রশিক্ষণের গুরুত্ব

  • ExpandSearch (n=3, k=5) Search-R1 (k=15) এর তুলনায় 34.3% উন্নতি
  • শুধুমাত্র সম্প্রসারণ প্রম্পট যোগ করা কিন্তু RL প্রশিক্ষণ ছাড়াই কর্মক্ষমতা হ্রাস করে
  • কার্যকর প্রশ্ন সম্প্রসারণ কৌশল শেখার জন্য শেষ-থেকে-শেষ প্রশিক্ষণের গুরুত্ব প্রমাণ করে

সম্প্রসারণ প্রকার বিশ্লেষণ

  • সিনট্যাক্টিক সম্প্রসারণ 63.35% গঠন করে, শব্দার্থগত সম্প্রসারণ 36.65% গঠন করে
  • যেকোনো প্রকার সরানো কর্মক্ষমতা হ্রাস করে, তাদের পরিপূরক প্রকৃতি প্রমাণ করে

সংকোচক আচরণ বিশ্লেষণ

  • পুনরুদ্ধার গভীরতা: k=3 থেকে k=10 এ বৃদ্ধি সামঞ্জস্যপূর্ণ কিন্তু হ্রাসকৃত সুবিধা দেখায়
  • মডেল নির্বাচন: LLaMA-3.1-70B সাধারণ প্রশ্নোত্তরে আরও ভাল কর্মক্ষমতা করে, LLaMA-4-17B বহু-স্তরীয় অনুমানে আরও ভাল
  • সাধারণীকরণ ক্ষমতা: প্রশিক্ষণ সময় এবং অনুমান সময়ে বিভিন্ন সংকোচক মডেল ব্যবহার করা তুলনীয় কর্মক্ষমতা বজায় রাখে

প্রশিক্ষণ গতিশীলতা

  • পুরস্কার, প্রতিক্রিয়া দৈর্ঘ্য এবং অনুসন্ধান ফ্রিকোয়েন্সি সমন্বিতভাবে বৃদ্ধি পায়
  • মডেল স্বাধীনভাবে উত্তর গুণমান উন্নত করার কৌশল হিসাবে অনুসন্ধান ফ্রিকোয়েন্সি বৃদ্ধি করতে শেখে
  • মসৃণ প্রশিক্ষণ বক্ররেখা স্থিতিশীল অপ্টিমাইজেশন প্রক্রিয়া নির্দেশ করে

সম্পর্কিত কাজ

গভীর অনুসন্ধান এজেন্ট

  • RAG সিস্টেম: দুই-পর্যায়ের পাইপলাইন, প্রথমে পুনরুদ্ধার করুন তারপর উৎপাদন করুন, কিন্তু প্রায়শই অপ্রাসঙ্গিক তথ্য অন্তর্ভুক্ত করে
  • অনুসন্ধান সরঞ্জাম ফ্রেমওয়ার্ক: যেমন IRCoT, ReAct প্রম্পটিং দ্বারা পরিচালিত, Toolformer তত্ত্বাবধানকৃত সূক্ষ্ম-সুর দ্বারা
  • শক্তিশালী শিক্ষণ পদ্ধতি: Search-R1 RL প্রযুক্তির অগ্রগামী প্রয়োগ, পরবর্তী উন্নয়ন ZeroSearch, MaskSearch অন্তর্ভুক্ত করে

শক্তিশালী শিক্ষণ

  • RLHF: মানব পছন্দ মন্তব্য দ্বারা প্রশিক্ষিত পুরস্কার মডেল
  • দক্ষতা অপ্টিমাইজেশন: DPO, SimPO, ORPO পুরস্কার মডেল প্রশিক্ষণ বাইপাস করে
  • উদীয়মান প্রযুক্তি: GRPO, RLOO গ্রুপ পদ্ধতির মাধ্যমে নীতি মূল্যায়ন করে প্রতিশ্রুতিশীল বিকল্প প্রদান করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. ExpandSearch শেখা প্রশ্ন সম্প্রসারণ এবং নির্বাচনী তথ্য পরিমার্জনের মাধ্যমে একক-প্রশ্ন পুনরুদ্ধারের সীমাবদ্ধতা কার্যকরভাবে সমাধান করে
  2. "সম্প্রসারণ-সংকোচন" প্যারাডাইম শব্দার্থগত অসম্পূর্ণতা এবং তথ্য অতিরিক্তের দ্বৈত চ্যালেঞ্জ সফলভাবে সমাধান করে
  3. এমনকি 3B স্কেলের মডেলও শক্তিশালী প্রশ্ন সম্প্রসারণ ক্ষমতা প্রদর্শন করতে পারে এবং অত্যাধুনিক কর্মক্ষমতা অর্জন করতে পারে

সীমাবদ্ধতা

  1. গণনা খরচ: একাধিক-প্রশ্ন পুনরুদ্ধার এবং সংকোচক কল অনুমান সময় বৃদ্ধি করে
  2. নির্ভরতা: কর্মক্ষমতা সংকোচক মডেলের গুণমানের উপর নির্ভর করে
  3. সম্প্রসারণ স্যাচুরেশন: প্রশ্ন সংখ্যা বৃদ্ধির সুবিধা হ্রাসকৃত প্রভাব প্রদর্শন করে

ভবিষ্যত দিকনির্দেশনা

  1. অভিযোজিত পুনরুদ্ধার কৌশল: প্রশ্ন জটিলতার উপর ভিত্তি করে সম্প্রসারণ সংখ্যা গতিশীলভাবে সামঞ্জস্য করা
  2. আরও দক্ষ প্রশিক্ষণ পদ্ধতি: বড় আকারের গণনা সম্পদের উপর নির্ভরতা হ্রাস করা
  3. শেষ-থেকে-শেষ অপ্টিমাইজেশন: অনুসন্ধান এজেন্ট এবং সংকোচক মডেল যৌথভাবে প্রশিক্ষণ করা

গভীর মূল্যায়ন

শক্তি

  1. পদ্ধতি উদ্ভাবন: প্রথমবারের মতো প্রশ্ন সম্প্রসারণ এবং শক্তিশালী শিক্ষণ একত্রিত করা, "সম্প্রসারণ-সংকোচন" প্যারাডাইম ডিজাইন চতুর
  2. পরীক্ষা সম্পূর্ণতা: সাতটি বেঞ্চমার্ক, একাধিক মডেল স্কেল, বিস্তারিত অ্যাবলেশন পরীক্ষা
  3. প্রযুক্তিগত অন্তর্দৃষ্টি: সিনট্যাক্টিক এবং শব্দার্থগত সম্প্রসারণের পরিপূরক প্রকৃতি আবিষ্কার, মূল্যবান প্রযুক্তিগত অন্তর্দৃষ্টি প্রদান করে
  4. ব্যবহারিক মূল্য: ছোট মডেলও উৎকৃষ্ট কর্মক্ষমতা অর্জন করতে পারে, বাস্তব স্থাপনার মূল্য রয়েছে

অপূর্ণতা

  1. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: কেন এই পদ্ধতি কার্যকর তার তাত্ত্বিক ব্যাখ্যার অভাব
  2. গণনা দক্ষতা: একাধিক-প্রশ্ন পুনরুদ্ধারের গণনা ওভারহেড বিশ্লেষণ যথেষ্ট গভীর নয়
  3. সাধারণীকরণ ক্ষমতা: প্রধানত প্রশ্নোত্তর কাজে যাচাই করা হয়েছে, অন্যান্য কাজে প্রযোজ্যতা অজানা
  4. সংকোচক নির্ভরতা: বাহ্যিক সংকোচক মডেলের উপর নির্ভরতা এর প্রয়োগ পরিস্থিতি সীমাবদ্ধ করতে পারে

প্রভাব

  1. একাডেমিক অবদান: পুনরুদ্ধার-বর্ধিত উৎপাদন ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে
  2. ব্যবহারিক মূল্য: মডুলার ডিজাইন বাস্তব প্রয়োগ এবং স্থাপনা সহজতর করে
  3. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং খোলা-উৎস প্রতিশ্রুতি প্রদান করে

প্রযোজ্য পরিস্থিতি

  1. বহু-স্তরীয় প্রশ্নোত্তর সিস্টেম: বিশেষত জটিল অনুমান প্রয়োজন এমন প্রশ্নোত্তর কাজের জন্য উপযুক্ত
  2. তথ্য পুনরুদ্ধার সিস্টেম: উচ্চ স্মরণ প্রয়োজন এমন পুনরুদ্ধার পরিস্থিতিতে প্রয়োগ করা যেতে পারে
  3. সংলাপ সিস্টেম: বাহ্যিক জ্ঞান প্রয়োজন এমন সংলাপ এজেন্টে একীভূত করা যেতে পারে

সংদর্ভ

পেপারটি একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Search-R1 (Jin et al., 2025b): RL অনুসন্ধান এজেন্ট কাজের অগ্রগামী
  • RLHF সম্পর্কিত কাজ (Ouyang et al., 2022): LLM প্রশিক্ষণের জন্য শক্তিশালী শিক্ষণের ভিত্তি
  • একাধিক প্রশ্নোত্তর ডেটাসেট: NQ, HotpotQA, TriviaQA এবং অন্যান্য মান বেঞ্চমার্ক

এই পেপারটি বর্তমান অনুসন্ধান এজেন্টের মূল চ্যালেঞ্জ মোকাবেলার জন্য একটি উদ্ভাবনী সমাধান প্রস্তাব করে, চতুর "সম্প্রসারণ-সংকোচন" ডিজাইনের মাধ্যমে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে। যদিও তাত্ত্বিক বিশ্লেষণ এবং গণনা দক্ষতার দিক থেকে উন্নতির অবকাশ রয়েছে, তবে এর প্রযুক্তিগত উদ্ভাবন এবং পরীক্ষামূলক যাচাইকরণ উচ্চ স্তরে পৌঁছেছে এবং পুনরুদ্ধার-বর্ধিত উৎপাদন ক্ষেত্রে গুরুত্বপূর্ণ প্রচারমূলক প্রভাব রয়েছে।