2025-11-26T19:55:18.852187

Revisiting Feedback Models for HyDE

Jedidi, Lin

Recent approaches that leverage large language models (LLMs) for pseudo-relevance feedback (PRF) have generally not utilized well-established feedback models like Rocchio and RM3 when expanding queries for sparse retrievers like BM25. Instead, they often opt for a simple string concatenation of the query and LLM-generated expansion content. But is this optimal? To answer this question, we revisit and systematically evaluate traditional feedback models in the context of HyDE, a popular method that enriches query representations with LLM-generated hypothetical answer documents. Our experiments show that HyDE's effectiveness can be substantially improved when leveraging feedback algorithms such as Rocchio to extract and weight expansion terms, providing a simple way to further enhance the accuracy of LLM-based PRF methods.

academic

HyDE এর জন্য প্রতিক্রিয়া মডেলগুলি পুনর্বিবেচনা

মৌলিক তথ্য

পেপার আইডি: 2511.19349
শিরোনাম: Revisiting Feedback Models for HyDE
লেখক: Nour Jedidi, Jimmy Lin (ওয়াটারলু বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.IR (তথ্য পুনরুদ্ধার)
জমা দেওয়ার সময়: ২০২৫ সালের ২৪ নভেম্বর arXiv-এ
পেপার লিঙ্ক: https://arxiv.org/abs/2511.19349
ওপেন সোর্স কোড: https://github.com/nourj98/hyde-feedback

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) ব্যবহার করে সিউডো-প্রাসঙ্গিক প্রতিক্রিয়া (PRF) এর সাম্প্রতিক পদ্ধতিগুলি সাধারণত প্রতিষ্ঠিত প্রতিক্রিয়া মডেল (যেমন Rocchio এবং RM3) ব্যবহার করে না যা বিরল পুনরুদ্ধারকারীদের (যেমন BM25) জন্য প্রশ্ন সম্প্রসারণ করে, বরং সহজভাবে প্রশ্নটি LLM-উৎপাদিত সম্প্রসারিত বিষয়বস্তুর সাথে স্ট্রিং সংযোজন করে। এই পেপারটি HyDE-তে ঐতিহ্যবাহী প্রতিক্রিয়া মডেলগুলির প্রয়োগ সম্পর্কে পদ্ধতিগতভাবে পুনর্বিবেচনা করে (এটি একটি জনপ্রিয় পদ্ধতি যা প্রশ্নের প্রতিনিধিত্ব সমৃদ্ধ করতে LLM দ্বারা উৎপাদিত অনুমানমূলক উত্তর নথি ব্যবহার করে)। পরীক্ষাগুলি দেখায় যে Rocchio এর মতো প্রতিক্রিয়া অ্যালগরিদম ব্যবহার করে সম্প্রসারিত পদগুলি নিষ্কাশন এবং ওজন করার মাধ্যমে, HyDE এর কার্যকারিতা উল্লেখযোগ্যভাবে উন্নত করা যায়, যা LLM-ভিত্তিক PRF পদ্ধতিগুলি উন্নত করার জন্য একটি সহজ এবং কার্যকর পথ প্রদান করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই পেপারটি যে মূল সমস্যাটি সমাধান করতে চায় তা হল: বর্তমান LLM-ভিত্তিক প্রশ্ন সম্প্রসারণ পদ্ধতিগুলি (যেমন HyDE) BM25 প্রশ্ন প্রতিনিধিত্ব আপডেট করার সময়, তথ্য পুনরুদ্ধারে ঐতিহ্যবাহী প্রতিষ্ঠিত প্রতিক্রিয়া মডেলগুলি পর্যাপ্তভাবে ব্যবহার করছে কিনা?

সমস্যার গুরুত্ব

১. HyDE এর সীমাবদ্ধতা: HyDE কার্যকরভাবে LLM-উৎপাদিত অনুমানমূলক নথি ব্যবহার করে প্রশ্ন এবং প্রাসঙ্গিক নথির মধ্যে শব্দভাণ্ডার ব্যবধান পূরণ করে, কিন্তু উৎপাদিত বিষয়বস্তু BM25 পুনরুদ্ধারে একীভূত করার সময় সহজ স্ট্রিং সংযোজন কৌশল ব্যবহার করে

२. ঐতিহ্যবাহী পদ্ধতি উপেক্ষা করা: তথ্য পুনরুদ্ধার ক্ষেত্রে সিউডো-প্রাসঙ্গিক প্রতিক্রিয়ায় দশকের গবেষণা সঞ্চয় রয়েছে, যার মধ্যে Rocchio এবং RM3 এর মতো সম্পূর্ণভাবে যাচাইকৃত প্রতিক্রিয়া মডেল রয়েছে, কিন্তু এই পদ্ধতিগুলি LLM যুগে প্রান্তিক হয়ে গেছে

३. অপ্টিমাইজেশন স্থান অন্বেষণ করা হয়নি: যদিও প্রতিক্রিয়া উৎস (পুনরুদ্ধৃত নথি থেকে LLM-উৎপাদিত নথিতে) পরিবর্তিত হয়েছে, প্রতিক্রিয়া প্রক্রিয়াটি নিজেই পরিবর্তনের প্রয়োজন কিনা তা এখনও পদ্ধতিগতভাবে অধ্যয়ন করা হয়নি

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. সহজ সংযোজন কৌশল: Query2Doc, MuGI এবং অন্যান্য পদ্ধতি সরাসরি প্রশ্ন এবং LLM-উৎপাদিত পাঠ সংযোজন করে, সম্প্রসারিত পদগুলির নির্বাচন এবং ওজনের অভাব রয়েছে

२. দুই-পর্যায়ের কাঠামো উপেক্ষা করা: ঐতিহ্যবাহী PRF দুটি মূল পর্যায় অন্তর্ভুক্ত করে—পদ নির্বাচন এবং ওজন বরাদ্দ, যখন বর্তমান LLM পদ্ধতিগুলি এই পদক্ষেপগুলি এড়িয়ে যায়

३. পদ্ধতিগত তুলনার অভাব: বিদ্যমান গবেষণা প্রধানত LLM-উৎপাদিত সম্প্রসারিত বিষয়বস্তু উন্নত করার উপর দৃষ্টি নিবদ্ধ করে, যখন এই বিষয়বস্তুটি আরও ভালভাবে কীভাবে ব্যবহার করতে হয় তা কম মনোযোগ পায়

গবেষণা প্রেরণা

লেখকরা আবিষ্কার করেছেন যে ঐতিহ্যবাহী PRF এবং LLM প্রতিক্রিয়া পদ্ধতির মূল পার্থক্য শুধুমাত্র প্রতিক্রিয়া উৎসে রয়েছে, কিন্তু প্রশ্ন আপডেট প্রক্রিয়া সম্পূর্ণভাবে আলাদা। এটি লেখকদের এই অনুমান প্রস্তাব করতে উৎসাহিত করে: ঐতিহ্যবাহী প্রতিক্রিয়া মডেলগুলি LLM-উৎপাদিত প্রতিক্রিয়া বিষয়বস্তুর জন্য সমানভাবে প্রযোজ্য হতে পারে এবং কর্মক্ষমতা উন্নতি আনতে পারে।

মূল অবদান

१. প্রথম পদ্ধতিগত মূল্যায়ন: LLM-উৎপাদিত প্রতিক্রিয়ার প্রেক্ষাপটে, ঐতিহ্যবাহী প্রতিক্রিয়া মডেল (Rocchio, RM3) এবং আধুনিক স্ট্রিং সংযোজন পদ্ধতির কার্যকারিতা প্রথমবারের মতো ব্যাপকভাবে তুলনা করা হয়েছে

२. ঐতিহ্যবাহী পদ্ধতির মূল্য প্রমাণ করা: পরীক্ষাগুলি দেখায় যে HyDE-তে Rocchio এর মতো ঐতিহ্যবাহী প্রতিক্রিয়া অ্যালগরিদম প্রয়োগ করা উল্লেখযোগ্যভাবে পুনরুদ্ধার প্রভাব উন্নত করতে পারে, গড়ে ১.৪ পয়েন্ট (৪.२%) উন্নতি, কম সম্পদ কাজে २.२ পয়েন্ট (६%) উন্নতি

३. ব্যবহারিক উন্নতি সমাধান প্রদান করা: HyDE এর জন্য একটি সহজ কিন্তু কার্যকর উন্নতি পদ্ধতি প্রদান করা হয়েছে, যা LLM উৎপাদন প্রক্রিয়া সংশোধনের প্রয়োজন নেই, শুধুমাত্র প্রতিক্রিয়া একীকরণ প্রক্রিয়া পরিবর্তন করতে হবে

४. ওপেন সোর্স বাস্তবায়ন: সম্পূর্ণ কোড বাস্তবায়ন প্রকাশ করা হয়েছে, যা সম্প্রদায়ের পুনরুৎপাদন এবং আরও গবেষণা সহজতর করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: ব্যবহারকারীর প্রশ্ন $q$
আউটপুট: আপডেট করা প্রশ্ন প্রতিনিধিত্ব $q_{new}$ , BM25 পুনরুদ্ধারের জন্য ব্যবহৃত
লক্ষ্য: LLM-উৎপাদিত অনুমানমূলক উত্তর নথি একীভূত করে প্রশ্ন প্রতিনিধিত্ব উন্নত করা, পুনরুদ্ধার স্মরণ উন্নত করা

HyDE মৌলিক প্রক্রিয়া

१. প্রদত্ত প্রশ্ন $q$ এর জন্য, LLM কে অনুমানমূলক উত্তর নথি উৎপাদন করতে অনুরোধ করুন २. $n$ টি বৈকল্পিক নমুনা করুন: $d = \{d_1, ..., d_n\}$ ३. এই অনুমানমূলক নথিগুলি ব্যবহার করে প্রশ্ন প্রতিনিধিত্ব আপডেট করুন ४. আপডেট করা প্রশ্ন ব্যবহার করে BM25 পুনরুদ্ধার সম্পাদন করুন

প্রতিক্রিয়া মডেল কাঠামো

এই পেপারে প্রস্তাবিত কাঠামোতে দুটি মূল পর্যায় রয়েছে:

পর্যায় १: পদ নির্বাচন (Section 2.1)

१. শব্দ ফ্রিকোয়েন্সি ভেক্টর উৎপাদন: প্রতিটি অনুমানমূলক নথি $d_i$ এর জন্য সাধারণীকৃত শব্দ ফ্রিকোয়েন্সি ভেক্টর $f(d_i)$ উৎপাদন করুন २. সাধারণ শব্দ ফিল্টার করুন: কর্পাসের ১०% এর বেশি নথিতে উপস্থিত উচ্চ-ফ্রিকোয়েন্সি শব্দ সরান ३. র্যাঙ্ক এবং ছাঁটাই করুন:

সাধারণীকৃত শব্দ ফ্রিকোয়েন্সির যোগফল অনুযায়ী প্রার্থী সম্প্রসারিত শব্দগুলি র্যাঙ্ক করুন
শীর্ষ- $k$ শব্দ ধরে রাখুন (এই পেপারে $k=128$ সেট করা হয়েছে)

পর্যায় २: পদ ওজন (Section 2.2-2.3)

পদ্ধতি १: গড় ভেক্টর (Average Vector) এটি HyDE মূল পদ্ধতির ব্যাগ-অফ-ওয়ার্ডস স্পেসে অভিযোজন:

$w_{t,q_{new}} = \frac{1}{n+1} \sum_{d_i \in d_{HyDE}} f(d_i)[t]$

যেখানে $d_{HyDE} = \{q, d_1, ..., d_n\}$ (প্রশ্নটিকে অতিরিক্ত প্রতিক্রিয়া নথি হিসাবে বিবেচনা করা হয়)

বৈশিষ্ট্য:

প্রশ্ন এবং প্রতিক্রিয়া নথিতে সমান ওজন গড়
স্ট্রিং সংযোজনের সাথে পদ নির্বাচনের সমতুল্য

পদ্ধতি २: Rocchio অ্যালগরিদম ক্লাসিক ভেক্টর স্পেস প্রতিক্রিয়া মডেল, প্রশ্ন এবং প্রতিক্রিয়া নথির আপেক্ষিক ওজন নিয়ন্ত্রণ করার জন্য পরামিতি প্রবর্তন করে:

$w_{t,q_{new}} = \alpha \cdot f(q)[t] + \frac{\beta}{n} \sum_{d_i \in d} f(d_i)[t]$

পরামিতি সেটিং:

$\alpha = 1.0$ : প্রশ্ন ওজন
$\beta = 0.75$ : প্রতিক্রিয়া নথি ওজন
প্রশ্ন শব্দ এবং সম্প্রসারিত শব্দগুলিতে পার্থক্যপূর্ণ ওজন প্রদান করতে অনুমতি দেয়

পদ্ধতি३: RM३ (Relevance Model 3) ভাষা মডেলের উপর ভিত্তি করে প্রতিক্রিয়া পদ্ধতি, প্রাসঙ্গিক নথিতে শব্দের পর্যবেক্ষণ সম্ভাবনা অনুমান করে:

$w_{t,q_{new}} = \lambda P(t|q) + (1-\lambda) \sum_{d_i \in d} P(t|d_i)$

পরামিতি সেটিং:

$\lambda = 0.5$ : প্রশ্ন-প্রতিক্রিয়া ইন্টারপোলেশন ওজন
ভেক্টর স্পেসের পরিবর্তে সম্ভাব্যতা কাঠামোর উপর ভিত্তি করে

তুলনামূলক ভিত্তি পদ্ধতি

স্ট্রিং সংযোজন পদ্ধতি:

१. Naive Concat: $q_{new} = \text{Concat}(q, d)$

সরাসরি সংযোজন, কোনো প্রক্রিয়াকরণ ছাড়াই

२. Query2Doc: $q_{new} = \text{Concat}(q \times 5, d_1)$

প্রশ্ন ५ বার পুনরাবৃত্তি + একক অনুমানমূলক নথি (१२८ টোকেন)
মোট সম্প্রসারিত শব্দ সংখ্যা প্রায় १२८ টি

३. MuGI: স্ব-অভিযোজনশীল প্রশ্ন পুনরাবৃত্তি $r = \frac{\sum_{i=1}^n \text{len}(d_i)}{\text{len}(q) \cdot \phi}$ $q_{new} = \text{Concat}(q \times r, d)$

$\phi = 5$ : নিয়ন্ত্রণ পরামিতি
নথির দৈর্ঘ্য অনুযায়ী প্রশ্ন পুনরাবৃত্তি সংখ্যা গতিশীলভাবে সামঞ্জস্য করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. একীভূত কাঠামো: ঐতিহ্যবাহী PRF এবং LLM প্রতিক্রিয়া পদ্ধতিগুলি একই কাঠামোর অধীনে তুলনা করা, দুটির মধ্যে প্রক্রিয়াগত পার্থক্য প্রকাশ করা

२. পদ নির্বাচনের মূল্য: পদ নির্বাচন সহ/ছাড়া পদ্ধতি তুলনা করে, শব্দ ফিল্টারিংয়ের অবদান পরিমাণ করা

३. প্যারামিটারাইজড ওজন নিয়ন্ত্রণ: Rocchio এর $\alpha$ এবং $\beta$ পরামিতি স্ট্রিং পুনরাবৃত্তির চেয়ে আরও স্থিতিশীল ওজন নিয়ন্ত্রণ প্রদান করে

४. ক্রস-প্রতিক্রিয়া-উৎস মূল্যায়ন: ঐতিহ্যবাহী BM25 নথি প্রতিক্রিয়া এবং LLM-উৎপাদিত নথি প্রতিক্রিয়া উভয়ই মূল্যায়ন করা, LLM প্রতিক্রিয়ার উচ্চতর কার্যকারিতা প্রমাণ করা

পরীক্ষা সেটআপ

ডেটাসেট

MS MARCO ডেটাসেট (५টি ওয়েব অনুসন্ধান কাজ):

MS MARCO v१: TREC DL१९, TREC DL२०
MS MARCO v२: TREC DL२१, TREC DL२२, TREC DL२३

BEIR ডেটাসেট (९টি কম-সম্পদ পুনরুদ্ধার কাজ):

জৈব চিকিৎসা IR: TREC-Covid, NFCorpus
সংবাদ পুনরুদ্ধার: TREC-News, Robust०४
আর্থিক প্রশ্নোত্তর: FiQA
সত্তা পুনরুদ্ধার: DBPedia
তথ্য যাচাইকরণ: SciFact
উদ্ধৃতি পূর্বাভাস: SciDocs
যুক্তি পুনরুদ্ধার: ArguAna

ডেটাসেট বৈশিষ্ট্য:

MS MARCO: সম্পদ সমৃদ্ধ, প্রশ্ন অপেক্ষাকৃত সমজাতীয়
BEIR: শূন্য-নমুনা মূল্যায়ন, প্রশ্ন বৈচিত্র্যময়, ডোমেন বিস্তৃত

মূল্যায়ন মেট্রিক্স

Recall@२०: শীর্ষ २० পুনরুদ্ধৃত ফলাফলে প্রাসঙ্গিক নথি অন্তর্ভুক্ত করার অনুপাত

প্রথম-পর্যায়ের পুনরুদ্ধারকারীর স্মরণ ক্ষমতা মূল্যায়নের জন্য উপযুক্ত
প্রাসঙ্গিক নথি পুনরুদ্ধার করা যায় কিনা তা নিয়ে ফোকাস করে, র্যাঙ্কিং গুণমান নয়

তুলনামূলক পদ্ধতি

সম্প্রসারণ ছাড়া ভিত্তি:

BM२५ (প্রশ্ন সম্প্রসারণ ছাড়াই)

ঐতিহ্যবাহী PRF (BM२५ পুনরুদ্ধৃত নথি ব্যবহার করে):

BM२५ + গড় ভেক্টর
BM२५ + RM३
BM२५ + Rocchio

LLM প্রতিক্রিয়া পদ্ধতি (HyDE-উৎপাদিত নথি ব্যবহার করে):

Query२Doc
HyDE + Naive Concat
HyDE + MuGI Concat
HyDE + গড় ভেক্টর
HyDE + RM३
HyDE + Rocchio

বাস্তবায়ন বিবরণ

LLM কনফিগারেশন:

মডেল: Qwen२.५-७B-Instruct, Qwen३-१४B, gpt-oss-२०b
নমুনা সংখ্যা: $n=८$ অনুমানমূলক নথি
নথি দৈর্ঘ্য: সর্বাধিক ५१२ টোকেন
অনুমান কাঠামো: vLLM

প্রতিক্রিয়া মডেল পরামিতি:

Rocchio: $\alpha=१.०$ , $\beta=०.७५$
RM३: $\lambda=०.५$
শব্দ সংখ্যা: $k=१२८$ (Query२Doc এর সাথে সংযুক্ত)
প্রতিক্রিয়া নথি সংখ্যা: ८টি (HyDE নমুনা সংখ্যার সাথে মেলে)

পুনরুদ্ধার সিস্টেম:

বাস্তবায়ন: Pyserini (Lucene এর উপর ভিত্তি করে)
BM२५ পরামিতি: ডিফল্ট সেটিং
সূচক পরিসংখ্যান: IndexReader API এর মাধ্যমে প্রাপ্ত
কাস্টম প্রশ্ন: QueryBuilder API ব্যবহার করে শব্দ ওজন সেট করা

পরীক্ষা ফলাফল

প্রধান ফলাফল (Table १)

সামগ্রিক কর্মক্ষমতা তুলনা

সর্বোত্তম পদ্ধতি: HyDE + Rocchio সমস্ত LLM এ সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে

Qwen२.५-७B: গড় Recall@२० = ३४.० (সমস্ত ডেটাসেট)
Qwen३-१४B: গড় Recall@२० = ३४.७
gpt-oss-२०b: গড় Recall@२० = ३४.७

সবচেয়ে শক্তিশালী স্ট্রিং সংযোজন ভিত্তির (MuGI) তুলনায় উন্নতি:

Qwen२.५-७B: +१.१ পয়েন্ট (३.३% উন্নতি)
Qwen३-१४B: +१.३ পয়েন্ট (३.९% উন্নতি)
gpt-oss-२०b: +१.४ পয়েন্ট (४.२% উন্নতি)

MS MARCO বনাম BEIR এর পার্থক্যপূর্ণ কর্মক্ষমতা

MS MARCO ডেটাসেট:

স্ট্রিং সংযোজন পদ্ধতি (MuGI, Query२Doc) প্রতিযোগিতামূলক শক্তি রাখে
উদাহরণস্বরূপ gpt-oss-२०b এ, MuGI সমস্ত ५টি MS MARCO ডেটাসেটে RM३ এর চেয়ে ভাল

BEIR ডেটাসেট (কম-সম্পদ কাজ):

প্রতিক্রিয়া মডেল স্ট্রিং সংযোজনের চেয়ে উল্লেখযোগ্যভাবে ভাল
gpt-oss-२०b + RM३:
- সমস্ত ९টি BEIR ডেটাসেটে Query२Doc এর চেয়ে ভাল
- ८/९ ডেটাসেটে MuGI Concat এর চেয়ে ভাল
গড় উন্নতি (Rocchio বনাম MuGI):
- Qwen२.५-७B: BEIR গড় +१.९ পয়েন্ট
- Qwen३-१४B: BEIR গড় +१.९ পয়েন্ট
- gpt-oss-२०b: BEIR গড় +२.२ পয়েন্ট

সাধারণ কেস:

SciFact (বৈজ্ঞানিক তথ্য যাচাইকরণ):
- gpt-oss-२०b + Rocchio: ९१.९
- gpt-oss-२०b + MuGI: ९०.६
ArguAna (যুক্তি পুনরুদ্ধার):
- Qwen३-१४B + Rocchio: ८३.८
- Qwen३-१४B + MuGI: ७६.४ (+७.४ পয়েন্ট)

বিলোপন পরীক্ষা এবং মূল আবিষ্কার

আবিষ্কার १: LLM প্রতিক্রিয়া ঐতিহ্যবাহী নথি প্রতিক্রিয়ার চেয়ে ভাল

প্রতিক্রিয়া মডেল নিয়ন্ত্রণ করুন, প্রতিক্রিয়া উৎস তুলনা করুন:

gpt-oss-२०b এর উদাহরণ (সমস্ত ডেটাসেট গড়):

গড় ভেক্টর: HyDE নথি(३२.५) বনাম BM२५ নথি(२९.७) → +२.८ পয়েন্ট
RM३: HyDE নথি(३३.२) বনাম BM२५ নথি(३०.७) → +२.५ পয়েন্ট
Rocchio: HyDE নথি(३४.७) বনাম BM२५ নথি(३०.४) → +४.३ পয়েন্ট

সিদ্ধান্ত: একই প্রতিক্রিয়া প্রক্রিয়ার অধীনে, LLM-উৎপাদিত অনুমানমূলক নথি পুনরুদ্ধৃত নথির চেয়ে প্রতিক্রিয়া উৎস হিসাবে আরও কার্যকর

আকর্ষণীয় পর্যবেক্ষণ:

RM३ BM२५ নথিতে Rocchio এর চেয়ে ভাল (३०.७ বনাম ३०.४)
কিন্তু HyDE নথিতে Rocchio আরও ভাল (३४.७ বনাম ३३.२)
এটি নির্দেশ করে যে প্রতিক্রিয়া উৎসের প্রকৃতি সর্বোত্তম প্রতিক্রিয়া মডেলের পছন্দকে প্রভাবিত করে

আবিষ্কার २: পদ নির্বাচনের গুরুত্বপূর্ণ ভূমিকা

গড় ভেক্টর বনাম Naive Concat তুলনা:

দুটির একমাত্র পার্থক্য: পদ নির্বাচন এবং ফিল্টারিং করা হয় কিনা

কর্মক্ষমতা ব্যবধান (সমস্ত ডেটাসেট গড়):

Qwen२.५-७B: ३२.२ বনাম २९.३ → +३.० পয়েন্ট (१०.२%)
Qwen३-१४B: ३२.५ বনাম ३०.२ → +२.३ পয়েন্ট (७.६%)
gpt-oss-२०b: ३२.५ বনাম २९.५ → +३.१ পয়েন্ট (१०.५%)

BEIR ডেটাসেটে আরও স্পষ্ট:

Qwen२.५-७B BEIR: ३६.६ বনাম ३३.३ → +३.३ পয়েন্ট

সিদ্ধান্ত: শব্দ পদ ফিল্টার করা (যেমন উচ্চ-ফ্রিকোয়েন্সি শব্দ) HyDE প্রভাব উন্নত করার জন্য গুরুত্বপূর্ণ

আবিষ্কার ३: Rocchio এর ওজন নিয়ন্ত্রণ সুবিধা

Rocchio বনাম গড় ভেক্টর:

মূল পার্থক্য: Rocchio $\alpha$ এবং $\beta$ পরামিতির মাধ্যমে প্রশ্ন শব্দকে উচ্চতর ওজন দেয়
গড় ভেক্টর সমস্ত নথিতে (প্রশ্ন সহ) সমান ওজন দেয়

কর্মক্ষমতা তুলনা (সমস্ত ডেটাসেট গড়):

Qwen२.५-७B: ३४.० বনাম ३२.२ → +१.८ পয়েন্ট
Qwen३-१४B: ३४.७ বনাম ३२.५ → +२.२ পয়েন্ট
gpt-oss-२०b: ३४.७ বনাম ३२.५ → +२.२ পয়েন্ট

ব্যাখ্যা:

HyDE এর সমান-ওজন গড় মূল প্রশ্ন শব্দের গুরুত্ব কম মূল্যায়ন করে
Rocchio এর প্যারামিটারাইজড ওজন ( $\alpha=१.०, \beta=०.७५$ ) আরও ভাল ভারসাম্য প্রদান করে
MuGI এর স্ব-অভিযোজনশীল পুনরাবৃত্তির তুলনায়, Rocchio এর রৈখিক পরামিতি নিয়ন্ত্রণ আরও স্থিতিশীল

আবিষ্কার ४: পদ্ধতি শক্তিশালীতা পার্থক্য

ঐতিহ্যবাহী PRF (LLM ছাড়াই) BEIR এ প্রতিযোগিতামূলকতা:

BM२५ + Rocchio (३०.४) বনাম Query२Doc (३२.७)
BM२५ + Rocchio BEIR গড়(३६.२) বনাম Query२Doc BEIR গড়(३६.७)

নির্দেশনা:

প্রতিক্রিয়া মডেল নিজেই বৈচিত্র্যময় প্রশ্নে আরও শক্তিশালী
LLM ছাড়াও, Rocchio কম-সম্পদ কাজে LLM পদ্ধতির কাছাকাছি পৌঁছাতে পারে
LLM এবং প্রতিক্রিয়া মডেল একত্রিত করা সর্বোত্তম প্রভাব পেতে পারে

ক্রস-LLM সামঞ্জস্যতা

সমস্ত LLM এ প্রবণতা সামঞ্জস্যপূর্ণ: १. Rocchio সর্বদা সর্বোত্তম २. পদ নির্বাচন উল্লেখযোগ্য উন্নতি নিয়ে আসে ३. BEIR এ প্রতিক্রিয়া মডেল সুবিধা আরও স্পষ্ট

LLM গুণমানের প্রভাব:

শক্তিশালী LLM (Qwen३-१४B) আরও ভাল পরম কর্মক্ষমতা নিয়ে আসে
কিন্তু প্রতিক্রিয়া মডেলের আপেক্ষিক সুবিধা বিভিন্ন LLM এ স্থিতিশীল থাকে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. ঐতিহ্যবাহী প্রতিক্রিয়া মডেল এখনও কার্যকর: Rocchio এবং RM३ এর মতো ক্লাসিক পদ্ধতি LLM যুগে এখনও প্রযোজ্য এবং শক্তিশালী

२. উল্লেখযোগ্য কর্মক্ষমতা উন্নতি:

সবচেয়ে শক্তিশালী স্ট্রিং সংযোজন ভিত্তির তুলনায় গড় ১.४ পয়েন্ট (४.२%) উন্নতি
কম-সম্পদ কাজে २.२ পয়েন্ট (६%) উন্নতি

३. দুটি উন্নতি উৎস:

পদ ফিল্টারিং: শব্দ পদ সরান (উচ্চ-ফ্রিকোয়েন্সি শব্দ, কম-ওজন শব্দ)
ওজন নিয়ন্ত্রণ: পরামিতির মাধ্যমে (স্ট্রিং পুনরাবৃত্তির পরিবর্তে) প্রশ্ন-প্রতিক্রিয়া ওজন স্থিতিশীলভাবে নিয়ন্ত্রণ করে

४. শক্তিশালীতা সুবিধা: প্রতিক্রিয়া মডেল প্রশ্ন বৈচিত্র্যময় BEIR ডেটাসেটে আরও স্থিতিশীল কর্মক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

१. পরামিতি সংবেদনশীলতা পর্যাপ্তভাবে অন্বেষণ করা হয়নি:

সাহিত্যে ডিফল্ট পরামিতি ব্যবহার করা হয়েছে ( $\alpha=१.०, \beta=०.७५, \lambda=०.५$ )
পরামিতি সামঞ্জস্যের সম্ভাবনা পদ্ধতিগতভাবে অধ্যয়ন করা হয়নি
বিভিন্ন ডেটাসেটের জন্য বিভিন্ন পরামিতি প্রয়োজন হতে পারে

२. গণনা খরচ বিশ্লেষণ অনুপস্থিত:

প্রতিক্রিয়া মডেলের সূচক পরিসংখ্যান এবং পদ ফিল্টারিং প্রয়োজন
সহজ স্ট্রিং সংযোজনের তুলনায় অতিরিক্ত খরচ পরিমাণ করা হয়নি

३. সীমিত LLM নির্বাচন:

শুধুমাত্র ३টি LLM পরীক্ষা করা হয়েছে (Qwen সিরিজ এবং gpt-oss)
GPT-४, Claude এর মতো বন্ধ-উৎস মডেল কভার করা হয়নি

४. ঘন পুনরুদ্ধার জড়িত নয়:

পরীক্ষা শুধুমাত্র BM२५ বিরল পুনরুদ্ধারে ফোকাস করে
ঘন পুনরুদ্ধারকারীদের (যেমন ColBERT) এর প্রযোজ্যতা অজানা

५. ইন্টারঅ্যাকশন প্রভাব অন্বেষণ করা হয়নি:

প্রতিক্রিয়া মডেল এবং LLM প্রম্পট কৌশলের মধ্যে ইন্টারঅ্যাকশন
বিভিন্ন নমুনা সংখ্যা ( $n$ ) এর প্রভাব

ভবিষ্যত দিকনির্দেশনা

१. স্ব-অভিযোজনশীল পরামিতি সামঞ্জস্য:

MuGI এর স্ব-অভিযোজনশীল চিন্তাভাবনা ধার করে, Rocchio এর $\alpha$ এবং $\beta$ গতিশীলভাবে সামঞ্জস্য করে
প্রশ্ন কঠিনতা বা নথি গুণমানের উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে পরামিতি নির্বাচন করে

२. মিশ্র প্রতিক্রিয়া উৎস:

LLM-উৎপাদিত নথি এবং পুনরুদ্ধৃত নথি একত্রিত করে
দুটি প্রতিক্রিয়া উৎসের পরিপূরক অন্বেষণ করে

३. ঘন পুনরুদ্ধারে সম্প্রসারণ:

ঘন ভেক্টর স্পেসে প্রতিক্রিয়া মডেলের প্রয়োগ অধ্যয়ন করে
Transformer এনকোডারের জন্য উপযুক্ত প্রতিক্রিয়া প্রক্রিয়া ডিজাইন করে

४. শেষ-থেকে-শেষ অপ্টিমাইজেশন:

LLM উৎপাদন এবং প্রতিক্রিয়া একীকরণ যৌথভাবে অপ্টিমাইজ করে
শক্তিশালী শিক্ষার মাধ্যমে প্রতিক্রিয়া পরামিতি প্রশিক্ষণ করে

५. বহু-রাউন্ড প্রতিক্রিয়া:

প্রতিক্রিয়া মডেল পুনরাবৃত্তিমূলকভাবে প্রয়োগ করে
সংমিশ্রণ এবং স্থিতিশীলতা অধ্যয়ন করে

গভীর মূল্যায়ন

সুবিধা

१. সমস্যা অবস্থান নির্ভুল:

LLM প্রশ্ন সম্প্রসারণ গবেষণায় উপেক্ষা করা মূল পর্যায় (প্রতিক্রিয়া একীকরণ প্রক্রিয়া) চিহ্নিত করে
প্রস্তাবিত প্রশ্ন সহজ কিন্তু গুরুত্বপূর্ণ: "স্ট্রিং সংযোজন সর্বোত্তম কিনা?"

२. পদ্ধতি কঠোর:

নিয়ন্ত্রণ ভেরিয়েবল ডিজাইন যুক্তিসঙ্গত (একই প্রতিক্রিয়া উৎস বিভিন্ন মডেল তুলনা, একই মডেল বিভিন্ন প্রতিক্রিয়া উৎস তুলনা)
একাধিক LLM এ সিদ্ধান্তের সামঞ্জস্যতা যাচাই করে
१४টি ডেটাসেট কভার করে, উচ্চ-সম্পদ এবং কম-সম্পদ দৃশ্য অন্তর্ভুক্ত করে

३. পরীক্ষা পর্যাপ্ত এবং অন্তর্দৃষ্টিপূর্ণ:

শুধুমাত্র সামগ্রিক ফলাফল রিপোর্ট করে না, MS MARCO এবং BEIR এর পার্থক্য বিশ্লেষণ করে
গড় ভেক্টর বনাম Naive Concat এর মাধ্যমে পদ নির্বাচনের অবদান পরিমাণ করে
ঐতিহ্যবাহী PRF এবং LLM প্রতিক্রিয়া তুলনা করে প্রতিক্রিয়া উৎসের গুরুত্ব প্রকাশ করে

४. ব্যবহারিক মূল্য উচ্চ:

উন্নতি পদ্ধতি সহজ এবং বাস্তবায়ন সহজ (LLM সংশোধনের প্রয়োজন নেই)
ওপেন সোর্স কোড পুনরুৎপাদনযোগ্যতা প্রচার করে
তাৎক্ষণিক-প্লাগ-এবং-প্লে কর্মক্ষমতা উন্নতি সমাধান প্রদান করে

५. লেখা স্পষ্ট:

যুক্তি কাঠামো স্পষ্ট (সমস্যা→পদ্ধতি→পরীক্ষা→সিদ্ধান্ত)
প্রযুক্তিগত বিবরণ নির্ভুলভাবে বর্ণিত
টেবিল ডিজাইন যুক্তিসঙ্গত, তুলনা সুবিধাজনক

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত:

"কেন Rocchio HyDE এ আরও কার্যকর" এর গভীর তাত্ত্বিক ব্যাখ্যা অনুপস্থিত
শব্দ বিতরণ, তথ্য তত্ত্ব ইত্যাদি থেকে প্রক্রিয়া বিশ্লেষণ করা হয়নি
পরামিতি নির্বাচনের (যেমন $\alpha=१.०, \beta=०.७५$ ) জন্য তাত্ত্বিক নির্দেশনা অনুপস্থিত

२. পরামিতি সংবেদনশীলতা গবেষণা অনুপস্থিত:

শুধুমাত্র সাহিত্য ডিফল্ট পরামিতি ব্যবহার করা হয়েছে, পরামিতি স্ক্যান সম্পাদন করা হয়নি
সিদ্ধান্ত পরামিতি পরিবর্তনের প্রতি শক্তিশালীতা অস্পষ্ট
বিভিন্ন ডেটাসেটের সর্বোত্তম পরামিতি কনফিগারেশন অন্বেষণ করা হয়নি

३. গণনা খরচ আলোচনা করা হয়নি:

প্রতিক্রিয়া মডেলের সূচক পরিসংখ্যান অ্যাক্সেস (IDF ইত্যাদি) প্রয়োজন
পদ ফিল্টারিং এবং ওজন গণনার সময় খরচ পরিমাণ করা হয়নি
সহজ সংযোজনের সাথে দক্ষতা তুলনা অনুপস্থিত

४. কেস বিশ্লেষণ অপর্যাপ্ত:

নির্দিষ্ট প্রশ্নের সম্প্রসারিত শব্দ উদাহরণ প্রদর্শন করা হয়নি
"কোন শব্দ সংরক্ষিত/ফিল্টার করা হয়" এর গুণগত বিশ্লেষণ অনুপস্থিত
প্রতিক্রিয়া মডেলের প্রকৃত প্রভাব সরাসরি বোঝা কঠিন

५. প্রযোজ্য পরিসীমা সীমিত:

শুধুমাত্র BM२५ বিরল পুনরুদ্ধার মূল্যায়ন করে
স্নায়ু পুনরুদ্ধারকারীদের (যেমন ColBERT, ANCE) এর প্রযোজ্যতা অজানা
বহুভাষিক বা ক্রস-ভাষা দৃশ্য বিবেচনা করা হয়নি

६. পরিসংখ্যান উল্লেখযোগ্যতা পরীক্ষা অনুপস্থিত:

আত্মবিশ্বাস ব্যবধান বা p-মূল্য রিপোর্ট করা হয়নি
পর্যবেক্ষণ করা উন্নতি পরিসংখ্যানগতভাবে উল্লেখযোগ্য কিনা অস্পষ্ট

প্রভাব

ক্ষেত্রে অবদান: १. ক্লাসিক পদ্ধতি পুনরায় সক্রিয় করা: সম্প্রদায়কে LLM যুগে ঐতিহ্যবাহী IR প্রযুক্তি উপেক্ষা না করতে স্মরণ করায় २. মূল্যায়ন মানদণ্ড প্রতিষ্ঠা: ভবিষ্যত LLM প্রশ্ন সম্প্রসারণ গবেষণার জন্য তুলনা ভিত্তি প্রদান করে ३. মিশ্র পদ্ধতি অনুপ্রাণিত করা: ঐতিহ্যবাহী এবং আধুনিক প্রযুক্তি একত্রিত করতে উৎসাহিত করে

ব্যবহারিক মূল্য: १. তাৎক্ষণিক ব্যবহারযোগ্য: বর্তমান HyDE ব্যবহারকারীরা Rocchio উন্নতি সরাসরি প্রয়োগ করতে পারে २. খরচ-কার্যকারিতা উচ্চ: LLM পুনরায় প্রশিক্ষণ ছাড়াই উন্নতি পেতে পারে ३. শিল্প প্রযোজ্যতা: BM२५ শিল্পে ব্যাপকভাবে ব্যবহৃত হয়, এই পদ্ধতি স্থাপন করা সহজ

পুনরুৎপাদনযোগ্যতা: १. ✅ ওপেন সোর্স কোড २. ✅ জনসাধারণ ডেটাসেট ব্যবহার করে ३. ✅ বিস্তারিত হাইপারপ্যারামিটার নির্দেশনা ④. ✅ পরিপক্ক সরঞ্জাম (Pyserini, vLLM) এর উপর ভিত্তি করে

সম্ভাব্য উদ্ধৃতি মূল্য:

LLM প্রশ্ন সম্প্রসারণ গবেষণার গুরুত্বপূর্ণ রেফারেন্স হওয়ার প্রত্যাশা করা হয়
নতুন পদ্ধতি মূল্যায়নের জন্য শক্তিশালী ভিত্তি প্রদান করে
আরও ঐতিহ্যবাহী-আধুনিক মিশ্র পদ্ধতি অনুপ্রাণিত করতে পারে

প্রযোজ্য দৃশ্য

সুপারিশকৃত ব্যবহার দৃশ্য: १. কম-সম্পদ পুনরুদ্ধার কাজ: BEIR ধরনের বৈচিত্র্যময় প্রশ্ন দৃশ্য २. BM२५ বিরল পুনরুদ্ধার: প্রথম-পর্যায়ের পুনরুদ্ধার বা মিশ্র পুনরুদ্ধার সিস্টেম ३. সীমিত গণনা সম্পদ: স্নায়ু পুনরুদ্ধারকারী প্রশিক্ষণের তুলনায় প্রতিক্রিয়া মডেল খরচ ছোট ४. ব্যাখ্যাযোগ্যতা প্রয়োজন: শব্দ ওজন ভিজ্যুয়ালাইজেশন এবং ডিবাগিং

অপ্রযোজ্য দৃশ্য: १. ঘন পুনরুদ্ধার সিস্টেম: আরও গবেষণা অভিযোজন পদ্ধতি প্রয়োজন २. রিয়েল-টাইম পুনরুদ্ধার: সূচক পরিসংখ্যান অ্যাক্সেস বিলম্ব বৃদ্ধি করতে পারে ३. অতি-ছোট প্রশ্ন: প্রশ্ন শব্দ খুব কম হলে প্রতিক্রিয়া ওজন ভারসাম্য করা কঠিন ४. শেষ-থেকে-শেষ অপ্টিমাইজেশন প্রয়োজন: প্রতিক্রিয়া মডেল পরামিতি LLM এর সাথে যৌথভাবে প্রশিক্ষিত নয়

বাস্তবায়ন সুপারিশ: १. প্রথমে Rocchio চেষ্টা করুন ( $\alpha=१.०, \beta=०.७५$ ) २. কাজের বৈশিষ্ট্য অনুযায়ী পরামিতি সামঞ্জস্য করুন (প্রশ্ন গুরুত্ব বেশি হলে $\alpha$ বৃদ্ধি করুন) ३. পদ নির্বাচনের সাথে একত্রিত করুন (উচ্চ-ফ্রিকোয়েন্সি শব্দ ফিল্টার করুন, শীর্ষ-१२८ শব্দ রাখুন) ४. বিভিন্ন ডেটাসেটে কর্মক্ষমতা পর্যবেক্ষণ করুন, প্রয়োজনে পরামিতি সামঞ্জস্য করুন

মূল সংদর্ভ (গুরুত্বপূর্ণ সাহিত্য)

१ Abdul-Jaleel et al., २००४. UMass at TREC २००४: Novelty and HARD

RM३ প্রতিক্রিয়া মডেল প্রস্তাব করে

९ Gao et al., २०२३. Precise Zero-Shot Dense Retrieval without Relevance Labels (ACL)

মূল HyDE পদ্ধতি

१४ Rocchio, १९७१. Relevance Feedback in Information Retrieval

Rocchio অ্যালগরিদমের ক্লাসিক সাহিত্য

१६ Wang et al., २०२३. Query२doc: Query Expansion with Large Language Models (EMNLP)

LLM প্রশ্ন সম্প্রসারণের প্রতিনিধিত্বমূলক কাজ

२० Zhang et al., २०२४. Exploring the Best Practices of Query Expansion with Large Language Models (EMNLP)

MuGI পদ্ধতি, LLM প্রশ্ন সম্প্রসারণের সর্বোত্তম অনুশীলন অন্বেষণ করে

সারসংক্ষেপ

এই পেপারটি একটি সমস্যা-ভিত্তিক স্পষ্ট, পদ্ধতি সংক্ষিপ্ত এবং কার্যকর, পরীক্ষা পর্যাপ্ত এবং কঠোর উচ্চ-মানের IR গবেষণা। লেখক LLM প্রশ্ন সম্প্রসারণ গবেষণায় একটি উপেক্ষা করা কিন্তু গুরুত্বপূর্ণ সমস্যা তীক্ষ্ণভাবে চিহ্নিত করেছেন, পদ্ধতিগত পরীক্ষার মাধ্যমে ঐতিহ্যবাহী প্রতিক্রিয়া মডেলের ক্রমাগত মূল্য প্রমাণ করেছেন। পেপারের প্রধান অন্তর্দৃষ্টি হল: প্রযুক্তিগত অগ্রগতি ক্লাসিক পদ্ধতি পরিত্যাগের খরচে আসা উচিত নয়, ঐতিহ্যবাহী এবং আধুনিক প্রযুক্তির সংমিশ্রণ প্রায়শই আরও ভাল সমাধান তৈরি করে।

যদিও পেপারটি তাত্ত্বিক গভীরতা এবং পরামিতি অপ্টিমাইজেশনে উন্নতির জায়গা রয়েছে, এর ব্যবহারিক শক্তি শক্তিশালী এবং পুনরুৎপাদনযোগ্যতা ভাল, এবং LLM যুগের তথ্য পুনরুদ্ধার গবেষণায় ইতিবাচক প্রভাব ফেলার প্রত্যাশা করা হয়। অনুশীলনকারীদের জন্য, এটি একটি কম খরচ, উচ্চ রিটার্ন উন্নতি সমাধান; গবেষক্ষদের জন্য, এটি গভীর অন্বেষণের যোগ্য একটি নতুন দিক।