2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG: RAG ভিত্তিক ডিকোডিং পুনর্বিবেচনা

মৌলিক তথ্য

পেপার আইডি: 2509.01092
শিরোনাম: REFRAG: Rethinking RAG based Decoding
লেখক: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
প্রতিষ্ঠান: Meta Superintelligence Labs, National University of Singapore, Rice University
শ্রেণীবিভাগ: cs.CL cs.AI cs.LG
প্রকাশনার সময়: ১৪ অক্টোবর, ২০২৫ (arXiv প্রি-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2509.01092

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) এবং অন্যান্য বহু-পর্যায়ের কথোপকথন ও এজেন্ট অ্যাপ্লিকেশনে বাহ্যিক জ্ঞান ব্যবহার করে প্রতিক্রিয়া উন্নত করার ক্ষেত্রে উল্লেখযোগ্য ক্ষমতা প্রদর্শন করেছে। তবে দীর্ঘ প্রসঙ্গ ইনপুট প্রক্রিয়াকরণ উল্লেখযোগ্য সিস্টেম বিলম্ব এবং কী-মূল্য ক্যাশের জন্য বিশাল মেমরি প্রয়োজনীয়তা নিয়ে আসে, যা থ্রুপুট হ্রাস এবং জ্ঞান সমৃদ্ধতা ও সিস্টেম দক্ষতার মধ্যে মৌলিক ট্রেড-অফ সৃষ্টি করে। এই পেপারে REFRAG প্রস্তাব করা হয়েছে, একটি দক্ষ ডিকোডিং ফ্রেমওয়ার্ক যা সংকোচন, সচেতনতা এবং সম্প্রসারণের মাধ্যমে RAG অ্যাপ্লিকেশনে বিলম্ব উন্নত করে। মনোযোগ বিরলতা কাঠামো ব্যবহার করে, ৩০.৮৫ গুণ প্রথম শব্দ বিলম্ব ত্বরণ অর্জন করা হয়েছে (পূর্ববর্তী কাজের চেয়ে ৩.৭৫ গুণ উন্নতি), বিভ্রান্তি হ্রাস ছাড়াই। অতিরিক্তভাবে, এই অপ্টিমাইজেশন ফ্রেমওয়ার্ক REFRAG কে LLMs এর প্রসঙ্গ আকার ১৬ গুণ সম্প্রসারিত করতে সক্ষম করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

দীর্ঘ প্রসঙ্গ প্রক্রিয়াকরণের দক্ষতা বাধা: RAG সিস্টেম দীর্ঘ প্রসঙ্গ প্রক্রিয়াকরণে উল্লেখযোগ্য গণনা এবং মেমরি ওভারহেড সম্মুখীন হয়, প্রথম শব্দ পর্যন্ত সময় (TTFT) বিলম্ব দ্বিঘাত বৃদ্ধি পায়, যা ব্যবহারকারীর অভিজ্ঞতাকে গুরুতরভাবে প্রভাবিত করে।
RAG পরিস্থিতির বিশেষত্ব: RAG তে প্রসঙ্গ প্রধানত পুনরুদ্ধৃত অনুচ্ছেদ সংযোজন দ্বারা গঠিত, শুধুমাত্র একটি ছোট অংশ প্রশ্নের সাথে সরাসরি প্রাসঙ্গিক। বৈচিত্র্য এবং ডুপ্লিকেট অপসারণ অপারেশনের কারণে, এই অনুচ্ছেদগুলির মধ্যে শব্দার্থগত সাদৃশ্য কম, যা ব্লক-তির্যক মনোযোগ প্যাটার্ন তৈরি করে।
গণনা অপ্রয়োজনীয়তা: বিদ্যমান পদ্ধতি RAG কে সাধারণ দীর্ঘ প্রসঙ্গ সমস্যা হিসাবে বিবেচনা করে, RAG-নির্দিষ্ট বিরল মনোযোগ কাঠামো উপেক্ষা করে, যা অসংখ্য অপ্রয়োজনীয় গণনা সৃষ্টি করে।

গবেষণা প্রেরণা

দক্ষতা প্রয়োজনীয়তা: ওয়েব-স্কেল অ্যাপ্লিকেশনের উচ্চ থ্রুপুট এবং কম বিলম্বের জরুরি প্রয়োজন
সম্পদ অপ্টিমাইজেশন: মেমরি ব্যবহার এবং গণনা ওভারহেড হ্রাস, সিস্টেম স্কেলেবিলিটি উন্নত করা
কর্মক্ষমতা রক্ষা: উল্লেখযোগ্য দক্ষতা বৃদ্ধির সাথে সাথে মডেল কর্মক্ষমতা অবনতি ছাড়াই বজায় রাখা

মূল অবদান

REFRAG ফ্রেমওয়ার্ক প্রস্তাব: RAG অ্যাপ্লিকেশনের জন্য প্রথম বিশেষায়িত দক্ষ ডিকোডিং ফ্রেমওয়ার্ক, যেকোনো অবস্থানে প্রসঙ্গ সংকোচন এবং সম্প্রসারণ সমর্থন করে
ব্লক এম্বেডিং সংকোচন কৌশল: প্রাক-গণনাকৃত সংকুচিত ব্লক এম্বেডিং ব্যবহার করে মূল টোকেন প্রতিস্থাপন, উল্লেখযোগ্য বিলম্ব এবং মেমরি অপ্টিমাইজেশন অর্জন করে
নির্বাচনী সংকোচন কৌশল: শক্তিশালী শিক্ষার উপর ভিত্তি করে নীতি নেটওয়ার্ক, গতিশীলভাবে নির্ধারণ করে কোন ব্লকগুলি মূল ফর্ম বজায় রাখতে হবে
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: ৩০.৮৫ গুণ TTFT ত্বরণ, ১৬ গুণ প্রসঙ্গ উইন্ডো সম্প্রসারণ, কোনো কর্মক্ষমতা হ্রাস ছাড়াই
ব্যাপক যাচাইকরণ: RAG, বহু-পর্যায়ের কথোপকথন, দীর্ঘ নথি সংক্ষিপ্তকরণ সহ একাধিক কাজে কার্যকারিতা যাচাই করা হয়েছে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

T টোকেন সহ ইনপুট সিকোয়েন্স x₁, x₂, ..., xₜ দেওয়া, যেখানে প্রথম q টোকেন প্রধান ইনপুট (যেমন প্রশ্ন), পরবর্তী s টোকেন প্রসঙ্গ (যেমন পুনরুদ্ধৃত অনুচ্ছেদ), q + s = T সন্তুষ্ট করে। লক্ষ্য হল দক্ষতার সাথে প্রতিক্রিয়া তৈরি করা, TTFT বিলম্ব এবং মেমরি ব্যবহার ন্যূনতম করার সাথে সাথে।

মডেল আর্কিটেকচার

সামগ্রিক ডিজাইন

REFRAG একটি এনকোডার-ডিকোডার আর্কিটেকচার গ্রহণ করে:

ডিকোডার: LLaMA-ভিত্তিক ডিকোডার-শুধুমাত্র ভিত্তি মডেল
এনকোডার: হালকা RoBERTa মডেল, প্রসঙ্গ ব্লক প্রক্রিয়াকরণের জন্য
প্রজেকশন স্তর: ব্লক এম্বেডিং ডিকোডার টোকেন স্থানে ম্যাপ করা

মূল উপাদান

ব্লক এম্বেডিং প্রজন্ম

প্রসঙ্গ ব্লকিং: {C₁, C₂, ..., Cₗ}, যেখানে L = s/k
ব্লক এম্বেডিং: cᵢ = Mₑₙc(Cᵢ)
প্রজেকশন এম্বেডিং: eᶜⁿᵏᵢ = φ(cᵢ)

মিশ্র ইনপুট প্রক্রিয়াকরণ ডিকোডার ইনপুট: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} সংকোচন অনুপাত: ≈ k গুণ হ্রাস
নির্বাচনী সংকোচন প্রক্রিয়া
- RL নীতি নেটওয়ার্ক πθ নির্ধারণ করে কোন ব্লকগুলি অসংকুচিত থাকে
- ব্লক এম্বেডিং এবং মাস্ক উপর ভিত্তি করে সিকোয়েন্সিয়াল নির্বাচন
- পুরস্কার ফাংশন: নেতিবাচক লগ বিভ্রান্তি

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

যেকোনো অবস্থানে সংকোচন: বিদ্যমান পদ্ধতি শুধুমাত্র উপসর্গ সংকোচন সমর্থন করে এই সীমাবদ্ধতা অতিক্রম করে, প্রসঙ্গের যেকোনো অবস্থানে সংকোচন এবং সম্প্রসারণ সমর্থন করে
প্রাক-গণনা পুনর্ব্যবহার: ব্লক এম্বেডিং প্রাক-গণনা এবং ক্যাশ করা যায়, পুনরাবৃত্তি গণনা ওভারহেড এড়ায়
স্ব-অভিযোজিত সংকোচন হার: RL নীতির মাধ্যমে গতিশীলভাবে সংকোচন হার সামঞ্জস্য করে, ব্লক এম্বেডিং পুনরায় গণনা করার প্রয়োজন ছাড়াই
স্বয়ংক্রিয় রিগ্রেসিভ প্রকৃতি বজায় রাখা: ডিকোডারের কারণ কাঠামো বজায় রাখে, বহু-পর্যায়ের কথোপকথন এবং সংক্ষিপ্তকরণ কাজ সমর্থন করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রাক-প্রশিক্ষণ: SlimPajama ডেটাসেট (20B টোকেন), 50% ArXiv + 50% বই ডেটা অন্তর্ভুক্ত
মূল্যায়ন: বই, ArXiv, PG19, প্রুফ-পাইল ডেটাসেট
ডাউনস্ট্রিম কাজ:
- RAG: 1.1M নমুনা, 5টি ডোমেন জুড়ে QA ডেটাসেট
- বহু-পর্যায়ের কথোপকথন: TopiOCQA, ORConvQA, QReCC
- সংক্ষিপ্তকরণ: ArXiv এবং PubMed দীর্ঘ নথি সংক্ষিপ্তকরণ

মূল্যায়ন মেট্রিক্স

দক্ষতা মেট্রিক্স: TTFT, TTIT (শব্দ-প্রতি বিলম্ব), থ্রুপুট
কর্মক্ষমতা মেট্রিক্স: বিভ্রান্তি, নির্ভুলতা, F1 স্কোর, ROUGE স্কোর
মেমরি মেট্রিক্স: KV ক্যাশ মেমরি ব্যবহার

তুলনামূলক পদ্ধতি

LLaMA ভেরিয়েন্ট: LLaMA-সম্পূর্ণ প্রসঙ্গ, LLaMA-কোনো প্রসঙ্গ নেই, LLaMA-32K
বিদ্যমান পদ্ধতি: CEPE, REPLUG
বিভিন্ন সংকোচন হার: REFRAG8, REFRAG16, REFRAG32

বাস্তবায়ন বিবরণ

ভিত্তি মডেল: LLaMA-2-7B
এনকোডার: RoBERTa-বড় (355M প্যারামিটার)
প্রশিক্ষণ কৌশল: পাঠ্যক্রম শিক্ষা + পুনর্নির্মাণ কাজ প্রি-ওয়ার্মিং
অপ্টিমাইজার: AdamW, শিখর শিক্ষার হার 5e-5
হার্ডওয়্যার: 8 নোড × 8 H100 GPU

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

বিলম্ব কর্মক্ষমতা

16K প্রসঙ্গ দৈর্ঘ্যে:

TTFT ত্বরণ: 16.53 গুণ (ক্যাশ সহ), 8.59 গুণ (ক্যাশ ছাড়া)
CEPE এর তুলনায়: TTFT উন্নতি 2.01 গুণ (ক্যাশ সহ), 1.04 গুণ (ক্যাশ ছাড়া)
k=32 সময়: 30.85 গুণ TTFT ত্বরণ অর্জন করে, CEPE এর চেয়ে 3.75 গুণ দ্রুত

মডেল কর্মক্ষমতা

সংকোচন হার	ArXiv P2048	বই P2048	PG19 P2048	ProofPile P2048
REFRAG8	1.062	1.844	1.927	0.916
REFRAG16	1.076	1.853	1.938	0.931
CEPE	1.107	1.864	1.964	0.968

REFRAG16 CEPE এর তুলনায় গড় বিভ্রান্তি 9.3% উন্নতি, একই সাথে উল্লেখযোগ্য ত্বরণ অর্জন করে।

অ্যাবলেশন পরীক্ষা

পাঠ্যক্রম শিক্ষার প্রয়োজনীয়তা

পদ্ধতি	P16	P32	P128	P2048
পাঠ্যক্রম শিক্ষা ছাড়া	3.719	3.098	2.272	1.599
পাঠ্যক্রম শিক্ষা সহ	0.669	0.451	0.230	0.135

পাঠ্যক্রম শিক্ষা পুনর্নির্মাণ কাজের সাফল্যের জন্য অপরিহার্য।

পুনর্নির্মাণ কাজের ভূমিকা

পদ্ধতি	P16	P32	P128	P2048
পুনর্নির্মাণ প্রি-ওয়ার্মিং ছাড়া	3.272	2.789	2.119	1.544
পুনর্নির্মাণ প্রি-ওয়ার্মিং সহ	2.017	1.837	1.632	1.453

পুনর্নির্মাণ কাজ প্রাক-প্রশিক্ষণ ক্রমাগত প্রশিক্ষণ প্রভাব উল্লেখযোগ্যভাবে উন্নত করে।

RL নির্বাচনী সংকোচন

একই সংকোচন হার 8 এ, REFRAG16+RL সর্বদা REFRAG8 এর চেয়ে উন্নত, গতিশীল সংকোচন কৌশলের কার্যকারিতা প্রমাণ করে।

ডাউনস্ট্রিম কাজ কর্মক্ষমতা

RAG কাজ

শক্তিশালী পুনরুদ্ধারকারী সেটিংসে, একই বিলম্ব সীমাবদ্ধতার অধীনে:

8 অনুচ্ছেদ REFRAG বনাম 1 অনুচ্ছেদ LLaMA: গড় 1.22% উন্নতি
দুর্বল পুনরুদ্ধারকারী সেটিং আরও স্পষ্ট উন্নতি: 1.93%

বহু-পর্যায়ের কথোপকথন

10 অনুচ্ছেদ সেটিংসে, REFRAG সমস্ত তিনটি ডেটাসেটে LLaMAFT এর চেয়ে উন্নত, বিশেষত দীর্ঘ কথোপকথন ইতিহাস পরিস্থিতিতে সুবিধা স্পষ্ট।

কেস বিশ্লেষণ

পেপারটি মনোযোগ ভিজ্যুয়ালাইজেশন ফলাফল প্রদর্শন করে, যা প্রমাণ করে যে RAG পরিস্থিতিতে বিভিন্ন অনুচ্ছেদের মধ্যে মনোযোগ মূল্য অনুচ্ছেদের মধ্যে মনোযোগের চেয়ে উল্লেখযোগ্যভাবে কম, ব্লক-তির্যক বিরলতা অনুমান যাচাই করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

RAG-নির্দিষ্ট বিরলতা: RAG পরিস্থিতিতে ব্লক-তির্যক মনোযোগ প্যাটার্ন বিশেষায়িত অপ্টিমাইজেশনের জন্য সুযোগ প্রদান করে
উল্লেখযোগ্য দক্ষতা বৃদ্ধি: 30.85 গুণ TTFT ত্বরণ এবং কোনো কর্মক্ষমতা হ্রাস ছাড়াই, পদ্ধতির কার্যকারিতা প্রমাণ করে
ব্যাপক প্রযোজ্যতা: একাধিক দীর্ঘ প্রসঙ্গ কাজে উচ্চতর কর্মক্ষমতা

সীমাবদ্ধতা

সংকোচন হার সীমাবদ্ধতা: পরীক্ষা দেখায় যে k=64 সময় কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়, সংকোচন সীমা বিদ্যমান
এনকোডার ওভারহেড: যদিও হালকা, তবুও অতিরিক্ত এনকোডিং গণনা প্রয়োজন
প্রশিক্ষণ জটিলতা: পাঠ্যক্রম শিক্ষা এবং বহু-পর্যায়ের প্রশিক্ষণ কৌশল প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

উচ্চতর সংকোচন হার: বর্তমান সীমা অতিক্রম করতে আরও কার্যকর সংকোচন কৌশল অন্বেষণ করা
শেষ-থেকে-শেষ অপ্টিমাইজেশন: সংকোচন কৌশল প্রাক-প্রশিক্ষণ পর্যায়ে একীভূত করা
বহু-মোডেল সম্প্রসারণ: পদ্ধতি দৃষ্টি-ভাষা এবং অন্যান্য বহু-মোডেল পরিস্থিতিতে সম্প্রসারিত করা

গভীর মূল্যায়ন

শক্তি

সমস্যা সনাক্তকরণ নির্ভুল: RAG পরিস্থিতির বিশেষত্ব এবং অপ্টিমাইজেশন সুযোগ সঠিকভাবে সনাক্ত করা
পদ্ধতি ডিজাইন যুক্তিসঙ্গত: ব্লক এম্বেডিং সংকোচন এবং নির্বাচনী কৌশল ডিজাইন চতুর
পরীক্ষা যাচাইকরণ ব্যাপক: একাধিক কাজ এবং বিস্তৃত অ্যাবলেশন পরীক্ষা অন্তর্ভুক্ত
ব্যবহারিক মূল্য উচ্চ: উল্লেখযোগ্য কর্মক্ষমতা উন্নতি এটিকে গুরুত্বপূর্ণ প্রয়োগ মূল্য প্রদান করে
প্রযুক্তিগত উদ্ভাবন শক্তিশালী: যেকোনো অবস্থানে সংকোচন এবং প্রাক-গণনা পুনর্ব্যবহার ইত্যাদি উদ্ভাবন পয়েন্ট বিশিষ্ট

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: সংকোচন হার সীমার তাত্ত্বিক বিশ্লেষণ অনুপস্থিত
এনকোডার নির্বাচন: বিভিন্ন এনকোডার আর্কিটেকচারের প্রভাব সম্পূর্ণভাবে অন্বেষণ করা হয়নি
দীর্ঘমেয়াদী নির্ভরতা: অতি দীর্ঘ প্রসঙ্গ প্রক্রিয়াকরণ ক্ষমতা যাচাই করা প্রয়োজন
গণনা জটিলতা: RL প্রশিক্ষণ সিস্টেম জটিলতা বৃদ্ধি করে

প্রভাব

একাডেমিক অবদান: RAG সিস্টেম অপ্টিমাইজেশনের জন্য নতুন গবেষণা দিকনির্দেশনা খোলে
শিল্প মূল্য: বৃহৎ-স্কেল RAG স্থাপনায় সরাসরি প্রয়োগ করা যায়
পুনরুৎপাদনযোগ্যতা: লেখক কোড ওপেন-সোর্স করার প্রতিশ্রুতি দেন, পদ্ধতি প্রচার সহজতর করে

প্রযোজ্য পরিস্থিতি

ওয়েব অনুসন্ধান: বৃহৎ-স্কেল পুনরুদ্ধার পরিস্থিতিতে বিলম্ব অপ্টিমাইজেশন
জ্ঞান প্রশ্নোত্তর: একাধিক নথি খণ্ড একীভূত করার প্রয়োজনীয় জটিল প্রশ্নোত্তর
বুদ্ধিমান সহায়ক: বহু-পর্যায়ের কথোপকথনে প্রসঙ্গ ব্যবস্থাপনা
নথি বিশ্লেষণ: দীর্ঘ নথির সংক্ষিপ্তকরণ এবং বিশ্লেষণ কাজ

রেফারেন্স

পেপারটি সম্পর্কিত কাজের বিস্তৃত উদ্ধৃতি অন্তর্ভুক্ত করে, প্রধানত:

Guu et al. (2020) - REALM পুনরুদ্ধার-বর্ধিত প্রাক-প্রশিক্ষণ
Borgeaud et al. (2022) - RETRO বৃহৎ-স্কেল পুনরুদ্ধার-বর্ধিত প্রজন্ম
Yen et al. (2024) - CEPE সমান্তরাল প্রসঙ্গ এনকোডিং
Touvron et al. (2023) - LLaMA ভিত্তি মডেল

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা RAG সিস্টেমের দক্ষতা বাধার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষা যাচাইকরণ ব্যাপক, ব্যবহারিক মূল্য বিশিষ্ট, এবং ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে।