2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG: RAG आधारित डिकोडिंग पर पुनर्विचार

मूल जानकारी

पेपर ID: 2509.01092
शीर्षक: REFRAG: Rethinking RAG based Decoding
लेखक: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
संस्थान: Meta Superintelligence Labs, National University of Singapore, Rice University
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन तिथि: 14 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2509.01092

सारांश

बड़े भाषा मॉडल (LLMs) पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) जैसे बहु-मोड़ संवाद और एजेंट अनुप्रयोगों में बाहरी ज्ञान से प्रतिक्रियाओं को बढ़ाने की असाधारण क्षमता प्रदर्शित करते हैं। हालांकि, लंबे संदर्भ इनपुट को संभालने से महत्वपूर्ण प्रणाली विलंब होता है और कुंजी-मान कैश के लिए बड़ी मेमोरी की आवश्यकता होती है, जिससे थ्रूपुट में कमी आती है और ज्ञान समृद्धि तथा प्रणाली दक्षता के बीच मौलिक व्यापार-बंद होता है। यह पेपर REFRAG प्रस्तावित करता है, एक कुशल डिकोडिंग ढांचा जो संपीड़न, जागरूकता और विस्तार के माध्यम से RAG अनुप्रयोगों में विलंब में सुधार करता है। ध्यान विरलता संरचना का लाभ उठाते हुए, 30.85 गुना प्रथम शब्द विलंब त्वरण (पिछले कार्य से 3.75 गुना सुधार) प्राप्त किया गया है, बिना किसी भ्रम हानि के। इसके अलावा, यह अनुकूलन ढांचा REFRAG को LLMs के संदर्भ आकार को 16 गुना तक विस्तारित करने में सक्षम बनाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएं

लंबे संदर्भ प्रसंस्करण की दक्षता की बाधा: RAG प्रणालियां लंबे संदर्भ को संभालते समय महत्वपूर्ण कम्प्यूटेशनल और मेमोरी ओवरहेड का सामना करती हैं, प्रथम शब्द तक का समय (TTFT) विलंब द्विघात रूप से बढ़ता है, जो उपयोगकर्ता अनुभव को गंभीर रूप से प्रभावित करता है।
RAG परिदृश्य की विशेषता: RAG में संदर्भ मुख्य रूप से पुनर्प्राप्त अनुच्छेदों के संयोजन से बना होता है, केवल एक छोटा हिस्सा प्रश्न से सीधे संबंधित होता है। विविधता और डुप्लिकेट हटाने के संचालन के कारण, ये अनुच्छेद आपस में कम शब्दार्थ समानता रखते हैं, जिससे ब्लॉक-विकर्ण ध्यान पैटर्न बनता है।
कम्प्यूटेशनल अतिरेक: मौजूदा तरीके RAG को सामान्य लंबे संदर्भ समस्या के रूप में मानते हैं, RAG-विशिष्ट विरल ध्यान संरचना को नजरअंदाज करते हैं, जिससे बहुत सारी अनावश्यक गणना होती है।

अनुसंधान प्रेरणा

दक्षता की आवश्यकता: वेब-स्केल अनुप्रयोगों के लिए उच्च थ्रूपुट और कम विलंब की तीव्र आवश्यकता
संसाधन अनुकूलन: मेमोरी खपत और कम्प्यूटेशनल ओवरहेड को कम करना, प्रणाली स्केलेबिलिटी में सुधार करना
प्रदर्शन संरक्षण: दक्षता में बड़ी वृद्धि करते हुए मॉडल प्रदर्शन को गिरावट से बचाना

मूल योगदान

REFRAG ढांचा प्रस्तावित करना: RAG अनुप्रयोगों के लिए विशेष रूप से डिज़ाइन किया गया पहला कुशल डिकोडिंग ढांचा, किसी भी स्थिति पर संदर्भ संपीड़न और विस्तार का समर्थन करता है
ब्लॉक एम्बेडिंग संपीड़न तकनीक: मूल टोकन के बजाय पूर्व-गणना किए गए संपीड़ित ब्लॉक एम्बेडिंग का उपयोग करके, विलंब और मेमोरी अनुकूलन में महत्वपूर्ण सुधार प्राप्त करना
चयनात्मक संपीड़न रणनीति: सुदृढ़ शिक्षा-आधारित नीति नेटवर्क, गतिशील रूप से यह तय करता है कि कौन से ब्लॉकों को मूल रूप में रखने की आवश्यकता है
उल्लेखनीय प्रदर्शन वृद्धि: 30.85 गुना TTFT त्वरण, 16 गुना संदर्भ विंडो विस्तार, बिना किसी प्रदर्शन हानि के
व्यापक सत्यापन: RAG, बहु-मोड़ संवाद, लंबे दस्तावेज़ सारांश आदि कई कार्यों पर प्रभावशीलता का सत्यापन

विधि विवरण

कार्य परिभाषा

T टोकन वाले इनपुट अनुक्रम x₁, x₂, ..., xₜ दिया गया है, जहां पहले q टोकन मुख्य इनपुट (जैसे प्रश्न) हैं, अगले s टोकन संदर्भ (जैसे पुनर्प्राप्त अनुच्छेद) हैं, q + s = T को संतुष्ट करते हैं। लक्ष्य प्रतिक्रिया को कुशलतापूर्वक उत्पन्न करना है, जबकि TTFT विलंब और मेमोरी उपयोग को कम करना है।

मॉडल आर्किटेक्चर

समग्र डिज़ाइन

REFRAG एनकोडर-डिकोडर आर्किटेक्चर अपनाता है:

डिकोडर: LLaMA-आधारित डिकोडर-केवल आधार मॉडल
एनकोडर: हल्का RoBERTa मॉडल, संदर्भ ब्लॉकों को संभालने के लिए
प्रक्षेपण परत: ब्लॉक एम्बेडिंग को डिकोडर टोकन स्पेस में मैप करना

मुख्य घटक

ब्लॉक एम्बेडिंग जनरेशन

संदर्भ खंडन: {C₁, C₂, ..., Cₗ}, जहां L = s/k
ब्लॉक एम्बेडिंग: cᵢ = Mₑₙc(Cᵢ)
प्रक्षेपित एम्बेडिंग: eᶜⁿᵏᵢ = φ(cᵢ)

मिश्रित इनपुट प्रसंस्करण डिकोडर इनपुट: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} संपीड़न अनुपात: ≈ k गुना कमी
चयनात्मक संपीड़न तंत्र
- RL नीति नेटवर्क πθ यह तय करता है कि कौन से ब्लॉकों को असंपीड़ित रखा जाए
- ब्लॉक एम्बेडिंग और मास्क के आधार पर अनुक्रमण चयन
- पुरस्कार फ़ंक्शन: नकारात्मक लॉग भ्रम

तकनीकी नवाचार बिंदु

किसी भी स्थिति पर संपीड़न: मौजूदा तरीकों द्वारा केवल उपसर्ग संपीड़न समर्थन की सीमा को तोड़ना, संदर्भ की किसी भी स्थिति पर संपीड़न और विस्तार का समर्थन करना
पूर्व-गणना पुनः उपयोग: ब्लॉक एम्बेडिंग को पूर्व-गणना और कैश किया जा सकता है, दोहराई गई गणना ओवरहेड से बचना
अनुकूली संपीड़न दर: RL नीति के माध्यम से गतिशील रूप से संपीड़न दर को समायोजित करना, ब्लॉक एम्बेडिंग की पुनः गणना की आवश्यकता नहीं
स्वचालित-प्रतिगामी प्रकृति को बनाए रखना: डिकोडर की कारणात्मक संरचना को बनाए रखना, बहु-मोड़ संवाद और सारांश कार्यों का समर्थन करना

प्रयोगात्मक सेटअप

डेटासेट

पूर्व-प्रशिक्षण: SlimPajama डेटासेट (20B टोकन), 50% ArXiv + 50% पुस्तक डेटा युक्त
मूल्यांकन: Book, ArXiv, PG19, Proof-pile डेटासेट
डाउनस्ट्रीम कार्य:
- RAG: 1.1M नमूने, 5 डोमेन में QA डेटासेट शामिल
- बहु-मोड़ संवाद: TopiOCQA, ORConvQA, QReCC
- सारांश: ArXiv और PubMed लंबे दस्तावेज़ सारांश

मूल्यांकन मेट्रिक्स

दक्षता मेट्रिक्स: TTFT, TTIT (शब्द-दर-शब्द विलंब), थ्रूपुट
प्रदर्शन मेट्रिक्स: भ्रम, सटीकता, F1 स्कोर, ROUGE स्कोर
मेमोरी मेट्रिक्स: KV कैश मेमोरी उपयोग

तुलना विधियां

LLaMA वेरिएंट: LLaMA-Full Context, LLaMA-No Context, LLaMA-32K
मौजूदा तरीके: CEPE, REPLUG
विभिन्न संपीड़न दरें: REFRAG8, REFRAG16, REFRAG32

कार्यान्वयन विवरण

आधार मॉडल: LLaMA-2-7B
एनकोडर: RoBERTa-Large (355M पैरामीटर)
प्रशिक्षण रणनीति: पाठ्यक्रम शिक्षा + पुनर्निर्माण कार्य प्रीवार्मिंग
ऑप्टिमाइज़र: AdamW, शिखर सीखने की दर 5e-5
हार्डवेयर: 8 नोड × 8 H100 GPU

प्रयोगात्मक परिणाम

मुख्य परिणाम

विलंब प्रदर्शन

16K संदर्भ लंबाई पर:

TTFT त्वरण: 16.53 गुना (कैश के साथ), 8.59 गुना (कैश के बिना)
CEPE की तुलना में: TTFT सुधार 2.01 गुना (कैश के साथ), 1.04 गुना (कैश के बिना)
k=32 पर: 30.85 गुना TTFT त्वरण तक पहुंचता है, CEPE से 3.75 गुना तेज़

मॉडल प्रदर्शन

संपीड़न दर	ArXiv P2048	Book P2048	PG19 P2048	ProofPile P2048
REFRAG8	1.062	1.844	1.927	0.916
REFRAG16	1.076	1.853	1.938	0.931
CEPE	1.107	1.864	1.964	0.968

REFRAG16 CEPE की तुलना में औसत भ्रम में 9.3% सुधार, साथ ही महत्वपूर्ण त्वरण प्राप्त करता है।

विलोपन प्रयोग

पाठ्यक्रम शिक्षा की आवश्यकता

विधि	P16	P32	P128	P2048
पाठ्यक्रम शिक्षा के बिना	3.719	3.098	2.272	1.599
पाठ्यक्रम शिक्षा के साथ	0.669	0.451	0.230	0.135

पाठ्यक्रम शिक्षा पुनर्निर्माण कार्य की सफलता के लिए महत्वपूर्ण है।

पुनर्निर्माण कार्य की भूमिका

विधि	P16	P32	P128	P2048
पुनर्निर्माण प्रीवार्मिंग के बिना	3.272	2.789	2.119	1.544
पुनर्निर्माण प्रीवार्मिंग के साथ	2.017	1.837	1.632	1.453

पुनर्निर्माण कार्य पूर्व-प्रशिक्षण निरंतर पूर्व-प्रशिक्षण प्रभाव में महत्वपूर्ण सुधार करता है।

RL चयनात्मक संपीड़न

समान संपीड़न दर 8 पर, REFRAG16+RL हमेशा REFRAG8 से बेहतर है, गतिशील संपीड़न रणनीति की प्रभावशीलता को साबित करता है।

डाउनस्ट्रीम कार्य प्रदर्शन

RAG कार्य

मजबूत पुनर्प्राप्तकर्ता सेटिंग में, समान विलंब बाधा के तहत:

8 अनुच्छेद REFRAG बनाम 1 अनुच्छेद LLaMA: औसत 1.22% सुधार
कमजोर पुनर्प्राप्तकर्ता सेटिंग अधिक स्पष्ट सुधार: 1.93%

बहु-मोड़ संवाद

10 अनुच्छेद सेटिंग में, REFRAG सभी तीन डेटासेट पर LLaMAFT से बेहतर है, विशेष रूप से लंबे संवाद इतिहास परिदृश्य में स्पष्ट लाभ।

केस विश्लेषण

पेपर ध्यान दृश्य परिणाम प्रदर्शित करता है, RAG परिदृश्य में विभिन्न अनुच्छेदों के बीच ध्यान मान अनुच्छेद के भीतर ध्यान से महत्वपूर्ण रूप से कम हैं, ब्लॉक-विकर्ण विरलता धारणा को सत्यापित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RAG-विशिष्ट विरलता: RAG परिदृश्य में ब्लॉक-विकर्ण ध्यान पैटर्न विशेष अनुकूलन के लिए अवसर प्रदान करता है
उल्लेखनीय दक्षता सुधार: 30.85 गुना TTFT त्वरण बिना प्रदर्शन हानि के, विधि की प्रभावशीलता को साबित करता है
व्यापक प्रयोज्यता: कई लंबे संदर्भ कार्यों में उत्कृष्ट प्रदर्शन

सीमाएं

संपीड़न दर सीमा: प्रयोग दिखाते हैं कि k=64 पर प्रदर्शन में महत्वपूर्ण गिरावट आती है, संपीड़न की ऊपरी सीमा मौजूद है
एनकोडर ओवरहेड: हल्का होने के बावजूद, अतिरिक्त एनकोडिंग गणना की आवश्यकता है
प्रशिक्षण जटिलता: पाठ्यक्रम शिक्षा और बहु-चरणीय प्रशिक्षण रणनीति की आवश्यकता है

भविष्य की दिशाएं

उच्च संपीड़न दर: वर्तमान सीमा को तोड़ने के लिए अधिक प्रभावी संपीड़न तकनीकों की खोज
अंत-से-अंत अनुकूलन: संपीड़न रणनीति को पूर्व-प्रशिक्षण चरण में एकीकृत करना
बहु-मोडल विस्तार: विधि को दृश्य-भाषा आदि बहु-मोडल परिदृश्यों तक विस्तारित करना

गहन मूल्यांकन

शक्तियां

समस्या पहचान सटीक: RAG परिदृश्य की विशेषता और अनुकूलन अवसर की सटीक पहचान
विधि डिज़ाइन तर्कसंगत: ब्लॉक एम्बेडिंग संपीड़न और चयनात्मक रणनीति डिज़ाइन कुशल
प्रयोगात्मक सत्यापन पर्याप्त: कई कार्यों और विस्तृत विलोपन प्रयोगों को शामिल करता है
व्यावहारिक मूल्य उच्च: महत्वपूर्ण प्रदर्शन सुधार इसे महत्वपूर्ण अनुप्रयोग मूल्य देता है
तकनीकी नवाचार मजबूत: किसी भी स्थिति पर संपीड़न और पूर्व-गणना पुनः उपयोग आदि नवाचार बिंदु उत्कृष्ट

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: संपीड़न दर ऊपरी सीमा का सैद्धांतिक विश्लेषण अभाव
एनकोडर चयन: विभिन्न एनकोडर आर्किटेक्चर के प्रभाव की पर्याप्त खोज नहीं
दीर्घकालीन निर्भरता: अत्यंत लंबे संदर्भ को संभालने की क्षमता सत्यापन की आवश्यकता है
कम्प्यूटेशनल जटिलता: RL प्रशिक्षण प्रणाली जटिलता में वृद्धि करता है

प्रभाव

शैक्षणिक योगदान: RAG प्रणाली अनुकूलन के लिए अनुसंधान की नई दिशा खोलता है
औद्योगिक मूल्य: बड़े पैमाने पर RAG तैनाती में सीधे अनुप्रयोग के लिए
पुनरुत्पादनशीलता: लेखक कोड को खुला स्रोत करने का वचन देते हैं, विधि प्रसार के लिए अनुकूल

लागू परिदृश्य

वेब खोज: बड़े पैमाने पर पुनर्प्राप्ति परिदृश्य में विलंब अनुकूलन
ज्ञान प्रश्नोत्तरी: कई दस्तावेज़ अंशों को एकीकृत करने की आवश्यकता वाले जटिल प्रश्नोत्तरी
बुद्धिमान सहायक: बहु-मोड़ संवाद में संदर्भ प्रबंधन
दस्तावेज़ विश्लेषण: लंबे दस्तावेज़ के सारांश और विश्लेषण कार्य

संदर्भ

पेपर संबंधित कार्यों का व्यापक उद्धरण करता है, मुख्य रूप से:

Guu et al. (2020) - REALM पुनर्प्राप्ति-संवर्धित पूर्व-प्रशिक्षण
Borgeaud et al. (2022) - RETRO बड़े पैमाने पर पुनर्प्राप्ति-संवर्धित पीढ़ी
Yen et al. (2024) - CEPE समानांतर संदर्भ एनकोडिंग
Touvron et al. (2023) - LLaMA आधार मॉडल

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो RAG प्रणाली की दक्षता की बाधा के लिए एक नवीन समाधान प्रस्तावित करता है। विधि डिज़ाइन तर्कसंगत है, प्रयोगात्मक सत्यापन पर्याप्त है, व्यावहारिक मूल्य उत्कृष्ट है, और यह क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।