Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic
REFRAG: إعادة التفكير في فك التشفير القائم على RAG
تُظهر نماذج اللغة الكبيرة (LLMs) قدرات متفوقة في الاستفادة من المعرفة الخارجية لتحسين الاستجابات في تطبيقات الحوار متعدد الأدوار والوكلاء الذكيين، مثل الإنشاء المعزز بالاسترجاع (RAG). ومع ذلك، فإن معالجة مدخلات السياق الطويلة تسبب تأخيراً نظامياً كبيراً وتتطلب ذاكرة ضخمة لتخزين مفاتيح القيم، مما يؤدي إلى انخفاض الإنتاجية والمقايضة الأساسية بين غنى المعرفة وكفاءة النظام. تقترح هذه الورقة REFRAG، إطار عمل فك تشفير فعال يحسّن التأخير في تطبيقات RAG من خلال الضغط والإدراك والتوسع. من خلال الاستفادة من بنية الندرة في الانتباه، تم تحقيق تسريع بمعامل 30.85 مرة لتأخير الكلمة الأولى (تحسن بمعامل 3.75 مرة مقارنة بالأعمال السابقة)، بدون فقدان في الارتباك. علاوة على ذلك، يمكّن إطار العمل المُحسّن REFRAG من توسيع حجم السياق في LLMs بمعامل 16 مرة.
اختناقات الكفاءة في معالجة السياق الطويل: تواجه أنظمة RAG نفقات حسابية وذاكرة كبيرة عند معالجة السياق الطويل، حيث ينمو تأخير الوقت حتى الكلمة الأولى (TTFT) بشكل تربيعي، مما يؤثر بشكل خطير على تجربة المستخدم.
خصوصية سيناريوهات RAG: السياق في RAG يتكون بشكل أساسي من فقرات مسترجعة مُلصقة معاً، حيث يكون جزء صغير فقط ذا صلة مباشرة بالاستعلام. بسبب التنوع وعمليات إزالة التكرار، تتمتع هذه الفقرات بتشابه دلالي منخفض بينها، مما يؤدي إلى نمط انتباه قطري الكتل.
الحسابات الزائدة: تعامل الطرق الموجودة مع RAG كمشكلة سياق طويل عامة، متجاهلة البنية الخاصة بندرة الانتباه في RAG، مما يؤدي إلى حسابات غير ضرورية كثيرة.
بالنظر إلى تسلسل إدخال يحتوي على T رمز x₁, x₂, ..., xₜ، حيث تكون الرموز q الأولى هي الإدخال الرئيسي (مثل السؤال)، والرموز s الأخيرة هي السياق (مثل الفقرات المسترجعة)، مع تحقيق q + s = T. الهدف هو توليد استجابة فعالة مع تقليل تأخير TTFT واستخدام الذاكرة.
تعرض الورقة نتائج تصور الانتباه، مما يؤكد أن قيم الانتباه بين الفقرات المختلفة في سيناريوهات RAG أقل بكثير من الانتباه داخل الفقرة، مما يتحقق من افتراض الندرة القطرية للكتل.
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:
Guu et al. (2020) - التدريب المسبق REALM المعزز بالاسترجاع
Borgeaud et al. (2022) - الإنشاء المعزز بالاسترجاع على نطاق واسع RETRO
Yen et al. (2024) - ترميز السياق المتوازي CEPE
Touvron et al. (2023) - نموذج LLaMA الأساسي
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لاختناقات الكفاءة في أنظمة RAG. يتمتع التصميم بمنطقية سليمة، والتحقق التجريبي شامل، والقيمة العملية بارزة، مما يساهم بشكل مهم في تطور هذا المجال.