2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG: إعادة التفكير في فك التشفير القائم على RAG

المعلومات الأساسية

معرّف الورقة: 2509.01092
العنوان: REFRAG: Rethinking RAG based Decoding
المؤلفون: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
المؤسسات: Meta Superintelligence Labs، جامعة سنغافورة الوطنية، جامعة رايس
التصنيف: cs.CL cs.AI cs.LG
تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2509.01092

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) قدرات متفوقة في الاستفادة من المعرفة الخارجية لتحسين الاستجابات في تطبيقات الحوار متعدد الأدوار والوكلاء الذكيين، مثل الإنشاء المعزز بالاسترجاع (RAG). ومع ذلك، فإن معالجة مدخلات السياق الطويلة تسبب تأخيراً نظامياً كبيراً وتتطلب ذاكرة ضخمة لتخزين مفاتيح القيم، مما يؤدي إلى انخفاض الإنتاجية والمقايضة الأساسية بين غنى المعرفة وكفاءة النظام. تقترح هذه الورقة REFRAG، إطار عمل فك تشفير فعال يحسّن التأخير في تطبيقات RAG من خلال الضغط والإدراك والتوسع. من خلال الاستفادة من بنية الندرة في الانتباه، تم تحقيق تسريع بمعامل 30.85 مرة لتأخير الكلمة الأولى (تحسن بمعامل 3.75 مرة مقارنة بالأعمال السابقة)، بدون فقدان في الارتباك. علاوة على ذلك، يمكّن إطار العمل المُحسّن REFRAG من توسيع حجم السياق في LLMs بمعامل 16 مرة.

الخلفية البحثية والدافع

المشاكل الأساسية

اختناقات الكفاءة في معالجة السياق الطويل: تواجه أنظمة RAG نفقات حسابية وذاكرة كبيرة عند معالجة السياق الطويل، حيث ينمو تأخير الوقت حتى الكلمة الأولى (TTFT) بشكل تربيعي، مما يؤثر بشكل خطير على تجربة المستخدم.
خصوصية سيناريوهات RAG: السياق في RAG يتكون بشكل أساسي من فقرات مسترجعة مُلصقة معاً، حيث يكون جزء صغير فقط ذا صلة مباشرة بالاستعلام. بسبب التنوع وعمليات إزالة التكرار، تتمتع هذه الفقرات بتشابه دلالي منخفض بينها، مما يؤدي إلى نمط انتباه قطري الكتل.
الحسابات الزائدة: تعامل الطرق الموجودة مع RAG كمشكلة سياق طويل عامة، متجاهلة البنية الخاصة بندرة الانتباه في RAG، مما يؤدي إلى حسابات غير ضرورية كثيرة.

الدافع البحثي

متطلبات الكفاءة: الحاجة الملحة لتطبيقات على نطاق الويب لإنتاجية عالية وتأخير منخفض
تحسين الموارد: تقليل استهلاك الذاكرة والنفقات الحسابية، وتحسين قابلية التوسع في النظام
الحفاظ على الأداء: الحفاظ على أداء النموذج بدون تدهور مع تحسين الكفاءة بشكل كبير

المساهمات الأساسية

اقتراح إطار عمل REFRAG: أول إطار عمل فك تشفير فعال متخصص لتطبيقات RAG، يدعم ضغط وتوسع السياق في أي موضع
تقنية ضغط تضمينات الكتل: استخدام تضمينات كتل مضغوطة محسوبة مسبقاً بدلاً من الرموز الأصلية، لتحقيق تحسينات كبيرة في التأخير والذاكرة
استراتيجية ضغط انتقائية: شبكة سياسة قائمة على التعلم المعزز، تقرر ديناميكياً أي كتل تحتاج إلى الحفاظ على شكلها الأصلي
تحسينات أداء كبيرة: تحقيق تسريع TTFT بمعامل 30.85 مرة، توسيع نافذة السياق بمعامل 16 مرة، بدون فقدان الأداء
التحقق الواسع: التحقق من الفعالية على مهام متعددة مثل RAG والحوار متعدد الأدوار وملخصات المستندات الطويلة

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل إدخال يحتوي على T رمز x₁, x₂, ..., xₜ، حيث تكون الرموز q الأولى هي الإدخال الرئيسي (مثل السؤال)، والرموز s الأخيرة هي السياق (مثل الفقرات المسترجعة)، مع تحقيق q + s = T. الهدف هو توليد استجابة فعالة مع تقليل تأخير TTFT واستخدام الذاكرة.

معمارية النموذج

التصميم الشامل

يعتمد REFRAG على معمارية مشفّر-فاك تشفير:

فاك التشفير: نموذج decoder-only قائم على LLaMA
المشفّر: نموذج RoBERTa خفيف الوزن، لمعالجة كتل السياق
طبقة الإسقاط: تعيين تضمينات الكتل إلى فضاء رموز فاك التشفير

المكونات الأساسية

توليد تضمينات الكتل

تقسيم السياق: {C₁, C₂, ..., Cₗ}، حيث L = s/k
تضمينات الكتل: cᵢ = Mₑₙc(Cᵢ)
تضمينات الإسقاط: eᶜⁿᵏᵢ = φ(cᵢ)

معالجة الإدخال المختلط إدخال فاك التشفير: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} نسبة الضغط: ≈ تقليل بمعامل k
آلية الضغط الانتقائي
- شبكة السياسة RL πθ تقرر أي كتل تبقى غير مضغوطة
- الاختيار المسلسل بناءً على تضمينات الكتل والأقنعة
- دالة المكافأة: اللوغاريتم السالب للارتباك

نقاط الابتكار التقني

الضغط في أي موضع: تجاوز حدود الطرق الموجودة التي تدعم فقط ضغط البادئة، لدعم ضغط وتوسع السياق في أي موضع
إعادة استخدام الحسابات المسبقة: يمكن حساب تضمينات الكتل مسبقاً وتخزينها مؤقتاً، مما يتجنب نفقات الحسابات المتكررة
معدل ضغط تكيفي: تعديل معدل الضغط ديناميكياً من خلال سياسة RL، بدون الحاجة لإعادة حساب تضمينات الكتل
الحفاظ على الطبيعة الذاتية الانحدار: الحفاظ على البنية السببية لفاك التشفير، لدعم الحوار متعدد الأدوار ومهام الملخص

إعداد التجارب

مجموعات البيانات

التدريب المسبق: مجموعة بيانات SlimPajama (20B رموز)، تحتوي على 50% ArXiv + 50% بيانات الكتب
التقييم: مجموعات بيانات Book و ArXiv و PG19 و Proof-pile
المهام اللاحقة:
- RAG: 1.1M عينة، تغطي مجموعات بيانات الأسئلة والأجوبة من 5 مجالات
- الحوار متعدد الأدوار: TopiOCQA و ORConvQA و QReCC
- الملخص: ملخصات المستندات الطويلة من ArXiv و PubMed

مؤشرات التقييم

مؤشرات الكفاءة: TTFT و TTIT (تأخير كل كلمة) والإنتاجية
مؤشرات الأداء: الارتباك والدقة ودرجة F1 ودرجات ROUGE
مؤشرات الذاكرة: استخدام ذاكرة KV cache

طرق المقارنة

متغيرات LLaMA: LLaMA-Full Context و LLaMA-No Context و LLaMA-32K
الطرق الموجودة: CEPE و REPLUG
معدلات ضغط مختلفة: REFRAG8 و REFRAG16 و REFRAG32

تفاصيل التنفيذ

النموذج الأساسي: LLaMA-2-7B
المشفّر: RoBERTa-Large (355M معامل)
استراتيجية التدريب: التعلم المنهجي + الإحماء بمهمة إعادة البناء
المُحسّن: AdamW، معدل التعلم الأقصى 5e-5
الأجهزة: 8 عقد × 8 GPU H100

نتائج التجارب

النتائج الرئيسية

أداء التأخير

عند طول السياق 16K:

تسريع TTFT: 16.53 مرة (مع التخزين المؤقت)، 8.59 مرة (بدون التخزين المؤقت)
مقارنة بـ CEPE: تحسن TTFT بمعامل 2.01 مرة (مع التخزين المؤقت)، 1.04 مرة (بدون التخزين المؤقت)
عند k=32: تحقيق تسريع TTFT بمعامل 30.85 مرة، أسرع بمعامل 3.75 مرة من CEPE

أداء النموذج

معدل الضغط	ArXiv P2048	Book P2048	PG19 P2048	ProofPile P2048
REFRAG8	1.062	1.844	1.927	0.916
REFRAG16	1.076	1.853	1.938	0.931
CEPE	1.107	1.864	1.964	0.968

يحقق REFRAG16 تحسناً في الارتباك بمتوسط 9.3% مقارنة بـ CEPE، مع تحقيق تسريع كبير في نفس الوقت.

تجارب الاستئصال

ضرورة التعلم المنهجي

الطريقة	P16	P32	P128	P2048
بدون تعلم منهجي	3.719	3.098	2.272	1.599
مع تعلم منهجي	0.669	0.451	0.230	0.135

التعلم المنهجي ضروري لنجاح مهمة إعادة البناء.

دور مهمة إعادة البناء

الطريقة	P16	P32	P128	P2048
بدون إحماء إعادة البناء	3.272	2.789	2.119	1.544
مع إحماء إعادة البناء	2.017	1.837	1.632	1.453

يحسّن التدريب المسبق لمهمة إعادة البناء بشكل كبير من فعالية التدريب المسبق المستمر.

الضغط الانتقائي بـ RL

عند معدل ضغط متساوٍ 8، يتفوق REFRAG16+RL باستمرار على REFRAG8، مما يثبت فعالية استراتيجية الضغط الديناميكي.

أداء المهام اللاحقة

مهام RAG

في إعداد المسترجع القوي، تحت قيود التأخير المتساوية:

REFRAG بـ 8 فقرات مقابل LLaMA بـ 1 فقرة: تحسن بمتوسط 1.22%
في إعداد المسترجع الضعيف يكون التحسن أكثر وضوحاً: 1.93%

الحوار متعدد الأدوار

في إعداد 10 فقرات، يتفوق REFRAG على LLaMAFT في جميع مجموعات البيانات الثلاث، خاصة في سيناريوهات سجل الحوار الطويل.

تحليل الحالات

تعرض الورقة نتائج تصور الانتباه، مما يؤكد أن قيم الانتباه بين الفقرات المختلفة في سيناريوهات RAG أقل بكثير من الانتباه داخل الفقرة، مما يتحقق من افتراض الندرة القطرية للكتل.

الأعمال ذات الصلة

نمذجة اللغة المعززة بالاسترجاع

REALM: أول من اقترح التدريب المسبق لنموذج اللغة المقنع المعزز بالاسترجاع
RETRO: استخدام الانتباه المتقاطع والتدريب من النهاية إلى النهاية
FiD: معالجة الفقرات بالتوازي وإلصاق الحالات المخفية

LLMs فعالة للسياق الطويل

ضغط الانتباه: تقليل تعقيد الانتباه لكن لا يحل مشكلة الذاكرة
StreamingLLM: استخدام تجميع الانتباه لتقليل KV cache
CEPE: طريقة الانتباه المتقاطع، لكن محدودة بتطبيق البادئة

ضغط Transformer

Compressive Transformer: ضغط KV cache لكن لا يحسّن TTFT
الضغط التكراري: لا يمكن الحساب المسبق وإعادة الاستخدام

الخلاصة والنقاش

الاستنتاجات الرئيسية

الندرة الخاصة بـ RAG: نمط الانتباه القطري للكتل في سيناريوهات RAG يوفر فرصاً للتحسين المتخصص
تحسينات كفاءة كبيرة: تسريع TTFT بمعامل 30.85 مرة بدون فقدان الأداء، مما يثبت فعالية الطريقة
قابلية التطبيق الواسعة: أداء متفوقة في مهام السياق الطويل المتنوعة

القيود

حدود معدل الضغط: تظهر التجارب انخفاضاً كبيراً في الأداء عند k=64، مما يشير إلى وجود حد أقصى للضغط
نفقات المشفّر: على الرغم من أنه خفيف الوزن، إلا أنه لا يزال يتطلب حسابات تشفير إضافية
تعقيد التدريب: يتطلب استراتيجيات تدريب متعددة المراحل والتعلم المنهجي

الاتجاهات المستقبلية

معدلات ضغط أعلى: استكشاف تقنيات ضغط أكثر فعالية لتجاوز الحدود الحالية
التحسين من النهاية إلى النهاية: دمج استراتيجيات الضغط في مرحلة التدريب المسبق
التوسع متعدد الأنماط: توسيع الطريقة إلى سيناريوهات متعددة الأنماط مثل الرؤية واللغة

التقييم المتعمق

المميزات

تحديد المشكلة دقيق: تحديد دقيق لخصوصية سيناريوهات RAG وفرص التحسين
تصميم الطريقة معقول: تصميم ذكي لضغط تضمينات الكتل والاستراتيجية الانتقائية
التحقق التجريبي شامل: يغطي مهام متعددة وتجارب استئصال مفصلة
القيمة العملية عالية: التحسينات الكبيرة في الأداء تجعلها ذات قيمة تطبيقية مهمة
الابتكار التقني قوي: نقاط الابتكار مثل الضغط في أي موضع وإعادة استخدام الحسابات المسبقة بارزة

أوجه القصور

نقص التحليل النظري: عدم وجود تحليل نظري لحدود معدل الضغط
اختيار المشفّر: عدم استكشاف كافٍ لتأثير معماريات المشفّر المختلفة
التبعيات الطويلة: قدرة التعامل مع السياق الطويل جداً تحتاج إلى التحقق
التعقيد الحسابي: يزيد تدريب RL من تعقيد النظام

التأثير

المساهمة الأكاديمية: فتح اتجاه بحثي جديد لتحسين أنظمة RAG
القيمة الصناعية: يمكن تطبيقها مباشرة على نشر RAG على نطاق واسع
قابلية التكرار: التزام المؤلفين بفتح الكود يساعد على نشر الطريقة

السيناريوهات المناسبة

البحث على الويب: تحسين التأخير في سيناريوهات الاسترجاع على نطاق واسع
الأسئلة والأجوبة المعرفية: دمج أجزاء من مستندات متعددة في الإجابات المعقدة
المساعدات الذكية: إدارة السياق في الحوار متعدد الأدوار
تحليل المستندات: مهام الملخص والتحليل للمستندات الطويلة

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:

Guu et al. (2020) - التدريب المسبق REALM المعزز بالاسترجاع
Borgeaud et al. (2022) - الإنشاء المعزز بالاسترجاع على نطاق واسع RETRO
Yen et al. (2024) - ترميز السياق المتوازي CEPE
Touvron et al. (2023) - نموذج LLaMA الأساسي

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لاختناقات الكفاءة في أنظمة RAG. يتمتع التصميم بمنطقية سليمة، والتحقق التجريبي شامل، والقيمة العملية بارزة، مما يساهم بشكل مهم في تطور هذا المجال.