Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.
- معرّف الورقة: 2510.10129
- العنوان: CacheClip: Accelerating RAG with Effective KV Cache Reuse
- المؤلفون: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
- التصنيف: cs.LG cs.AI
- تاريخ النشر: 14 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.10129v1
تواجه أنظمة الجيل المعزز بالاسترجاع (RAG) اختناقات حادة في وقت الرمز الأول (TTFT) بسبب تسلسلات الإدخال الطويلة. تواجه طرق إعادة استخدام KV Cache الحالية مقايضة أساسية: يتطلب التخزين المؤقت للبادئة بادئات متطابقة لكن نادراً ما تحدث في سيناريوهات RAG، بينما يضحي الحساب المسبق المباشر بالجودة بسبب غياب الانتباه بين الكتل والتجميع المتكرر للانتباه. تقترح هذه الورقة إطار عمل CacheClip الذي يحقق TTFT سريع وجودة توليد عالية من خلال اختيار الرموز الموجه بنموذج مساعد وحذف البادئة المشتركة والاستراتيجيات المجمعة للحفاظ على الاتساق المحلي. تُظهر التجارب أن CacheClip يحافظ على 94.8% و85.0% من أداء الانتباه الكامل على NIAH و LongBench على التوالي، مع تحقيق تسريع يصل إلى 1.92× في وقت الملء المسبق.
المشكلة الأساسية التي تواجهها أنظمة RAG هي اختناق وقت الرمز الأول (TTFT). نظراً لضرورة معالجة عدد كبير من كتل المستندات المسترجعة (عادة 4K-16K رموز)، يُظهر حساب الانتباه في مرحلة الملء المسبق تعقيداً تربيعياً، مما يؤدي إلى تجربة مستخدم سيئة. على سبيل المثال، معالجة 200K رمز إدخال على وحدة معالجة رسومات A100 تتطلب أكثر من 20 ثانية من TTFT.
- التخزين المؤقت للبادئة: يتطلب بادئات متطابقة تماماً، لكن كتل الاسترجاع تتغير بشكل متكرر في سيناريوهات RAG، مما يؤدي إلى معدل إعادة استخدام منخفض
- الحساب المسبق المباشر: حساب KV Cache لكل كتلة بشكل مستقل ثم دمجها، مع وجود مشكلتين رئيسيتين:
- غياب الانتباه بين الكتل، مما يؤثر على الاستدلال عبر المستندات
- تأثير التجميع المتكرر للانتباه، عدم التطابق مع توزيع الانتباه أثناء التدريب
- الطرق المحسّنة الموجودة:
- APE: يحل فقط مشكلة تجميع الانتباه، لا يمكنه استعادة الانتباه بين الكتل
- CacheBlend: اختيار الرموز بناءً على الطبقات المبكرة، قد يفقد الرموز الرئيسية في الطبقات العميقة
الحاجة إلى طريقة يمكنها تسريع الاستدلال بشكل كبير مع الحفاظ على جودة التوليد، خاصة في مهام RAG المعقدة التي تتطلب استدلالاً عبر المستندات.
- ملاحظة رئيسية: اكتشاف أن توزيع الانتباه في الطبقة الأخيرة لنموذج LLM مساعد صغير يشبه إلى حد كبير النموذج الرئيسي الكبير، ويمكن استخدامه لتحديد الرموز المهمة بكفاءة
- إطار عمل CacheClip: إطار عمل جديد يدمج ثلاث تقنيات:
- اختيار الرموز الموجه بنموذج مساعد لإعادة حساب KV Cache الانتقائية
- حذف البادئة المشتركة لإزالة تجميع الانتباه المتكرر
- استراتيجيات التجميع للحفاظ على الاتساق المحلي
- تحسين الأداء: تحقيق 94.8% و85.0% من أداء الانتباه الكامل على NIAH و LongBench على التوالي، مع تحقيق تسريع 1.92× في الملء المسبق
- تصميم نظام عملي: تشغيل النموذج المساعد على وحدة المعالجة المركزية، مما يتجنب تكاليف GPU إضافية
بالنظر إلى استعلام المستخدم ومجموعة كتل المستندات المسترجعة، الهدف هو تقليل كمون الملء المسبق مع الحفاظ على جودة التوليد. الإدخال هو الاستعلام q ومجموعة كتل المستندات {D₁, D₂, ..., Dₙ}، والمخرجات هي استجابة عالية الجودة.
- المشكلة: كتل المستندات المعالجة بشكل مستقل لها تأثير تجميع انتباه في البداية
- الحل: إضافة بادئة مشتركة لكل كتلة (مثل موجه النظام)، والاحتفاظ فقط ببادئة الكتلة الأولى عند الدمج
- التأثير: استعادة توزيع الانتباه العام المتسق مع وقت التدريب
- المشكلة: معرّفات الموضع بعد الدمج تظهر أنماطاً متكررة
- الحل: إعادة تخصيص معرّفات موضع متزايدة بشكل مستمر
- التنفيذ: إعادة ترتيب من
[0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...]
إلى [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]
- الرؤية الأساسية: الانتباه في الطبقة الأخيرة لنموذج مساعد صغير (مثل SmolLM2-135M) يشبه إلى حد كبير النموذج الرئيسي الكبير (مثل Qwen2.5-14B)
- التحقق الكمي:
- تباعد KL: تباعد KL بين النموذج المساعد والنموذج الرئيسي في الطبقة الأخيرة < تباعد KL بين الطبقة الأولى والأخيرة للنموذج الرئيسي
- مؤشر Jaccard: تداخل أعلى لأهم 20% من الرموز
- استراتيجية الاختيار:
- حساب KV Cache لكل كتلة مسبقاً في النموذج المساعد
- دمج الكتلة مع الاستعلام للمعالجة الدفعية
- استخراج مصفوفة الانتباه من الطبقة الأخيرة، حساب أوزان الانتباه لرموز الاستعلام على رموز الكتلة
- حساب متوسط بُعد الاستعلام للحصول على درجة الأهمية لكل رمز
- الدافع: تجنب تحديثات KV Cache المتفرقة التي تكسر اكتمال السياق
- التنفيذ:
- تقسيم التسلسل إلى نوافذ صغيرة (8 رموز افتراضياً)
- إذا تجاوز عدد الرموز المختارة في النافذة الحد الأدنى (5 افتراضياً)، أعد حساب تلك النافذة
- وإلا، تخطَّ النافذة، احتفظ باتساق السياق المحلي
- معالجة الاختلافات في المُرمِّز بين النموذج المساعد والنموذج الرئيسي
- إعادة حساب KV Cache للأجزاء المختارة، الحفاظ على اتساق معرّفات الموضع
- الكتابة الانتقائية على إدخالات KV Cache الأصلية المقابلة
- ضبط النموذج المساعد الصغير لتحسين دقة اختيار الرموز
- تكلفة منخفضة جداً مقارنة بضبط النموذج الرئيسي
- تحسين الأداء الكلية لـ CacheClip
- تشغيل النموذج المساعد على وحدة المعالجة المركزية (الاستفادة من موارد CPU المتاحة في عقدة الرأس)
- دعم معجلات Intel AMX لتسريع العمليات الحسابية
- تشغيل اختيار الرموز بالتوازي مع تحميل KV Cache للنموذج الرئيسي، إخفاء الكمون
- دعم تعديل نسبة إعادة الحساب ديناميكياً في وقت التشغيل
- RULER: نسخة موسعة من البحث عن الإبرة في القش (NIAH) لفئة الاسترجاع
- تتضمن 8 متغيرات تحديّة (باستثناء niah_multikey2/3)
- طول التسلسل المختبر: 8K رموز
- مقياس التقييم: متوسط تغطية المرجع (ARC)
- LongBench: معيار فهم السياق الطويل
- استخدام مجموعات البيانات multifieldqa_zh و 2wikimqa و hotpotqa
- مقاييس التقييم: ROUGE-L و F1
- النموذج الرئيسي: Qwen2.5-14B
- النموذج المساعد: SmolLM2-135M (مع الضبط)
- الأجهزة: وحدة معالجة رسومات NVIDIA L20 + وحدة معالجة مركزية Intel Xeon EMR
- تقسيم المستندات: 1000 رمز، تداخل 50 رمز
- الانتباه الكامل: حساب الانتباه الكامل (الحد الأعلى)
- إعادة الاستخدام المباشر: دمج KV Cache مباشرة
- APE: بادئة مشتركة + تعديل درجة حرارة الانتباه
- CacheBlend: إعادة حساب انتقائية بناءً على الطبقات المبكرة
- CacheClip مقابل CacheBlend (نسبة إعادة الحساب 20%):
- الأداء المتوسطة: 94.50% مقابل 69.94%، تحسن 35.1%
- في مهام multivalue: 96% مقابل 42.97%، تحسن كبير
- CacheClip مقابل APE:
- الأداء المتوسطة: 94.50% مقابل 75.5%، تحسن 25.2%
- مقارنة مع الانتباه الكامل: الحفاظ على أداء 94.8%
| الطريقة | multifieldqa_zh | 2wikimqa | hotpotqa |
|---|
| الانتباه الكامل | 64.93 | 54.36 | 59.71 |
| CacheClip | 58.05 | 42.77 | 51.32 |
| CacheBlend | 57.34 | 41.08 | 44.11 |
| APE | 59.70 | 38.34 | 45.29 |
- تسريع الملء المسبق: 1.92× (نسبة إعادة الحساب 20%)
- تحليل الكمون:
- اختيار الرموز: 0.238 ثانية
- إعادة الحساب: 2.643 ثانية
- تكاليف أخرى: 0.070 ثانية
- الوقت الإجمالي: 2.961 ثانية مقابل 5.641 ثانية للخط الأساسي
- RULER-multivalue: الأداء تزداد بشكل رتيب مع نسبة إعادة الحساب، مما يتحقق من فعالية إعادة الحساب الانتقائية
- RULER-single2/3: أداء CacheBlend تنخفض في نسب إعادة الحساب المتوسطة، CacheClip يتجنب هذه المشكلة من خلال استراتيجية التجميع
التحقق من خلال تحليل تشابه توزيع الانتباه (تباعد KL، مؤشر Jaccard) يثبت أن النموذج المساعد الصغير يمكنه تقريب أنماط الانتباه للنموذج الكبير بشكل فعال.
في مهمة RULER-single2، أنتج CacheBlend "566362" بدلاً من الإجابة الصحيحة "5663623"، لأن فقط جزء من الرموز تمت إعادة حسابها. استراتيجية التجميع في CacheClip تضمن معالجة الرقم الكامل معاً، مما يتجنب مثل هذه الأخطاء.
- طرق الضبط: Block Attention و TurboRAG و KVLink تتكيف مع الانتباه المحلي من خلال الضبط، لكن التكلفة عالية وتتطلب مجموعات بيانات عالية الجودة
- معايرة الذاكرة المؤقتة: APE و Zhang وآخرون يحسنون اتساق الانتباه من خلال البادئات المشتركة
- إعادة الحساب الانتقائية: CacheBlend يختار الرموز بناءً على إشارات الطبقات المبكرة، Cache-Craft يخزن نسخاً متعددة من الذاكرة المؤقتة
تقدم طرق H2O و Quest و PyramidKV وغيرها تحديد الرموز المهمة في مرحلة فك التشفير، مما يوفر إلهاماً لاختيار الرموز في مرحلة الملء المسبق.
- يحل CacheClip بنجاح مشكلة المقايضة بين الكفاءة والجودة في أنظمة RAG
- استراتيجية اختيار الرموز الموجهة بنموذج مساعد فعالة وفعّالة
- استراتيجية التجميع حاسمة للحفاظ على اكتمال السياق
- التصميم النظامي يتجنب تكاليف GPU إضافية، مما يتمتع بقيمة عملية
- التجارب الحالية تركز بشكل أساسي على التحقق من طول التسلسل 8K، وتحتاج الأداء على تسلسلات أطول إلى مزيد من التحقق
- استراتيجية المطابقة المثلى بين النموذج المساعد والنموذج الرئيسي لا تزال تحتاج إلى استكشاف
- القدرة على التعميم عبر المجالات والأنواع المختلفة من المهام تحتاج إلى التحقق
- التوسع إلى تسلسلات أطول وعمارات نماذج أكثر
- تحسين استراتيجيات اختيار النموذج المساعد والضبط
- استكشاف خوارزميات تعديل نسبة إعادة الحساب الديناميكية
- دراسة تحسينات النظام في بيئات GPU المتعددة
- الابتكار التقني قوي: فكرة اختيار الرموز الموجهة بنموذج مساعد جديدة، مع أساس نظري متين
- تصميم التجارب شامل: يغطي مجموعات بيانات متعددة، اختبارات استئصالية مفصلة وتحليل حالات
- القيمة العملية عالية: توفير حل تصميم نظام كامل، مع الأخذ في الاعتبار قيود النشر الفعلي
- تحسن الأداء كبير: تحقيق تسريع يقارب 2 مرة مع الحفاظ على جودة عالية
- نطاق التقييم محدود: الاختبار بشكل أساسي على تسلسلات 8K، يفتقد التحقق من التسلسلات فائقة الطول
- تكلفة النموذج المساعد: على الرغم من استخدام CPU، لا يزال يضيف تعقيداً للنظام
- التحقق من القدرة على التعميم غير كافٍ: التحقق بشكل أساسي على مجموعة نموذج محددة، عدم وضوح القدرة على التعميم عبر العمارات
- المساهمة الأكاديمية: توفير مسار تقني جديد لتحسين أنظمة RAG
- القيمة العملية: يمكن تطبيقها مباشرة في بيئات الإنتاج، حل المشاكل الفعلية
- قابلية التكرار: وصف الطريقة واضح، تفاصيل التنفيذ كافية
- تطبيقات RAG التفاعلية التي تتطلب استجابة سريعة
- أنظمة خدمات RAG عالية التزامن
- بيئات النشر محدودة الموارد لكن تتطلب الحفاظ على الجودة
- سيناريوهات الاستعلام المعقدة التي تتطلب استدلالاً عبر المستندات
تستشهد الورقة بـ 44 عملاً ذا صلة، تغطي تحسينات استدلال LLM وآليات الانتباه وأنظمة RAG وغيرها من المجالات البحثية المهمة، مما يوفر أساساً نظرياً متيناً لهذا العمل.