2025-11-19T17:22:13.046982

CacheClip: Accelerating RAG with Effective KV Cache Reuse

Yang, Leng, Zeng et al.

Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.

academic

CacheClip: تسريع RAG من خلال إعادة استخدام فعالة لـ KV Cache

المعلومات الأساسية

معرّف الورقة: 2510.10129
العنوان: CacheClip: Accelerating RAG with Effective KV Cache Reuse
المؤلفون: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
التصنيف: cs.LG cs.AI
تاريخ النشر: 14 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.10129v1

الملخص

تواجه أنظمة الجيل المعزز بالاسترجاع (RAG) اختناقات حادة في وقت الرمز الأول (TTFT) بسبب تسلسلات الإدخال الطويلة. تواجه طرق إعادة استخدام KV Cache الحالية مقايضة أساسية: يتطلب التخزين المؤقت للبادئة بادئات متطابقة لكن نادراً ما تحدث في سيناريوهات RAG، بينما يضحي الحساب المسبق المباشر بالجودة بسبب غياب الانتباه بين الكتل والتجميع المتكرر للانتباه. تقترح هذه الورقة إطار عمل CacheClip الذي يحقق TTFT سريع وجودة توليد عالية من خلال اختيار الرموز الموجه بنموذج مساعد وحذف البادئة المشتركة والاستراتيجيات المجمعة للحفاظ على الاتساق المحلي. تُظهر التجارب أن CacheClip يحافظ على 94.8% و85.0% من أداء الانتباه الكامل على NIAH و LongBench على التوالي، مع تحقيق تسريع يصل إلى 1.92× في وقت الملء المسبق.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي تواجهها أنظمة RAG هي اختناق وقت الرمز الأول (TTFT). نظراً لضرورة معالجة عدد كبير من كتل المستندات المسترجعة (عادة 4K-16K رموز)، يُظهر حساب الانتباه في مرحلة الملء المسبق تعقيداً تربيعياً، مما يؤدي إلى تجربة مستخدم سيئة. على سبيل المثال، معالجة 200K رمز إدخال على وحدة معالجة رسومات A100 تتطلب أكثر من 20 ثانية من TTFT.

قيود الطرق الموجودة

التخزين المؤقت للبادئة: يتطلب بادئات متطابقة تماماً، لكن كتل الاسترجاع تتغير بشكل متكرر في سيناريوهات RAG، مما يؤدي إلى معدل إعادة استخدام منخفض
الحساب المسبق المباشر: حساب KV Cache لكل كتلة بشكل مستقل ثم دمجها، مع وجود مشكلتين رئيسيتين:
- غياب الانتباه بين الكتل، مما يؤثر على الاستدلال عبر المستندات
- تأثير التجميع المتكرر للانتباه، عدم التطابق مع توزيع الانتباه أثناء التدريب
الطرق المحسّنة الموجودة:
- APE: يحل فقط مشكلة تجميع الانتباه، لا يمكنه استعادة الانتباه بين الكتل
- CacheBlend: اختيار الرموز بناءً على الطبقات المبكرة، قد يفقد الرموز الرئيسية في الطبقات العميقة

دافع البحث

الحاجة إلى طريقة يمكنها تسريع الاستدلال بشكل كبير مع الحفاظ على جودة التوليد، خاصة في مهام RAG المعقدة التي تتطلب استدلالاً عبر المستندات.

المساهمات الأساسية

ملاحظة رئيسية: اكتشاف أن توزيع الانتباه في الطبقة الأخيرة لنموذج LLM مساعد صغير يشبه إلى حد كبير النموذج الرئيسي الكبير، ويمكن استخدامه لتحديد الرموز المهمة بكفاءة
إطار عمل CacheClip: إطار عمل جديد يدمج ثلاث تقنيات:
- اختيار الرموز الموجه بنموذج مساعد لإعادة حساب KV Cache الانتقائية
- حذف البادئة المشتركة لإزالة تجميع الانتباه المتكرر
- استراتيجيات التجميع للحفاظ على الاتساق المحلي
تحسين الأداء: تحقيق 94.8% و85.0% من أداء الانتباه الكامل على NIAH و LongBench على التوالي، مع تحقيق تسريع 1.92× في الملء المسبق
تصميم نظام عملي: تشغيل النموذج المساعد على وحدة المعالجة المركزية، مما يتجنب تكاليف GPU إضافية

شرح الطريقة

تعريف المهمة

بالنظر إلى استعلام المستخدم ومجموعة كتل المستندات المسترجعة، الهدف هو تقليل كمون الملء المسبق مع الحفاظ على جودة التوليد. الإدخال هو الاستعلام q ومجموعة كتل المستندات {D₁, D₂, ..., Dₙ}، والمخرجات هي استجابة عالية الجودة.

مكونات التقنية الأساسية

1. معالجة تجميع الانتباه

المشكلة: كتل المستندات المعالجة بشكل مستقل لها تأثير تجميع انتباه في البداية
الحل: إضافة بادئة مشتركة لكل كتلة (مثل موجه النظام)، والاحتفاظ فقط ببادئة الكتلة الأولى عند الدمج
التأثير: استعادة توزيع الانتباه العام المتسق مع وقت التدريب

2. إعادة ترتيب معرّفات الموضع

المشكلة: معرّفات الموضع بعد الدمج تظهر أنماطاً متكررة
الحل: إعادة تخصيص معرّفات موضع متزايدة بشكل مستمر
التنفيذ: إعادة ترتيب من [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...] إلى [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]

3. اختيار الرموز الموجه بنموذج مساعد

الرؤية الأساسية: الانتباه في الطبقة الأخيرة لنموذج مساعد صغير (مثل SmolLM2-135M) يشبه إلى حد كبير النموذج الرئيسي الكبير (مثل Qwen2.5-14B)
التحقق الكمي:
- تباعد KL: تباعد KL بين النموذج المساعد والنموذج الرئيسي في الطبقة الأخيرة < تباعد KL بين الطبقة الأولى والأخيرة للنموذج الرئيسي
- مؤشر Jaccard: تداخل أعلى لأهم 20% من الرموز
استراتيجية الاختيار:
1. حساب KV Cache لكل كتلة مسبقاً في النموذج المساعد
2. دمج الكتلة مع الاستعلام للمعالجة الدفعية
3. استخراج مصفوفة الانتباه من الطبقة الأخيرة، حساب أوزان الانتباه لرموز الاستعلام على رموز الكتلة
4. حساب متوسط بُعد الاستعلام للحصول على درجة الأهمية لكل رمز

4. استراتيجية التجميع

الدافع: تجنب تحديثات KV Cache المتفرقة التي تكسر اكتمال السياق
التنفيذ:
- تقسيم التسلسل إلى نوافذ صغيرة (8 رموز افتراضياً)
- إذا تجاوز عدد الرموز المختارة في النافذة الحد الأدنى (5 افتراضياً)، أعد حساب تلك النافذة
- وإلا، تخطَّ النافذة، احتفظ باتساق السياق المحلي

5. تعيين الرموز وتحديث KV Cache

معالجة الاختلافات في المُرمِّز بين النموذج المساعد والنموذج الرئيسي
إعادة حساب KV Cache للأجزاء المختارة، الحفاظ على اتساق معرّفات الموضع
الكتابة الانتقائية على إدخالات KV Cache الأصلية المقابلة

6. ضبط النموذج المساعد

ضبط النموذج المساعد الصغير لتحسين دقة اختيار الرموز
تكلفة منخفضة جداً مقارنة بضبط النموذج الرئيسي
تحسين الأداء الكلية لـ CacheClip

تصميم العمارة النظامية

تشغيل النموذج المساعد على وحدة المعالجة المركزية (الاستفادة من موارد CPU المتاحة في عقدة الرأس)
دعم معجلات Intel AMX لتسريع العمليات الحسابية
تشغيل اختيار الرموز بالتوازي مع تحميل KV Cache للنموذج الرئيسي، إخفاء الكمون
دعم تعديل نسبة إعادة الحساب ديناميكياً في وقت التشغيل

إعداد التجارب

مجموعات البيانات

RULER: نسخة موسعة من البحث عن الإبرة في القش (NIAH) لفئة الاسترجاع
- تتضمن 8 متغيرات تحديّة (باستثناء niah_multikey2/3)
- طول التسلسل المختبر: 8K رموز
- مقياس التقييم: متوسط تغطية المرجع (ARC)
LongBench: معيار فهم السياق الطويل
- استخدام مجموعات البيانات multifieldqa_zh و 2wikimqa و hotpotqa
- مقاييس التقييم: ROUGE-L و F1

إعدادات التجربة

النموذج الرئيسي: Qwen2.5-14B
النموذج المساعد: SmolLM2-135M (مع الضبط)
الأجهزة: وحدة معالجة رسومات NVIDIA L20 + وحدة معالجة مركزية Intel Xeon EMR
تقسيم المستندات: 1000 رمز، تداخل 50 رمز

طرق المقارنة

الانتباه الكامل: حساب الانتباه الكامل (الحد الأعلى)
إعادة الاستخدام المباشر: دمج KV Cache مباشرة
APE: بادئة مشتركة + تعديل درجة حرارة الانتباه
CacheBlend: إعادة حساب انتقائية بناءً على الطبقات المبكرة

نتائج التجارب

مقارنة الأداء الرئيسية

نتائج مجموعة بيانات RULER

CacheClip مقابل CacheBlend (نسبة إعادة الحساب 20%):
- الأداء المتوسطة: 94.50% مقابل 69.94%، تحسن 35.1%
- في مهام multivalue: 96% مقابل 42.97%، تحسن كبير
CacheClip مقابل APE:
- الأداء المتوسطة: 94.50% مقابل 75.5%، تحسن 25.2%
مقارنة مع الانتباه الكامل: الحفاظ على أداء 94.8%

نتائج مجموعة بيانات LongBench

الطريقة	multifieldqa_zh	2wikimqa	hotpotqa
الانتباه الكامل	64.93	54.36	59.71
CacheClip	58.05	42.77	51.32
CacheBlend	57.34	41.08	44.11
APE	59.70	38.34	45.29

تحسينات الكفاءة

تسريع الملء المسبق: 1.92× (نسبة إعادة الحساب 20%)
تحليل الكمون:
- اختيار الرموز: 0.238 ثانية
- إعادة الحساب: 2.643 ثانية
- تكاليف أخرى: 0.070 ثانية
- الوقت الإجمالي: 2.961 ثانية مقابل 5.641 ثانية للخط الأساسي

تحليل الاختبارات الاستئصالية

تأثير نسبة إعادة الحساب

RULER-multivalue: الأداء تزداد بشكل رتيب مع نسبة إعادة الحساب، مما يتحقق من فعالية إعادة الحساب الانتقائية
RULER-single2/3: أداء CacheBlend تنخفض في نسب إعادة الحساب المتوسطة، CacheClip يتجنب هذه المشكلة من خلال استراتيجية التجميع

التحقق من فعالية النموذج المساعد

التحقق من خلال تحليل تشابه توزيع الانتباه (تباعد KL، مؤشر Jaccard) يثبت أن النموذج المساعد الصغير يمكنه تقريب أنماط الانتباه للنموذج الكبير بشكل فعال.

تحليل الحالات

في مهمة RULER-single2، أنتج CacheBlend "566362" بدلاً من الإجابة الصحيحة "5663623"، لأن فقط جزء من الرموز تمت إعادة حسابها. استراتيجية التجميع في CacheClip تضمن معالجة الرقم الكامل معاً، مما يتجنب مثل هذه الأخطاء.

الأعمال ذات الصلة

إدارة KV Cache

طرق الضبط: Block Attention و TurboRAG و KVLink تتكيف مع الانتباه المحلي من خلال الضبط، لكن التكلفة عالية وتتطلب مجموعات بيانات عالية الجودة
معايرة الذاكرة المؤقتة: APE و Zhang وآخرون يحسنون اتساق الانتباه من خلال البادئات المشتركة
إعادة الحساب الانتقائية: CacheBlend يختار الرموز بناءً على إشارات الطبقات المبكرة، Cache-Craft يخزن نسخاً متعددة من الذاكرة المؤقتة

تحديد الرموز المهمة

تقدم طرق H2O و Quest و PyramidKV وغيرها تحديد الرموز المهمة في مرحلة فك التشفير، مما يوفر إلهاماً لاختيار الرموز في مرحلة الملء المسبق.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحل CacheClip بنجاح مشكلة المقايضة بين الكفاءة والجودة في أنظمة RAG
استراتيجية اختيار الرموز الموجهة بنموذج مساعد فعالة وفعّالة
استراتيجية التجميع حاسمة للحفاظ على اكتمال السياق
التصميم النظامي يتجنب تكاليف GPU إضافية، مما يتمتع بقيمة عملية

القيود

التجارب الحالية تركز بشكل أساسي على التحقق من طول التسلسل 8K، وتحتاج الأداء على تسلسلات أطول إلى مزيد من التحقق
استراتيجية المطابقة المثلى بين النموذج المساعد والنموذج الرئيسي لا تزال تحتاج إلى استكشاف
القدرة على التعميم عبر المجالات والأنواع المختلفة من المهام تحتاج إلى التحقق

الاتجاهات المستقبلية

التوسع إلى تسلسلات أطول وعمارات نماذج أكثر
تحسين استراتيجيات اختيار النموذج المساعد والضبط
استكشاف خوارزميات تعديل نسبة إعادة الحساب الديناميكية
دراسة تحسينات النظام في بيئات GPU المتعددة

التقييم المتعمق

المزايا

الابتكار التقني قوي: فكرة اختيار الرموز الموجهة بنموذج مساعد جديدة، مع أساس نظري متين
تصميم التجارب شامل: يغطي مجموعات بيانات متعددة، اختبارات استئصالية مفصلة وتحليل حالات
القيمة العملية عالية: توفير حل تصميم نظام كامل، مع الأخذ في الاعتبار قيود النشر الفعلي
تحسن الأداء كبير: تحقيق تسريع يقارب 2 مرة مع الحفاظ على جودة عالية

أوجه القصور

نطاق التقييم محدود: الاختبار بشكل أساسي على تسلسلات 8K، يفتقد التحقق من التسلسلات فائقة الطول
تكلفة النموذج المساعد: على الرغم من استخدام CPU، لا يزال يضيف تعقيداً للنظام
التحقق من القدرة على التعميم غير كافٍ: التحقق بشكل أساسي على مجموعة نموذج محددة، عدم وضوح القدرة على التعميم عبر العمارات

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد لتحسين أنظمة RAG
القيمة العملية: يمكن تطبيقها مباشرة في بيئات الإنتاج، حل المشاكل الفعلية
قابلية التكرار: وصف الطريقة واضح، تفاصيل التنفيذ كافية

السيناريوهات المناسبة

تطبيقات RAG التفاعلية التي تتطلب استجابة سريعة
أنظمة خدمات RAG عالية التزامن
بيئات النشر محدودة الموارد لكن تتطلب الحفاظ على الجودة
سيناريوهات الاستعلام المعقدة التي تتطلب استدلالاً عبر المستندات

المراجع

تستشهد الورقة بـ 44 عملاً ذا صلة، تغطي تحسينات استدلال LLM وآليات الانتباه وأنظمة RAG وغيرها من المجالات البحثية المهمة، مما يوفر أساساً نظرياً متيناً لهذا العمل.