2025-11-19T17:22:13.046982

CacheClip: Accelerating RAG with Effective KV Cache Reuse

Yang, Leng, Zeng et al.

Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.

academic

CacheClip: RAG को प्रभावी KV कैश पुनः उपयोग के साथत्वरित करना

बुनियादी जानकारी

पेपर ID: 2510.10129
शीर्षक: CacheClip: RAG को प्रभावी KV कैश पुनः उपयोग के साथ त्वरित करना
लेखक: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय: 14 अक्टूबर, 2025
पेपर लिंक: https://arxiv.org/abs/2510.10129v1

सारांश

पुनः प्राप्ति-संवर्धित पीढ़ी (RAG) प्रणालियाँ लंबे इनपुट अनुक्रमों के कारण गंभीर पहले टोकन समय (TTFT) की समस्या का सामना करती हैं। मौजूदा KV कैश पुनः उपयोग विधियों को मौलिक व्यापार-बंद का सामना करना पड़ता है: उपसर्ग कैशिंग को समान उपसर्ग की आवश्यकता होती है लेकिन RAG परिदृश्यों में यह दुर्लभ है, जबकि प्रत्यक्ष पूर्व-गणना ब्लॉक-अंतर-ध्यान की कमी और दोहराए गए ध्यान एकत्रीकरण के कारण गुणवत्ता का त्याग करती है। यह पेपर CacheClip ढांचा प्रस्तावित करता है, जो सहायक मॉडल-निर्देशित टोकन चयन, साझा उपसर्ग अनावश्यक ध्यान एकत्रीकरण को समाप्त करना, और समूहीकरण रणनीति स्थानीय सामंजस्य बनाए रखने के माध्यम से तेज़ TTFT और उच्च पीढ़ी गुणवत्ता प्राप्त करता है। प्रयोग दिखाते हैं कि CacheClip क्रमशः NIAH और LongBench पर 94.8% और 85.0% पूर्ण ध्यान प्रदर्शन बनाए रखता है, पूर्व-भरण समय में 1.92× तक का त्वरण प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

RAG प्रणालियों का मुख्य समस्या पहले टोकन समय (TTFT) की बाधा है। बड़ी संख्या में पुनः प्राप्त दस्तावेज़ ब्लॉकों (आमतौर पर 4K-16K टोकन) को संसाधित करने की आवश्यकता के कारण, पूर्व-भरण चरण में ध्यान गणना द्विघात जटिलता प्रदर्शित करती है, जिससे उपयोगकर्ता अनुभव खराब होता है। उदाहरण के लिए, A100 GPU पर 200K इनपुट टोकन को संसाधित करने के लिए 20 सेकंड से अधिक TTFT की आवश्यकता होती है।

मौजूदा विधियों की सीमाएँ

उपसर्ग कैशिंग: पूरी तरह से समान उपसर्ग की आवश्यकता होती है, लेकिन RAG परिदृश्यों में पुनः प्राप्त ब्लॉक अक्सर बदलते हैं, व्यावहारिक पुनः उपयोग दर कम है
प्रत्यक्ष पूर्व-गणना: प्रत्येक ब्लॉक के KV कैश को स्वतंत्र रूप से गणना करने के बाद जोड़ना, दो महत्वपूर्ण समस्याएँ हैं:
- ब्लॉक-अंतर-ध्यान की कमी, जो दस्तावेज़-अंतर तर्क को प्रभावित करती है
- दोहराए गए ध्यान एकत्रीकरण प्रभाव, जो प्रशिक्षण-समय ध्यान वितरण से मेल नहीं खाता
मौजूदा सुधार विधियाँ:
- APE: केवल ध्यान एकत्रीकरण समस्या को हल करता है, ब्लॉक-अंतर-ध्यान को पुनः प्राप्त नहीं कर सकता
- CacheBlend: प्रारंभिक परतों के आधार पर टोकन चयन, गहरी परतों के महत्वपूर्ण टोकन को छोड़ सकता है

अनुसंधान प्रेरणा

एक ऐसी विधि की आवश्यकता है जो अनुमान को महत्वपूर्ण रूप से त्वरित कर सके और पीढ़ी की गुणवत्ता बनाए रख सके, विशेष रूप से जटिल RAG कार्यों में जिन्हें दस्तावेज़-अंतर तर्क की आवश्यकता होती है।

मुख्य योगदान

मुख्य अवलोकन: छोटे सहायक LLM की अंतिम परत का ध्यान वितरण बड़े मुख्य मॉडल के साथ अत्यधिक समान है, जिसका उपयोग महत्वपूर्ण टोकन को कुशलतापूर्वक पहचानने के लिए किया जा सकता है
CacheClip ढांचा: तीन तकनीकों को एकीकृत करने वाला नया ढांचा:
- चयनात्मक KV कैश पुनः गणना के लिए सहायक मॉडल-निर्देशित टोकन चयन
- अनावश्यक ध्यान एकत्रीकरण को समाप्त करने के लिए साझा उपसर्ग
- स्थानीय सामंजस्य बनाए रखने के लिए समूहीकरण रणनीति
प्रदर्शन वृद्धि: NIAH और LongBench पर क्रमशः 94.8% और 85.0% पूर्ण ध्यान प्रदर्शन प्राप्त करना, साथ ही 1.92× पूर्व-भरण त्वरण
व्यावहारिक प्रणाली डिज़ाइन: सहायक मॉडल CPU पर चलता है, अतिरिक्त GPU ओवरहेड से बचता है

विधि विवरण

कार्य परिभाषा

उपयोगकर्ता क्वेरी और पुनः प्राप्त दस्तावेज़ ब्लॉकों के समूह को देखते हुए, लक्ष्य पीढ़ी की गुणवत्ता बनाए रखते हुए पूर्व-भरण विलंबता को कम करना है। इनपुट क्वेरी q और दस्तावेज़ ब्लॉक समूह {D₁, D₂, ..., Dₙ} है, आउटपुट उच्च-गुणवत्ता प्रतिक्रिया है।

मुख्य तकनीकी घटक

1. ध्यान एकत्रीकरण प्रबंधन

समस्या: स्वतंत्र रूप से संसाधित दस्तावेज़ ब्लॉकों की शुरुआत में ध्यान एकत्रीकरण प्रभाव होता है
समाधान: प्रत्येक ब्लॉक के लिए साझा उपसर्ग (जैसे सिस्टम संकेत) जोड़ना, जोड़ते समय केवल पहले ब्लॉक का उपसर्ग रखना
प्रभाव: प्रशिक्षण-समय के साथ सामंजस्यपूर्ण वैश्विक ध्यान वितरण को पुनः प्राप्त करना

2. स्थिति ID पुनः क्रमांकन

समस्या: जोड़ने के बाद स्थिति ID में दोहराए गए पैटर्न दिखाई देते हैं
समाधान: लगातार बढ़ती स्थिति ID को पुनः आवंटित करना
कार्यान्वयन: [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...] से [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...] में पुनः क्रमांकन

3. सहायक मॉडल-निर्देशित टोकन चयन

मुख्य अंतर्दृष्टि: छोटा सहायक मॉडल (जैसे SmolLM2-135M) की अंतिम परत का ध्यान बड़े मुख्य मॉडल (जैसे Qwen2.5-14B) के साथ अत्यधिक समान है
मात्रात्मक सत्यापन:
- KL विचलन: सहायक मॉडल और मुख्य मॉडल की अंतिम परत का KL विचलन < मुख्य मॉडल की पहली परत और अंतिम परत का KL विचलन
- Jaccard सूचकांक: शीर्ष-20% महत्वपूर्ण टोकन का उच्च ओवरलैप
चयन रणनीति:
1. सहायक मॉडल में प्रत्येक ब्लॉक के KV कैश की पूर्व-गणना करना
2. ब्लॉक को क्वेरी के साथ जोड़कर बैच प्रसंस्करण करना
3. अंतिम परत ध्यान मैट्रिक्स निकालना, क्वेरी टोकन के लिए ब्लॉक टोकन का ध्यान भार गणना करना
4. क्वेरी आयाम पर औसत करके प्रत्येक टोकन का महत्व स्कोर प्राप्त करना

4. समूहीकरण रणनीति

प्रेरणा: विरल KV कैश अपडेट को संदर्भ पूर्णता को नष्ट करने से बचाना
कार्यान्वयन:
- अनुक्रम को छोटी खिड़कियों में विभाजित करना (डिफ़ॉल्ट 8 टोकन)
- यदि खिड़की में चयनित टोकन संख्या सीमा से अधिक है (डिफ़ॉल्ट 5), तो उस खिड़की को पुनः गणना करना
- अन्यथा खिड़की को छोड़ना, स्थानीय संदर्भ सामंजस्य बनाए रखना

5. टोकन मानचित्रण और KV कैश अपडेट

सहायक मॉडल और मुख्य मॉडल के बीच tokenizer अंतर को संभालना
चयनित खंडों के KV कैश को पुनः गणना करना, स्थिति ID सामंजस्य बनाए रखना
मूल KV कैश संबंधित प्रविष्टियों को चयनात्मक रूप से अधिलेखित करना

6. सहायक मॉडल सूक्ष्म-ट्यूनिंग

टोकन चयन सटीकता में सुधार के लिए छोटे सहायक मॉडल को सूक्ष्म-ट्यून करना
मुख्य मॉडल सूक्ष्म-ट्यूनिंग की तुलना में अत्यंत कम लागत
CacheClip समग्र प्रदर्शन में सुधार

प्रणाली आर्किटेक्चर डिज़ाइन

सहायक मॉडल CPU पर चलता है (निष्क्रिय हेड नोड CPU संसाधनों का उपयोग करके)
Intel AMX त्वरक द्वारा मैट्रिक्स संचालन को त्वरित करने का समर्थन करता है
टोकन चयन और मुख्य मॉडल KV कैश लोडिंग समानांतर में, विलंबता छिपाते हुए
रनटाइम पर गतिशील रूप से पुनः गणना अनुपात समायोजित करने का समर्थन करता है

प्रयोग सेटअप

डेटासेट

RULER: पुनः प्राप्ति श्रेणी का सुई-घास के ढेर में सुई खोजना (NIAH) विस्तारित संस्करण
- 8 चुनौतीपूर्ण वेरिएंट शामिल हैं (niah_multikey2/3 को छोड़कर)
- परीक्षण अनुक्रम लंबाई: 8K टोकन
- मूल्यांकन मेट्रिक: औसत संदर्भ कवरेज (ARC)
LongBench: लंबे संदर्भ समझ बेंचमार्क
- multifieldqa_zh, 2wikimqa, hotpotqa डेटासेट का उपयोग करना
- मूल्यांकन मेट्रिक: ROUGE-L और F1 स्कोर

प्रयोग कॉन्फ़िगरेशन

मुख्य मॉडल: Qwen2.5-14B
सहायक मॉडल: SmolLM2-135M (सूक्ष्म-ट्यून किया गया)
हार्डवेयर: NVIDIA L20 GPU + Intel Xeon EMR CPU
दस्तावेज़ खंडन: 1000 टोकन, 50 टोकन ओवरलैप

तुलना विधियाँ

पूर्ण ध्यान: संपूर्ण ध्यान गणना (ऊपरी सीमा)
प्रत्यक्ष पुनः उपयोग: KV कैश को सीधे जोड़ना
APE: साझा उपसर्ग + ध्यान तापमान समायोजन
CacheBlend: प्रारंभिक परत-आधारित चयनात्मक पुनः गणना

प्रयोग परिणाम

मुख्य प्रदर्शन तुलना

RULER डेटासेट परिणाम

CacheClip बनाम CacheBlend (पुनः गणना अनुपात 20%):
- औसत प्रदर्शन: 94.50% बनाम 69.94%, 35.1% सुधार
- multivalue कार्य पर: 96% बनाम 42.97%, महत्वपूर्ण सुधार
CacheClip बनाम APE:
- औसत प्रदर्शन: 94.50% बनाम 75.5%, 25.2% सुधार
पूर्ण ध्यान के साथ तुलना: 94.8% प्रदर्शन बनाए रखता है

LongBench डेटासेट परिणाम

विधि	multifieldqa_zh	2wikimqa	hotpotqa
पूर्ण ध्यान	64.93	54.36	59.71
CacheClip	58.05	42.77	51.32
CacheBlend	57.34	41.08	44.11
APE	59.70	38.34	45.29

दक्षता वृद्धि

पूर्व-भरण त्वरण: 1.92× (पुनः गणना अनुपात 20%)
विलंबता विघटन:
- टोकन चयन: 0.238s
- पुनः गणना: 2.643s
- अन्य ओवरहेड: 0.070s
- कुल समय: 2.961s बनाम आधारभूत 5.641s

विघटन प्रयोग विश्लेषण

पुनः गणना अनुपात प्रभाव

RULER-multivalue: प्रदर्शन पुनः गणना अनुपात के साथ एकरूप रूप से बढ़ता है, चयनात्मक पुनः गणना की प्रभावशीलता को सत्यापित करता है
RULER-single2/3: CacheBlend मध्यम पुनः गणना अनुपात पर प्रदर्शन में गिरावट दिखाता है, CacheClip समूहीकरण रणनीति के माध्यम से इस समस्या से बचता है

सहायक मॉडल प्रभावशीलता सत्यापन

ध्यान वितरण समानता विश्लेषण (KL विचलन, Jaccard सूचकांक) के माध्यम से साबित करना कि छोटा सहायक मॉडल बड़े मॉडल के ध्यान पैटर्न को प्रभावी रूप से अनुमानित कर सकता है।

केस विश्लेषण

RULER-single2 कार्य में, CacheBlend "566362" आउटपुट करता है सही उत्तर "5663623" के बजाय, क्योंकि केवल कुछ टोकन पुनः गणना किए गए हैं। CacheClip की समूहीकरण रणनीति सुनिश्चित करती है कि संपूर्ण संख्या एक साथ संसाधित हो, ऐसी त्रुटियों से बचना।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

CacheClip RAG प्रणालियों में दक्षता और गुणवत्ता के व्यापार-बंद को सफलतापूर्वक हल करता है
सहायक मॉडल-निर्देशित टोकन चयन रणनीति प्रभावी और कुशल है
समूहीकरण रणनीति संदर्भ पूर्णता बनाए रखने के लिए महत्वपूर्ण है
प्रणाली डिज़ाइन अतिरिक्त GPU ओवरहेड से बचता है, व्यावहारिक मूल्य रखता है

सीमाएँ

वर्तमान प्रयोग मुख्य रूप से 8K अनुक्रम लंबाई पर सत्यापित हैं, लंबे अनुक्रमों का प्रदर्शन आगे सत्यापन की आवश्यकता है
सहायक मॉडल और मुख्य मॉडल के बीच इष्टतम मिलान रणनीति अभी भी अन्वेषण की आवश्यकता है
विभिन्न डोमेन और कार्य प्रकारों में सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है

भविष्य की दिशाएँ

लंबे अनुक्रमों और अधिक मॉडल आर्किटेक्चर तक विस्तार करना
सहायक मॉडल चयन और सूक्ष्म-ट्यूनिंग रणनीति को अनुकूलित करना
गतिशील पुनः गणना अनुपात समायोजन एल्गोरिदम की खोज करना
बहु-GPU वातावरण में प्रणाली अनुकूलन का अनुसंधान करना

गहन मूल्यांकन

लाभ

तकनीकी नवाचार मजबूत: सहायक मॉडल-निर्देशित टोकन चयन का विचार नया है, ठोस सैद्धांतिक आधार है
प्रयोग डिज़ाइन संपूर्ण: कई डेटासेट, विस्तृत विघटन प्रयोग और केस विश्लेषण शामिल हैं
व्यावहारिक मूल्य उच्च: संपूर्ण प्रणाली डिज़ाइन समाधान प्रदान करता है, व्यावहारिक तैनाती बाधाओं पर विचार करता है
प्रदर्शन वृद्धि महत्वपूर्ण: उच्च गुणवत्ता बनाए रखते हुए लगभग 2 गुना त्वरण प्राप्त करता है

कमियाँ

मूल्यांकन सीमा सीमित: मुख्य रूप से 8K अनुक्रमों पर परीक्षण किया गया, अति-लंबे अनुक्रम सत्यापन की कमी
सहायक मॉडल ओवरहेड: हालांकि CPU का उपयोग करता है, फिर भी प्रणाली जटिलता बढ़ाता है
सामान्यीकरण सत्यापन अपर्याप्त: मुख्य रूप से विशिष्ट मॉडल संयोजन पर सत्यापित, क्रॉस-आर्किटेक्चर सामान्यीकरण स्पष्ट नहीं है

प्रभाव

शैक्षणिक योगदान: RAG प्रणाली अनुकूलन के लिए नया तकनीकी पथ प्रदान करता है
व्यावहारिक मूल्य: सीधे उत्पादन वातावरण में लागू किया जा सकता है, व्यावहारिक समस्याओं को हल करता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, कार्यान्वयन विवरण पर्याप्त है

लागू परिदृश्य

तेज़ प्रतिक्रिया की आवश्यकता वाली इंटरैक्टिव RAG अनुप्रयोग
उच्च समवर्ती RAG सेवा प्रणाली
संसाधन-सीमित लेकिन गुणवत्ता बनाए रखने की आवश्यकता वाली तैनाती वातावरण
दस्तावेज़-अंतर तर्क की आवश्यकता वाले जटिल क्वेरी परिदृश्य

संदर्भ

पेपर ने 44 संबंधित कार्यों का हवाला दिया है, जो LLM अनुमान अनुकूलन, ध्यान तंत्र, RAG प्रणाली आदि कई क्षेत्रों के महत्वपूर्ण अनुसंधान को कवर करता है, इस कार्य के लिए ठोस सैद्धांतिक आधार प्रदान करता है।