2025-11-19T17:22:13.046982

CacheClip: Accelerating RAG with Effective KV Cache Reuse

Yang, Leng, Zeng et al.

Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.

academic

CacheClip: কার্যকর KV ক্যাশ পুনর্ব্যবহারের মাধ্যমে RAG ত্বরান্বিতকরণ

মৌলিক তথ্য

পেপার আইডি: 2510.10129
শিরোনাম: CacheClip: Accelerating RAG with Effective KV Cache Reuse
লেখক: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
শ্রেণীবিভাগ: cs.LG cs.AI
প্রকাশনার সময়: অক্টোবর ১৪, ২০২৫
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10129v1

সারসংক্ষেপ

পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) সিস্টেমগুলি দীর্ঘ ইনপুট সিকোয়েন্সের কারণে গুরুতর প্রথম টোকেন সময় (TTFT) বাধার সম্মুখীন হয়। বিদ্যমান KV ক্যাশ পুনর্ব্যবহার পদ্ধতিগুলি মৌলিক ট্রেড-অফের সম্মুখীন: উপসর্গ ক্যাশিং একই উপসর্গের প্রয়োজন কিন্তু RAG পরিস্থিতিতে বিরল, যখন সরাসরি প্রাক-গণনা ব্লক-মধ্যস্থ মনোযোগের অভাব এবং পুনরাবৃত্ত মনোযোগ সমন্বয়ের কারণে গুণমান ত্যাগ করে। এই পেপারটি CacheClip ফ্রেমওয়ার্ক প্রস্তাব করে, যা সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচন, ভাগ করা উপসর্গ অপসারণ অপ্রয়োজনীয় মনোযোগ সমন্বয়, এবং স্থানীয় সামঞ্জস্য বজায় রাখার জন্য গ্রুপিং কৌশলের মাধ্যমে দ্রুত TTFT এবং উচ্চ প্রজন্মের গুণমান অর্জন করে। পরীক্ষাগুলি দেখায় যে CacheClip যথাক্রমে NIAH এবং LongBench-এ সম্পূর্ণ মনোযোগ কর্মক্ষমতার ৯৪.৮% এবং ৮৫.০% বজায় রাখে, প্রাক-পূরণ সময়ে ১.৯২× পর্যন্ত ত্বরণ অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

RAG সিস্টেমগুলির মুখোমুখি মূল সমস্যা হল প্রথম টোকেন সময় (TTFT) বাধা। বৃহৎ সংখ্যক পুনরুদ্ধৃত ডকুমেন্ট ব্লক (সাধারণত ৪K-১৬K টোকেন) প্রক্রিয়া করার প্রয়োজনীয়তার কারণে, প্রাক-পূরণ পর্যায়ে মনোযোগ গণনা দ্বিঘাত জটিলতা প্রদর্শন করে, যা ব্যবহারকারীর অভিজ্ঞতা হ্রাস করে। উদাহরণস্বরূপ, A100 GPU-তে ২০০K ইনপুট টোকেন প্রক্রিয়া করার জন্য ২০ সেকেন্ডের বেশি TTFT প্রয়োজন।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

১. উপসর্গ ক্যাশিং: সম্পূর্ণ অভিন্ন উপসর্গের প্রয়োজন, কিন্তু RAG পরিস্থিতিতে পুনরুদ্ধৃত ব্লকগুলি প্রায়শই পরিবর্তিত হয়, প্রকৃত পুনর্ব্যবহার হার কম २. সরাসরি প্রাক-গণনা: প্রতিটি ব্লকের KV ক্যাশ স্বাধীনভাবে গণনা করার পরে সংযুক্ত করা, দুটি মূল সমস্যা বিদ্যমান:

ব্লক-মধ্যস্থ মনোযোগের অভাব, ক্রস-ডকুমেন্ট যুক্তিকে প্রভাবিত করে
পুনরাবৃত্ত মনোযোগ সমন্বয় প্রভাব, প্রশিক্ষণ-সময়ের মনোযোগ বিতরণের সাথে অমিল ३. বিদ্যমান উন্নতি পদ্ধতি:
APE: শুধুমাত্র মনোযোগ সমন্বয় সমস্যা সমাধান করে, ক্রস-ব্লক মনোযোগ পুনরুদ্ধার করতে পারে না
CacheBlend: প্রাথমিক স্তরের নির্বাচনের উপর ভিত্তি করে, গভীর স্তরের মূল টোকেন মিস করতে পারে

গবেষণা প্রেরণা

এমন একটি পদ্ধতির প্রয়োজন যা উল্লেখযোগ্যভাবে অনুমান ত্বরান্বিত করতে পারে এবং প্রজন্মের গুণমান বজায় রাখতে পারে, বিশেষত ক্রস-ডকুমেন্ট যুক্তির প্রয়োজনীয় জটিল RAG কাজগুলিতে।

মূল অবদান

१. মূল পর্যবেক্ষণ: ছোট সহায়ক LLM-এর শেষ স্তরের মনোযোগ বিতরণ বড় প্রধান মডেলের সাথে অত্যন্ত সমান, গুরুত্বপূর্ণ টোকেন দক্ষতার সাথে চিহ্নিত করতে ব্যবহার করা যেতে পারে २. CacheClip ফ্রেমওয়ার্ক: তিনটি প্রযুক্তি একীভূত করা একটি নতুন ফ্রেমওয়ার্ক:

নির্বাচনী KV ক্যাশ পুনঃগণনার জন্য সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচন
অপ্রয়োজনীয় মনোযোগ সমন্বয় অপসারণের জন্য ভাগ করা উপসর্গ
স্থানীয় সামঞ্জস্য বজায় রাখার জন্য গ্রুপিং কৌশল ३. কর্মক্ষমতা উন্নতি: যথাক্রমে NIAH এবং LongBench-এ সম্পূর্ণ মনোযোগ কর্মক্ষমতার ৯৪.৮% এবং ৮৫.০% অর্জন করে, একই সাথে ১.৯२× প্রাক-পূরণ ত্বরণ অর্জন করে ४. ব্যবহারিক সিস্টেম ডিজাইন: সহায়ক মডেল CPU-তে চলে, অতিরিক্ত GPU ওভারহেড এড়ায়

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ব্যবহারকারীর প্রশ্ন এবং পুনরুদ্ধৃত ডকুমেন্ট ব্লকের সেট দেওয়া, লক্ষ্য হল প্রজন্মের গুণমান বজায় রেখে প্রাক-পূরণ বিলম্ব কমানো। ইনপুট হল প্রশ্ন q এবং ডকুমেন্ট ব্লক সেট {D₁, D₂, ..., Dₙ}, আউটপুট হল উচ্চ-মানের প্রতিক্রিয়া।

মূল প্রযুক্তিগত উপাদান

१. মনোযোগ সমন্বয় পরিচালনা

সমস্যা: স্বাধীনভাবে প্রক্রিয়াকৃত ডকুমেন্ট ব্লকগুলির শুরুতে মনোযোগ সমন্বয় প্রভাব রয়েছে
সমাধান: প্রতিটি ব্লকে একটি ভাগ করা উপসর্গ যোগ করুন (যেমন সিস্টেম প্রম্পট), সংযুক্ত করার সময় শুধুমাত্র প্রথম ব্লকের উপসর্গ রাখুন
প্রভাব: প্রশিক্ষণ-সময়ের সাথে সামঞ্জস্যপূর্ণ বৈশ্বিক মনোযোগ বিতরণ পুনরুদ্ধার করে

२. অবস্থান ID পুনর্বিন্যাস

সমস্যা: সংযুক্ত করার পরে অবস্থান ID পুনরাবৃত্ত প্যাটার্ন প্রদর্শন করে
সমাধান: ক্রমাগত বর্ধনশীল অবস্থান ID পুনরায় বরাদ্দ করুন
বাস্তবায়ন: [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...] থেকে [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]-এ পুনর্বিন্যাস করুন

३. সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচন

মূল অন্তর্দৃষ্টি: ছোট সহায়ক মডেল (যেমন SmolLM2-135M) এর শেষ স্তর বড় প্রধান মডেলের (যেমন Qwen2.5-14B) সাথে অত্যন্ত সমান মনোযোগ
পরিমাণগত যাচাইকরণ:
- KL বিচ্যুতি: সহায়ক মডেল এবং প্রধান মডেলের শেষ স্তরের KL বিচ্যুতি < প্রধান মডেলের প্রথম স্তর এবং শেষ স্তরের KL বিচ্যুতি
- Jaccard সূচক: শীর্ষ-२०% গুরুত্বপূর্ণ টোকেনের ওভারল্যাপ উচ্চতর
নির্বাচন কৌশল: १. প্রতিটি ব্লকের সহায়ক মডেলে KV ক্যাশ প্রাক-গণনা করুন २. ব্লকটি প্রশ্নের সাথে সংযুক্ত করে ব্যাচ প্রক্রিয়াকরণ করুন ३. শেষ স্তরের মনোযোগ ম্যাট্রিক্স নিষ্কাশন করুন, প্রশ্ন টোকেনের ব্লক টোকেনের প্রতি মনোযোগ ওজন গণনা করুন ४. প্রশ্ন মাত্রায় গড় করে প্রতিটি টোকেনের গুরুত্ব স্কোর পান

४. গ্রুপিং কৌশল

প্রেরণা: বিরল KV ক্যাশ আপডেট প্রসঙ্গ সম্পূর্ণতা ভাঙা এড়ান
বাস্তবায়ন:
- সিকোয়েন্সটি ছোট উইন্ডোতে বিভক্ত করুন (ডিফল্ট ৮ টোকেন)
- যদি উইন্ডোতে নির্বাচিত টোকেনের সংখ্যা থ্রেশহোল্ড অতিক্রম করে (ডিফল্ট ৫), তবে সেই উইন্ডো পুনঃগণনা করুন
- অন্যথায় উইন্ডোটি এড়িয়ে যান, স্থানীয় প্রসঙ্গ সামঞ্জস্য বজায় রাখুন

५. টোকেন ম্যাপিং এবং KV ক্যাশ আপডেট

সহায়ক মডেল এবং প্রধান মডেলের মধ্যে tokenizer পার্থক্য পরিচালনা করুন
নির্বাচিত বিভাগের KV ক্যাশ পুনঃগণনা করুন, অবস্থান ID সামঞ্জস্য বজায় রাখুন
মূল KV ক্যাশের সংশ্লিষ্ট এন্ট্রি নির্বাচনীভাবে অতিলিখন করুন

६. সহায়ক মডেল সূক্ষ্ম-সুর

টোকেন নির্বাচন নির্ভুলতা উন্নত করতে ছোট সহায়ক মডেল সূক্ষ্ম-সুর করুন
প্রধান মডেল সূক্ষ্ম-সুরের তুলনায় খরচ অত্যন্ত কম
CacheClip সামগ্রিক কর্মক্ষমতা উন্নত করুন

সিস্টেম আর্কিটেকচার ডিজাইন

সহায়ক মডেল CPU-তে চলে (নিষ্ক্রিয় হেড নোড CPU সম্পদ ব্যবহার করে)
Intel AMX ত্বরক দ্বারা ম্যাট্রিক্স অপারেশন ত্বরান্বিত সমর্থন করে
টোকেন নির্বাচন এবং প্রধান মডেল KV ক্যাশ লোডিং সমান্তরাল, বিলম্ব লুকান
রানটাইম গতিশীল পুনঃগণনা অনুপাত সমন্বয় সমর্থন করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. RULER: পুনরুদ্ধার বিভাগের সূচক মধ্যে সুই (NIAH) সম্প্রসারিত সংস্করণ

৮টি চ্যালেঞ্জিং ভেরিয়েন্ট অন্তর্ভুক্ত (niah_multikey2/3 বাদ দিয়ে)
পরীক্ষা সিকোয়েন্স দৈর্ঘ্য: ৮K টোকেন
মূল্যায়ন মেট্রিক: গড় রেফারেন্স কভারেজ (ARC)

२. LongBench: দীর্ঘ প্রসঙ্গ বোঝার মানদণ্ড

multifieldqa_zh, 2wikimqa, hotpotqa ডেটাসেট ব্যবহার করে
মূল্যায়ন মেট্রিক: ROUGE-L এবং F1 স্কোর

পরীক্ষামূলক কনফিগারেশন

প্রধান মডেল: Qwen2.5-14B
সহায়ক মডেল: SmolLM2-135M (সূক্ষ্ম-সুরকৃত)
হার্ডওয়্যার: NVIDIA L20 GPU + Intel Xeon EMR CPU
ডকুমেন্ট খণ্ডকরণ: ১০০০ টোকেন, ৫০ টোকেন ওভারল্যাপ

তুলনা পদ্ধতি

१. সম্পূর্ণ মনোযোগ: সম্পূর্ণ মনোযোগ গণনা (উপরের সীমা) २. সরাসরি পুনর্ব্যবহার: সরাসরি KV ক্যাশ সংযুক্ত করা ३. APE: ভাগ করা উপসর্গ + মনোযোগ তাপমাত্রা সমন্বয় ४. CacheBlend: প্রাথমিক স্তর-ভিত্তিক নির্বাচনী পুনঃগণনা

পরীক্ষামূলক ফলাফল

প্রধান কর্মক্ষমতা তুলনা

RULER ডেটাসেট ফলাফল

CacheClip বনাম CacheBlend (পুনঃগণনা অনুপাত २०%):
- গড় কর্মক্ষমতা: ९४.५०% বনাম ६९.९४%, ३५.१% উন্নতি
- multivalue কাজে: ९६% বনাম ४२.९७%, উল্লেখযোগ্য উন্নতি
CacheClip বনাম APE:
- গড় কর্মক্ষমতা: ९४.५०% বনাম ७५.५%, २५.२% উন্নতি
সম্পূর্ণ মনোযোগের সাথে তুলনা: ९४.८% কর্মক্ষমতা বজায় রাখে

LongBench ডেটাসেট ফলাফল

পদ্ধতি	multifieldqa_zh	2wikimqa	hotpotqa
সম্পূর্ণ মনোযোগ	६४.९३	५४.३६	५९.७१
CacheClip	५८.०५	४२.७७	५१.३२
CacheBlend	५७.३४	४१.०८	४४.११
APE	५९.७०	३८.३४	४५.२९

দক্ষতা উন্নতি

প্রাক-পূরণ ত্বরণ: १.९२× (পুনঃগণনা অনুপাত २०%)
বিলম্ব বিচ্ছেদ:
- টোকেন নির্বাচন: ०.२३८s
- পুনঃগণনা: २.६४३s
- অন্যান্য ওভারহেড: ०.०७०s
- মোট সময়: २.९६१s বনাম ভিত্তিরেখা ५.६४१s

বিলোপন পরীক্ষা বিশ্লেষণ

পুনঃগণনা অনুপাত প্রভাব

RULER-multivalue: কর্মক্ষমতা পুনঃগণনা অনুপাতের সাথে একঘেয়েভাবে বৃদ্ধি পায়, নির্বাচনী পুনঃগণনার কার্যকারিতা যাচাই করে
RULER-single2/3: CacheBlend মধ্যম পুনঃগণনা অনুপাতে কর্মক্ষমতা হ্রাস দেখায়, CacheClip গ্রুপিং কৌশলের মাধ্যমে এই সমস্যা এড়ায়

সহায়ক মডেল কার্যকারিতা যাচাইকরণ

মনোযোগ বিতরণ সাদৃশ্য বিশ্লেষণের মাধ্যমে (KL বিচ্যুতি, Jaccard সূচক) প্রমাণ করে যে ছোট সহায়ক মডেল বড় মডেলের মনোযোগ প্যাটার্ন কার্যকরভাবে অনুমান করতে পারে।

কেস বিশ্লেষণ

RULER-single2 কাজে, CacheBlend "৫৬৬३६२" আউটপুট করে সঠিক উত্তর "৫६६३६२३" এর পরিবর্তে, কারণ শুধুমাত্র কিছু টোকেন পুনঃগণনা করা হয়। CacheClip এর গ্রুপিং কৌশল নিশ্চিত করে যে সম্পূর্ণ সংখ্যা একসাথে প্রক্রিয়া করা হয়, এই ধরনের ত্রুটি এড়ায়।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. CacheClip সফলভাবে RAG সিস্টেমে দক্ষতা এবং গুণমানের মধ্যে ট্রেড-অফ সমাধান করে २. সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচন কৌশল কার্যকর এবং দক্ষ ३. গ্রুপিং কৌশল প্রসঙ্গ সম্পূর্ণতা বজায় রাখার জন্য গুরুত্বপূর্ণ ४. সিস্টেম ডিজাইন অতিরিক্ত GPU ওভারহেড এড়ায়, ব্যবহারিক মূল্য রয়েছে

সীমাবদ্ধতা

१. বর্তমান পরীক্ষা প্রধানত ८K সিকোয়েন্স দৈর্ঘ্যে যাচাই করা হয়, দীর্ঘতর সিকোয়েন্সের কর্মক্ষমতা আরও যাচাইয়ের প্রয়োজন २. সহায়ক মডেল এবং প্রধান মডেলের মধ্যে সর্বোত্তম ম্যাচিং কৌশল এখনও অন্বেষণ করা প্রয়োজন ३. বিভিন্ন ডোমেন এবং কাজের ধরনের সাধারণীকরণ ক্ষমতা যাচাইয়ের অপেক্ষায় রয়েছে

ভবিষ্যত দিকনির্দেশনা

१. দীর্ঘতর সিকোয়েন্স এবং আরও মডেল আর্কিটেকচারে সম্প্রসারণ করুন २. সহায়ক মডেল নির্বাচন এবং সূক্ষ্ম-সুর কৌশল অপ্টিমাইজ করুন ३. গতিশীল পুনঃগণনা অনুপাত সমন্বয় অ্যালগরিদম অন্বেষণ করুন ४. মাল্টি-GPU পরিবেশে সিস্টেম অপ্টিমাইজেশন গবেষণা করুন

গভীর মূল্যায়ন

শক্তি

१. প্রযুক্তিগত উদ্ভাবন শক্তিশালী: সহায়ক মডেল-নির্দেশিত টোকেন নির্বাচনের ধারণা উপন্যাস, দৃঢ় তাত্ত্বিক ভিত্তি রয়েছে २. পরীক্ষামূলক ডিজাইন সম্পূর্ণ: একাধিক ডেটাসেট, বিস্তারিত বিলোপন পরীক্ষা এবং কেস বিশ্লেষণ অন্তর্ভুক্ত করে ३. ব্যবহারিক মূল্য উচ্চ: সম্পূর্ণ সিস্টেম ডিজাইন সমাধান প্রদান করে, প্রকৃত স্থাপনা সীমাবদ্ধতা বিবেচনা করে ४. কর্মক্ষমতা উন্নতি উল্লেখযোগ্য: উচ্চ গুণমান বজায় রেখে প্রায় २ গুণ ত্বরণ অর্জন করে

অপূর্ণতা

१. মূল্যায়ন পরিসীমা সীমিত: প্রধানত ८K সিকোয়েন্সে পরীক্ষা করা হয়, অতি-দীর্ঘ সিকোয়েন্স যাচাইকরণের অভাব २. সহায়ক মডেল ওভারহেড: যদিও CPU ব্যবহার করে, তবুও সিস্টেম জটিলতা বৃদ্ধি করে ३. সাধারণীকরণ যাচাইকরণ অপর্যাপ্ত: প্রধানত নির্দিষ্ট মডেল সমন্বয়ে যাচাই করা হয়, ক্রস-আর্কিটেকচার সাধারণীকরণ স্পষ্ট নয়