2025-11-16T09:58:12.370377

Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference

Feng, Lv, Cao et al.

Large Language Models have excelled in various domains but face efficiency challenges due to the growing Key-Value (KV) cache required for long-sequence inference. Recent efforts aim to reduce KV cache size by evicting vast non-critical cache elements during runtime while preserving generation quality. However, these methods typically allocate compression budgets uniformly across all attention heads, ignoring the unique attention patterns of each head. In this paper, we establish a theoretical loss upper bound between pre- and post-eviction attention output, explaining the optimization target of prior cache eviction methods, while guiding the optimization of adaptive budget allocation. Base on this, we propose {\it Ada-KV}, the first head-wise adaptive budget allocation strategy. It offers plug-and-play benefits, enabling seamless integration with prior cache eviction methods. Extensive evaluations on 13 datasets from Ruler and 16 datasets from LongBench, all conducted under both question-aware and question-agnostic scenarios, demonstrate substantial quality improvements over existing methods. Our code is available at https://github.com/FFY0/AdaKV.

academic

Ada-KV: দক্ষ LLM অনুমানের জন্য অভিযোজিত বাজেট বরাদ্দের মাধ্যমে KV ক্যাশ বহিষ্কার অপ্টিমাইজেশন

মৌলিক তথ্য

পেপার আইডি: 2407.11550
শিরোনাম: Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference
লেখক: Yuan Feng, Junlin Lv, Yukun Cao, Xike Xie, S. Kevin Zhou
শ্রেণীবিভাগ: cs.CL cs.AI
প্রকাশনার সময়/সম্মেলন: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
পেপার লিঙ্ক: https://arxiv.org/abs/2407.11550

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) বিভিন্ন ক্ষেত্রে উৎকর্ষতা প্রদর্শন করে, কিন্তু দীর্ঘ অনুক্রম অনুমানে ক্রমবর্ধমান Key-Value (KV) ক্যাশ চাহিদার কারণে দক্ষতার চ্যালেঞ্জের সম্মুখীন হয়। সাম্প্রতিক গবেষণা রানটাইমে বৃহৎ সংখ্যক অ-গুরুত্বপূর্ণ ক্যাশ উপাদান বহিষ্কার করে KV ক্যাশের আকার হ্রাস করে, যখন উৎপাদন গুণমান বজায় রাখে। তবে, এই পদ্ধতিগুলি সাধারণত সমস্ত মনোযোগ শিরোনাম জুড়ে সমানভাবে সংকোচন বাজেট বরাদ্দ করে, প্রতিটি শিরোনামের অনন্য মনোযোগ প্যাটার্ন উপেক্ষা করে। এই পেপারটি বহিষ্কারের আগে এবং পরে মনোযোগ আউটপুটের মধ্যে তাত্ত্বিক ক্ষতির উপরের সীমা স্থাপন করে, পূর্ববর্তী ক্যাশ বহিষ্কার পদ্ধতির অপ্টিমাইজেশন উদ্দেশ্য ব্যাখ্যা করে এবং অভিযোজিত বাজেট বরাদ্দ অপ্টিমাইজেশনকে গাইড করে। এর ভিত্তিতে, লেখকরা Ada-KV প্রস্তাব করেন, প্রথম শিরোনাম-স্তরের অভিযোজিত বাজেট বরাদ্দ কৌশল। এই পদ্ধতিটি প্লাগ-এন্ড-প্লে সুবিধা প্রদান করে এবং বিদ্যমান ক্যাশ বহিষ্কার পদ্ধতির সাথে নির্বিঘ্নে একীভূত হতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার বর্ণনা

বৃহৎ ভাষা মডেল যেমন অনুক্রম দৈর্ঘ্য প্রক্রিয়া করে বৃদ্ধি পায় (যেমন GPT 128K, Claude3 200K, Gemini-Pro-1.5 2M টোকেন সমর্থন করে), KV ক্যাশের মেমরি চাহিদা সূচকীয়ভাবে বৃদ্ধি পায়। 8B প্যারামিটার সহ একটি LLM এর জন্য, একটি একক 2M টোকেন অনুক্রম প্রক্রিয়া করতে 256GB পর্যন্ত ক্যাশের প্রয়োজন হতে পারে, যা GPU মেমরি দক্ষতা এবং গণনা রানটাইম দক্ষতাকে গুরুতরভাবে প্রভাবিত করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান ক্যাশ বহিষ্কার পদ্ধতিগুলি প্রধানত দুটি বিভাগে বিভক্ত:

স্লাইডিং উইন্ডো বহিষ্কার পদ্ধতি: সহজভাবে প্রাথমিক এবং সাম্প্রতিক ক্যাশ উপাদান ধরে রাখে, কিন্তু উৎপাদন গুণমান উল্লেখযোগ্যভাবে হ্রাস করে
Top-k বহিষ্কার পদ্ধতি: মনোযোগ ওজনের উপর ভিত্তি করে গুরুত্বপূর্ণ ক্যাশ উপাদান নির্বাচন করে, কিন্তু সমস্ত মনোযোগ শিরোনাম জুড়ে বাজেট সমানভাবে বরাদ্দ করে

মূল সমস্যা হল বিদ্যমান পদ্ধতিগুলি বিভিন্ন মনোযোগ শিরোনামের অনন্য বৈশিষ্ট্য উপেক্ষা করে: কিছু শিরোনামে বিরল মনোযোগ কেন্দ্রীভূত প্যাটার্ন রয়েছে, যখন অন্যান্য শিরোনামের মনোযোগ বিতরণ আরও বিচ্ছিন্ন।

গবেষণা প্রেরণা

Llama-3.1-8B-Instruct মডেল বিশ্লেষণের মাধ্যমে, লেখকরা আবিষ্কার করেন যে বেশিরভাগ মনোযোগ শিরোনাম মাত্র ছোট ক্যাশ অনুপাত (যেমন শীর্ষ 5%) দিয়ে প্রায় সমস্ত মনোযোগ ওজন ধরে রাখতে পারে, যখন বিচ্ছিন্ন শিরোনামগুলির জন্য বৃহত্তর ক্যাশ অনুপাত প্রয়োজন। এই অসমান মনোযোগ কেন্দ্রীভূত প্যাটার্ন অভিযোজিত বাজেট বরাদ্দের জন্য তাত্ত্বিক ভিত্তি প্রদান করে।

মূল অবদান

অভিযোজিত বাজেট বরাদ্দ কৌশল: প্রথম শিরোনাম-স্তরের অভিযোজিত বাজেট বরাদ্দ কৌশল Ada-KV প্রস্তাব করে, যা প্রতিটি মনোযোগ শিরোনামের অনন্য মনোযোগ প্যাটার্নের উপর ভিত্তি করে গতিশীলভাবে বাজেট বরাদ্দ সামঞ্জস্য করতে পারে
তাত্ত্বিক কাঠামো প্রতিষ্ঠা: ক্যাশ বহিষ্কারের জন্য একটি তাত্ত্বিক কাঠামো প্রতিষ্ঠা করে, বহিষ্কার ক্ষতি সংজ্ঞায়িত করে এবং এর উপরের সীমা অনুমান করে, বিদ্যমান পদ্ধতির অপ্টিমাইজেশন উদ্দেশ্য ব্যাখ্যা করে এবং Ada-KV ডিজাইনকে গাইড করে
প্লাগ-এন্ড-প্লে সামঞ্জস্য: Ada-KV প্লাগ-এন্ড-প্লে বৈশিষ্ট্য সহ আসে এবং বিদ্যমান ক্যাশ বহিষ্কার পদ্ধতিতে নির্বিঘ্নে একীভূত হতে পারে এবং দক্ষ CUDA কার্নেল বাস্তবায়নের মাধ্যমে গণনা দক্ষতা বজায় রাখে
ব্যাপক পরীক্ষামূলক যাচাইকরণ: Ruler এবং LongBench এর 29টি ডেটাসেটে ব্যাপক মূল্যায়ন পরিচালনা করে, প্রশ্ন-সচেতন এবং প্রশ্ন-অজ্ঞাত উভয় পরিস্থিতিতে উল্লেখযোগ্য উন্নতি প্রদর্শন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

বাজেট সীমাবদ্ধতার অধীনে একটি মাল্টি-হেড স্ব-মনোযোগ স্তরে, বহিষ্কার পরবর্তী মনোযোগ আউটপুট এবং মূল আউটপুটের মধ্যে ক্ষতি কমিয়ে আনতে রক্ষা করার জন্য KV ক্যাশ উপাদান নির্বাচন করা।

তাত্ত্বিক ভিত্তি

L1 বহিষ্কার ক্ষতি সংজ্ঞা

লেখক বহিষ্কার ক্ষতি পরিমাণ করেন স্ব-মনোযোগ প্রক্রিয়া আউটপুটের মধ্যে L1 দূরত্ব হিসাবে বহিষ্কারের আগে এবং পরে:

$\text{L1 Eviction Loss} = ||y - \hat{y}||_1$

যেখানে $y$ এবং $\hat{y}$ যথাক্রমে বহিষ্কারের আগে এবং পরে মনোযোগ আউটপুট।

ক্ষতির উপরের সীমা অনুমান

উপপাদ্য 3.1: L1 বহিষ্কার ক্ষতি $\epsilon$ দ্বারা সীমাবদ্ধ হতে পারে:

$\text{L1 Eviction Loss} \leq \epsilon = 2hC - 2C\sum_{i \in [1,h]}\sum_{j \in [1,n]} I_i^j A_i^j$

যেখানে $C = \max\{\|V_iW_i^O\|_\infty\}$ একটি ধ্রুবক, $I_i^j$ বহিষ্কার সিদ্ধান্ত নির্দেশক পরিবর্তনশীল, $A_i^j$ মনোযোগ ওজন।

উপপাদ্য 3.2: Top-k ক্যাশ বহিষ্কার পদ্ধতি প্রদত্ত বাজেট বরাদ্দের অধীনে ক্ষতির উপরের সীমা কমিয়ে আনতে পারে:

$\epsilon^* = 2hC - 2C\sum_{i \in [1,h]}\sum_{A_i^j \in \text{Top-k}(A_i, k=B_i)} A_i^j$

Ada-KV অ্যালগরিদম

অ্যালগরিদম 1: অভিযোজিত বাজেট বরাদ্দ

ইনপুট: মোট বাজেট B, প্রতিটি শিরোনাম মনোযোগ ওজন {A_i}
আউটপুট: বরাদ্দ বাজেট {B_i^*}
1. সমস্ত শিরোনামের মনোযোগ ওজন সংযুক্ত করুন: A = Cat({A_i})
2. A থেকে শীর্ষ B ওজন নির্বাচন করুন: Top-k(A, k=B)
3. প্রতিটি শিরোনামের জন্য নির্বাচিত ওজনের সংখ্যা গণনা করুন: {f_i}
4. বরাদ্দ বাজেট সেট করুন: {B_i^* = f_i}

তাত্ত্বিক সুবিধা

উপপাদ্য 3.3: অভিযোজিত বাজেট বরাদ্দ ক্ষতির উপরের সীমার সর্বনিম্ন অর্জন করতে পারে:

$\epsilon^{**} = \min_{\{B_i\}} \epsilon^*$

বিদ্যমান পদ্ধতির সাথে একীকরণ

লেখক দুটি SOTA পদ্ধতির সাথে Ada-KV এর একীকরণ প্রদর্শন করেন:

Ada-SnapKV এবং Ada-Pyramid

অ্যালগরিদম 2 এর মাধ্যমে, Ada-KV SnapKV এবং Pyramid এ নির্বিঘ্নে একীভূত হতে পারে:

পর্যবেক্ষণ উইন্ডোর মধ্যে মনোযোগ ওজন গণনা করুন
Ada-KV অ্যালগরিদম ব্যবহার করে বাজেট বরাদ্দ করুন
অত্যধিক বিরল বরাদ্দ প্রতিরোধ করতে নিরাপত্তা সুরক্ষা প্যারামিটার α = 0.2 প্রয়োগ করুন
Top-k বহিষ্কার সিদ্ধান্ত সম্পাদন করুন

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

বৈশ্বিক অপ্টিমাইজেশন দৃষ্টিভঙ্গি: শিরোনাম-স্তরের বাজেট বরাদ্দকে বৈশ্বিক অপ্টিমাইজেশন সমস্যা হিসাবে দেখুন, স্থানীয় অপ্টিমাইজেশন নয়
তাত্ত্বিক-গাইডেড ডিজাইন: কঠোর তাত্ত্বিক বিশ্লেষণের উপর ভিত্তি করে অ্যালগরিদম ডিজাইন গাইড করুন
গণনা দক্ষতা নিশ্চিতকরণ: পরিবর্তনশীল দৈর্ঘ্য FlashAttention এবং সমতল ক্যাশ লেআউটের মাধ্যমে গণনা দক্ষতা বজায় রাখুন
GQA সামঞ্জস্য: Group Query Attention সমর্থন করুন, অতিরিক্ত ক্যাশ সংকোচন অর্জন করুন

পরীক্ষামূলক সেটআপ

ডেটাসেট

Ruler বেঞ্চমার্ক: 13টি দীর্ঘ অনুক্রম কাজ, প্রধানত Needle-in-a-Haystack পরীক্ষার বৈকল্পিক, 16K দৈর্ঘ্য মূল্যায়ন
LongBench বেঞ্চমার্ক: 16টি ডেটাসেট, একক-নথি QA, বহু-নথি QA, সংক্ষিপ্তকরণ, কম-নমুনা শেখা, সিন্থেটিক কাজ এবং কোড প্রজন্ম অন্তর্ভুক্ত

মৌলিক মডেল

Llama-3.1-8B-Instruct
Mistral-7B-instruct-v0.2

মূল্যায়ন মেট্রিক্স

কাজের ধরন অনুযায়ী সংশ্লিষ্ট মেট্রিক্স ব্যবহার করুন: F1 স্কোর (QA কাজ), Rouge-L (সংক্ষিপ্তকরণ কাজ), নির্ভুলতা (শ্রেণীবিভাগ কাজ), সম্পাদনা সাদৃশ্য (কোড কাজ)

তুলনামূলক পদ্ধতি

ভিত্তি পদ্ধতি: SnapKV, Pyramid, StreamingLLM
উন্নত সংস্করণ: Ada-SnapKV, Ada-Pyramid

পরীক্ষামূলক পরিস্থিতি

প্রশ্ন-সচেতন সংকোচন: প্রশ্ন পরিচিত মান পরিস্থিতি
প্রশ্ন-অজ্ঞাত সংকোচন: আরও চ্যালেঞ্জিং বাস্তব প্রয়োগ পরিস্থিতি

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

Ruler বেঞ্চমার্ক পরীক্ষা

প্রশ্ন-অজ্ঞাত পরিস্থিতিতে, Llama-3.1-8B-Instruct ব্যবহার করে:

80% ক্যাশ বাজেট: Ada-SnapKV SnapKV এর স্কোর 87.59 থেকে 92.67 এ উন্নীত করে
20% ক্যাশ বাজেট: Ada-SnapKV SnapKV এর স্কোর 44.02 থেকে 53.29 এ উন্নীত করে

LongBench বেঞ্চমার্ক পরীক্ষা

প্রশ্ন-অজ্ঞাত পরিস্থিতিতে:

Ada-SnapKV এবং Ada-Pyramid সমস্ত নির্দিষ্ট বাজেট সেটিংসে উৎপাদন গুণমান ক্রমাগত উন্নত করে
2048 বাজেটে প্রায় ক্ষতিহীন কর্মক্ষমতার কাছাকাছি

উপ-কাজ বিশ্লেষণ

কঠিন Needle-in-a-Haystack কাজে:

S-NIAH-3 কাজ (80% বাজেট): Ada-SnapKV SnapKV কে 62.4 থেকে 97.6 এ উন্নীত করে
MK-NIAH-2 কাজ (80% বাজেট): Ada-SnapKV SnapKV কে 85.2 থেকে 99.6 এ উন্নীত করে

গণনা দক্ষতা

Ada-SnapKV নির্দিষ্ট 1024 বাজেটে:

শিখর মেমরি ব্যবহার মূল SnapKV এর সমতুল্য
ডিকোডিং বিলম্ব মূল SnapKV এর সমতুল্য
উভয়ই সম্পূর্ণ ক্যাশ পরিস্থিতির চেয়ে উল্লেখযোগ্যভাবে উন্নত

বিস্তৃত প্রয়োগ যাচাইকরণ

Ada-KV কৌশল একাধিক পরবর্তী কাজ দ্বারা গ্রহণ করা হয়েছে:

CriticalKV + Ada-KV: 20% ক্যাশে 42.99 থেকে 43.77 এ উন্নীত
DefensiveKV + Ada-KV: 20% ক্যাশে 43.78 থেকে 46.68 এ উন্নীত

উপসংহার এবং আলোচনা

প্রধান উপসংহার

Ada-KV প্রথমবারের মতো শিরোনাম-স্তরের অভিযোজিত বাজেট বরাদ্দ কৌশল প্রস্তাব করে, বিদ্যমান ক্যাশ বহিষ্কার পদ্ধতির কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
তাত্ত্বিক বিশ্লেষণ ক্যাশ বহিষ্কারের জন্য একটি কঠোর কাঠামো প্রতিষ্ঠা করে, অ্যালগরিদম ডিজাইনকে গাইড করে
প্রশ্ন-অজ্ঞাত সংকোচন পরিস্থিতি বিদ্যমান পদ্ধতির সীমাবদ্ধতা প্রকাশ করে, আরও মনোযোগ পাওয়া উচিত

সীমাবদ্ধতা

বর্তমান শিরোনাম-স্তরের বরাদ্দ একক স্তরের মধ্যে সীমাবদ্ধ, ক্রস-স্তর বরাদ্দে প্রসারিত নয়
নিরাপত্তা সুরক্ষা প্যারামিটার α বিভিন্ন বাজেটে কর্মক্ষমতা ভারসাম্য প্রয়োজন
তাত্ত্বিক বিশ্লেষণ L1 দূরত্বের উপর ভিত্তি করে, প্রকৃত উৎপাদন গুণমান সম্পূর্ণভাবে প্রতিফলিত নাও করতে পারে

ভবিষ্যত দিকনির্দেশনা

শিরোনাম-স্তরের বরাদ্দ প্রক্রিয়া ক্রস-স্তর পরিস্থিতিতে প্রসারিত করুন
সংশ্লিষ্ট ক্রস-স্তর তাত্ত্বিক বিশ্লেষণ বিকাশ করুন
প্রশিক্ষণ-সময় শিরোনাম গুরুত্ব বিশ্লেষণ একত্রিত করুন
অন্যান্য অপ্টিমাইজেশন প্রযুক্তির সাথে যৌথ অপ্টিমাইজেশন (যেমন পরিমাণীকরণ, বিরল মনোযোগ)

গভীর মূল্যায়ন

সুবিধা

দৃঢ় তাত্ত্বিক অবদান: সম্পূর্ণ তাত্ত্বিক কাঠামো প্রতিষ্ঠা করে, ক্ষতির উপরের সীমা থেকে অ্যালগরিদম ডিজাইন পর্যন্ত যুক্তি স্পষ্ট
সহজ এবং কার্যকর পদ্ধতি: অ্যালগরিদম সংক্ষিপ্ত এবং বোধগম্য, প্লাগ-এন্ড-প্লে বৈশিষ্ট্য গ্রহণ সহজ করে
ব্যাপক এবং পর্যাপ্ত পরীক্ষা: 29টি ডেটাসেটে ব্যাপক মূল্যায়ন, উপেক্ষা করা প্রশ্ন-অজ্ঞাত পরিস্থিতি অন্তর্ভুক্ত করে
উচ্চ ব্যবহারিক মূল্য: একাধিক পরবর্তী কাজ দ্বারা গৃহীত, পদ্ধতির মূল্য এবং প্রভাব প্রমাণ করে

অপূর্ণতা

তত্ত্ব এবং অনুশীলনের ব্যবধান: যদিও তাত্ত্বিকভাবে ক্ষতির উপরের সীমা কমিয়ে আনে, প্রকৃত ক্ষতি কমিয়ে আনার নিশ্চয়তা দেয় না
হাইপারপ্যারামিটার সংবেদনশীলতা: নিরাপত্তা সুরক্ষা প্যারামিটার α এর নির্বাচন অভিজ্ঞতামূলক টিউনিং প্রয়োজন
সম্প্রসারণ সীমাবদ্ধতা: বর্তমানে শুধুমাত্র একক স্তরের মধ্যে বাজেট বরাদ্দ বিবেচনা করে
মূল্যায়ন সীমাবদ্ধতা: প্রধানত মাঝারি আকারের মডেলে মূল্যায়ন, বড় আকারের মডেলের প্রভাব যাচাইকরণের অপেক্ষায়

প্রভাব

একাডেমিক অবদান: KV ক্যাশ অপ্টিমাইজেশন ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করে
ব্যবহারিক মূল্য: প্লাগ-এন্ড-প্লে বৈশিষ্ট্য বাস্তব সিস্টেমে স্থাপনা সহজ করে
পুনরুৎপাদনযোগ্যতা: খোলা উৎস কোড এবং বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে
অনুপ্রেরণামূলক: পরবর্তী গবেষণার জন্য তাত্ত্বিক কাঠামো এবং পদ্ধতিগত নির্দেশনা প্রদান করে

প্রযোজ্য পরিস্থিতি

দীর্ঘ অনুক্রম অনুমান: বিশেষত দীর্ঘ প্রসঙ্গ প্রক্রিয়া করার প্রয়োজন এমন প্রয়োগের জন্য উপযুক্ত
সম্পদ-সীমাবদ্ধ পরিবেশ: GPU মেমরি সীমিত পরিস্থিতিতে অনুমান দক্ষতা অপ্টিমাইজ করুন
রিয়েল-টাইম সিস্টেম: গুণমান এবং দক্ষতা ভারসাম্য প্রয়োজন এমন অনলাইন সেবা
বহু-পালা কথোপকথন: প্রশ্ন-অজ্ঞাত সংকোচন পরিস্থিতি বিশেষত কথোপকথন সিস্টেমের জন্য উপযুক্ত

রেফারেন্স

পেপারটি 64টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

বৃহৎ ভাষা মডেল মৌলিক কাজ (GPT-4, Claude, Gemini ইত্যাদি)
KV ক্যাশ অপ্টিমাইজেশন পদ্ধতি (H2O, SnapKV, Pyramid ইত্যাদি)
মনোযোগ প্রক্রিয়া অপ্টিমাইজেশন (FlashAttention, বিরল মনোযোগ ইত্যাদি)
দীর্ঘ অনুক্রম প্রক্রিয়া বেঞ্চমার্ক (Ruler, LongBench ইত্যাদি)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা তাত্ত্বিক অবদান এবং ব্যবহারিক মূল্যের মধ্যে ভাল ভারসাম্য অর্জন করে। Ada-KV পদ্ধতি সহজ এবং কার্যকর, তাত্ত্বিক বিশ্লেষণ কঠোর, পরীক্ষামূলক যাচাইকরণ ব্যাপক। পেপারটি শুধুমাত্র বিদ্যমান পদ্ধতির গুরুত্বপূর্ণ সীমাবদ্ধতা সমাধান করে না, বরং ভবিষ্যত গবেষণার জন্য মূল্যবান কাঠামো এবং দিকনির্দেশনা প্রদান করে।