Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference
Feng, Lv, Cao et al.
Large Language Models have excelled in various domains but face efficiency challenges due to the growing Key-Value (KV) cache required for long-sequence inference. Recent efforts aim to reduce KV cache size by evicting vast non-critical cache elements during runtime while preserving generation quality. However, these methods typically allocate compression budgets uniformly across all attention heads, ignoring the unique attention patterns of each head. In this paper, we establish a theoretical loss upper bound between pre- and post-eviction attention output, explaining the optimization target of prior cache eviction methods, while guiding the optimization of adaptive budget allocation. Base on this, we propose {\it Ada-KV}, the first head-wise adaptive budget allocation strategy. It offers plug-and-play benefits, enabling seamless integration with prior cache eviction methods. Extensive evaluations on 13 datasets from Ruler and 16 datasets from LongBench, all conducted under both question-aware and question-agnostic scenarios, demonstrate substantial quality improvements over existing methods. Our code is available at https://github.com/FFY0/AdaKV.
academic
Ada-KV: تحسين إخلاء ذاكرة التخزين المؤقت KV من خلال تخصيص الميزانية التكيفية لاستدلال نماذج اللغة الكبيرة الفعال
تُظهر نماذج اللغة الكبيرة (LLMs) تفوقاً في مختلف المجالات، لكنها تواجه تحديات كفاءة بسبب الطلب المتزايد على ذاكرة التخزين المؤقت للمفاتيح والقيم (KV) في الاستدلال على تسلسلات طويلة. تقلل الأبحاث الحديثة حجم ذاكرة التخزين المؤقت KV من خلال إخلاء عناصر ذاكرة تخزين مؤقت غير حرجة كبيرة في وقت التشغيل، مع الحفاظ على جودة التوليد. ومع ذلك، تخصص هذه الطرق عادةً ميزانية الضغط بشكل موحد عبر جميع رؤوس الانتباه، متجاهلة الأنماط الانتباهية الفريدة لكل رأس. تُنشئ هذه الورقة حداً نظرياً للخسارة بين مخرجات الانتباه قبل وبعد الإخلاء، مما يشرح الأهداف الحسابية لطرق إخلاء الذاكرة المؤقتة السابقة ويوجه تحسين تخصيص الميزانية التكيفية. بناءً على ذلك، يقترح المؤلفون Ada-KV، أول استراتيجية تخصيص ميزانية تكيفية على مستوى الرأس. تتمتع هذه الطريقة بمزايا الإدراج والتشغيل، مما يتيح التكامل السلس مع طرق إخلاء الذاكرة المؤقتة الموجودة.
مع النمو المستمر في طول التسلسل الذي تعالجه نماذج اللغة الكبيرة (مثل GPT يدعم 128K، وClaude3 يدعم 200K، وGemini-Pro-1.5 يدعم 2M tokens)، ينمو الطلب على ذاكرة التخزين المؤقت KV بشكل أسي. بالنسبة لنموذج LLM بـ 8B معاملات، قد تتطلب معالجة تسلسل واحد بـ 2M token ما يصل إلى 256GB من الذاكرة المؤقتة، مما يؤثر بشكل خطير على كفاءة ذاكرة GPU وكفاءة وقت تشغيل الحساب.
تنقسم طرق إخلاء الذاكرة المؤقتة الموجودة بشكل أساسي إلى فئتين:
طرق إخلاء النافذة المنزلقة: تحتفظ ببساطة بالعناصر الأولية والحديثة من الذاكرة المؤقتة، لكنها تقلل بشكل كبير من جودة التوليد
طرق إخلاء Top-k: تختار عناصر ذاكرة تخزين مؤقت حرجة بناءً على أوزان الانتباه، لكنها توزع الميزانية بشكل موحد عبر جميع رؤوس الانتباه
المشكلة الأساسية هي أن الطرق الموجودة تتجاهل الخصائص الفريدة لرؤوس الانتباه المختلفة: بعض الرؤوس لديها أنماط انتباه متناثرة ومركزة، بينما تتمتع رؤوس أخرى بتوزيع انتباه أكثر تشتتاً.
من خلال تحليل نموذج Llama-3.1-8B-Instruct، اكتشف المؤلفون أن معظم رؤوس الانتباه تحتاج فقط إلى نسبة ذاكرة تخزين مؤقت صغيرة (مثل أفضل 5%) للاحتفاظ بجميع أوزان الانتباه تقريباً، بينما تتطلب الرؤوس المتشتتة نسبة ذاكرة تخزين مؤقت أكبر. يوفر هذا النمط غير المتساوي لتركيز الانتباه أساساً نظرياً لتخصيص الميزانية التكيفية.
استراتيجية تخصيص الميزانية التكيفية: تقترح أول استراتيجية تخصيص ميزانية تكيفية على مستوى الرأس Ada-KV، والتي يمكنها ديناميكياً تعديل تخصيص الميزانية وفقاً لأنماط الانتباه الفريدة لكل رأس انتباه
إنشاء إطار نظري: ينشئ إطار نظري لإخلاء الذاكرة المؤقتة، ويحدد خسارة الإخلاء ويشتق حده الأعلى، مما يشرح الأهداف الحسابية للطرق الموجودة ويوجه تصميم Ada-KV
توافقية الإدراج والتشغيل: يتمتع Ada-KV بخاصية الإدراج والتشغيل، مما يتيح التكامل السلس مع طرق إخلاء الذاكرة المؤقتة الموجودة، والحفاظ على الكفاءة الحسابية من خلال نوى CUDA فعالة
التحقق التجريبي الشامل: إجراء تقييم شامل على 29 مجموعة بيانات من Ruler و LongBench، مما يُظهر تحسينات كبيرة في كل من السيناريوهات التي تدرك المشكلة والسيناريوهات التي لا تدرك المشكلة
بالنظر إلى طبقة انتباه متعددة الرؤوس، اختر عناصر ذاكرة التخزين المؤقت KV المراد الاحتفاظ بها ضمن قيود الميزانية، بحيث يتم تقليل الخسارة بين مخرجات الانتباه بعد الإخلاء والمخرجات الأصلية.
استخدم المقاييس المناسبة حسب نوع المهمة: درجة F1 (مهام الإجابة على الأسئلة)، Rouge-L (مهام التلخيص)، الدقة (مهام التصنيف)، تشابه التحرير (مهام الأكواد)
معايير معالجة التسلسلات الطويلة (Ruler, LongBench وغيرها)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة حققت توازناً جيداً بين المساهمات النظرية والقيمة العملية. طريقة Ada-KV بسيطة وفعالة، والتحليل النظري صارم، والتحقق التجريبي شامل. لا تحل الورقة فقط قيوداً مهمة في الطرق الموجودة، بل توفر أيضاً إطار عمل واتجاهات قيمة للأبحاث المستقبلية.