Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference
Feng, Lv, Cao et al.
Large Language Models have excelled in various domains but face efficiency challenges due to the growing Key-Value (KV) cache required for long-sequence inference. Recent efforts aim to reduce KV cache size by evicting vast non-critical cache elements during runtime while preserving generation quality. However, these methods typically allocate compression budgets uniformly across all attention heads, ignoring the unique attention patterns of each head. In this paper, we establish a theoretical loss upper bound between pre- and post-eviction attention output, explaining the optimization target of prior cache eviction methods, while guiding the optimization of adaptive budget allocation. Base on this, we propose {\it Ada-KV}, the first head-wise adaptive budget allocation strategy. It offers plug-and-play benefits, enabling seamless integration with prior cache eviction methods. Extensive evaluations on 13 datasets from Ruler and 16 datasets from LongBench, all conducted under both question-aware and question-agnostic scenarios, demonstrate substantial quality improvements over existing methods. Our code is available at https://github.com/FFY0/AdaKV.
academic
Ada-KV: 효율적인 LLM 추론을 위한 적응형 예산 할당을 통한 KV 캐시 제거 최적화
대규모 언어 모델(LLMs)은 다양한 분야에서 우수한 성능을 보이지만, 장시간 시퀀스 추론 중 지속적으로 증가하는 Key-Value(KV) 캐시 요구로 인해 효율성 문제에 직면해 있습니다. 최근 연구들은 생성 품질을 유지하면서 런타임 중에 대량의 비필수 캐시 요소를 제거하여 KV 캐시 크기를 줄이고 있습니다. 그러나 이러한 방법들은 일반적으로 모든 주의 헤드 간에 압축 예산을 균등하게 할당하여 각 헤드의 고유한 주의 패턴을 무시합니다. 본 논문은 제거 전후 주의 출력 간의 이론적 손실 상한을 설정하여 기존 캐시 제거 방법의 최적화 목표를 설명하고 적응형 예산 할당 최적화를 지도합니다. 이를 바탕으로 저자들은 첫 번째 헤드 수준 적응형 예산 할당 전략인 Ada-KV를 제안합니다. 이 방법은 플러그 앤 플레이 장점을 가지며 기존 캐시 제거 방법과 원활하게 통합될 수 있습니다.
대규모 언어 모델이 처리하는 시퀀스 길이가 계속 증가함에 따라(예: GPT 128K 지원, Claude3 200K 지원, Gemini-Pro-1.5 2M 토큰 지원), KV 캐시의 메모리 요구량이 기하급수적으로 증가합니다. 8B 파라미터 LLM의 경우, 단일 2M 토큰 시퀀스를 처리하려면 최대 256GB의 캐시가 필요할 수 있으며, 이는 GPU 메모리 효율성과 계산 런타임 효율성에 심각한 영향을 미칩니다.
Llama-3.1-8B-Instruct 모델을 분석함으로써 저자들은 대부분의 주의 헤드가 작은 캐시 비율(예: 상위 5%)만으로도 거의 모든 주의 가중치를 보존할 수 있음을 발견했습니다. 반면 분산된 헤드는 더 큰 캐시 비율이 필요합니다. 이러한 불균등한 주의 집중 패턴은 적응형 예산 할당을 위한 이론적 기초를 제공합니다.
입력: 총 예산 B, 각 헤드 주의 가중치 {A_i}
출력: 할당된 예산 {B_i^*}
1. 모든 헤드의 주의 가중치 연결: A = Cat({A_i})
2. A에서 상위 B개 가중치 선택: Top-k(A, k=B)
3. 각 헤드에서 선택된 가중치 수 계산: {f_i}
4. 할당 예산 설정: {B_i^* = f_i}
종합 평가: 이것은 이론적 기여와 실용적 가치 사이에서 좋은 균형을 이룬 고품질 연구 논문입니다. Ada-KV 방법은 간단하면서도 효과적이며, 이론 분석은 엄격하고 실험 검증은 충분합니다. 논문은 기존 방법의 중요한 한계를 해결할 뿐만 아니라 향후 연구를 위한 귀중한 프레임워크와 방향을 제공합니다.