2025-11-19T17:22:13.046982

CacheClip: Accelerating RAG with Effective KV Cache Reuse

Yang, Leng, Zeng et al.

Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.

academic

CacheClip: Accelerating RAG with Effective KV Cache Reuse

基本信息

论文ID: 2510.10129
标题: CacheClip: Accelerating RAG with Effective KV Cache Reuse
作者: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
分类: cs.LG cs.AI
发表时间: October 14, 2025
论文链接: https://arxiv.org/abs/2510.10129v1

摘要

检索增强生成（RAG）系统由于长输入序列导致严重的首token时间（TTFT）瓶颈。现有的KV缓存复用方法面临根本性权衡：前缀缓存需要相同前缀但在RAG场景中很少出现，而直接预计算由于缺失块间注意力和重复注意力汇聚而牺牲质量。本文提出CacheClip框架，通过辅助模型引导的token选择、共享前缀消除冗余注意力汇聚、以及分组策略维护局部一致性，实现快速TTFT和高生成质量。实验显示CacheClip在NIAH和LongBench上分别保持94.8%和85.0%的全注意力性能，在预填充时间上实现高达1.92×的加速。

研究背景与动机

问题定义

RAG系统面临的核心问题是首token时间（TTFT）瓶颈。由于需要处理大量检索到的文档块（通常4K-16K tokens），预填充阶段的注意力计算呈二次复杂度，导致用户体验差。例如，在A100 GPU上处理200K输入tokens需要超过20秒的TTFT。

现有方法局限性

前缀缓存：要求完全相同的前缀，但RAG场景中检索块经常变化，实际复用率低
直接预计算：独立计算各块KV缓存后拼接，存在两个关键问题：
- 缺失块间注意力，影响跨文档推理
- 重复注意力汇聚效应，与训练时注意力分布不匹配
现有改进方法：
- APE：仅解决注意力汇聚问题，无法恢复跨块注意力
- CacheBlend：基于早期层选择token，可能遗漏深层关键token

研究动机

需要一种既能显著加速推理又能保持生成质量的方法，特别是在需要跨文档推理的复杂RAG任务中。

核心贡献

关键观察：发现小型辅助LLM的最后层注意力分布与大型主模型高度相似，可用于高效识别重要token
CacheClip框架：集成三种技术的新框架：
- 辅助模型引导的token选择进行选择性KV缓存重计算
- 共享前缀消除冗余注意力汇聚
- 分组策略维护局部一致性
性能提升：在NIAH和LongBench上分别达到94.8%和85.0%的全注意力性能，同时实现1.92×预填充加速
实用系统设计：辅助模型运行在CPU上，避免额外GPU开销

方法详解

任务定义

给定用户查询和检索到的文档块集合，目标是在保持生成质量的前提下最小化预填充延迟。输入为查询q和文档块集合{D₁, D₂, ..., Dₙ}，输出为高质量响应。

核心技术组件

1. 注意力汇聚处理

问题：独立处理的文档块在开头都有注意力汇聚效应
解决方案：为每个块添加共享前缀（如系统提示），拼接时只保留第一个块的前缀
效果：恢复与训练时一致的全局注意力分布

2. 位置ID重排

问题：拼接后位置ID出现重复模式
解决方案：重新分配连续递增的位置ID
实现：从 [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...] 重排为 [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]

3. 辅助模型引导的Token选择

核心洞察：小型辅助模型（如SmolLM2-135M）的最后层注意力与大型主模型（如Qwen2.5-14B）高度相似
量化验证：
- KL散度：辅助模型与主模型最后层的KL散度 < 主模型第一层与最后层的KL散度
- Jaccard指数：top-20%重要token的重叠度更高
选择策略：
1. 预计算各块在辅助模型中的KV缓存
2. 将块与查询拼接进行批处理
3. 提取最后层注意力矩阵，计算查询token对块token的注意力权重
4. 对查询维度平均得到每个token的重要性分数

4. 分组策略

动机：避免稀疏KV缓存更新破坏上下文完整性
实现：
- 将序列划分为小窗口（默认8个token）
- 若窗口内选中token数超过阈值（默认5个），则重计算该窗口
- 否则跳过该窗口，保持局部上下文一致性

5. Token映射和KV缓存更新

处理辅助模型和主模型间的tokenizer差异
重计算选定段落的KV缓存，保持位置ID一致性
选择性覆写原始KV缓存对应条目

6. 辅助模型微调

微调小型辅助模型提升token选择准确性
相比微调主模型成本极低
提升CacheClip整体性能

系统架构设计

辅助模型运行在CPU上（利用闲置的头节点CPU资源）
支持Intel AMX加速器加速矩阵运算
Token选择与主模型KV缓存加载并行，隐藏延迟
支持运行时动态调整重计算比例

实验设置

数据集

RULER：检索类别的针中找针（NIAH）扩展版本
- 包含8个挑战性变体（排除niah_multikey2/3）
- 测试序列长度：8K tokens
- 评价指标：平均参考覆盖率（ARC）
LongBench：长上下文理解基准
- 使用multifieldqa_zh、2wikimqa、hotpotqa数据集
- 评价指标：ROUGE-L和F1分数

实验配置

主模型：Qwen2.5-14B
辅助模型：SmolLM2-135M（经微调）
硬件：NVIDIA L20 GPU + Intel Xeon EMR CPU
文档分块：1000 tokens，50 tokens重叠

对比方法

Full Attention：完整注意力计算（上界）
Direct Reuse：直接拼接KV缓存
APE：共享前缀 + 注意力温度调节
CacheBlend：基于早期层的选择性重计算

实验结果

主要性能对比

RULER数据集结果

CacheClip vs CacheBlend（重计算比例20%）：
- 平均性能：94.50% vs 69.94%，提升35.1%
- 在multivalue任务上：96% vs 42.97%，提升显著
CacheClip vs APE：
- 平均性能：94.50% vs 75.5%，提升25.2%
与Full Attention对比：保持94.8%性能