2025-11-19T17:22:13.046982

CacheClip: Accelerating RAG with Effective KV Cache Reuse

Yang, Leng, Zeng et al.

Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.

academic

CacheClip: RAGの効率的なKVキャッシュ再利用による高速化

基本情報

論文ID: 2510.10129
タイトル: CacheClip: Accelerating RAG with Effective KV Cache Reuse
著者: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
分類: cs.LG cs.AI
発表日: 2025年10月14日
論文リンク: https://arxiv.org/abs/2510.10129v1

要約

検索拡張生成（RAG）システムは、長い入力シーケンスに起因する深刻な初トークン時間（TTFT）のボトルネックに直面している。既存のKVキャッシュ再利用方法は根本的なトレードオフに直面している：プリフィックスキャッシングは同一プリフィックスを必要とするが、RAGシナリオではめったに発生しない一方、直接事前計算はブロック間注意力の欠落と重複注意力集約により品質を損なう。本論文はCacheClipフレームワークを提案し、補助モデル誘導トークン選択、共有プリフィックス冗長注意力集約除去、およびグループ化戦略による局所一貫性維持を通じて、高速TTFTと高い生成品質を実現する。実験結果は、CacheClipがNIAHおよびLongBenchでそれぞれ94.8%および85.0%の全注意力性能を維持しながら、プリフィル時間で最大1.92倍の高速化を達成することを示している。

研究背景と動機

問題定義

RAGシステムが直面する中核的な問題は初トークン時間（TTFT）のボトルネックである。大量の検索済みドキュメントブロック（通常4K～16Kトークン）を処理する必要があるため、プリフィル段階の注意力計算は二次計算量を示し、ユーザー体験が低下する。例えば、A100 GPUで200Kの入力トークンを処理するには20秒以上のTTFTが必要である。

既存手法の限界

プリフィックスキャッシング：完全に同一のプリフィックスを必要とするが、RAGシナリオでは検索ブロックが頻繁に変化し、実際の再利用率は低い
直接事前計算：各ブロックのKVキャッシュを独立して計算した後に連結するが、2つの重要な問題が存在する：
- ブロック間注意力の欠落により、ドキュメント間推論に影響
- 重複注意力集約効果により、訓練時の注意力分布と不一致
既存の改善手法：
- APE：注意力集約問題のみを解決し、ブロック間注意力を復元できない
- CacheBlend：初期層に基づくトークン選択により、深層の重要トークンを見落とす可能性

研究動機

推論を大幅に高速化しながら生成品質を維持する方法が必要であり、特にドキュメント間推論が必要な複雑なRAGタスクにおいて重要である。

核心的貢献

重要な観察：小型補助LLMの最後層の注意力分布が大型主モデルと高度に類似しており、重要トークンの効率的な識別に使用できることを発見
CacheClipフレームワーク：3つの技術を統合した新しいフレームワーク：
- 補助モデル誘導トークン選択による選択的KVキャッシュ再計算
- 共有プリフィックスによる冗長注意力集約の除去
- 局所一貫性を維持するグループ化戦略
性能向上：NIAHおよびLongBenchでそれぞれ94.8%および85.0%の全注意力性能を達成しながら、1.92倍のプリフィル高速化を実現
実用的なシステム設計：補助モデルはCPU上で実行され、追加のGPUオーバーヘッドを回避

方法の詳細

タスク定義

ユーザークエリと検索済みドキュメントブロックのセットが与えられた場合、生成品質を維持しながらプリフィル遅延を最小化することが目標である。入力はクエリqとドキュメントブロックセット{D₁, D₂, ..., Dₙ}であり、出力は高品質な応答である。

核心的な技術コンポーネント

1. 注意力集約処理

問題：独立して処理されたドキュメントブロックは開始時に注意力集約効果を示す
解決策：各ブロックに共有プリフィックス（システムプロンプトなど）を追加し、連結時には最初のブロックのプリフィックスのみを保持
効果：訓練時と一貫したグローバル注意力分布を復元

2. 位置ID再割り当て

問題：連結後の位置IDに重複パターンが出現
解決策：連続的に増加する位置IDを再割り当て
実装：[0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...]から [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]に再割り当て

3. 補助モデル誘導トークン選択

核心的洞察：小型補助モデル（SmolLM2-135Mなど）の最後層の注意力が大型主モデル（Qwen2.5-14Bなど）と高度に類似している
定量的検証：
- KL発散：補助モデルと主モデルの最後層のKL発散 < 主モデルの初期層と最後層のKL発散
- Jaccard指数：上位20%の重要トークンのオーバーラップがより高い
選択戦略：
1. 各ブロックの補助モデルにおけるKVキャッシュを事前計算
2. ブロックとクエリを連結してバッチ処理
3. 最後層の注意力行列を抽出し、クエリトークンのブロックトークンに対する注意力重みを計算
4. クエリ次元で平均化して各トークンの重要度スコアを取得

4. グループ化戦略

動機：スパースKVキャッシュ更新がコンテキスト完全性を破壊するのを回避
実装：
- シーケンスを小さなウィンドウ（デフォルト8トークン）に分割
- ウィンドウ内の選択トークン数が閾値（デフォルト5個）を超える場合、そのウィンドウを再計算
- そうでない場合はウィンドウをスキップし、局所コンテキストの一貫性を維持

5. トークンマッピングとKVキャッシュ更新

補助モデルと主モデル間のトークナイザー差異を処理
選択されたセグメントのKVキャッシュを再計算し、位置IDの一貫性を維持
元のKVキャッシュの対応するエントリを選択的に上書き

6. 補助モデルの微調整

小型補助モデルを微調整してトークン選択精度を向上
主モデルの微調整と比較してコストは極めて低い
CacheClipの全体的性能を向上

システムアーキテクチャ設計

補助モデルはCPU上で実行（ヘッドノードCPUの遊休リソースを活用）
Intel AMX加速器による行列演算の高速化に対応
トークン選択と主モデルKVキャッシュ読み込みの並列実行により遅延を隠蔽
実行時の動的な再計算比率調整に対応

実験設定

データセット

RULER：検索カテゴリの針の中から針を探す（NIAH）拡張版
- 8つの挑戦的なバリエーション（niah_multikey2/3を除外）を含む
- テストシーケンス長：8Kトークン
- 評価指標：平均参照カバレッジ（ARC）
LongBench：長コンテキスト理解ベンチマーク
- multifieldqa_zh、2wikimqa、hotpotqaデータセットを使用
- 評価指標：ROUGE-LおよびF1スコア

実験構成

主モデル：Qwen2.5-14B
補助モデル：SmolLM2-135M（微調整済み）
ハードウェア：NVIDIA L20 GPU + Intel Xeon EMR CPU
ドキュメント分割：1000トークン、50トークンのオーバーラップ

比較手法

Full Attention：完全注意力計算（上限値）
Direct Reuse：KVキャッシュの直接連結
APE：共有プリフィックス + 注意力温度調節
CacheBlend：初期層に基づく選択的再計算

実験結果

主要性能比較

RULERデータセット結果

CacheClip vs CacheBlend（再計算比率20%）：
- 平均性能：94.50% vs 69.94%、35.1%向上
- multivalueタスク上：96% vs 42.97%、顕著な向上
CacheClip vs APE：
- 平均性能：94.50% vs 75.5%、25.2%向上
Full Attentionとの比較：94.8%の性能を維持