2025-11-19T17:22:13.046982

CacheClip: Accelerating RAG with Effective KV Cache Reuse

Yang, Leng, Zeng et al.

Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.

academic

CacheClip: Ускорение RAG с эффективным переиспользованием KV-кэша

Основная информация

ID статьи: 2510.10129
Название: CacheClip: Accelerating RAG with Effective KV Cache Reuse
Авторы: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
Классификация: cs.LG cs.AI
Дата публикации: 14 октября 2025
Ссылка на статью: https://arxiv.org/abs/2510.10129v1

Аннотация

Системы поиск-ориентированной генерации (RAG) сталкиваются с серьёзным узким местом времени до первого токена (TTFT) из-за длинных входных последовательностей. Существующие методы переиспользования KV-кэша сталкиваются с фундаментальным компромиссом: кэширование префиксов требует идентичных префиксов, которые редко встречаются в сценариях RAG, тогда как прямое предварительное вычисление жертвует качеством из-за отсутствия внимания между блоками и повторяющегося эффекта агрегации внимания. В данной работе предлагается фреймворк CacheClip, который достигает быстрого TTFT и высокого качества генерации посредством выбора токенов, управляемого вспомогательной моделью, устранения избыточной агрегации внимания через общие префиксы и стратегии группировки для поддержания локальной согласованности. Эксперименты показывают, что CacheClip сохраняет 94,8% и 85,0% производительности полного внимания на NIAH и LongBench соответственно, достигая ускорения предварительного заполнения до 1,92×.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, с которой сталкиваются системы RAG, — это узкое место времени до первого токена (TTFT). Поскольку требуется обработка большого количества извлечённых блоков документов (обычно 4K-16K токенов), вычисление внимания на этапе предварительного заполнения имеет квадратичную сложность, что приводит к плохому пользовательскому опыту. Например, обработка 200K входных токенов на GPU A100 требует более 20 секунд TTFT.

Ограничения существующих методов

Кэширование префиксов: требует полностью идентичных префиксов, но в сценариях RAG извлечённые блоки часто меняются, что приводит к низкому коэффициенту переиспользования
Прямое предварительное вычисление: независимое вычисление KV-кэша каждого блока с последующей конкатенацией имеет две критические проблемы:
- Отсутствие внимания между блоками, влияющее на кросс-документное рассуждение
- Эффект повторяющейся агрегации внимания, несовместимый с распределением внимания во время обучения
Существующие улучшения:
- APE: решает только проблему агрегации внимания, не может восстановить внимание между блоками
- CacheBlend: выбор токенов на основе ранних слоёв может пропустить критические токены в глубоких слоях

Исследовательская мотивация

Требуется метод, который одновременно значительно ускоряет вывод и сохраняет качество генерации, особенно в сложных задачах RAG, требующих кросс-документного рассуждения.

Основные вклады

Ключевое наблюдение: обнаружено, что распределение внимания в последнем слое небольшой вспомогательной LLM высоко коррелирует с распределением внимания в большой основной модели, что может быть использовано для эффективного определения важных токенов
Фреймворк CacheClip: новый фреймворк, интегрирующий три технологии:
- Выбор токенов, управляемый вспомогательной моделью, для селективного переиспользования KV-кэша
- Устранение избыточной агрегации внимания через общие префиксы
- Стратегии группировки для поддержания локальной согласованности
Повышение производительности: достижение 94,8% и 85,0% производительности полного внимания на NIAH и LongBench соответственно при одновременном ускорении предварительного заполнения на 1,92×
Практический дизайн системы: вспомогательная модель работает на CPU, избегая дополнительных затрат GPU

Подробное описание методов

Определение задачи

Учитывая пользовательский запрос и набор извлечённых блоков документов, цель состоит в минимизации задержки предварительного заполнения при сохранении качества генерации. Входные данные — запрос q и набор блоков документов {D₁, D₂, ..., Dₙ}, выходные данные — высокачественный ответ.

Основные технические компоненты

1. Обработка агрегации внимания

Проблема: независимо обработанные блоки документов имеют эффект агрегации внимания в начале
Решение: добавление общего префикса (например, системной подсказки) к каждому блоку, сохранение только префикса первого блока при конкатенации
Эффект: восстановление глобального распределения внимания, согласованного с обучением

2. Переиндексация позиций

Проблема: повторяющиеся паттерны ID позиций после конкатенации
Решение: переназначение последовательно возрастающих ID позиций
Реализация: переиндексация с [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...] на [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]

3. Выбор токенов, управляемый вспомогательной моделью

Ключевое наблюдение: последний слой небольшой вспомогательной модели (например, SmolLM2-135M) имеет высокую корреляцию с последним слоем большой основной модели (например, Qwen2.5-14B)
Количественная проверка:
- KL-дивергенция: KL-дивергенция между вспомогательной и основной моделью меньше, чем между первым и последним слоями основной модели
- Индекс Жаккара: более высокое перекрытие топ-20% важных токенов
Стратегия выбора:
1. Предварительное вычисление KV-кэша каждого блока во вспомогательной модели
2. Конкатенация блоков с запросом для пакетной обработки
3. Извлечение матрицы внимания последнего слоя, вычисление весов внимания токенов запроса к токенам блока
4. Усреднение по измерению запроса для получения оценки важности каждого токена

4. Стратегия группировки

Мотивация: избежание нарушения полноты контекста разреженным обновлением KV-кэша
Реализация:
- Разделение последовательности на небольшие окна (по умолчанию 8 токенов)
- Если количество выбранных токенов в окне превышает пороговое значение (по умолчанию 5), переиспользование этого окна
- В противном случае пропуск окна для сохранения локальной согласованности контекста

5. Отображение токенов и обновление KV-кэша

Обработка различий в токенизаторах между вспомогательной и основной моделями
Переиспользование KV-кэша выбранных сегментов с сохранением согласованности ID позиций
Селективное перезаписывание соответствующих записей исходного KV-кэша

6. Тонкая настройка вспомогательной модели

Тонкая настройка небольшой вспомогательной модели для повышения точности выбора токенов
Значительно более низкие затраты по сравнению с тонкой настройкой основной модели
Повышение общей производительности CacheClip

Архитектура системы

Вспомогательная модель работает на CPU (использование неиспользуемых ресурсов CPU головного узла)
Поддержка ускорителя Intel AMX для ускорения матричных операций
Параллельное выполнение выбора токенов и загрузки KV-кэша основной модели, скрытие задержки
Поддержка динамической регулировки коэффициента переиспользования во время выполнения

Экспериментальная установка

Наборы данных

RULER: расширенная версия поиска иглы в стоге сена (NIAH) для категории поиска
- Включает 8 сложных вариантов (исключая niah_multikey2/3)
- Длина тестовой последовательности: 8K токенов
- Метрика оценки: средний коэффициент охвата ссылок (ARC)
LongBench: эталон понимания длинного контекста
- Использование наборов данных multifieldqa_zh, 2wikimqa, hotpotqa
- Метрики оценки: ROUGE-L и F1-оценка

Конфигурация экспериментов

Основная модель: Qwen2.5-14B
Вспомогательная модель: SmolLM2-135M (с тонкой настройкой)
Оборудование: NVIDIA L20 GPU + Intel Xeon EMR CPU
Разбиение документов: 1000 токенов с перекрытием 50 токенов

Методы сравнения

Full Attention: полное вычисление внимания (верхняя граница)
Direct Reuse: прямая конкатенация KV-кэша
APE: общие префиксы + регулировка температуры внимания
CacheBlend: селективное переиспользование на основе ранних слоёв

Результаты экспериментов

Основное сравнение производительности

Результаты на наборе данных RULER

CacheClip vs CacheBlend (коэффициент переиспользования 20%):
- Средняя производительность: 94,50% vs 69,94%, улучшение на 35,1%
- На задачах multivalue: 96% vs 42,97%, значительное улучшение
CacheClip vs APE:
- Средняя производительность: 94,50% vs 75,5%, улучшение на 25,2%
Сравнение с Full Attention: сохранение 94,8% производительности

Результаты на наборе данных LongBench

Метод	multifieldqa_zh	2wikimqa	hotpotqa
Full Attention	64,93	54,36	59,71
CacheClip	58,05	42,77	51,32
CacheBlend	57,34	41,08	44,11
APE	59,70	38,34	45,29

Повышение эффективности

Ускорение предварительного заполнения: 1,92× (коэффициент переиспользования 20%)
Разложение задержки:
- Выбор токенов: 0,238s
- Переиспользование: 2,643s
- Прочие затраты: 0,070s
- Общее время: 2,961s vs базовое 5,641s

Анализ абляционных экспериментов

Влияние коэффициента переиспользования

RULER-multivalue: производительность монотонно возрастает с коэффициентом переиспользования, подтверждая эффективность селективного переиспользования
RULER-single2/3: производительность CacheBlend снижается при среднем коэффициенте переиспользования, CacheClip избегает этой проблемы благодаря стратегии группировки

Проверка эффективности вспомогательной модели

Анализ сходства распределения внимания (KL-дивергенция, индекс Жаккара) подтверждает, что небольшая вспомогательная модель эффективно аппроксимирует паттерны внимания большой модели.

Анализ конкретных примеров

В задаче RULER-single2 CacheBlend выдаёт "566362" вместо правильного ответа "5663623", потому что переиспользуются только некоторые токены. Стратегия группировки CacheClip гарантирует, что полные цифры обрабатываются вместе, избегая таких ошибок.

Связанные работы

Управление KV-кэшем

Методы тонкой настройки: Block Attention, TurboRAG, KVLink адаптируются к локальному вниманию через тонкую настройку, но требуют высоких затрат и качественных наборов данных
Калибровка кэша: APE и работы Zhang улучшают согласованность внимания через общие префиксы
Селективное переиспользование: CacheBlend выбирает токены на основе сигналов ранних слоёв, Cache-Craft хранит несколько версий кэша

Определение важных токенов

Методы H2O, Quest, PyramidKV определяют важные токены на этапе декодирования, предоставляя вдохновение для выбора токенов на этапе предварительного заполнения.

Заключение и обсуждение

Основные выводы

CacheClip успешно решает компромисс между эффективностью и качеством в системах RAG
Стратегия выбора токенов, управляемая вспомогательной моделью, эффективна и практична
Стратегия группировки критична для сохранения полноты контекста
Дизайн системы избегает дополнительных затрат GPU, обладая практической ценностью

Ограничения

Текущие эксперименты в основном проверены на последовательностях длиной 8K, производительность на более длинных последовательностях требует дальнейшей проверки
Оптимальная стратегия соответствия между вспомогательной и основной моделями требует дальнейшего исследования
Способность к обобщению на различные области и типы задач требует проверки

Направления будущих исследований

Расширение на более длинные последовательности и различные архитектуры моделей
Оптимизация стратегий выбора и тонкой настройки вспомогательной модели
Исследование алгоритмов динамической регулировки коэффициента переиспользования
Изучение оптимизации системы в многоGPU окружении

Глубокая оценка

Преимущества

Сильная техническая инновативность: идея выбора токенов, управляемая вспомогательной моделью, новаторская с прочной теоретической основой
Полный дизайн экспериментов: охватывает несколько наборов данных, детальные абляционные эксперименты и анализ примеров
Высокая практическая ценность: предоставляет полный план системного дизайна, учитывающий ограничения реального развёртывания
Значительное повышение производительности: достижение почти двукратного ускорения при сохранении высокого качества

Недостатки

Ограниченный диапазон оценки: в основном тестирование на последовательностях длиной 8K, отсутствие проверки на сверхдлинных последовательностях
Затраты на вспомогательную модель: хотя используется CPU, всё ещё добавляет сложность системы
Недостаточная проверка обобщаемости: в основном проверено на конкретной комбинации моделей, кросс-архитектурная обобщаемость неясна

Влияние

Академический вклад: предоставляет новый технический путь для оптимизации систем RAG
Практическая ценность: непосредственно применимо в производственной среде, решает реальные проблемы
Воспроизводимость: ясное описание методов, достаточные детали реализации

Применимые сценарии

Интерактивные приложения RAG, требующие быстрого ответа
Системы RAG с высокой параллельностью
Окружение с ограниченными ресурсами, но требующее сохранения качества
Сложные сценарии запросов, требующие кросс-документного рассуждения

Библиография

Статья цитирует 44 связанные работы, охватывающие оптимизацию вывода LLM, механизмы внимания, системы RAG и другие области, предоставляя прочную теоретическую основу для данной работы.