Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.
- ID статьи: 2510.10129
- Название: CacheClip: Accelerating RAG with Effective KV Cache Reuse
- Авторы: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
- Классификация: cs.LG cs.AI
- Дата публикации: 14 октября 2025
- Ссылка на статью: https://arxiv.org/abs/2510.10129v1
Системы поиск-ориентированной генерации (RAG) сталкиваются с серьёзным узким местом времени до первого токена (TTFT) из-за длинных входных последовательностей. Существующие методы переиспользования KV-кэша сталкиваются с фундаментальным компромиссом: кэширование префиксов требует идентичных префиксов, которые редко встречаются в сценариях RAG, тогда как прямое предварительное вычисление жертвует качеством из-за отсутствия внимания между блоками и повторяющегося эффекта агрегации внимания. В данной работе предлагается фреймворк CacheClip, который достигает быстрого TTFT и высокого качества генерации посредством выбора токенов, управляемого вспомогательной моделью, устранения избыточной агрегации внимания через общие префиксы и стратегии группировки для поддержания локальной согласованности. Эксперименты показывают, что CacheClip сохраняет 94,8% и 85,0% производительности полного внимания на NIAH и LongBench соответственно, достигая ускорения предварительного заполнения до 1,92×.
Основная проблема, с которой сталкиваются системы RAG, — это узкое место времени до первого токена (TTFT). Поскольку требуется обработка большого количества извлечённых блоков документов (обычно 4K-16K токенов), вычисление внимания на этапе предварительного заполнения имеет квадратичную сложность, что приводит к плохому пользовательскому опыту. Например, обработка 200K входных токенов на GPU A100 требует более 20 секунд TTFT.
- Кэширование префиксов: требует полностью идентичных префиксов, но в сценариях RAG извлечённые блоки часто меняются, что приводит к низкому коэффициенту переиспользования
- Прямое предварительное вычисление: независимое вычисление KV-кэша каждого блока с последующей конкатенацией имеет две критические проблемы:
- Отсутствие внимания между блоками, влияющее на кросс-документное рассуждение
- Эффект повторяющейся агрегации внимания, несовместимый с распределением внимания во время обучения
- Существующие улучшения:
- APE: решает только проблему агрегации внимания, не может восстановить внимание между блоками
- CacheBlend: выбор токенов на основе ранних слоёв может пропустить критические токены в глубоких слоях
Требуется метод, который одновременно значительно ускоряет вывод и сохраняет качество генерации, особенно в сложных задачах RAG, требующих кросс-документного рассуждения.
- Ключевое наблюдение: обнаружено, что распределение внимания в последнем слое небольшой вспомогательной LLM высоко коррелирует с распределением внимания в большой основной модели, что может быть использовано для эффективного определения важных токенов
- Фреймворк CacheClip: новый фреймворк, интегрирующий три технологии:
- Выбор токенов, управляемый вспомогательной моделью, для селективного переиспользования KV-кэша
- Устранение избыточной агрегации внимания через общие префиксы
- Стратегии группировки для поддержания локальной согласованности
- Повышение производительности: достижение 94,8% и 85,0% производительности полного внимания на NIAH и LongBench соответственно при одновременном ускорении предварительного заполнения на 1,92×
- Практический дизайн системы: вспомогательная модель работает на CPU, избегая дополнительных затрат GPU
Учитывая пользовательский запрос и набор извлечённых блоков документов, цель состоит в минимизации задержки предварительного заполнения при сохранении качества генерации. Входные данные — запрос q и набор блоков документов {D₁, D₂, ..., Dₙ}, выходные данные — высокачественный ответ.
- Проблема: независимо обработанные блоки документов имеют эффект агрегации внимания в начале
- Решение: добавление общего префикса (например, системной подсказки) к каждому блоку, сохранение только префикса первого блока при конкатенации
- Эффект: восстановление глобального распределения внимания, согласованного с обучением
- Проблема: повторяющиеся паттерны ID позиций после конкатенации
- Решение: переназначение последовательно возрастающих ID позиций
- Реализация: переиндексация с
[0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...]
на [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]
- Ключевое наблюдение: последний слой небольшой вспомогательной модели (например, SmolLM2-135M) имеет высокую корреляцию с последним слоем большой основной модели (например, Qwen2.5-14B)
- Количественная проверка:
- KL-дивергенция: KL-дивергенция между вспомогательной и основной моделью меньше, чем между первым и последним слоями основной модели
- Индекс Жаккара: более высокое перекрытие топ-20% важных токенов
- Стратегия выбора:
- Предварительное вычисление KV-кэша каждого блока во вспомогательной модели
- Конкатенация блоков с запросом для пакетной обработки
- Извлечение матрицы внимания последнего слоя, вычисление весов внимания токенов запроса к токенам блока
- Усреднение по измерению запроса для получения оценки важности каждого токена
- Мотивация: избежание нарушения полноты контекста разреженным обновлением KV-кэша
- Реализация:
- Разделение последовательности на небольшие окна (по умолчанию 8 токенов)
- Если количество выбранных токенов в окне превышает пороговое значение (по умолчанию 5), переиспользование этого окна
- В противном случае пропуск окна для сохранения локальной согласованности контекста
- Обработка различий в токенизаторах между вспомогательной и основной моделями
- Переиспользование KV-кэша выбранных сегментов с сохранением согласованности ID позиций
- Селективное перезаписывание соответствующих записей исходного KV-кэша
- Тонкая настройка небольшой вспомогательной модели для повышения точности выбора токенов
- Значительно более низкие затраты по сравнению с тонкой настройкой основной модели
- Повышение общей производительности CacheClip
- Вспомогательная модель работает на CPU (использование неиспользуемых ресурсов CPU головного узла)
- Поддержка ускорителя Intel AMX для ускорения матричных операций
- Параллельное выполнение выбора токенов и загрузки KV-кэша основной модели, скрытие задержки
- Поддержка динамической регулировки коэффициента переиспользования во время выполнения
- RULER: расширенная версия поиска иглы в стоге сена (NIAH) для категории поиска
- Включает 8 сложных вариантов (исключая niah_multikey2/3)
- Длина тестовой последовательности: 8K токенов
- Метрика оценки: средний коэффициент охвата ссылок (ARC)
- LongBench: эталон понимания длинного контекста
- Использование наборов данных multifieldqa_zh, 2wikimqa, hotpotqa
- Метрики оценки: ROUGE-L и F1-оценка
- Основная модель: Qwen2.5-14B
- Вспомогательная модель: SmolLM2-135M (с тонкой настройкой)
- Оборудование: NVIDIA L20 GPU + Intel Xeon EMR CPU
- Разбиение документов: 1000 токенов с перекрытием 50 токенов
- Full Attention: полное вычисление внимания (верхняя граница)
- Direct Reuse: прямая конкатенация KV-кэша
- APE: общие префиксы + регулировка температуры внимания
- CacheBlend: селективное переиспользование на основе ранних слоёв
- CacheClip vs CacheBlend (коэффициент переиспользования 20%):
- Средняя производительность: 94,50% vs 69,94%, улучшение на 35,1%
- На задачах multivalue: 96% vs 42,97%, значительное улучшение
- CacheClip vs APE:
- Средняя производительность: 94,50% vs 75,5%, улучшение на 25,2%
- Сравнение с Full Attention: сохранение 94,8% производительности
| Метод | multifieldqa_zh | 2wikimqa | hotpotqa |
|---|
| Full Attention | 64,93 | 54,36 | 59,71 |
| CacheClip | 58,05 | 42,77 | 51,32 |
| CacheBlend | 57,34 | 41,08 | 44,11 |
| APE | 59,70 | 38,34 | 45,29 |
- Ускорение предварительного заполнения: 1,92× (коэффициент переиспользования 20%)
- Разложение задержки:
- Выбор токенов: 0,238s
- Переиспользование: 2,643s
- Прочие затраты: 0,070s
- Общее время: 2,961s vs базовое 5,641s
- RULER-multivalue: производительность монотонно возрастает с коэффициентом переиспользования, подтверждая эффективность селективного переиспользования
- RULER-single2/3: производительность CacheBlend снижается при среднем коэффициенте переиспользования, CacheClip избегает этой проблемы благодаря стратегии группировки
Анализ сходства распределения внимания (KL-дивергенция, индекс Жаккара) подтверждает, что небольшая вспомогательная модель эффективно аппроксимирует паттерны внимания большой модели.
В задаче RULER-single2 CacheBlend выдаёт "566362" вместо правильного ответа "5663623", потому что переиспользуются только некоторые токены. Стратегия группировки CacheClip гарантирует, что полные цифры обрабатываются вместе, избегая таких ошибок.
- Методы тонкой настройки: Block Attention, TurboRAG, KVLink адаптируются к локальному вниманию через тонкую настройку, но требуют высоких затрат и качественных наборов данных
- Калибровка кэша: APE и работы Zhang улучшают согласованность внимания через общие префиксы
- Селективное переиспользование: CacheBlend выбирает токены на основе сигналов ранних слоёв, Cache-Craft хранит несколько версий кэша
Методы H2O, Quest, PyramidKV определяют важные токены на этапе декодирования, предоставляя вдохновение для выбора токенов на этапе предварительного заполнения.
- CacheClip успешно решает компромисс между эффективностью и качеством в системах RAG
- Стратегия выбора токенов, управляемая вспомогательной моделью, эффективна и практична
- Стратегия группировки критична для сохранения полноты контекста
- Дизайн системы избегает дополнительных затрат GPU, обладая практической ценностью
- Текущие эксперименты в основном проверены на последовательностях длиной 8K, производительность на более длинных последовательностях требует дальнейшей проверки
- Оптимальная стратегия соответствия между вспомогательной и основной моделями требует дальнейшего исследования
- Способность к обобщению на различные области и типы задач требует проверки
- Расширение на более длинные последовательности и различные архитектуры моделей
- Оптимизация стратегий выбора и тонкой настройки вспомогательной модели
- Исследование алгоритмов динамической регулировки коэффициента переиспользования
- Изучение оптимизации системы в многоGPU окружении
- Сильная техническая инновативность: идея выбора токенов, управляемая вспомогательной моделью, новаторская с прочной теоретической основой
- Полный дизайн экспериментов: охватывает несколько наборов данных, детальные абляционные эксперименты и анализ примеров
- Высокая практическая ценность: предоставляет полный план системного дизайна, учитывающий ограничения реального развёртывания
- Значительное повышение производительности: достижение почти двукратного ускорения при сохранении высокого качества
- Ограниченный диапазон оценки: в основном тестирование на последовательностях длиной 8K, отсутствие проверки на сверхдлинных последовательностях
- Затраты на вспомогательную модель: хотя используется CPU, всё ещё добавляет сложность системы
- Недостаточная проверка обобщаемости: в основном проверено на конкретной комбинации моделей, кросс-архитектурная обобщаемость неясна
- Академический вклад: предоставляет новый технический путь для оптимизации систем RAG
- Практическая ценность: непосредственно применимо в производственной среде, решает реальные проблемы
- Воспроизводимость: ясное описание методов, достаточные детали реализации
- Интерактивные приложения RAG, требующие быстрого ответа
- Системы RAG с высокой параллельностью
- Окружение с ограниченными ресурсами, но требующее сохранения качества
- Сложные сценарии запросов, требующие кросс-документного рассуждения
Статья цитирует 44 связанные работы, охватывающие оптимизацию вывода LLM, механизмы внимания, системы RAG и другие области, предоставляя прочную теоретическую основу для данной работы.