Retrieval-Augmented Generation (RAG) systems suffer from severe time-to-first-token (TTFT) bottlenecks due to long input sequences. Existing KV cache reuse methods face a fundamental trade-off: prefix caching requires identical prefixes that rarely occur in RAG scenarios, while direct precomputation sacrifices quality due to missing inter-chunk attention and repeated attention sinks. Recent methods like APE and CacheBlend partially address these issues but remain inadequate for robust RAG applications. This paper presents CacheClip, a novel framework that achieves both fast TTFT and high generation quality. Our key insight is that small auxiliary LLMs exhibit similar last-layer attention distributions to primary LLMs (the target model for generation), enabling efficient identification of tokens critical for restoring inter-chunk attention, thereby significantly improving response quality on cross-chunk reasoning tasks. CacheClip integrates three techniques: (1) auxiliary-model-guided token selection for selective KV cache recomputation, where the auxiliary model is finetuned to improve selection accuracy, (2) shared prefixes to eliminate redundant attention sinks, and (3) grouping strategy to maintain local coherence during partial KV cache updates. Experiments show CacheClip retains up to 94.8% and 85.0% of full-attention performance on NIAH and LongBench, outperforming APE and CacheBlend by 25.2% and 35.1% on NIAH (with reomp% = 20%). Meanwhile, CacheClip accelerates LLM inference by up to 1.92x in prefill time, providing a practical solution to the efficiency-quality trade-off in RAG systems.
- ID del Artículo: 2510.10129
- Título: CacheClip: Accelerating RAG with Effective KV Cache Reuse
- Autores: Bin Yang, Qiuyu Leng, Jun Zeng, Zhenhua Wu (Intel Corporation)
- Clasificación: cs.LG cs.AI
- Fecha de Publicación: 14 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.10129v1
Los sistemas de generación aumentada por recuperación (RAG) enfrentan un grave cuello de botella en el tiempo del primer token (TTFT) debido a secuencias de entrada largas. Los métodos existentes de reutilización de caché KV presentan un compromiso fundamental: el almacenamiento en caché de prefijos requiere prefijos idénticos pero raramente ocurren en escenarios RAG, mientras que la precomputación directa sacrifica calidad debido a la falta de atención entre bloques y a la agregación de atención repetida. Este artículo propone el marco CacheClip, que logra TTFT rápido y alta calidad de generación mediante selección de tokens guiada por modelo auxiliar, eliminación de prefijos compartidos para redundancia de atención, y estrategia de agrupación para mantener consistencia local. Los experimentos muestran que CacheClip mantiene el 94.8% y 85.0% del rendimiento de atención completa en NIAH y LongBench respectivamente, logrando una aceleración de hasta 1.92× en tiempo de prefill.
El problema central que enfrentan los sistemas RAG es el cuello de botella del tiempo del primer token (TTFT). Debido a la necesidad de procesar grandes cantidades de bloques de documentos recuperados (típicamente 4K-16K tokens), el cálculo de atención en la fase de prefill presenta complejidad cuadrática, resultando en una experiencia de usuario deficiente. Por ejemplo, procesar 200K tokens de entrada en una GPU A100 requiere más de 20 segundos de TTFT.
- Almacenamiento en caché de prefijos: Requiere prefijos completamente idénticos, pero los bloques recuperados cambian frecuentemente en escenarios RAG, resultando en baja tasa de reutilización práctica
- Precomputación directa: Calcula independientemente cachés KV de cada bloque y luego los concatena, presentando dos problemas clave:
- Falta de atención entre bloques, afectando el razonamiento entre documentos
- Efecto de agregación de atención repetida, sin coincidencia con la distribución de atención durante el entrenamiento
- Métodos de mejora existentes:
- APE: Solo resuelve el problema de agregación de atención, no puede recuperar atención entre bloques
- CacheBlend: Selecciona tokens basándose en capas tempranas, posiblemente omitiendo tokens clave en capas profundas
Se necesita un método que pueda acelerar significativamente la inferencia mientras mantiene la calidad de generación, particularmente en tareas RAG complejas que requieren razonamiento entre documentos.
- Observación Clave: Se descubre que la distribución de atención de la última capa de un LLM auxiliar pequeño es altamente similar a la del modelo principal grande, pudiendo usarse para identificar eficientemente tokens importantes
- Marco CacheClip: Nuevo marco que integra tres técnicas:
- Selección de tokens guiada por modelo auxiliar para recomputación selectiva de caché KV
- Eliminación de prefijos compartidos para redundancia de atención
- Estrategia de agrupación para mantener consistencia local
- Mejora de Rendimiento: Alcanza 94.8% y 85.0% del rendimiento de atención completa en NIAH y LongBench respectivamente, mientras logra aceleración de prefill de 1.92×
- Diseño de Sistema Práctico: El modelo auxiliar se ejecuta en CPU, evitando gastos adicionales de GPU
Dado una consulta del usuario y un conjunto de bloques de documentos recuperados, el objetivo es minimizar la latencia de prefill manteniendo la calidad de generación. La entrada consiste en consulta q y conjunto de bloques de documentos {D₁, D₂, ..., Dₙ}, y la salida es una respuesta de alta calidad.
- Problema: Los bloques de documentos procesados independientemente presentan efecto de agregación de atención al inicio
- Solución: Agregar prefijo compartido a cada bloque (como indicación del sistema), manteniendo solo el prefijo del primer bloque al concatenar
- Efecto: Restaura la distribución de atención global consistente con el entrenamiento
- Problema: Los ID de posición después de concatenación presentan patrones repetidos
- Solución: Reasignar ID de posición incrementales consecutivos
- Implementación: De
[0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+1,...]
reordenado a [0,1,2,...,sink_size,sink_size+1,...,sink_size+chunk1_size,sink_size+chunk1_size+1,...]
- Perspectiva Central: La atención de la última capa de un modelo auxiliar pequeño (como SmolLM2-135M) es altamente similar a la del modelo principal grande (como Qwen2.5-14B)
- Verificación Cuantitativa:
- Divergencia KL: Divergencia KL entre modelo auxiliar y última capa del modelo principal < divergencia KL entre primera y última capa del modelo principal
- Índice Jaccard: Mayor superposición de tokens importantes top-20%
- Estrategia de Selección:
- Precomputar cachés KV de cada bloque en el modelo auxiliar
- Concatenar bloques con consulta para procesamiento por lotes
- Extraer matriz de atención de última capa, calcular pesos de atención de tokens de consulta sobre tokens de bloque
- Promediar sobre dimensión de consulta para obtener puntuación de importancia de cada token
- Motivación: Evitar que actualizaciones de caché KV dispersas rompan la integridad del contexto
- Implementación:
- Dividir secuencia en ventanas pequeñas (8 tokens por defecto)
- Si el número de tokens seleccionados en ventana excede umbral (5 por defecto), recomputar esa ventana
- De lo contrario, omitir ventana, manteniendo consistencia de contexto local
- Manejar diferencias de tokenizador entre modelo auxiliar y modelo principal
- Recomputar cachés KV de segmentos seleccionados, manteniendo consistencia de ID de posición
- Sobrescribir selectivamente entradas de caché KV original
- Ajuste fino del modelo auxiliar pequeño para mejorar precisión de selección de tokens
- Costo extremadamente bajo comparado con ajuste fino del modelo principal
- Mejora rendimiento general de CacheClip
- Modelo auxiliar se ejecuta en CPU (aprovechando recursos CPU ociosos del nodo principal)
- Soporte para acelerador Intel AMX para operaciones matriciales
- Selección de tokens paralela con carga de caché KV del modelo principal, ocultando latencia
- Soporte para ajuste dinámico en tiempo de ejecución de proporción de recomputación
- RULER: Versión extendida de aguja en pajar (NIAH) de categoría recuperación
- Incluye 8 variantes desafiantes (excluyendo niah_multikey2/3)
- Longitud de secuencia de prueba: 8K tokens
- Métrica de evaluación: Cobertura de Referencia Promedio (ARC)
- LongBench: Referencia de comprensión de contexto largo
- Utiliza conjuntos de datos multifieldqa_zh, 2wikimqa, hotpotqa
- Métrica de evaluación: Puntuación ROUGE-L y F1
- Modelo Principal: Qwen2.5-14B
- Modelo Auxiliar: SmolLM2-135M (ajustado fino)
- Hardware: GPU NVIDIA L20 + CPU Intel Xeon EMR
- Fragmentación de Documentos: 1000 tokens, superposición de 50 tokens
- Atención Completa: Cálculo de atención completa (límite superior)
- Reutilización Directa: Concatenación directa de caché KV
- APE: Prefijo compartido + ajuste de temperatura de atención
- CacheBlend: Recomputación selectiva basada en capas tempranas
- CacheClip vs CacheBlend (proporción de recomputación 20%):
- Rendimiento promedio: 94.50% vs 69.94%, mejora de 35.1%
- En tarea multivalue: 96% vs 42.97%, mejora significativa
- CacheClip vs APE:
- Rendimiento promedio: 94.50% vs 75.5%, mejora de 25.2%
- Comparación con Atención Completa: Mantiene rendimiento de 94.8%
| Método | multifieldqa_zh | 2wikimqa | hotpotqa |
|---|
| Atención Completa | 64.93 | 54.36 | 59.71 |
| CacheClip | 58.05 | 42.77 | 51.32 |
| CacheBlend | 57.34 | 41.08 | 44.11 |
| APE | 59.70 | 38.34 | 45.29 |
- Aceleración de Prefill: 1.92× (proporción de recomputación 20%)
- Descomposición de Latencia:
- Selección de tokens: 0.238s
- Recomputación: 2.643s
- Otros gastos: 0.070s
- Tiempo total: 2.961s vs línea base 5.641s
- RULER-multivalue: Rendimiento aumenta monótonamente con proporción de recomputación, verificando efectividad de recomputación selectiva
- RULER-single2/3: Rendimiento de CacheBlend disminuye en proporción de recomputación media, CacheClip evita este problema mediante estrategia de agrupación
Se verifica mediante análisis de similitud de distribución de atención (divergencia KL, índice Jaccard) que el modelo auxiliar pequeño puede aproximar efectivamente patrones de atención del modelo grande.
En tarea RULER-single2, CacheBlend produce "566362" en lugar de respuesta correcta "5663623", porque solo parte de los tokens fueron recomputados. La estrategia de agrupación de CacheClip asegura que dígitos completos se procesen juntos, evitando tales errores.
- Métodos de Ajuste Fino: Block Attention, TurboRAG, KVLink se adaptan a atención local mediante ajuste fino, pero con alto costo y requieren conjuntos de datos de alta calidad
- Calibración de Caché: APE y Zhang mejoran consistencia de atención mediante prefijos compartidos
- Recomputación Selectiva: CacheBlend selecciona tokens basándose en señales de capas tempranas, Cache-Craft almacena múltiples versiones de caché
Métodos H2O, Quest, PyramidKV identifican tokens importantes en fase de decodificación, proporcionando inspiración para selección de tokens en fase de prefill.
- CacheClip resuelve exitosamente el compromiso entre eficiencia y calidad en sistemas RAG
- La estrategia de selección de tokens guiada por modelo auxiliar es efectiva y eficiente
- La estrategia de agrupación es crucial para mantener integridad de contexto
- El diseño del sistema evita gastos adicionales de GPU, teniendo valor práctico
- Los experimentos actuales se verifican principalmente en longitud de secuencia de 8K, el rendimiento en secuencias más largas requiere verificación adicional
- La estrategia óptima de coincidencia entre modelo auxiliar y modelo principal aún necesita exploración
- La capacidad de generalización en diferentes dominios y tipos de tareas requiere verificación
- Extensión a secuencias más largas y más arquitecturas de modelos
- Optimización de estrategia de selección y ajuste fino del modelo auxiliar
- Exploración de algoritmos de ajuste dinámico de proporción de recomputación
- Investigación de optimización de sistema en entorno multi-GPU
- Innovación Técnica Fuerte: La idea de selección de tokens guiada por modelo auxiliar es novedosa, con base teórica sólida
- Diseño Experimental Completo: Abarca múltiples conjuntos de datos, experimentos de ablación detallados y análisis de casos
- Alto Valor Práctico: Proporciona solución de diseño de sistema completa, considerando restricciones de despliegue real
- Mejora de Rendimiento Significativa: Logra aceleración de casi 2 veces manteniendo alta calidad
- Rango de Evaluación Limitado: Pruebas principalmente en secuencias de 8K, falta verificación de secuencias ultra-largas
- Gastos del Modelo Auxiliar: Aunque usa CPU, aún aumenta complejidad del sistema
- Verificación de Generalización Insuficiente: Verificación principalmente en combinación de modelos específica, generalización entre arquitecturas no clara
- Contribución Académica: Proporciona nueva ruta técnica para optimización de sistemas RAG
- Valor Práctico: Directamente aplicable a entorno de producción, resuelve dolor real
- Reproducibilidad: Descripción de método clara, detalles de implementación suficientes
- Aplicaciones RAG interactivas que requieren respuesta rápida
- Sistemas de servicio RAG de alta concurrencia
- Entorno de despliegue con recursos limitados pero requiriendo mantener calidad
- Escenarios de consulta compleja que requieren razonamiento entre documentos
El artículo cita 44 trabajos relacionados, cubriendo múltiples campos incluyendo optimización de inferencia de LLM, mecanismos de atención, sistemas RAG, etc., proporcionando base teórica sólida para este trabajo.