Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
Les grands modèles de langage (LLMs) ont démontré une capacité remarquable à exploiter les connaissances externes pour améliorer les réponses dans les applications de génération augmentée par récupération (RAG) et les conversations multi-tours. Cependant, le traitement des entrées de contexte long introduit une latence système significative et nécessite une mémoire considérable pour le cache clé-valeur, créant un compromis fondamental entre la richesse des connaissances et l'efficacité du système. Cet article propose REFRAG, un cadre de décodage efficace qui améliore la latence dans les applications RAG par compression, perception et expansion. En exploitant la structure de parcimonie de l'attention, nous avons réalisé une accélération du délai jusqu'au premier mot (TTFT) de 30,85 fois (améliorant les travaux antérieurs de 3,75 fois), sans perte de perplexité. De plus, ce cadre d'optimisation permet à REFRAG d'étendre la taille du contexte des LLMs de 16 fois.
Goulot d'étranglement d'efficacité du traitement du contexte long : Les systèmes RAG font face à des surcharges de calcul et de mémoire significatives lors du traitement du contexte long, avec une croissance quadratique de la latence TTFT, affectant gravement l'expérience utilisateur.
Spécificité des scénarios RAG : Le contexte dans RAG est principalement composé de passages récupérés concaténés, dont seule une petite partie est directement pertinente pour la requête. En raison de la diversité et des opérations de déduplication, la similarité sémantique entre ces passages est faible, conduisant à des motifs d'attention bloc-diagonale.
Redondance de calcul : Les méthodes existantes traitent RAG comme un problème générique de contexte long, ignorant la structure d'attention parcimonieuse spécifique à RAG, entraînant des calculs inutiles considérables.
Proposition du cadre REFRAG : Premier cadre de décodage efficace spécialement conçu pour les applications RAG, supportant la compression et l'expansion du contexte à des positions arbitraires
Technique de compression par plongement de bloc : Utilisation d'embeddings de bloc précomputés pour remplacer les tokens originaux, réalisant une optimisation significative de la latence et de la mémoire
Stratégie de compression sélective : Réseau de politique basé sur l'apprentissage par renforcement décidant dynamiquement quels blocs maintenir sous forme originale
Améliorations de performance remarquables : Accélération TTFT de 30,85 fois, extension de la fenêtre de contexte de 16 fois, sans perte de performance
Validation étendue : Vérification de l'efficacité sur plusieurs tâches incluant RAG, conversations multi-tours et résumé de longs documents
Étant donné une séquence d'entrée contenant T tokens x₁, x₂, ..., xₜ, où les q premiers tokens constituent l'entrée principale (par exemple, une question) et les s tokens suivants constituent le contexte (par exemple, des passages récupérés), satisfaisant q + s = T. L'objectif est de générer efficacement une réponse tout en minimisant la latence TTFT et l'utilisation mémoire.
Compression à Position Arbitraire : Dépassement de la limitation des méthodes existantes supportant uniquement la compression de préfixe, permettant la compression et l'expansion du contexte à des positions arbitraires
Réutilisation de Précomputation : Les embeddings de bloc peuvent être précomputés et mis en cache, évitant les surcharges de recalcul
Taux de Compression Adaptatif : Ajustement dynamique du taux de compression via la politique RL sans recalcul des embeddings de bloc
Préservation de la Nature Autorégressive : Maintien de la structure causale du décodeur, supportant les conversations multi-tours et les tâches de résumé
Avec configuration 10 passages, REFRAG surpasse LLaMAFT sur les trois ensembles de données, avec un avantage particulièrement marqué dans les scénarios d'historique de conversation long.
L'article présente des résultats de visualisation d'attention, confirmant que dans les scénarios RAG, les valeurs d'attention entre différents passages sont significativement inférieures à l'attention intra-passage, validant l'hypothèse de parcimonie bloc-diagonale.
L'article cite de nombreux travaux connexes, incluant principalement :
Guu et al. (2020) - Préentraînement augmenté par récupération REALM
Borgeaud et al. (2022) - Génération augmentée par récupération à grande échelle RETRO
Yen et al. (2024) - Codage de contexte parallèle CEPE
Touvron et al. (2023) - Modèle de base LLaMA
Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante aux goulots d'étranglement d'efficacité des systèmes RAG. La conception de la méthode est rationnelle, la vérification expérimentale complète, la valeur pratique remarquable, apportant une contribution importante au développement du domaine.