2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG : Repenser le Décodage basé sur RAG

Informations Fondamentales

ID de l'article : 2509.01092
Titre : REFRAG: Rethinking RAG based Decoding
Auteurs : Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
Institutions : Meta Superintelligence Labs, National University of Singapore, Rice University
Classification : cs.CL cs.AI cs.LG
Date de publication : 14 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2509.01092

Résumé

Les grands modèles de langage (LLMs) ont démontré une capacité remarquable à exploiter les connaissances externes pour améliorer les réponses dans les applications de génération augmentée par récupération (RAG) et les conversations multi-tours. Cependant, le traitement des entrées de contexte long introduit une latence système significative et nécessite une mémoire considérable pour le cache clé-valeur, créant un compromis fondamental entre la richesse des connaissances et l'efficacité du système. Cet article propose REFRAG, un cadre de décodage efficace qui améliore la latence dans les applications RAG par compression, perception et expansion. En exploitant la structure de parcimonie de l'attention, nous avons réalisé une accélération du délai jusqu'au premier mot (TTFT) de 30,85 fois (améliorant les travaux antérieurs de 3,75 fois), sans perte de perplexité. De plus, ce cadre d'optimisation permet à REFRAG d'étendre la taille du contexte des LLMs de 16 fois.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Goulot d'étranglement d'efficacité du traitement du contexte long : Les systèmes RAG font face à des surcharges de calcul et de mémoire significatives lors du traitement du contexte long, avec une croissance quadratique de la latence TTFT, affectant gravement l'expérience utilisateur.
Spécificité des scénarios RAG : Le contexte dans RAG est principalement composé de passages récupérés concaténés, dont seule une petite partie est directement pertinente pour la requête. En raison de la diversité et des opérations de déduplication, la similarité sémantique entre ces passages est faible, conduisant à des motifs d'attention bloc-diagonale.
Redondance de calcul : Les méthodes existantes traitent RAG comme un problème générique de contexte long, ignorant la structure d'attention parcimonieuse spécifique à RAG, entraînant des calculs inutiles considérables.

Motivation de la Recherche

Besoins d'efficacité : Demande urgente de débit élevé et de faible latence pour les applications à l'échelle du Web
Optimisation des ressources : Réduction de la consommation mémoire et des surcharges de calcul, amélioration de la scalabilité du système
Maintien des performances : Préservation des performances du modèle tout en améliorant considérablement l'efficacité

Contributions Principales

Proposition du cadre REFRAG : Premier cadre de décodage efficace spécialement conçu pour les applications RAG, supportant la compression et l'expansion du contexte à des positions arbitraires
Technique de compression par plongement de bloc : Utilisation d'embeddings de bloc précomputés pour remplacer les tokens originaux, réalisant une optimisation significative de la latence et de la mémoire
Stratégie de compression sélective : Réseau de politique basé sur l'apprentissage par renforcement décidant dynamiquement quels blocs maintenir sous forme originale
Améliorations de performance remarquables : Accélération TTFT de 30,85 fois, extension de la fenêtre de contexte de 16 fois, sans perte de performance
Validation étendue : Vérification de l'efficacité sur plusieurs tâches incluant RAG, conversations multi-tours et résumé de longs documents

Détails de la Méthode

Définition de la Tâche

Étant donné une séquence d'entrée contenant T tokens x₁, x₂, ..., xₜ, où les q premiers tokens constituent l'entrée principale (par exemple, une question) et les s tokens suivants constituent le contexte (par exemple, des passages récupérés), satisfaisant q + s = T. L'objectif est de générer efficacement une réponse tout en minimisant la latence TTFT et l'utilisation mémoire.

Architecture du Modèle

Conception Globale

REFRAG adopte une architecture encodeur-décodeur :

Décodeur : Modèle de base decoder-only basé sur LLaMA
Encodeur : Modèle RoBERTa léger pour traiter les blocs de contexte
Couche de projection : Mappage des embeddings de bloc vers l'espace des tokens du décodeur

Composants Principaux

Génération d'Embeddings de Bloc

Segmentation du contexte : {C₁, C₂, ..., Cₗ}, où L = s/k
Embeddings de bloc : cᵢ = Mₑₙc(Cᵢ)
Embeddings projetés : eᶜⁿᵏᵢ = φ(cᵢ)

Traitement d'Entrée Hybride Entrée du décodeur : {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} Ratio de compression : ≈ réduction de k fois
Mécanisme de Compression Sélective
- Réseau de politique RL πθ décidant quels blocs rester non compressés
- Sélection séquencée basée sur les embeddings de bloc et les masques
- Fonction de récompense : perplexité logarithmique négative

Points d'Innovation Technique

Compression à Position Arbitraire : Dépassement de la limitation des méthodes existantes supportant uniquement la compression de préfixe, permettant la compression et l'expansion du contexte à des positions arbitraires
Réutilisation de Précomputation : Les embeddings de bloc peuvent être précomputés et mis en cache, évitant les surcharges de recalcul
Taux de Compression Adaptatif : Ajustement dynamique du taux de compression via la politique RL sans recalcul des embeddings de bloc
Préservation de la Nature Autorégressive : Maintien de la structure causale du décodeur, supportant les conversations multi-tours et les tâches de résumé

Configuration Expérimentale

Ensembles de Données

Préentraînement : Ensemble de données SlimPajama (20B tokens), contenant 50% ArXiv + 50% données de livres
Évaluation : Ensembles de données Book, ArXiv, PG19, Proof-pile
Tâches en aval :
- RAG : 1,1M échantillons, ensembles de données QA couvrant 5 domaines
- Conversations multi-tours : TopiOCQA, ORConvQA, QReCC
- Résumé : Résumé de longs documents ArXiv et PubMed

Métriques d'Évaluation

Métriques d'efficacité : TTFT, TTIT (latence par mot), débit
Métriques de performance : Perplexité, précision, score F1, score ROUGE
Métriques mémoire : Utilisation mémoire du cache KV

Méthodes de Comparaison

Variantes LLaMA : LLaMA-Full Context, LLaMA-No Context, LLaMA-32K
Méthodes existantes : CEPE, REPLUG
Taux de compression différents : REFRAG8, REFRAG16, REFRAG32

Détails d'Implémentation

Modèle de base : LLaMA-2-7B
Encodeur : RoBERTa-Large (355M paramètres)
Stratégie d'entraînement : Apprentissage par curriculum + préchauffage de tâche de reconstruction
Optimiseur : AdamW, taux d'apprentissage maximal 5e-5
Matériel : 8 nœuds × 8 GPU H100

Résultats Expérimentaux

Résultats Principaux

Performance de Latence

À une longueur de contexte de 16K :

Accélération TTFT : 16,53 fois (avec cache), 8,59 fois (sans cache)
Comparé à CEPE : Amélioration TTFT de 2,01 fois (avec cache), 1,04 fois (sans cache)
Avec k=32 : Atteinte d'une accélération TTFT de 30,85 fois, 3,75 fois plus rapide que CEPE

Performance du Modèle

Taux de Compression	ArXiv P2048	Book P2048	PG19 P2048	ProofPile P2048
REFRAG8	1.062	1.844	1.927	0.916
REFRAG16	1.076	1.853	1.938	0.931
CEPE	1.107	1.864	1.964	0.968

REFRAG16 montre une amélioration de perplexité moyenne de 9,3% par rapport à CEPE, tout en réalisant une accélération significative.

Études d'Ablation

Nécessité de l'Apprentissage par Curriculum

Méthode	P16	P32	P128	P2048
Sans apprentissage par curriculum	3.719	3.098	2.272	1.599
Avec apprentissage par curriculum	0.669	0.451	0.230	0.135

L'apprentissage par curriculum est crucial pour le succès de la tâche de reconstruction.

Rôle de la Tâche de Reconstruction

Méthode	P16	P32	P128	P2048
Sans préchauffage de reconstruction	3.272	2.789	2.119	1.544
Avec préchauffage de reconstruction	2.017	1.837	1.632	1.453

Le préentraînement par tâche de reconstruction améliore significativement l'effet du préentraînement continu.

Compression Sélective par RL

À taux de compression égal 8, REFRAG16+RL surpasse toujours REFRAG8, prouvant l'efficacité de la stratégie de compression dynamique.

Performance sur Tâches en Aval

Tâches RAG

Avec un récupérateur fort, sous contrainte de latence égale :

REFRAG 8 passages vs LLaMA 1 passage : amélioration moyenne de 1,22%
Amélioration plus marquée avec récupérateur faible : 1,93%

Conversations Multi-tours

Avec configuration 10 passages, REFRAG surpasse LLaMAFT sur les trois ensembles de données, avec un avantage particulièrement marqué dans les scénarios d'historique de conversation long.

Analyse de Cas

L'article présente des résultats de visualisation d'attention, confirmant que dans les scénarios RAG, les valeurs d'attention entre différents passages sont significativement inférieures à l'attention intra-passage, validant l'hypothèse de parcimonie bloc-diagonale.

Travaux Connexes

Modélisation de Langage Augmentée par Récupération

REALM : Première proposition de préentraînement de modèle de langage masqué augmenté par récupération
RETRO : Utilisation d'attention croisée et préentraînement bout à bout
FiD : Traitement parallèle de passages et concaténation d'états cachés

LLMs Efficaces pour Contexte Long

Attention Compressée : Réduction de la complexité de l'attention mais ne résout pas le problème mémoire
StreamingLLM : Utilisation d'agrégation d'attention pour réduire le cache KV
CEPE : Méthode d'attention croisée, mais limitée à l'application de préfixe

Compression de Transformer

Compressive Transformer : Compression du cache KV mais n'améliore pas TTFT
Compression Récursive : Impossible de précomputer et réutiliser les embeddings

Conclusion et Discussion

Conclusions Principales

Parcimonie Spécifique à RAG : Le motif d'attention bloc-diagonale dans les scénarios RAG offre des opportunités d'optimisation spécialisée
Améliorations d'Efficacité Significatives : Accélération TTFT de 30,85 fois sans perte de performance, prouvant l'efficacité de la méthode
Applicabilité Étendue : Performance excellente sur diverses tâches de contexte long

Limitations

Limite de Taux de Compression : Les expériences montrent une dégradation significative de performance avec k=64, indiquant une limite de compression
Surcharge d'Encodeur : Bien que léger, nécessite toujours un calcul d'encodage supplémentaire
Complexité d'Entraînement : Nécessite apprentissage par curriculum et stratégies d'entraînement multi-étapes

Directions Futures

Taux de Compression Plus Élevés : Exploration de techniques de compression plus efficaces pour dépasser les limites actuelles
Optimisation Bout à Bout : Intégration de la stratégie de compression dans la phase de préentraînement
Extension Multimodale : Extension de la méthode à des scénarios multimodaux comme vision-langage

Évaluation Approfondie

Points Forts

Identification de Problème Précise : Identification précise de la spécificité des scénarios RAG et des opportunités d'optimisation
Conception de Méthode Rationnelle : Conception ingénieuse de compression par embedding de bloc et stratégie sélective
Vérification Expérimentale Complète : Couverture de multiples tâches et études d'ablation détaillées
Valeur Pratique Élevée : Améliorations de performance significatives offrant une valeur d'application importante
Innovation Technique Forte : Points d'innovation marquants incluant compression à position arbitraire et réutilisation de précomputation

Insuffisances

Analyse Théorique Insuffisante : Manque d'analyse théorique des limites de taux de compression
Sélection d'Encodeur : Exploration insuffisante de l'impact de différentes architectures d'encodeur
Dépendances Long Terme : Capacité de traitement du contexte extrêmement long à vérifier
Complexité de Calcul : L'entraînement RL augmente la complexité du système

Impact

Contribution Académique : Ouverture d'une nouvelle direction de recherche pour l'optimisation des systèmes RAG
Valeur Industrielle : Application directe possible aux déploiements RAG à grande échelle
Reproductibilité : Les auteurs s'engagent à ouvrir le code, favorisant la promotion de la méthode

Scénarios Applicables

Recherche Web : Optimisation de latence dans les scénarios de récupération à grande échelle
Questions-Réponses Basées sur Connaissances : Questions-réponses complexes nécessitant l'intégration de multiples fragments de documents
Assistants Intelligents : Gestion du contexte dans les conversations multi-tours
Analyse de Documents : Résumé et analyse de tâches sur longs documents

Références

L'article cite de nombreux travaux connexes, incluant principalement :

Guu et al. (2020) - Préentraînement augmenté par récupération REALM
Borgeaud et al. (2022) - Génération augmentée par récupération à grande échelle RETRO
Yen et al. (2024) - Codage de contexte parallèle CEPE
Touvron et al. (2023) - Modèle de base LLaMA

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante aux goulots d'étranglement d'efficacité des systèmes RAG. La conception de la méthode est rationnelle, la vérification expérimentale complète, la valeur pratique remarquable, apportant une contribution importante au développement du domaine.