2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic

REFRAG : Repenser le Décodage basé sur RAG

Informations Fondamentales

  • ID de l'article : 2509.01092
  • Titre : REFRAG: Rethinking RAG based Decoding
  • Auteurs : Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
  • Institutions : Meta Superintelligence Labs, National University of Singapore, Rice University
  • Classification : cs.CL cs.AI cs.LG
  • Date de publication : 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2509.01092

Résumé

Les grands modèles de langage (LLMs) ont démontré une capacité remarquable à exploiter les connaissances externes pour améliorer les réponses dans les applications de génération augmentée par récupération (RAG) et les conversations multi-tours. Cependant, le traitement des entrées de contexte long introduit une latence système significative et nécessite une mémoire considérable pour le cache clé-valeur, créant un compromis fondamental entre la richesse des connaissances et l'efficacité du système. Cet article propose REFRAG, un cadre de décodage efficace qui améliore la latence dans les applications RAG par compression, perception et expansion. En exploitant la structure de parcimonie de l'attention, nous avons réalisé une accélération du délai jusqu'au premier mot (TTFT) de 30,85 fois (améliorant les travaux antérieurs de 3,75 fois), sans perte de perplexité. De plus, ce cadre d'optimisation permet à REFRAG d'étendre la taille du contexte des LLMs de 16 fois.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

  1. Goulot d'étranglement d'efficacité du traitement du contexte long : Les systèmes RAG font face à des surcharges de calcul et de mémoire significatives lors du traitement du contexte long, avec une croissance quadratique de la latence TTFT, affectant gravement l'expérience utilisateur.
  2. Spécificité des scénarios RAG : Le contexte dans RAG est principalement composé de passages récupérés concaténés, dont seule une petite partie est directement pertinente pour la requête. En raison de la diversité et des opérations de déduplication, la similarité sémantique entre ces passages est faible, conduisant à des motifs d'attention bloc-diagonale.
  3. Redondance de calcul : Les méthodes existantes traitent RAG comme un problème générique de contexte long, ignorant la structure d'attention parcimonieuse spécifique à RAG, entraînant des calculs inutiles considérables.

Motivation de la Recherche

  • Besoins d'efficacité : Demande urgente de débit élevé et de faible latence pour les applications à l'échelle du Web
  • Optimisation des ressources : Réduction de la consommation mémoire et des surcharges de calcul, amélioration de la scalabilité du système
  • Maintien des performances : Préservation des performances du modèle tout en améliorant considérablement l'efficacité

Contributions Principales

  1. Proposition du cadre REFRAG : Premier cadre de décodage efficace spécialement conçu pour les applications RAG, supportant la compression et l'expansion du contexte à des positions arbitraires
  2. Technique de compression par plongement de bloc : Utilisation d'embeddings de bloc précomputés pour remplacer les tokens originaux, réalisant une optimisation significative de la latence et de la mémoire
  3. Stratégie de compression sélective : Réseau de politique basé sur l'apprentissage par renforcement décidant dynamiquement quels blocs maintenir sous forme originale
  4. Améliorations de performance remarquables : Accélération TTFT de 30,85 fois, extension de la fenêtre de contexte de 16 fois, sans perte de performance
  5. Validation étendue : Vérification de l'efficacité sur plusieurs tâches incluant RAG, conversations multi-tours et résumé de longs documents

Détails de la Méthode

Définition de la Tâche

Étant donné une séquence d'entrée contenant T tokens x₁, x₂, ..., xₜ, où les q premiers tokens constituent l'entrée principale (par exemple, une question) et les s tokens suivants constituent le contexte (par exemple, des passages récupérés), satisfaisant q + s = T. L'objectif est de générer efficacement une réponse tout en minimisant la latence TTFT et l'utilisation mémoire.

Architecture du Modèle

Conception Globale

REFRAG adopte une architecture encodeur-décodeur :

  • Décodeur : Modèle de base decoder-only basé sur LLaMA
  • Encodeur : Modèle RoBERTa léger pour traiter les blocs de contexte
  • Couche de projection : Mappage des embeddings de bloc vers l'espace des tokens du décodeur

Composants Principaux

  1. Génération d'Embeddings de Bloc
    Segmentation du contexte : {C₁, C₂, ..., Cₗ}, où L = s/k
    Embeddings de bloc : cᵢ = Mₑₙc(Cᵢ)
    Embeddings projetés : eᶜⁿᵏᵢ = φ(cᵢ)
    
  2. Traitement d'Entrée Hybride Entrée du décodeur : {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} Ratio de compression : ≈ réduction de k fois
  3. Mécanisme de Compression Sélective
    • Réseau de politique RL πθ décidant quels blocs rester non compressés
    • Sélection séquencée basée sur les embeddings de bloc et les masques
    • Fonction de récompense : perplexité logarithmique négative

Points d'Innovation Technique

  1. Compression à Position Arbitraire : Dépassement de la limitation des méthodes existantes supportant uniquement la compression de préfixe, permettant la compression et l'expansion du contexte à des positions arbitraires
  2. Réutilisation de Précomputation : Les embeddings de bloc peuvent être précomputés et mis en cache, évitant les surcharges de recalcul
  3. Taux de Compression Adaptatif : Ajustement dynamique du taux de compression via la politique RL sans recalcul des embeddings de bloc
  4. Préservation de la Nature Autorégressive : Maintien de la structure causale du décodeur, supportant les conversations multi-tours et les tâches de résumé

Configuration Expérimentale

Ensembles de Données

  • Préentraînement : Ensemble de données SlimPajama (20B tokens), contenant 50% ArXiv + 50% données de livres
  • Évaluation : Ensembles de données Book, ArXiv, PG19, Proof-pile
  • Tâches en aval :
    • RAG : 1,1M échantillons, ensembles de données QA couvrant 5 domaines
    • Conversations multi-tours : TopiOCQA, ORConvQA, QReCC
    • Résumé : Résumé de longs documents ArXiv et PubMed

Métriques d'Évaluation

  • Métriques d'efficacité : TTFT, TTIT (latence par mot), débit
  • Métriques de performance : Perplexité, précision, score F1, score ROUGE
  • Métriques mémoire : Utilisation mémoire du cache KV

Méthodes de Comparaison

  • Variantes LLaMA : LLaMA-Full Context, LLaMA-No Context, LLaMA-32K
  • Méthodes existantes : CEPE, REPLUG
  • Taux de compression différents : REFRAG8, REFRAG16, REFRAG32

Détails d'Implémentation

  • Modèle de base : LLaMA-2-7B
  • Encodeur : RoBERTa-Large (355M paramètres)
  • Stratégie d'entraînement : Apprentissage par curriculum + préchauffage de tâche de reconstruction
  • Optimiseur : AdamW, taux d'apprentissage maximal 5e-5
  • Matériel : 8 nœuds × 8 GPU H100

Résultats Expérimentaux

Résultats Principaux

Performance de Latence

À une longueur de contexte de 16K :

  • Accélération TTFT : 16,53 fois (avec cache), 8,59 fois (sans cache)
  • Comparé à CEPE : Amélioration TTFT de 2,01 fois (avec cache), 1,04 fois (sans cache)
  • Avec k=32 : Atteinte d'une accélération TTFT de 30,85 fois, 3,75 fois plus rapide que CEPE

Performance du Modèle

Taux de CompressionArXiv P2048Book P2048PG19 P2048ProofPile P2048
REFRAG81.0621.8441.9270.916
REFRAG161.0761.8531.9380.931
CEPE1.1071.8641.9640.968

REFRAG16 montre une amélioration de perplexité moyenne de 9,3% par rapport à CEPE, tout en réalisant une accélération significative.

Études d'Ablation

Nécessité de l'Apprentissage par Curriculum

MéthodeP16P32P128P2048
Sans apprentissage par curriculum3.7193.0982.2721.599
Avec apprentissage par curriculum0.6690.4510.2300.135

L'apprentissage par curriculum est crucial pour le succès de la tâche de reconstruction.

Rôle de la Tâche de Reconstruction

MéthodeP16P32P128P2048
Sans préchauffage de reconstruction3.2722.7892.1191.544
Avec préchauffage de reconstruction2.0171.8371.6321.453

Le préentraînement par tâche de reconstruction améliore significativement l'effet du préentraînement continu.

Compression Sélective par RL

À taux de compression égal 8, REFRAG16+RL surpasse toujours REFRAG8, prouvant l'efficacité de la stratégie de compression dynamique.

Performance sur Tâches en Aval

Tâches RAG

Avec un récupérateur fort, sous contrainte de latence égale :

  • REFRAG 8 passages vs LLaMA 1 passage : amélioration moyenne de 1,22%
  • Amélioration plus marquée avec récupérateur faible : 1,93%

Conversations Multi-tours

Avec configuration 10 passages, REFRAG surpasse LLaMAFT sur les trois ensembles de données, avec un avantage particulièrement marqué dans les scénarios d'historique de conversation long.

Analyse de Cas

L'article présente des résultats de visualisation d'attention, confirmant que dans les scénarios RAG, les valeurs d'attention entre différents passages sont significativement inférieures à l'attention intra-passage, validant l'hypothèse de parcimonie bloc-diagonale.

Travaux Connexes

Modélisation de Langage Augmentée par Récupération

  • REALM : Première proposition de préentraînement de modèle de langage masqué augmenté par récupération
  • RETRO : Utilisation d'attention croisée et préentraînement bout à bout
  • FiD : Traitement parallèle de passages et concaténation d'états cachés

LLMs Efficaces pour Contexte Long

  • Attention Compressée : Réduction de la complexité de l'attention mais ne résout pas le problème mémoire
  • StreamingLLM : Utilisation d'agrégation d'attention pour réduire le cache KV
  • CEPE : Méthode d'attention croisée, mais limitée à l'application de préfixe

Compression de Transformer

  • Compressive Transformer : Compression du cache KV mais n'améliore pas TTFT
  • Compression Récursive : Impossible de précomputer et réutiliser les embeddings

Conclusion et Discussion

Conclusions Principales

  1. Parcimonie Spécifique à RAG : Le motif d'attention bloc-diagonale dans les scénarios RAG offre des opportunités d'optimisation spécialisée
  2. Améliorations d'Efficacité Significatives : Accélération TTFT de 30,85 fois sans perte de performance, prouvant l'efficacité de la méthode
  3. Applicabilité Étendue : Performance excellente sur diverses tâches de contexte long

Limitations

  1. Limite de Taux de Compression : Les expériences montrent une dégradation significative de performance avec k=64, indiquant une limite de compression
  2. Surcharge d'Encodeur : Bien que léger, nécessite toujours un calcul d'encodage supplémentaire
  3. Complexité d'Entraînement : Nécessite apprentissage par curriculum et stratégies d'entraînement multi-étapes

Directions Futures

  1. Taux de Compression Plus Élevés : Exploration de techniques de compression plus efficaces pour dépasser les limites actuelles
  2. Optimisation Bout à Bout : Intégration de la stratégie de compression dans la phase de préentraînement
  3. Extension Multimodale : Extension de la méthode à des scénarios multimodaux comme vision-langage

Évaluation Approfondie

Points Forts

  1. Identification de Problème Précise : Identification précise de la spécificité des scénarios RAG et des opportunités d'optimisation
  2. Conception de Méthode Rationnelle : Conception ingénieuse de compression par embedding de bloc et stratégie sélective
  3. Vérification Expérimentale Complète : Couverture de multiples tâches et études d'ablation détaillées
  4. Valeur Pratique Élevée : Améliorations de performance significatives offrant une valeur d'application importante
  5. Innovation Technique Forte : Points d'innovation marquants incluant compression à position arbitraire et réutilisation de précomputation

Insuffisances

  1. Analyse Théorique Insuffisante : Manque d'analyse théorique des limites de taux de compression
  2. Sélection d'Encodeur : Exploration insuffisante de l'impact de différentes architectures d'encodeur
  3. Dépendances Long Terme : Capacité de traitement du contexte extrêmement long à vérifier
  4. Complexité de Calcul : L'entraînement RL augmente la complexité du système

Impact

  1. Contribution Académique : Ouverture d'une nouvelle direction de recherche pour l'optimisation des systèmes RAG
  2. Valeur Industrielle : Application directe possible aux déploiements RAG à grande échelle
  3. Reproductibilité : Les auteurs s'engagent à ouvrir le code, favorisant la promotion de la méthode

Scénarios Applicables

  1. Recherche Web : Optimisation de latence dans les scénarios de récupération à grande échelle
  2. Questions-Réponses Basées sur Connaissances : Questions-réponses complexes nécessitant l'intégration de multiples fragments de documents
  3. Assistants Intelligents : Gestion du contexte dans les conversations multi-tours
  4. Analyse de Documents : Résumé et analyse de tâches sur longs documents

Références

L'article cite de nombreux travaux connexes, incluant principalement :

  • Guu et al. (2020) - Préentraînement augmenté par récupération REALM
  • Borgeaud et al. (2022) - Génération augmentée par récupération à grande échelle RETRO
  • Yen et al. (2024) - Codage de contexte parallèle CEPE
  • Touvron et al. (2023) - Modèle de base LLaMA

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant une solution innovante aux goulots d'étranglement d'efficacité des systèmes RAG. La conception de la méthode est rationnelle, la vérification expérimentale complète, la valeur pratique remarquable, apportant une contribution importante au développement du domaine.