2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic

REFRAG: Neuüberlegung der RAG-basierten Dekodierung

Grundlegende Informationen

  • Papier-ID: 2509.01092
  • Titel: REFRAG: Rethinking RAG based Decoding
  • Autoren: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
  • Institutionen: Meta Superintelligence Labs, National University of Singapore, Rice University
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2509.01092

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen hervorragende Fähigkeiten zur Verbesserung von Antworten durch externe Wissensbasis in Multi-Turn-Dialogen und Agenten-Anwendungen wie Retrieval-Augmented Generation (RAG). Die Verarbeitung langer Kontexteingaben führt jedoch zu erheblicher Systemlatenz und erfordert großen Speicher für Key-Value-Caches, was zu reduziertem Durchsatz und einem grundlegenden Kompromiss zwischen Wissensreichtum und Systemeffizienz führt. Dieses Papier präsentiert REFRAG, ein effizientes Dekodierungsframework, das Latenz in RAG-Anwendungen durch Kompression, Wahrnehmung und Erweiterung verbessert. Durch Nutzung der Aufmerksamkeitssparsitätsstruktur wird eine 30,85-fache Beschleunigung der Time-to-First-Token-Latenz (TTFT) erreicht (3,75-fache Verbesserung gegenüber früheren Arbeiten), ohne Perplexitätsverlust. Darüber hinaus ermöglicht das Optimierungsframework REFRAG, die Kontextgröße von LLMs um das 16-fache zu erweitern.

Forschungshintergrund und Motivation

Kernprobleme

  1. Effizienzengpässe bei der Verarbeitung langer Kontexte: RAG-Systeme sehen sich bei der Verarbeitung langer Kontexte mit erheblichen Rechen- und Speicherkosten konfrontiert, wobei die TTFT-Latenz quadratisch wächst und die Benutzererfahrung erheblich beeinträchtigt.
  2. Besonderheiten von RAG-Szenarien: Der Kontext in RAG besteht hauptsächlich aus verketteten abgerufenen Passagen, wobei nur ein kleiner Teil direkt mit der Abfrage relevant ist. Aufgrund von Diversität und Deduplizierungsoperationen ist die semantische Ähnlichkeit zwischen diesen Passagen gering, was zu blockdiagonalen Aufmerksamkeitsmustern führt.
  3. Rechnerische Redundanz: Bestehende Methoden behandeln RAG als generisches Langkontext-Problem und ignorieren die RAG-spezifische Sparsitätsstruktur der Aufmerksamkeit, was zu unnötigen Berechnungen führt.

Forschungsmotivation

  • Effizienzanforderungen: Dringende Anforderung von Web-Scale-Anwendungen nach hohem Durchsatz und niedriger Latenz
  • Ressourcenoptimierung: Reduzierung von Speicherverbrauch und Rechenaufwand, Verbesserung der Systemskalierbarkeit
  • Leistungserhaltung: Beibehaltung der Modellleistung bei gleichzeitiger drastischer Effizienzsteigerung

Kernbeiträge

  1. Präsentation des REFRAG-Frameworks: Erstes spezialisiertes effizientes Dekodierungsframework für RAG-Anwendungen mit Unterstützung für Kontextkompression und -erweiterung an beliebigen Positionen
  2. Block-Embedding-Kompressionstechnik: Verwendung vorberechneter komprimierter Block-Embeddings als Ersatz für ursprüngliche Token, um signifikante Latenz- und Speicheroptimierungen zu erreichen
  3. Selektive Kompressionsstrategie: Auf Reinforcement Learning basierende Richtliniennetzwerk, das dynamisch entscheidet, welche Blöcke in ihrer ursprünglichen Form beibehalten werden müssen
  4. Signifikante Leistungssteigerung: 30,85-fache TTFT-Beschleunigung, 16-fache Kontextfenster-Erweiterung, ohne Leistungsverlust
  5. Umfassende Validierung: Validierung der Wirksamkeit bei RAG, Multi-Turn-Dialogen, Zusammenfassung langer Dokumente und anderen Aufgaben

Methodische Details

Aufgabendefinition

Gegeben eine Eingabesequenz mit T Token x₁, x₂, ..., xₜ, wobei die ersten q Token die Haupteingabe (z. B. Frage) und die nächsten s Token den Kontext (z. B. abgerufene Passagen) darstellen, mit q + s = T. Das Ziel ist die effiziente Antwortgenerierung bei gleichzeitiger Minimierung der TTFT-Latenz und des Speicherverbrauchs.

Modellarchitektur

Gesamtdesign

REFRAG verwendet eine Encoder-Decoder-Architektur:

  • Decoder: Auf LLaMA basierendes Decoder-Only-Basismodell
  • Encoder: Leichtgewichtiges RoBERTa-Modell zur Verarbeitung von Kontextblöcken
  • Projektionsschicht: Abbildung von Block-Embeddings in den Decoder-Token-Raum

Kernkomponenten

  1. Block-Embedding-Generierung
    Kontextaufteilung: {C₁, C₂, ..., Cₗ}, wobei L = s/k
    Block-Embedding: cᵢ = Mₑₙc(Cᵢ)
    Projiziertes Embedding: eᶜⁿᵏᵢ = φ(cᵢ)
    
  2. Hybrid-Eingabeverarbeitung Decoder-Eingabe: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} Kompressionsverhältnis: ≈ k-fache Reduktion
  3. Selektiver Kompressionsmechanismus
    • RL-Richtliniennetzwerk πθ entscheidet, welche Blöcke unkomprimiert bleiben
    • Sequenzielle Auswahl basierend auf Block-Embeddings und Masken
    • Belohnungsfunktion: Negative Log-Perplexität

Technische Innovationspunkte

  1. Kompression an beliebigen Positionen: Überwindung der Beschränkung bestehender Methoden, die nur Präfixkompression unterstützen, mit Unterstützung für Kompression und Erweiterung an beliebigen Kontextpositionen
  2. Vorberechnete Wiederverwendung: Block-Embeddings können vorberechnet und zwischengespeichert werden, um wiederholte Rechenkosten zu vermeiden
  3. Adaptive Kompressionsrate: Dynamische Anpassung der Kompressionsrate durch RL-Richtlinie ohne Neuberechnung von Block-Embeddings
  4. Beibehaltung der autoregressiven Eigenschaft: Aufrechterhaltung der kausalen Struktur des Decoders mit Unterstützung für Multi-Turn-Dialoge und Zusammenfassungsaufgaben

Experimentelle Einrichtung

Datensätze

  • Vortraining: SlimPajama-Datensatz (20B Token), bestehend aus 50% ArXiv + 50% Buchdaten
  • Evaluierung: Book-, ArXiv-, PG19-, Proof-pile-Datensätze
  • Downstream-Aufgaben:
    • RAG: 1,1M Samples, QA-Datensätze über 5 Domänen
    • Multi-Turn-Dialog: TopiOCQA, ORConvQA, QReCC
    • Zusammenfassung: ArXiv und PubMed lange Dokumentzusammenfassungen

Bewertungsmetriken

  • Effizienzmetriken: TTFT, TTIT (Token-für-Token-Latenz), Durchsatz
  • Leistungsmetriken: Perplexität, Genauigkeit, F1-Score, ROUGE-Score
  • Speichermetriken: KV-Cache-Speicherverbrauch

Vergleichsmethoden

  • LLaMA-Varianten: LLaMA-Full Context, LLaMA-No Context, LLaMA-32K
  • Bestehende Methoden: CEPE, REPLUG
  • Verschiedene Kompressionsraten: REFRAG8, REFRAG16, REFRAG32

Implementierungsdetails

  • Basismodell: LLaMA-2-7B
  • Encoder: RoBERTa-Large (355M Parameter)
  • Trainingsstrategie: Curriculum Learning + Rekonstruktionsaufgaben-Vorwärmung
  • Optimierer: AdamW, Peak Learning Rate 5e-5
  • Hardware: 8 Knoten × 8 H100 GPUs

Experimentelle Ergebnisse

Hauptergebnisse

Latenzleistung

Bei 16K Kontextlänge:

  • TTFT-Beschleunigung: 16,53-fach (mit Cache), 8,59-fach (ohne Cache)
  • Im Vergleich zu CEPE: TTFT-Verbesserung 2,01-fach (mit Cache), 1,04-fach (ohne Cache)
  • Bei k=32: Erreicht 30,85-fache TTFT-Beschleunigung, 3,75-fach schneller als CEPE

Modellleistung

KompressionsrateArXiv P2048Book P2048PG19 P2048ProofPile P2048
REFRAG81.0621.8441.9270.916
REFRAG161.0761.8531.9380.931
CEPE1.1071.8641.9640.968

REFRAG16 zeigt durchschnittliche Perplexitätsverbesserung von 9,3% gegenüber CEPE bei gleichzeitiger signifikanter Beschleunigung.

Ablationsstudien

Notwendigkeit des Curriculum Learning

MethodeP16P32P128P2048
Ohne Curriculum Learning3.7193.0982.2721.599
Mit Curriculum Learning0.6690.4510.2300.135

Curriculum Learning ist für den Erfolg der Rekonstruktionsaufgabe entscheidend.

Rolle der Rekonstruktionsaufgabe

MethodeP16P32P128P2048
Ohne Rekonstruktions-Vorwärmung3.2722.7892.1191.544
Mit Rekonstruktions-Vorwärmung2.0171.8371.6321.453

Rekonstruktionsaufgaben-Vortraining verbessert das kontinuierliche Vortraining erheblich.

RL-selektive Kompression

Bei gleicher Kompressionsrate 8 ist REFRAG16+RL konsistent besser als REFRAG8, was die Wirksamkeit der dynamischen Kompressionsstrategie beweist.

Downstream-Task-Leistung

RAG-Aufgaben

Bei starkem Retriever-Setup unter gleicher Latenzeinschränkung:

  • 8-Passage REFRAG vs. 1-Passage LLaMA: Durchschnittliche Verbesserung 1,22%
  • Schwacher Retriever-Setup zeigt deutlichere Verbesserung: 1,93%

Multi-Turn-Dialog

Bei 10-Passage-Setup ist REFRAG auf allen drei Datensätzen LLaMAFT überlegen, besonders bei langen Dialog-Historien.

Fallstudienanalyse

Das Papier zeigt Aufmerksamkeits-Visualisierungsergebnisse, die bestätigen, dass in RAG-Szenarien die Aufmerksamkeitswerte zwischen verschiedenen Passagen signifikant niedriger sind als innerhalb von Passagen, was die blockdiagonale Sparsitätsannahme validiert.

Verwandte Arbeiten

Retrieval-Augmented Language Modeling

  • REALM: Erste Einführung von Retrieval-Augmented Masked Language Model Pretraining
  • RETRO: Verwendung von Cross-Attention und End-to-End-Pretraining
  • FiD: Parallele Verarbeitung von Passagen und Verkettung von Hidden States

Effiziente Long-Context LLMs

  • Compressed Attention: Reduzierung der Aufmerksamkeitskomplexität, aber nicht des Speicherproblems
  • StreamingLLM: Verwendung von Attention Sink zur Reduzierung des KV-Cache
  • CEPE: Cross-Attention-Methode, aber auf Präfix-Anwendung beschränkt

Komprimierte Transformer

  • Compressive Transformer: Komprimierung des KV-Cache, aber keine TTFT-Verbesserung
  • Rekursive Kompression: Keine Vorberechnung und Wiederverwendung von Embeddings möglich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RAG-spezifische Sparsität: Das blockdiagonale Aufmerksamkeitsmuster in RAG-Szenarien bietet Möglichkeiten für spezialisierte Optimierung
  2. Signifikante Effizienzsteigerung: 30,85-fache TTFT-Beschleunigung ohne Leistungsverlust beweist die Wirksamkeit der Methode
  3. Breite Anwendbarkeit: Hervorragende Leistung bei verschiedenen Long-Context-Aufgaben

Einschränkungen

  1. Kompressionsgrenzen: Experimente zeigen signifikante Leistungsabfälle bei k=64, mit existierenden Kompressionsgrenzen
  2. Encoder-Overhead: Obwohl leichtgewichtig, erfordert zusätzliche Encoder-Berechnung
  3. Trainingskomplexität: Erfordert Curriculum Learning und Multi-Stage-Trainingsstrategien

Zukünftige Richtungen

  1. Höhere Kompressionsraten: Erforschung effektiverer Kompressionstechniken zur Überwindung aktueller Grenzen
  2. End-to-End-Optimierung: Integration der Kompressionsstrategie in die Vortrainingsphase
  3. Multimodale Erweiterung: Erweiterung der Methode auf multimodale Szenarien wie Vision-Language

Tiefgreifende Bewertung

Stärken

  1. Präzise Problemidentifikation: Genaue Identifikation der Besonderheiten und Optimierungsmöglichkeiten von RAG-Szenarien
  2. Vernünftiges Methodendesign: Geschicktes Design von Block-Embedding-Kompression und selektiver Strategie
  3. Umfassende experimentelle Validierung: Abdeckung mehrerer Aufgaben und detaillierte Ablationsstudien
  4. Hoher praktischer Wert: Signifikante Leistungssteigerung mit wichtigem Anwendungswert
  5. Starke technische Innovation: Hervorragende Innovationspunkte wie Kompression an beliebigen Positionen und Vorberechnungswiederverwendung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Kompressionsgrenzen
  2. Encoder-Auswahl: Unzureichende Erforschung der Auswirkungen verschiedener Encoder-Architekturen
  3. Langfristige Abhängigkeiten: Verarbeitungsfähigkeit für extrem lange Kontexte bedarf Validierung
  4. Rechenkomplexität: RL-Training erhöht die Systemkomplexität

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtungen für RAG-Systemoptimierung
  2. Industrieller Wert: Direkt anwendbar auf großmaßstäbliche RAG-Bereitstellung
  3. Reproduzierbarkeit: Autoren versprechen Open-Source-Code, förderlich für Methodenverbreitung

Anwendungsszenarien

  1. Web-Suche: Latenzoptimierung in großmaßstäblichen Abruf-Szenarien
  2. Wissens-QA: Komplexe Frage-Antwort, die Integration mehrerer Dokumentfragmente erfordert
  3. Intelligente Assistenten: Kontextmanagement in Multi-Turn-Dialogen
  4. Dokumentenanalyse: Zusammenfassung und Analyse langer Dokumente

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Guu et al. (2020) - REALM Retrieval-Augmented Pretraining
  • Borgeaud et al. (2022) - RETRO großmaßstäbliche Retrieval-Augmented Generation
  • Yen et al. (2024) - CEPE Parallel Context Encoding
  • Touvron et al. (2023) - LLaMA Basismodelle

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für Effizienzengpässe in RAG-Systemen präsentiert. Das Methodendesign ist vernünftig, die experimentelle Validierung umfassend, der praktische Wert hervorragend und leistet wichtige Beiträge zur Entwicklung dieses Feldes.