2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG: Neuüberlegung der RAG-basierten Dekodierung

Grundlegende Informationen

Papier-ID: 2509.01092
Titel: REFRAG: Rethinking RAG based Decoding
Autoren: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
Institutionen: Meta Superintelligence Labs, National University of Singapore, Rice University
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2509.01092

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen hervorragende Fähigkeiten zur Verbesserung von Antworten durch externe Wissensbasis in Multi-Turn-Dialogen und Agenten-Anwendungen wie Retrieval-Augmented Generation (RAG). Die Verarbeitung langer Kontexteingaben führt jedoch zu erheblicher Systemlatenz und erfordert großen Speicher für Key-Value-Caches, was zu reduziertem Durchsatz und einem grundlegenden Kompromiss zwischen Wissensreichtum und Systemeffizienz führt. Dieses Papier präsentiert REFRAG, ein effizientes Dekodierungsframework, das Latenz in RAG-Anwendungen durch Kompression, Wahrnehmung und Erweiterung verbessert. Durch Nutzung der Aufmerksamkeitssparsitätsstruktur wird eine 30,85-fache Beschleunigung der Time-to-First-Token-Latenz (TTFT) erreicht (3,75-fache Verbesserung gegenüber früheren Arbeiten), ohne Perplexitätsverlust. Darüber hinaus ermöglicht das Optimierungsframework REFRAG, die Kontextgröße von LLMs um das 16-fache zu erweitern.

Forschungshintergrund und Motivation

Kernprobleme

Effizienzengpässe bei der Verarbeitung langer Kontexte: RAG-Systeme sehen sich bei der Verarbeitung langer Kontexte mit erheblichen Rechen- und Speicherkosten konfrontiert, wobei die TTFT-Latenz quadratisch wächst und die Benutzererfahrung erheblich beeinträchtigt.
Besonderheiten von RAG-Szenarien: Der Kontext in RAG besteht hauptsächlich aus verketteten abgerufenen Passagen, wobei nur ein kleiner Teil direkt mit der Abfrage relevant ist. Aufgrund von Diversität und Deduplizierungsoperationen ist die semantische Ähnlichkeit zwischen diesen Passagen gering, was zu blockdiagonalen Aufmerksamkeitsmustern führt.
Rechnerische Redundanz: Bestehende Methoden behandeln RAG als generisches Langkontext-Problem und ignorieren die RAG-spezifische Sparsitätsstruktur der Aufmerksamkeit, was zu unnötigen Berechnungen führt.

Forschungsmotivation

Effizienzanforderungen: Dringende Anforderung von Web-Scale-Anwendungen nach hohem Durchsatz und niedriger Latenz
Ressourcenoptimierung: Reduzierung von Speicherverbrauch und Rechenaufwand, Verbesserung der Systemskalierbarkeit
Leistungserhaltung: Beibehaltung der Modellleistung bei gleichzeitiger drastischer Effizienzsteigerung

Kernbeiträge

Präsentation des REFRAG-Frameworks: Erstes spezialisiertes effizientes Dekodierungsframework für RAG-Anwendungen mit Unterstützung für Kontextkompression und -erweiterung an beliebigen Positionen
Block-Embedding-Kompressionstechnik: Verwendung vorberechneter komprimierter Block-Embeddings als Ersatz für ursprüngliche Token, um signifikante Latenz- und Speicheroptimierungen zu erreichen
Selektive Kompressionsstrategie: Auf Reinforcement Learning basierende Richtliniennetzwerk, das dynamisch entscheidet, welche Blöcke in ihrer ursprünglichen Form beibehalten werden müssen
Signifikante Leistungssteigerung: 30,85-fache TTFT-Beschleunigung, 16-fache Kontextfenster-Erweiterung, ohne Leistungsverlust
Umfassende Validierung: Validierung der Wirksamkeit bei RAG, Multi-Turn-Dialogen, Zusammenfassung langer Dokumente und anderen Aufgaben

Methodische Details

Aufgabendefinition

Gegeben eine Eingabesequenz mit T Token x₁, x₂, ..., xₜ, wobei die ersten q Token die Haupteingabe (z. B. Frage) und die nächsten s Token den Kontext (z. B. abgerufene Passagen) darstellen, mit q + s = T. Das Ziel ist die effiziente Antwortgenerierung bei gleichzeitiger Minimierung der TTFT-Latenz und des Speicherverbrauchs.

Modellarchitektur

Gesamtdesign

REFRAG verwendet eine Encoder-Decoder-Architektur:

Decoder: Auf LLaMA basierendes Decoder-Only-Basismodell
Encoder: Leichtgewichtiges RoBERTa-Modell zur Verarbeitung von Kontextblöcken
Projektionsschicht: Abbildung von Block-Embeddings in den Decoder-Token-Raum

Kernkomponenten

Block-Embedding-Generierung

Kontextaufteilung: {C₁, C₂, ..., Cₗ}, wobei L = s/k
Block-Embedding: cᵢ = Mₑₙc(Cᵢ)
Projiziertes Embedding: eᶜⁿᵏᵢ = φ(cᵢ)

Hybrid-Eingabeverarbeitung Decoder-Eingabe: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} Kompressionsverhältnis: ≈ k-fache Reduktion
Selektiver Kompressionsmechanismus
- RL-Richtliniennetzwerk πθ entscheidet, welche Blöcke unkomprimiert bleiben
- Sequenzielle Auswahl basierend auf Block-Embeddings und Masken
- Belohnungsfunktion: Negative Log-Perplexität

Technische Innovationspunkte

Kompression an beliebigen Positionen: Überwindung der Beschränkung bestehender Methoden, die nur Präfixkompression unterstützen, mit Unterstützung für Kompression und Erweiterung an beliebigen Kontextpositionen
Vorberechnete Wiederverwendung: Block-Embeddings können vorberechnet und zwischengespeichert werden, um wiederholte Rechenkosten zu vermeiden
Adaptive Kompressionsrate: Dynamische Anpassung der Kompressionsrate durch RL-Richtlinie ohne Neuberechnung von Block-Embeddings
Beibehaltung der autoregressiven Eigenschaft: Aufrechterhaltung der kausalen Struktur des Decoders mit Unterstützung für Multi-Turn-Dialoge und Zusammenfassungsaufgaben

Experimentelle Einrichtung

Datensätze

Vortraining: SlimPajama-Datensatz (20B Token), bestehend aus 50% ArXiv + 50% Buchdaten
Evaluierung: Book-, ArXiv-, PG19-, Proof-pile-Datensätze
Downstream-Aufgaben:
- RAG: 1,1M Samples, QA-Datensätze über 5 Domänen
- Multi-Turn-Dialog: TopiOCQA, ORConvQA, QReCC
- Zusammenfassung: ArXiv und PubMed lange Dokumentzusammenfassungen

Bewertungsmetriken

Effizienzmetriken: TTFT, TTIT (Token-für-Token-Latenz), Durchsatz
Leistungsmetriken: Perplexität, Genauigkeit, F1-Score, ROUGE-Score
Speichermetriken: KV-Cache-Speicherverbrauch

Vergleichsmethoden

LLaMA-Varianten: LLaMA-Full Context, LLaMA-No Context, LLaMA-32K
Bestehende Methoden: CEPE, REPLUG
Verschiedene Kompressionsraten: REFRAG8, REFRAG16, REFRAG32

Implementierungsdetails

Basismodell: LLaMA-2-7B
Encoder: RoBERTa-Large (355M Parameter)
Trainingsstrategie: Curriculum Learning + Rekonstruktionsaufgaben-Vorwärmung
Optimierer: AdamW, Peak Learning Rate 5e-5
Hardware: 8 Knoten × 8 H100 GPUs

Experimentelle Ergebnisse

Hauptergebnisse

Latenzleistung

Bei 16K Kontextlänge:

TTFT-Beschleunigung: 16,53-fach (mit Cache), 8,59-fach (ohne Cache)
Im Vergleich zu CEPE: TTFT-Verbesserung 2,01-fach (mit Cache), 1,04-fach (ohne Cache)
Bei k=32: Erreicht 30,85-fache TTFT-Beschleunigung, 3,75-fach schneller als CEPE

Modellleistung

Kompressionsrate	ArXiv P2048	Book P2048	PG19 P2048	ProofPile P2048
REFRAG8	1.062	1.844	1.927	0.916
REFRAG16	1.076	1.853	1.938	0.931
CEPE	1.107	1.864	1.964	0.968

REFRAG16 zeigt durchschnittliche Perplexitätsverbesserung von 9,3% gegenüber CEPE bei gleichzeitiger signifikanter Beschleunigung.

Ablationsstudien

Notwendigkeit des Curriculum Learning

Methode	P16	P32	P128	P2048
Ohne Curriculum Learning	3.719	3.098	2.272	1.599
Mit Curriculum Learning	0.669	0.451	0.230	0.135

Curriculum Learning ist für den Erfolg der Rekonstruktionsaufgabe entscheidend.

Rolle der Rekonstruktionsaufgabe

Methode	P16	P32	P128	P2048
Ohne Rekonstruktions-Vorwärmung	3.272	2.789	2.119	1.544
Mit Rekonstruktions-Vorwärmung	2.017	1.837	1.632	1.453

Rekonstruktionsaufgaben-Vortraining verbessert das kontinuierliche Vortraining erheblich.

RL-selektive Kompression

Bei gleicher Kompressionsrate 8 ist REFRAG16+RL konsistent besser als REFRAG8, was die Wirksamkeit der dynamischen Kompressionsstrategie beweist.

Downstream-Task-Leistung

RAG-Aufgaben

Bei starkem Retriever-Setup unter gleicher Latenzeinschränkung:

8-Passage REFRAG vs. 1-Passage LLaMA: Durchschnittliche Verbesserung 1,22%
Schwacher Retriever-Setup zeigt deutlichere Verbesserung: 1,93%

Multi-Turn-Dialog

Bei 10-Passage-Setup ist REFRAG auf allen drei Datensätzen LLaMAFT überlegen, besonders bei langen Dialog-Historien.

Fallstudienanalyse

Das Papier zeigt Aufmerksamkeits-Visualisierungsergebnisse, die bestätigen, dass in RAG-Szenarien die Aufmerksamkeitswerte zwischen verschiedenen Passagen signifikant niedriger sind als innerhalb von Passagen, was die blockdiagonale Sparsitätsannahme validiert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RAG-spezifische Sparsität: Das blockdiagonale Aufmerksamkeitsmuster in RAG-Szenarien bietet Möglichkeiten für spezialisierte Optimierung
Signifikante Effizienzsteigerung: 30,85-fache TTFT-Beschleunigung ohne Leistungsverlust beweist die Wirksamkeit der Methode
Breite Anwendbarkeit: Hervorragende Leistung bei verschiedenen Long-Context-Aufgaben

Einschränkungen

Kompressionsgrenzen: Experimente zeigen signifikante Leistungsabfälle bei k=64, mit existierenden Kompressionsgrenzen
Encoder-Overhead: Obwohl leichtgewichtig, erfordert zusätzliche Encoder-Berechnung
Trainingskomplexität: Erfordert Curriculum Learning und Multi-Stage-Trainingsstrategien

Zukünftige Richtungen

Höhere Kompressionsraten: Erforschung effektiverer Kompressionstechniken zur Überwindung aktueller Grenzen
End-to-End-Optimierung: Integration der Kompressionsstrategie in die Vortrainingsphase
Multimodale Erweiterung: Erweiterung der Methode auf multimodale Szenarien wie Vision-Language

Tiefgreifende Bewertung

Stärken

Präzise Problemidentifikation: Genaue Identifikation der Besonderheiten und Optimierungsmöglichkeiten von RAG-Szenarien
Vernünftiges Methodendesign: Geschicktes Design von Block-Embedding-Kompression und selektiver Strategie
Umfassende experimentelle Validierung: Abdeckung mehrerer Aufgaben und detaillierte Ablationsstudien
Hoher praktischer Wert: Signifikante Leistungssteigerung mit wichtigem Anwendungswert
Starke technische Innovation: Hervorragende Innovationspunkte wie Kompression an beliebigen Positionen und Vorberechnungswiederverwendung

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Kompressionsgrenzen
Encoder-Auswahl: Unzureichende Erforschung der Auswirkungen verschiedener Encoder-Architekturen
Langfristige Abhängigkeiten: Verarbeitungsfähigkeit für extrem lange Kontexte bedarf Validierung
Rechenkomplexität: RL-Training erhöht die Systemkomplexität

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtungen für RAG-Systemoptimierung
Industrieller Wert: Direkt anwendbar auf großmaßstäbliche RAG-Bereitstellung
Reproduzierbarkeit: Autoren versprechen Open-Source-Code, förderlich für Methodenverbreitung

Anwendungsszenarien

Web-Suche: Latenzoptimierung in großmaßstäblichen Abruf-Szenarien
Wissens-QA: Komplexe Frage-Antwort, die Integration mehrerer Dokumentfragmente erfordert
Intelligente Assistenten: Kontextmanagement in Multi-Turn-Dialogen
Dokumentenanalyse: Zusammenfassung und Analyse langer Dokumente

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Guu et al. (2020) - REALM Retrieval-Augmented Pretraining
Borgeaud et al. (2022) - RETRO großmaßstäbliche Retrieval-Augmented Generation
Yen et al. (2024) - CEPE Parallel Context Encoding
Touvron et al. (2023) - LLaMA Basismodelle

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für Effizienzengpässe in RAG-Systemen präsentiert. Das Methodendesign ist vernünftig, die experimentelle Validierung umfassend, der praktische Wert hervorragend und leistet wichtige Beiträge zur Entwicklung dieses Feldes.