Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic
REFRAG: Neuüberlegung der RAG-basierten Dekodierung
Große Sprachmodelle (LLMs) zeigen hervorragende Fähigkeiten zur Verbesserung von Antworten durch externe Wissensbasis in Multi-Turn-Dialogen und Agenten-Anwendungen wie Retrieval-Augmented Generation (RAG). Die Verarbeitung langer Kontexteingaben führt jedoch zu erheblicher Systemlatenz und erfordert großen Speicher für Key-Value-Caches, was zu reduziertem Durchsatz und einem grundlegenden Kompromiss zwischen Wissensreichtum und Systemeffizienz führt. Dieses Papier präsentiert REFRAG, ein effizientes Dekodierungsframework, das Latenz in RAG-Anwendungen durch Kompression, Wahrnehmung und Erweiterung verbessert. Durch Nutzung der Aufmerksamkeitssparsitätsstruktur wird eine 30,85-fache Beschleunigung der Time-to-First-Token-Latenz (TTFT) erreicht (3,75-fache Verbesserung gegenüber früheren Arbeiten), ohne Perplexitätsverlust. Darüber hinaus ermöglicht das Optimierungsframework REFRAG, die Kontextgröße von LLMs um das 16-fache zu erweitern.
Effizienzengpässe bei der Verarbeitung langer Kontexte: RAG-Systeme sehen sich bei der Verarbeitung langer Kontexte mit erheblichen Rechen- und Speicherkosten konfrontiert, wobei die TTFT-Latenz quadratisch wächst und die Benutzererfahrung erheblich beeinträchtigt.
Besonderheiten von RAG-Szenarien: Der Kontext in RAG besteht hauptsächlich aus verketteten abgerufenen Passagen, wobei nur ein kleiner Teil direkt mit der Abfrage relevant ist. Aufgrund von Diversität und Deduplizierungsoperationen ist die semantische Ähnlichkeit zwischen diesen Passagen gering, was zu blockdiagonalen Aufmerksamkeitsmustern führt.
Rechnerische Redundanz: Bestehende Methoden behandeln RAG als generisches Langkontext-Problem und ignorieren die RAG-spezifische Sparsitätsstruktur der Aufmerksamkeit, was zu unnötigen Berechnungen führt.
Präsentation des REFRAG-Frameworks: Erstes spezialisiertes effizientes Dekodierungsframework für RAG-Anwendungen mit Unterstützung für Kontextkompression und -erweiterung an beliebigen Positionen
Block-Embedding-Kompressionstechnik: Verwendung vorberechneter komprimierter Block-Embeddings als Ersatz für ursprüngliche Token, um signifikante Latenz- und Speicheroptimierungen zu erreichen
Selektive Kompressionsstrategie: Auf Reinforcement Learning basierende Richtliniennetzwerk, das dynamisch entscheidet, welche Blöcke in ihrer ursprünglichen Form beibehalten werden müssen
Signifikante Leistungssteigerung: 30,85-fache TTFT-Beschleunigung, 16-fache Kontextfenster-Erweiterung, ohne Leistungsverlust
Umfassende Validierung: Validierung der Wirksamkeit bei RAG, Multi-Turn-Dialogen, Zusammenfassung langer Dokumente und anderen Aufgaben
Gegeben eine Eingabesequenz mit T Token x₁, x₂, ..., xₜ, wobei die ersten q Token die Haupteingabe (z. B. Frage) und die nächsten s Token den Kontext (z. B. abgerufene Passagen) darstellen, mit q + s = T. Das Ziel ist die effiziente Antwortgenerierung bei gleichzeitiger Minimierung der TTFT-Latenz und des Speicherverbrauchs.
Kompression an beliebigen Positionen: Überwindung der Beschränkung bestehender Methoden, die nur Präfixkompression unterstützen, mit Unterstützung für Kompression und Erweiterung an beliebigen Kontextpositionen
Vorberechnete Wiederverwendung: Block-Embeddings können vorberechnet und zwischengespeichert werden, um wiederholte Rechenkosten zu vermeiden
Adaptive Kompressionsrate: Dynamische Anpassung der Kompressionsrate durch RL-Richtlinie ohne Neuberechnung von Block-Embeddings
Beibehaltung der autoregressiven Eigenschaft: Aufrechterhaltung der kausalen Struktur des Decoders mit Unterstützung für Multi-Turn-Dialoge und Zusammenfassungsaufgaben
Das Papier zeigt Aufmerksamkeits-Visualisierungsergebnisse, die bestätigen, dass in RAG-Szenarien die Aufmerksamkeitswerte zwischen verschiedenen Passagen signifikant niedriger sind als innerhalb von Passagen, was die blockdiagonale Sparsitätsannahme validiert.
Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
Guu et al. (2020) - REALM Retrieval-Augmented Pretraining
Borgeaud et al. (2022) - RETRO großmaßstäbliche Retrieval-Augmented Generation
Yen et al. (2024) - CEPE Parallel Context Encoding
Touvron et al. (2023) - LLaMA Basismodelle
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für Effizienzengpässe in RAG-Systemen präsentiert. Das Methodendesign ist vernünftig, die experimentelle Validierung umfassend, der praktische Wert hervorragend und leistet wichtige Beiträge zur Entwicklung dieses Feldes.