2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG: RAGベースのデコーディングの再考

基本情報

論文ID: 2509.01092
タイトル: REFRAG: Rethinking RAG based Decoding
著者: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
所属機関: Meta Superintelligence Labs, National University of Singapore, Rice University
分類: cs.CL cs.AI cs.LG
発表日: 2025年10月14日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2509.01092

要約

大規模言語モデル(LLMs)は、検索増強生成(RAG)などの多ターン対話およびエージェントアプリケーションにおいて、外部知識を活用して応答を強化する優れた能力を示しています。しかし、長いコンテキスト入力の処理は顕著なシステムレイテンシをもたらし、キー・バリュー(KV)キャッシュに大量のメモリを必要とするため、スループットの低下と知識の豊富さとシステム効率の間の根本的なトレードオフが生じます。本論文ではREFRAGを提案します。これはRAGアプリケーションのレイテンシを圧縮、認識、拡張を通じて改善する効率的なデコーディングフレームワークです。注意スパース性構造を活用することで、困惑度損失なしに首トークンまでの時間(TTFT)で30.85倍の加速を実現し(先行研究比3.75倍向上)、さらにLLMsのコンテキストサイズを16倍に拡張できます。

研究背景と動機

核心的な問題

長コンテキスト処理の効率ボトルネック：RAGシステムは長いコンテキストを処理する際に顕著な計算およびメモリオーバーヘッドに直面し、首トークンまでの時間(TTFT)レイテンシは二次的に増加し、ユーザー体験に深刻な影響を与えます。
RAGシナリオの特殊性：RAGのコンテキストは主に検索されたパッセージの連結で構成され、クエリに直接関連するのはごく一部です。多様性と重複排除操作により、これらのパッセージ間のセマンティック類似度は低く、ブロック対角注意パターンが生じます。
計算冗長性：既存の方法はRAGを汎用的な長コンテキスト問題として扱い、RAG固有のスパース注意構造を見落とし、多くの不要な計算をもたらします。

研究動機

効率要件：Web規模アプリケーションにおける高スループットと低レイテンシの緊急の必要性
リソース最適化：メモリ使用量と計算オーバーヘッドの削減、システムスケーラビリティの向上
性能維持：効率を大幅に向上させながら、モデル性能の低下を防ぐ

核心的な貢献

REFRAGフレームワークの提案：RAGアプリケーション専用の初の効率的デコーディングフレームワーク。任意の位置でのコンテキスト圧縮と拡張をサポート
ブロック埋め込み圧縮技術：事前計算された圧縮ブロック埋め込みで元のトークンを置き換え、顕著なレイテンシとメモリ最適化を実現
選択的圧縮戦略：強化学習ベースのポリシーネットワークにより、どのブロックが元の形式を保つ必要があるかを動的に決定
顕著なパフォーマンス向上：30.85倍のTTFT加速、16倍のコンテキストウィンドウ拡張を実現、性能損失なし
広範な検証：RAG、多ターン対話、長文書要約など複数のタスクで有効性を検証

方法の詳細

タスク定義

T個のトークンを含む入力シーケンス x₁, x₂, ..., xₜ が与えられ、最初のq個のトークンが主要入力(例：質問)、後のs個のトークンがコンテキスト(例：検索パッセージ)であり、q + s = T を満たします。目標は、TTFTレイテンシとメモリ使用量を最小化しながら、効率的に応答を生成することです。

モデルアーキテクチャ

全体設計

REFRAGはエンコーダ・デコーダアーキテクチャを採用：

デコーダ：LLaMAベースのデコーダのみの基本モデル
エンコーダ：軽量なRoBERTaモデル。コンテキストブロック処理用
投影層：ブロック埋め込みをデコーダトークン空間にマッピング

核心的なコンポーネント

ブロック埋め込み生成

コンテキスト分割：{C₁, C₂, ..., Cₗ}、ここで L = s/k
ブロック埋め込み：cᵢ = Mₑₙc(Cᵢ)
投影埋め込み：eᶜⁿᵏᵢ = φ(cᵢ)

混合入力処理 デコーダ入力：{e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} 圧縮比：≈ k倍削減
選択的圧縮メカニズム
- RLポリシーネットワークπθが、どのブロックが未圧縮のままであるべきかを決定
- ブロック埋め込みとマスクに基づく順序付き選択
- 報酬関数：負の対数困惑度

技術的革新点

任意位置圧縮：既存の方法が前置詞圧縮のみをサポートする制限を突破し、コンテキストの任意の位置での圧縮と拡張をサポート
事前計算の再利用：ブロック埋め込みは事前計算およびキャッシュ可能で、重複計算オーバーヘッドを回避
適応的圧縮率：RLポリシーを通じて圧縮率を動的に調整。ブロック埋め込みの再計算が不要
自己回帰特性の維持：デコーダの因果構造を維持し、多ターン対話と要約タスクをサポート

実験設定

データセット

事前学習：SlimPajama データセット(20B トークン)。50% ArXiv + 50% Book データを含む
評価：Book、ArXiv、PG19、Proof-pile データセット
下流タスク：
- RAG：110万サンプル。5つの領域のQAデータセットをカバー
- 多ターン対話：TopiOCQA、ORConvQA、QReCC
- 要約：ArXivおよびPubMed長文書要約