2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic

REFRAG: RAGベースのデコーディングの再考

基本情報

  • 論文ID: 2509.01092
  • タイトル: REFRAG: Rethinking RAG based Decoding
  • 著者: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
  • 所属機関: Meta Superintelligence Labs, National University of Singapore, Rice University
  • 分類: cs.CL cs.AI cs.LG
  • 発表日: 2025年10月14日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2509.01092

要約

大規模言語モデル(LLMs)は、検索増強生成(RAG)などの多ターン対話およびエージェントアプリケーションにおいて、外部知識を活用して応答を強化する優れた能力を示しています。しかし、長いコンテキスト入力の処理は顕著なシステムレイテンシをもたらし、キー・バリュー(KV)キャッシュに大量のメモリを必要とするため、スループットの低下と知識の豊富さとシステム効率の間の根本的なトレードオフが生じます。本論文ではREFRAGを提案します。これはRAGアプリケーションのレイテンシを圧縮、認識、拡張を通じて改善する効率的なデコーディングフレームワークです。注意スパース性構造を活用することで、困惑度損失なしに首トークンまでの時間(TTFT)で30.85倍の加速を実現し(先行研究比3.75倍向上)、さらにLLMsのコンテキストサイズを16倍に拡張できます。

研究背景と動機

核心的な問題

  1. 長コンテキスト処理の効率ボトルネック:RAGシステムは長いコンテキストを処理する際に顕著な計算およびメモリオーバーヘッドに直面し、首トークンまでの時間(TTFT)レイテンシは二次的に増加し、ユーザー体験に深刻な影響を与えます。
  2. RAGシナリオの特殊性:RAGのコンテキストは主に検索されたパッセージの連結で構成され、クエリに直接関連するのはごく一部です。多様性と重複排除操作により、これらのパッセージ間のセマンティック類似度は低く、ブロック対角注意パターンが生じます。
  3. 計算冗長性:既存の方法はRAGを汎用的な長コンテキスト問題として扱い、RAG固有のスパース注意構造を見落とし、多くの不要な計算をもたらします。

研究動機

  • 効率要件:Web規模アプリケーションにおける高スループットと低レイテンシの緊急の必要性
  • リソース最適化:メモリ使用量と計算オーバーヘッドの削減、システムスケーラビリティの向上
  • 性能維持:効率を大幅に向上させながら、モデル性能の低下を防ぐ

核心的な貢献

  1. REFRAGフレームワークの提案:RAGアプリケーション専用の初の効率的デコーディングフレームワーク。任意の位置でのコンテキスト圧縮と拡張をサポート
  2. ブロック埋め込み圧縮技術:事前計算された圧縮ブロック埋め込みで元のトークンを置き換え、顕著なレイテンシとメモリ最適化を実現
  3. 選択的圧縮戦略:強化学習ベースのポリシーネットワークにより、どのブロックが元の形式を保つ必要があるかを動的に決定
  4. 顕著なパフォーマンス向上:30.85倍のTTFT加速、16倍のコンテキストウィンドウ拡張を実現、性能損失なし
  5. 広範な検証:RAG、多ターン対話、長文書要約など複数のタスクで有効性を検証

方法の詳細

タスク定義

T個のトークンを含む入力シーケンス x₁, x₂, ..., xₜ が与えられ、最初のq個のトークンが主要入力(例:質問)、後のs個のトークンがコンテキスト(例:検索パッセージ)であり、q + s = T を満たします。目標は、TTFTレイテンシとメモリ使用量を最小化しながら、効率的に応答を生成することです。

モデルアーキテクチャ

全体設計

REFRAGはエンコーダ・デコーダアーキテクチャを採用:

  • デコーダ:LLaMAベースのデコーダのみの基本モデル
  • エンコーダ:軽量なRoBERTaモデル。コンテキストブロック処理用
  • 投影層:ブロック埋め込みをデコーダトークン空間にマッピング

核心的なコンポーネント

  1. ブロック埋め込み生成
    コンテキスト分割:{C₁, C₂, ..., Cₗ}、ここで L = s/k
    ブロック埋め込み:cᵢ = Mₑₙc(Cᵢ)
    投影埋め込み:eᶜⁿᵏᵢ = φ(cᵢ)
    
  2. 混合入力処理 デコーダ入力:{e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} 圧縮比:≈ k倍削減
  3. 選択的圧縮メカニズム
    • RLポリシーネットワークπθが、どのブロックが未圧縮のままであるべきかを決定
    • ブロック埋め込みとマスクに基づく順序付き選択
    • 報酬関数:負の対数困惑度

技術的革新点

  1. 任意位置圧縮:既存の方法が前置詞圧縮のみをサポートする制限を突破し、コンテキストの任意の位置での圧縮と拡張をサポート
  2. 事前計算の再利用:ブロック埋め込みは事前計算およびキャッシュ可能で、重複計算オーバーヘッドを回避
  3. 適応的圧縮率:RLポリシーを通じて圧縮率を動的に調整。ブロック埋め込みの再計算が不要
  4. 自己回帰特性の維持:デコーダの因果構造を維持し、多ターン対話と要約タスクをサポート

実験設定

データセット

  • 事前学習:SlimPajama データセット(20B トークン)。50% ArXiv + 50% Book データを含む
  • 評価:Book、ArXiv、PG19、Proof-pile データセット
  • 下流タスク
    • RAG:110万サンプル。5つの領域のQAデータセットをカバー
    • 多ターン対話:TopiOCQA、ORConvQA、QReCC
    • 要約:ArXivおよびPubMed長文書要約

評価指標

  • 効率指標:TTFT、TTIT(トークンごとのレイテンシ)、スループット
  • 性能指標:困惑度、精度、F1スコア、ROUGEスコア
  • メモリ指標:KVキャッシュメモリ使用量

比較方法

  • LLaMAバリアント:LLaMA-Full Context、LLaMA-No Context、LLaMA-32K
  • 既存方法:CEPE、REPLUG
  • 異なる圧縮率:REFRAG8、REFRAG16、REFRAG32

実装詳細

  • 基本モデル:LLaMA-2-7B
  • エンコーダ:RoBERTa-Large (355M パラメータ)
  • 学習戦略:カリキュラム学習 + 再構成タスク事前学習
  • オプティマイザ:AdamW、ピーク学習率5e-5
  • ハードウェア:8ノード × 8 H100 GPU

実験結果

主要な結果

レイテンシパフォーマンス

16Kコンテキスト長での結果:

  • TTFT加速:16.53倍(キャッシュあり)、8.59倍(キャッシュなし)
  • CEPE比較:TTFT向上2.01倍(キャッシュあり)、1.04倍(キャッシュなし)
  • k=32時:30.85倍のTTFT加速を達成。CEPEより3.75倍高速

モデルパフォーマンス

圧縮率ArXiv P2048Book P2048PG19 P2048ProofPile P2048
REFRAG81.0621.8441.9270.916
REFRAG161.0761.8531.9380.931
CEPE1.1071.8641.9640.968

REFRAG16はCEPEと比較して平均困惑度が9.3%改善され、同時に顕著な加速を実現しています。

アブレーション実験

カリキュラム学習の必要性

方法P16P32P128P2048
カリキュラム学習なし3.7193.0982.2721.599
カリキュラム学習あり0.6690.4510.2300.135

カリキュラム学習は再構成タスクの成功に不可欠です。

再構成タスクの役割

方法P16P32P128P2048
再構成事前学習なし3.2722.7892.1191.544
再構成事前学習あり2.0171.8371.6321.453

再構成タスク事前学習は継続的事前学習効果を大幅に向上させます。

RL選択的圧縮

同じ圧縮率8では、REFRAG16+RLは常にREFRAG8を上回り、動的圧縮戦略の有効性を証明しています。

下流タスクのパフォーマンス

RAGタスク

強い検索器設定では、同じレイテンシ制約下で:

  • 8パッセージREFRAG対1パッセージLLaMA:平均1.22%向上
  • 弱い検索器設定ではより顕著な向上:1.93%

多ターン対話

10パッセージ設定では、REFRAGは3つのデータセット全てでLLaMAFTを上回り、特に長い対話履歴シナリオで優位性が明らかです。

ケース分析

論文は注意可視化結果を示し、RAGシナリオでは異なるパッセージ間の注意値がパッセージ内注意より大幅に低いことを確認し、ブロック対角スパース性仮説を検証しています。

関連研究

検索増強言語モデリング

  • REALM:マスク言語モデル事前学習における検索増強を初めて提案
  • RETRO:クロスアテンションと端から端への事前学習を使用
  • FiD:パッセージを並列処理し隠れ状態を連結

効率的な長コンテキストLLMs

  • 圧縮注意:注意複雑度を低減するが、メモリ問題は解決しない
  • StreamingLLM:注意汇聚を使用してKVキャッシュを削減
  • CEPE:クロスアテンション方法だが、前置詞適用に限定

Transformer圧縮

  • Compressive Transformer:KVキャッシュを圧縮するがTTFTは改善しない
  • 再帰的圧縮:埋め込みの事前計算と再利用ができない

結論と議論

主要な結論

  1. RAG固有のスパース性:RAGシナリオのブロック対角注意パターンは専門的な最適化の機会を提供
  2. 顕著な効率向上:30.85倍のTTFT加速と性能損失なしは、方法の有効性を証明
  3. 広範な適用性:複数の長コンテキストタスクで優れたパフォーマンスを発揮

制限事項

  1. 圧縮率の制限:実験ではk=64時に性能が大幅に低下し、圧縮上限が存在
  2. エンコーダオーバーヘッド:軽量ですが、追加のエンコード計算が必要
  3. 学習の複雑性:カリキュラム学習と多段階学習戦略が必要

今後の方向性

  1. より高い圧縮率:現在の制限を突破するより効果的な圧縮技術の探索
  2. エンドツーエンド最適化:圧縮戦略を事前学習段階に統合
  3. マルチモーダル拡張:ビジョン・言語などのマルチモーダルシナリオへの方法拡張

深い評価

利点

  1. 問題識別の正確性:RAGシナリオの特殊性と最適化機会を正確に識別
  2. 方法設計の合理性:ブロック埋め込み圧縮と選択的戦略設計が巧妙
  3. 実験検証の充分性:複数のタスクと詳細なアブレーション実験を含む
  4. 実用的価値の高さ:顕著なパフォーマンス向上により重要な応用価値を有する
  5. 技術革新性の強さ:任意位置圧縮と事前計算再利用などの革新点が顕著

不足点

  1. 理論分析の不足:圧縮率上限に関する理論分析が不足
  2. エンコーダ選択:異なるエンコーダアーキテクチャの影響の十分な探索がない
  3. 長期依存:極めて長いコンテキストの処理能力の検証が必要
  4. 計算複雑度:RL学習がシステム複雑度を増加させる

影響力

  1. 学術的貢献:RAGシステム最適化の新しい研究方向を開拓
  2. 産業的価値:大規模RAG展開に直接適用可能
  3. 再現性:著者がコード公開を約束し、方法の普及に有利

適用シナリオ

  1. Web検索:大規模検索シナリオのレイテンシ最適化
  2. 知識質問応答:複数の文書フラグメント統合が必要な複雑なQA
  3. インテリジェントアシスタント:多ターン対話でのコンテキスト管理
  4. 文書分析:長文書の要約と分析タスク

参考文献

論文は多くの関連研究を引用しており、主なものは以下の通り:

  • Guu et al. (2020) - REALM検索増強事前学習
  • Borgeaud et al. (2022) - RETRO大規模検索増強生成
  • Yen et al. (2024) - CEPE並列コンテキストエンコーディング
  • Touvron et al. (2023) - LLaMA基本モデル

総合評価:これは高品質な研究論文であり、RAGシステムの効率ボトルネックに対して革新的なソリューションを提案しています。方法設計は合理的で、実験検証は充分であり、実用的価値が顕著であり、この分野の発展に重要な貢献をしています。