2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic

REFRAG: Rethinking RAG based Decoding

基本信息

  • 论文ID: 2509.01092
  • 标题: REFRAG: Rethinking RAG based Decoding
  • 作者: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
  • 机构: Meta Superintelligence Labs, National University of Singapore, Rice University
  • 分类: cs.CL cs.AI cs.LG
  • 发表时间: October 14, 2025 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2509.01092

摘要

大型语言模型(LLMs)在检索增强生成(RAG)等多轮对话和智能体应用中展现了利用外部知识增强响应的卓越能力。然而,处理长上下文输入会带来显著的系统延迟,并需要大量内存用于键值缓存,导致吞吐量降低和知识丰富性与系统效率之间的根本权衡。本文提出REFRAG,一个高效的解码框架,通过压缩、感知和扩展来改善RAG应用中的延迟。通过利用注意力稀疏性结构,实现了30.85倍的首词延迟加速(比之前工作提升3.75倍),且无困惑度损失。此外,该优化框架使REFRAG能够将LLMs的上下文大小扩展16倍。

研究背景与动机

核心问题

  1. 长上下文处理的效率瓶颈:RAG系统在处理长上下文时面临显著的计算和内存开销,时间到首词(TTFT)延迟呈二次增长,严重影响用户体验。
  2. RAG场景的特殊性:RAG中的上下文主要由检索到的段落拼接而成,只有小部分与查询直接相关。由于多样性和去重操作,这些段落之间语义相似度较低,导致块对角注意力模式。
  3. 计算冗余:现有方法将RAG视为通用长上下文问题,忽视了RAG特有的稀疏注意力结构,导致大量不必要的计算。

研究动机

  • 效率需求:Web规模应用对高吞吐量和低延迟的迫切需求
  • 资源优化:减少内存占用和计算开销,提高系统可扩展性
  • 性能保持:在大幅提升效率的同时保持模型性能不降级

核心贡献

  1. 提出REFRAG框架:首个专门针对RAG应用的高效解码框架,支持任意位置的上下文压缩和扩展
  2. 块嵌入压缩技术:使用预计算的压缩块嵌入替代原始token,实现显著的延迟和内存优化
  3. 选择性压缩策略:基于强化学习的策略网络,动态决定哪些块需要保持原始形式
  4. 显著性能提升:实现30.85倍TTFT加速,上下文窗口扩展16倍,无性能损失
  5. 广泛验证:在RAG、多轮对话、长文档摘要等多种任务上验证有效性

方法详解

任务定义

给定包含T个token的输入序列 x₁, x₂, ..., xₜ,其中前q个token为主要输入(如问题),后s个token为上下文(如检索段落),满足q + s = T。目标是高效生成响应,同时最小化TTFT延迟和内存使用。

模型架构

整体设计

REFRAG采用编码器-解码器架构:

  • 解码器:基于LLaMA的decoder-only基础模型
  • 编码器:轻量级RoBERTa模型,用于处理上下文块
  • 投影层:将块嵌入映射到解码器token空间

核心组件

  1. 块嵌入生成
    上下文分块:{C₁, C₂, ..., Cₗ},其中L = s/k
    块嵌入:cᵢ = Mₑₙc(Cᵢ)
    投影嵌入:eᶜⁿᵏᵢ = φ(cᵢ)
    
  2. 混合输入处理 解码器输入:{e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} 压缩比例:≈ k倍减少
  3. 选择性压缩机制
    • RL策略网络πθ决定哪些块保持未压缩
    • 基于块嵌入和掩码进行序列化选择
    • 奖励函数:负对数困惑度

技术创新点

  1. 任意位置压缩:突破现有方法仅支持前缀压缩的限制,支持上下文任意位置的压缩和扩展
  2. 预计算重用:块嵌入可预计算并缓存,避免重复计算开销
  3. 自适应压缩率:通过RL策略动态调整压缩率,无需重新计算块嵌入
  4. 保持自回归性质:维护解码器的因果结构,支持多轮对话和摘要任务

实验设置

数据集

  • 预训练:SlimPajama数据集(20B tokens),包含50% ArXiv + 50% Book数据
  • 评估:Book、ArXiv、PG19、Proof-pile数据集
  • 下游任务
    • RAG:1.1M样本,涵盖5个领域的QA数据集
    • 多轮对话:TopiOCQA、ORConvQA、QReCC
    • 摘要:ArXiv和PubMed长文档摘要

评价指标

  • 效率指标:TTFT、TTIT(逐词延迟)、吞吐量
  • 性能指标:困惑度、准确率、F1分数、ROUGE分数
  • 内存指标:KV缓存内存使用量

对比方法

  • LLaMA变体:LLaMA-Full Context、LLaMA-No Context、LLaMA-32K
  • 现有方法:CEPE、REPLUG
  • 不同压缩率:REFRAG8、REFRAG16、REFRAG32

实现细节

  • 基础模型:LLaMA-2-7B
  • 编码器:RoBERTa-Large (355M参数)
  • 训练策略:课程学习 + 重构任务预热
  • 优化器:AdamW,峰值学习率5e-5
  • 硬件:8节点 × 8 H100 GPU

实验结果

主要结果

延迟性能

在16K上下文长度下:

  • TTFT加速:16.53倍(有缓存),8.59倍(无缓存)
  • 相比CEPE:TTFT提升2.01倍(有缓存),1.04倍(无缓存)
  • k=32时:达到30.85倍TTFT加速,比CEPE快3.75倍

模型性能

压缩率ArXiv P2048Book P2048PG19 P2048ProofPile P2048
REFRAG81.0621.8441.9270.916
REFRAG161.0761.8531.9380.931
CEPE1.1071.8641.9640.968

REFRAG16相比CEPE平均困惑度改善9.3%,同时实现显著加速。

消融实验

课程学习的必要性

方法P16P32P128P2048
无课程学习3.7193.0982.2721.599
有课程学习0.6690.4510.2300.135

课程学习对重构任务的成功至关重要。

重构任务的作用

方法P16P32P128P2048
无重构预热3.2722.7892.1191.544
有重构预热2.0171.8371.6321.453

重构任务预训练显著提升连续预训练效果。

RL选择性压缩

在相同压缩率8下,REFRAG16+RL始终优于REFRAG8,证明了动态压缩策略的有效性。

下游任务表现

RAG任务

在强检索器设置下,相同延迟约束下:

  • 8段落REFRAG vs 1段落LLaMA:平均提升1.22%
  • 弱检索器设置提升更明显:1.93%

多轮对话

在10段落设置下,REFRAG在所有三个数据集上均优于LLaMAFT,特别是在长对话历史场景中优势明显。

案例分析

论文展示了注意力可视化结果,证实RAG场景中不同段落间的注意力值显著低于段落内注意力,验证了块对角稀疏性假设。

相关工作

检索增强语言建模

  • REALM:首次提出检索增强的掩码语言模型预训练
  • RETRO:使用交叉注意力和端到端预训练
  • FiD:并行处理段落并拼接隐状态

高效长上下文LLMs

  • 压缩注意力:降低注意力复杂度但不解决内存问题
  • StreamingLLM:使用注意力汇聚减少KV缓存
  • CEPE:交叉注意力方法,但限于前缀应用

压缩Transformer

  • Compressive Transformer:压缩KV缓存但不改善TTFT
  • 递归压缩:无法预计算和重用嵌入

结论与讨论

主要结论

  1. RAG特有的稀疏性:RAG场景中的块对角注意力模式为专门优化提供了机会
  2. 显著效率提升:30.85倍TTFT加速且无性能损失,证明了方法的有效性
  3. 广泛适用性:在多种长上下文任务中均表现优异

局限性

  1. 压缩率限制:实验显示k=64时性能显著下降,存在压缩上限
  2. 编码器开销:虽然轻量,但仍需额外的编码计算
  3. 训练复杂性:需要课程学习和多阶段训练策略

未来方向

  1. 更高压缩率:探索更有效的压缩技术突破当前限制
  2. 端到端优化:将压缩策略集成到预训练阶段
  3. 多模态扩展:将方法扩展到视觉-语言等多模态场景

深度评价

优点

  1. 问题识别精准:准确识别RAG场景的特殊性和优化机会
  2. 方法设计合理:块嵌入压缩和选择性策略设计巧妙
  3. 实验验证充分:涵盖多种任务和详尽的消融实验
  4. 实用价值高:显著的性能提升使其具有重要应用价值
  5. 技术创新性强:任意位置压缩和预计算重用等创新点突出

不足

  1. 理论分析不足:缺乏对压缩率上限的理论分析
  2. 编码器选择:未充分探讨不同编码器架构的影响
  3. 长期依赖:对极长上下文的处理能力有待验证
  4. 计算复杂度:RL训练增加了系统复杂度

影响力

  1. 学术贡献:为RAG系统优化开辟了新的研究方向
  2. 工业价值:可直接应用于大规模RAG部署
  3. 可复现性:作者承诺开源代码,有利于方法推广

适用场景

  1. Web搜索:大规模检索场景的延迟优化
  2. 知识问答:需要整合多个文档片段的复杂问答
  3. 智能助手:多轮对话中的上下文管理
  4. 文档分析:长文档的摘要和分析任务

参考文献

论文引用了大量相关工作,主要包括:

  • Guu et al. (2020) - REALM检索增强预训练
  • Borgeaud et al. (2022) - RETRO大规模检索增强生成
  • Yen et al. (2024) - CEPE并行上下文编码
  • Touvron et al. (2023) - LLaMA基础模型

总体评价:这是一篇高质量的研究论文,针对RAG系统的效率瓶颈提出了创新的解决方案。方法设计合理,实验验证充分,实用价值突出,为该领域的发展做出了重要贡献。