2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.

Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.

academic

REFRAG: RAG 기반 디코딩 재검토

기본 정보

논문 ID: 2509.01092
제목: REFRAG: Rethinking RAG based Decoding
저자: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
소속: Meta Superintelligence Labs, National University of Singapore, Rice University
분류: cs.CL cs.AI cs.LG
발표일: 2025년 10월 14일 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2509.01092

초록

대규모 언어 모델(LLMs)은 검색 증강 생성(RAG)과 같은 다중 턴 대화 및 에이전트 애플리케이션에서 외부 지식을 활용하여 응답을 강화하는 뛰어난 능력을 보여줍니다. 그러나 긴 컨텍스트 입력 처리는 상당한 시스템 지연을 초래하며 키-값 캐시를 위한 대량의 메모리가 필요하여 처리량 감소 및 지식 풍부성과 시스템 효율성 간의 근본적인 트레이드오프를 야기합니다. 본 논문은 압축, 인식, 확장을 통해 RAG 애플리케이션의 지연을 개선하는 효율적인 디코딩 프레임워크인 REFRAG를 제안합니다. 주의 희소성 구조를 활용하여 첫 단어까지의 시간(TTFT) 지연에서 30.85배 가속화(이전 연구 대비 3.75배 향상)를 달성하면서도 혼동도 손실이 없습니다. 또한 이 최적화 프레임워크는 REFRAG가 LLMs의 컨텍스트 크기를 16배 확장할 수 있게 합니다.

연구 배경 및 동기

핵심 문제

긴 컨텍스트 처리의 효율성 병목：RAG 시스템은 긴 컨텍스트 처리 시 상당한 계산 및 메모리 오버헤드에 직면하며, 첫 단어까지의 시간(TTFT) 지연이 이차적으로 증가하여 사용자 경험에 심각한 영향을 미칩니다.
RAG 시나리오의 특수성：RAG의 컨텍스트는 주로 검색된 단락의 연결로 구성되며, 소수만이 쿼리와 직접 관련이 있습니다. 다양성 및 중복 제거 작업으로 인해 이러한 단락 간의 의미적 유사도가 낮아 블록 대각선 주의 패턴을 초래합니다.
계산 중복：기존 방법은 RAG를 일반적인 긴 컨텍스트 문제로 취급하여 RAG 고유의 희소 주의 구조를 간과하고 불필요한 계산을 초래합니다.

연구 동기

효율성 요구：웹 규모 애플리케이션의 높은 처리량 및 낮은 지연에 대한 긴급한 필요
리소스 최적화：메모리 점유율 및 계산 오버헤드 감소, 시스템 확장성 향상
성능 유지：효율성 대폭 향상과 동시에 모델 성능 무저하 유지

핵심 기여

REFRAG 프레임워크 제안：RAG 애플리케이션을 위한 최초의 전문화된 효율적 디코딩 프레임워크로, 임의의 위치에서의 컨텍스트 압축 및 확장 지원
블록 임베딩 압축 기술：사전 계산된 압축 블록 임베딩으로 원본 토큰을 대체하여 상당한 지연 및 메모리 최적화 실현
선택적 압축 전략：강화 학습 기반 정책 네트워크로 어떤 블록이 원본 형태를 유지해야 하는지 동적으로 결정
현저한 성능 향상：30.85배 TTFT 가속화, 16배 컨텍스트 윈도우 확장, 성능 손실 없음
광범위한 검증：RAG, 다중 턴 대화, 긴 문서 요약 등 다양한 작업에서 유효성 검증

방법론 상세 설명

작업 정의

T개의 토큰을 포함하는 입력 시퀀스 x₁, x₂, ..., xₜ가 주어졌을 때, 처음 q개의 토큰은 주요 입력(예: 질문), 나머지 s개의 토큰은 컨텍스트(예: 검색된 단락)이며, q + s = T를 만족합니다. 목표는 TTFT 지연 및 메모리 사용을 최소화하면서 효율적으로 응답을 생성하는 것입니다.

모델 아키텍처

전체 설계

REFRAG는 인코더-디코더 아키텍처를 채택합니다:

디코더：LLaMA 기반 디코더 전용 기본 모델
인코더：컨텍스트 블록 처리용 경량 RoBERTa 모델
투영층：블록 임베딩을 디코더 토큰 공간으로 매핑

핵심 구성 요소

블록 임베딩 생성

컨텍스트 분할: {C₁, C₂, ..., Cₗ}, 여기서 L = s/k
블록 임베딩: cᵢ = Mₑₙc(Cᵢ)
투영 임베딩: eᶜⁿᵏᵢ = φ(cᵢ)

혼합 입력 처리 디코더 입력: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} 압축 비율: ≈ k배 감소
선택적 압축 메커니즘
- RL 정책 네트워크 πθ가 어떤 블록을 압축하지 않을지 결정
- 블록 임베딩 및 마스크 기반 순차 선택
- 보상 함수: 음의 로그 혼동도

기술 혁신점

임의 위치 압축：기존 방법이 접두사 압축만 지원하는 한계를 극복하여 컨텍스트 임의 위치의 압축 및 확장 지원
사전 계산 재사용：블록 임베딩을 사전 계산하고 캐시하여 반복 계산 오버헤드 제거
적응형 압축률：RL 정책을 통해 동적으로 압축률 조정, 블록 임베딩 재계산 불필요
자동 회귀 특성 유지：디코더의 인과 구조 유지, 다중 턴 대화 및 요약 작업 지원

실험 설정

데이터셋

사전 학습：SlimPajama 데이터셋(20B 토큰), 50% ArXiv + 50% Book 데이터 포함
평가：Book, ArXiv, PG19, Proof-pile 데이터셋
다운스트림 작업：
- RAG：110만 샘플, 5개 도메인의 QA 데이터셋 포함
- 다중 턴 대화：TopiOCQA, ORConvQA, QReCC
- 요약：ArXiv 및 PubMed 긴 문서 요약