2025-11-20T11:28:15.008705

REFRAG: Rethinking RAG based Decoding

Lin, Ghosh, Low et al.
Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic

REFRAG: RAG 기반 디코딩 재검토

기본 정보

  • 논문 ID: 2509.01092
  • 제목: REFRAG: Rethinking RAG based Decoding
  • 저자: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan
  • 소속: Meta Superintelligence Labs, National University of Singapore, Rice University
  • 분류: cs.CL cs.AI cs.LG
  • 발표일: 2025년 10월 14일 (arXiv 프리프린트)
  • 논문 링크: https://arxiv.org/abs/2509.01092

초록

대규모 언어 모델(LLMs)은 검색 증강 생성(RAG)과 같은 다중 턴 대화 및 에이전트 애플리케이션에서 외부 지식을 활용하여 응답을 강화하는 뛰어난 능력을 보여줍니다. 그러나 긴 컨텍스트 입력 처리는 상당한 시스템 지연을 초래하며 키-값 캐시를 위한 대량의 메모리가 필요하여 처리량 감소 및 지식 풍부성과 시스템 효율성 간의 근본적인 트레이드오프를 야기합니다. 본 논문은 압축, 인식, 확장을 통해 RAG 애플리케이션의 지연을 개선하는 효율적인 디코딩 프레임워크인 REFRAG를 제안합니다. 주의 희소성 구조를 활용하여 첫 단어까지의 시간(TTFT) 지연에서 30.85배 가속화(이전 연구 대비 3.75배 향상)를 달성하면서도 혼동도 손실이 없습니다. 또한 이 최적화 프레임워크는 REFRAG가 LLMs의 컨텍스트 크기를 16배 확장할 수 있게 합니다.

연구 배경 및 동기

핵심 문제

  1. 긴 컨텍스트 처리의 효율성 병목:RAG 시스템은 긴 컨텍스트 처리 시 상당한 계산 및 메모리 오버헤드에 직면하며, 첫 단어까지의 시간(TTFT) 지연이 이차적으로 증가하여 사용자 경험에 심각한 영향을 미칩니다.
  2. RAG 시나리오의 특수성:RAG의 컨텍스트는 주로 검색된 단락의 연결로 구성되며, 소수만이 쿼리와 직접 관련이 있습니다. 다양성 및 중복 제거 작업으로 인해 이러한 단락 간의 의미적 유사도가 낮아 블록 대각선 주의 패턴을 초래합니다.
  3. 계산 중복:기존 방법은 RAG를 일반적인 긴 컨텍스트 문제로 취급하여 RAG 고유의 희소 주의 구조를 간과하고 불필요한 계산을 초래합니다.

연구 동기

  • 효율성 요구:웹 규모 애플리케이션의 높은 처리량 및 낮은 지연에 대한 긴급한 필요
  • 리소스 최적화:메모리 점유율 및 계산 오버헤드 감소, 시스템 확장성 향상
  • 성능 유지:효율성 대폭 향상과 동시에 모델 성능 무저하 유지

핵심 기여

  1. REFRAG 프레임워크 제안:RAG 애플리케이션을 위한 최초의 전문화된 효율적 디코딩 프레임워크로, 임의의 위치에서의 컨텍스트 압축 및 확장 지원
  2. 블록 임베딩 압축 기술:사전 계산된 압축 블록 임베딩으로 원본 토큰을 대체하여 상당한 지연 및 메모리 최적화 실현
  3. 선택적 압축 전략:강화 학습 기반 정책 네트워크로 어떤 블록이 원본 형태를 유지해야 하는지 동적으로 결정
  4. 현저한 성능 향상:30.85배 TTFT 가속화, 16배 컨텍스트 윈도우 확장, 성능 손실 없음
  5. 광범위한 검증:RAG, 다중 턴 대화, 긴 문서 요약 등 다양한 작업에서 유효성 검증

방법론 상세 설명

작업 정의

T개의 토큰을 포함하는 입력 시퀀스 x₁, x₂, ..., xₜ가 주어졌을 때, 처음 q개의 토큰은 주요 입력(예: 질문), 나머지 s개의 토큰은 컨텍스트(예: 검색된 단락)이며, q + s = T를 만족합니다. 목표는 TTFT 지연 및 메모리 사용을 최소화하면서 효율적으로 응답을 생성하는 것입니다.

모델 아키텍처

전체 설계

REFRAG는 인코더-디코더 아키텍처를 채택합니다:

  • 디코더:LLaMA 기반 디코더 전용 기본 모델
  • 인코더:컨텍스트 블록 처리용 경량 RoBERTa 모델
  • 투영층:블록 임베딩을 디코더 토큰 공간으로 매핑

핵심 구성 요소

  1. 블록 임베딩 생성
    컨텍스트 분할: {C₁, C₂, ..., Cₗ}, 여기서 L = s/k
    블록 임베딩: cᵢ = Mₑₙc(Cᵢ)
    투영 임베딩: eᶜⁿᵏᵢ = φ(cᵢ)
    
  2. 혼합 입력 처리 디코더 입력: {e₁, ..., eᵩ, eᶜⁿᵏ₁, ..., eᶜⁿᵏₗ} 압축 비율: ≈ k배 감소
  3. 선택적 압축 메커니즘
    • RL 정책 네트워크 πθ가 어떤 블록을 압축하지 않을지 결정
    • 블록 임베딩 및 마스크 기반 순차 선택
    • 보상 함수: 음의 로그 혼동도

기술 혁신점

  1. 임의 위치 압축:기존 방법이 접두사 압축만 지원하는 한계를 극복하여 컨텍스트 임의 위치의 압축 및 확장 지원
  2. 사전 계산 재사용:블록 임베딩을 사전 계산하고 캐시하여 반복 계산 오버헤드 제거
  3. 적응형 압축률:RL 정책을 통해 동적으로 압축률 조정, 블록 임베딩 재계산 불필요
  4. 자동 회귀 특성 유지:디코더의 인과 구조 유지, 다중 턴 대화 및 요약 작업 지원

실험 설정

데이터셋

  • 사전 학습:SlimPajama 데이터셋(20B 토큰), 50% ArXiv + 50% Book 데이터 포함
  • 평가:Book, ArXiv, PG19, Proof-pile 데이터셋
  • 다운스트림 작업
    • RAG:110만 샘플, 5개 도메인의 QA 데이터셋 포함
    • 다중 턴 대화:TopiOCQA, ORConvQA, QReCC
    • 요약:ArXiv 및 PubMed 긴 문서 요약

평가 지표

  • 효율성 지표:TTFT, TTIT(단어별 지연), 처리량
  • 성능 지표:혼동도, 정확도, F1 점수, ROUGE 점수
  • 메모리 지표:KV 캐시 메모리 사용량

비교 방법

  • LLaMA 변형:LLaMA-Full Context, LLaMA-No Context, LLaMA-32K
  • 기존 방법:CEPE, REPLUG
  • 다양한 압축률:REFRAG8, REFRAG16, REFRAG32

구현 세부사항

  • 기본 모델:LLaMA-2-7B
  • 인코더:RoBERTa-Large (355M 파라미터)
  • 학습 전략:커리큘럼 학습 + 재구성 작업 사전 워밍
  • 최적화기:AdamW, 피크 학습률 5e-5
  • 하드웨어:8개 노드 × 8개 H100 GPU

실험 결과

주요 결과

지연 성능

16K 컨텍스트 길이에서:

  • TTFT 가속화:16.53배(캐시 포함), 8.59배(캐시 미포함)
  • CEPE 대비:TTFT 2.01배 향상(캐시 포함), 1.04배(캐시 미포함)
  • k=32일 때:30.85배 TTFT 가속화 달성, CEPE보다 3.75배 빠름

모델 성능

압축률ArXiv P2048Book P2048PG19 P2048ProofPile P2048
REFRAG81.0621.8441.9270.916
REFRAG161.0761.8531.9380.931
CEPE1.1071.8641.9640.968

REFRAG16은 CEPE 대비 평균 혼동도 9.3% 개선을 달성하면서 동시에 현저한 가속화 실현.

소거 실험

커리큘럼 학습의 필요성

방법P16P32P128P2048
커리큘럼 학습 없음3.7193.0982.2721.599
커리큘럼 학습 있음0.6690.4510.2300.135

커리큘럼 학습은 재구성 작업의 성공에 필수적입니다.

재구성 작업의 역할

방법P16P32P128P2048
재구성 사전 워밍 없음3.2722.7892.1191.544
재구성 사전 워밍 있음2.0171.8371.6321.453

재구성 작업 사전 학습은 연속 사전 학습 효과를 현저히 향상시킵니다.

RL 선택적 압축

동일한 압축률 8에서 REFRAG16+RL은 항상 REFRAG8보다 우수하여 동적 압축 전략의 유효성을 입증합니다.

다운스트림 작업 성능

RAG 작업

강력한 검색기 설정에서 동일한 지연 제약 하에:

  • 8개 단락 REFRAG vs 1개 단락 LLaMA:평균 1.22% 향상
  • 약한 검색기 설정에서 더 명확한 향상:1.93%

다중 턴 대화

10개 단락 설정에서 REFRAG는 세 데이터셋 모두에서 LLaMAFT를 능가하며, 특히 긴 대화 이력 시나리오에서 장점이 명확합니다.

사례 분석

논문은 주의 시각화 결과를 제시하여 RAG 시나리오에서 서로 다른 단락 간의 주의 값이 단락 내 주의보다 현저히 낮음을 입증하며, 블록 대각선 희소성 가정을 검증합니다.

관련 연구

검색 증강 언어 모델링

  • REALM:최초의 검색 증강 마스크 언어 모델 사전 학습 제안
  • RETRO:교차 주의 및 엔드-투-엔드 사전 학습 사용
  • FiD:단락을 병렬 처리하고 숨겨진 상태 연결

효율적인 긴 컨텍스트 LLMs

  • 압축 주의:주의 복잡도 감소하지만 메모리 문제 미해결
  • StreamingLLM:주의 싱크를 사용하여 KV 캐시 감소
  • CEPE:교차 주의 방법이지만 접두사 적용으로 제한

Transformer 압축

  • Compressive Transformer:KV 캐시 압축하지만 TTFT 미개선
  • 재귀적 압축:임베딩 사전 계산 및 재사용 불가능

결론 및 토론

주요 결론

  1. RAG 고유의 희소성:RAG 시나리오의 블록 대각선 주의 패턴은 전문화된 최적화 기회 제공
  2. 현저한 효율성 향상:30.85배 TTFT 가속화 및 성능 손실 없음으로 방법의 유효성 입증
  3. 광범위한 적용성:다양한 긴 컨텍스트 작업에서 우수한 성능

한계

  1. 압축률 제한:실험에서 k=64일 때 성능 현저히 저하, 압축 상한 존재
  2. 인코더 오버헤드:경량이지만 여전히 추가 인코딩 계산 필요
  3. 학습 복잡성:커리큘럼 학습 및 다단계 학습 전략 필요

향후 방향

  1. 더 높은 압축률:현재 한계를 돌파하는 더 효과적인 압축 기술 탐색
  2. 엔드-투-엔드 최적화:압축 전략을 사전 학습 단계에 통합
  3. 다중 모달 확장:시각-언어 등 다중 모달 시나리오로 방법 확장

심층 평가

장점

  1. 문제 식별 정확성:RAG 시나리오의 특수성 및 최적화 기회를 정확히 식별
  2. 방법 설계 합리성:블록 임베딩 압축 및 선택적 전략 설계가 정교함
  3. 실험 검증 충분:다양한 작업 및 상세한 소거 실험 포함
  4. 실용적 가치 높음:현저한 성능 향상으로 중요한 응용 가치 보유
  5. 기술 혁신성 강함:임의 위치 압축 및 사전 계산 재사용 등 혁신점 두드러짐

부족한 점

  1. 이론적 분석 부족:압축률 상한에 대한 이론적 분석 부재
  2. 인코더 선택:다양한 인코더 아키텍처의 영향 충분히 탐색 미흡
  3. 장기 의존성:극도로 긴 컨텍스트 처리 능력 검증 필요
  4. 계산 복잡도:RL 학습이 시스템 복잡도 증가

영향력

  1. 학술적 기여:RAG 시스템 최적화를 위한 새로운 연구 방향 개척
  2. 산업적 가치:대규모 RAG 배포에 직접 적용 가능
  3. 재현성:저자가 코드 공개 약속으로 방법 확산에 유리

적용 시나리오

  1. 웹 검색:대규모 검색 시나리오의 지연 최적화
  2. 지식 질의응답:여러 문서 조각 통합이 필요한 복잡한 질의응답
  3. 지능형 어시스턴트:다중 턴 대화의 컨텍스트 관리
  4. 문서 분석:긴 문서의 요약 및 분석 작업

참고문헌

논문은 다량의 관련 연구를 인용하며, 주요 내용은 다음과 같습니다:

  • Guu et al. (2020) - REALM 검색 증강 사전 학습
  • Borgeaud et al. (2022) - RETRO 대규모 검색 증강 생성
  • Yen et al. (2024) - CEPE 병렬 컨텍스트 인코딩
  • Touvron et al. (2023) - LLaMA 기본 모델

종합 평가:이는 RAG 시스템의 효율성 병목에 대한 혁신적인 해결책을 제시하는 고품질 연구 논문입니다. 방법 설계가 합리적이고 실험 검증이 충분하며 실용적 가치가 두드러져 해당 분야의 발전에 중요한 기여를 하고 있습니다.