Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
academic
REFRAG: Переосмысление декодирования на основе RAG
Большие языковые модели (LLM) демонстрируют превосходные способности в использовании внешних знаний для улучшения ответов в многораундовых диалогах и приложениях с агентами, таких как поиск с увеличением контекста (RAG). Однако обработка длинных входных контекстов вызывает значительную системную задержку и требует большого объема памяти для кэша ключ-значение, что приводит к снижению пропускной способности и фундаментальному компромиссу между богатством знаний и системной эффективностью. В данной работе предлагается REFRAG — эффективная структура декодирования, которая улучшает задержку в приложениях RAG посредством сжатия, осознания и расширения. Благодаря использованию структуры разреженности внимания достигнуто ускорение задержки до первого токена в 30,85 раза (улучшение в 3,75 раза по сравнению с предыдущими работами) без потери перплексии. Кроме того, оптимизированная структура позволяет REFRAG расширить размер контекста LLM в 16 раз.
Узкие места эффективности при обработке длинного контекста: RAG-системы сталкиваются со значительными вычислительными и памятными издержками при обработке длинного контекста, при этом задержка до первого токена (TTFT) растет квадратично, что серьезно влияет на пользовательский опыт.
Особенности сценариев RAG: Контекст в RAG состоит в основном из объединенных извлеченных фрагментов, при этом только небольшая часть напрямую связана с запросом. Из-за разнообразия и операций дедупликации эти фрагменты имеют низкую семантическую схожесть, что приводит к блочно-диагональному паттерну внимания.
Вычислительная избыточность: Существующие методы рассматривают RAG как общую проблему длинного контекста, игнорируя специфичную для RAG структуру разреженности внимания, что приводит к большому количеству ненужных вычислений.
Предложение структуры REFRAG: Первая специализированная эффективная структура декодирования для приложений RAG, поддерживающая сжатие и расширение контекста в произвольных позициях
Техника сжатия блочных эмбеддингов: Использование предварительно вычисленных сжатых блочных эмбеддингов вместо исходных токенов для значительной оптимизации задержки и памяти
Стратегия выборочного сжатия: Сетевая политика на основе обучения с подкреплением для динамического определения того, какие блоки должны сохранять исходную форму
Значительное улучшение производительности: Достижение ускорения TTFT в 30,85 раза, расширение окна контекста в 16 раз без потери производительности
Широкая валидация: Проверка эффективности на различных задачах: RAG, многораундовые диалоги, суммаризация длинных документов
Дана входная последовательность из T токенов x₁, x₂, ..., xₜ, где первые q токенов — это основной ввод (например, вопрос), а последующие s токенов — контекст (например, извлеченные фрагменты), при условии q + s = T. Цель — эффективно генерировать ответ, одновременно минимизируя задержку TTFT и использование памяти.
Сжатие в произвольных позициях: Преодоление ограничения существующих методов, поддерживающих только префиксное сжатие, с поддержкой сжатия и расширения контекста в произвольных позициях
Переиспользование предварительных вычислений: Блочные эмбеддинги могут быть предварительно вычислены и закэшированы, избегая повторных вычислительных издержек
Адаптивный коэффициент сжатия: Динамическая регулировка коэффициента сжатия через политику RL без необходимости пересчета блочных эмбеддингов
Сохранение авторегрессивного характера: Поддержание причинной структуры декодировщика, обеспечивающей поддержку многораундовых диалогов и задач суммаризации
В статье представлены результаты визуализации внимания, подтверждающие предположение о блочно-диагональной разреженности: значения внимания между различными фрагментами значительно ниже, чем внимание внутри фрагментов.
Точное выявление проблемы: Точное определение специфичности сценариев RAG и возможностей оптимизации
Разумный дизайн метода: Умное проектирование сжатия блочных эмбеддингов и выборочной стратегии
Полная экспериментальная валидация: Охват различных задач и подробные абляционные исследования
Высокая практическая ценность: Значительное улучшение производительности обеспечивает важное прикладное значение
Сильная техническая инновативность: Выделяются инновационные точки, такие как сжатие в произвольных позициях и переиспользование предварительных вычислений
В статье цитируется большое количество связанных работ, включая:
Guu et al. (2020) - REALM предварительное обучение с увеличением контекста
Borgeaud et al. (2022) - RETRO крупномасштабное поиск-увеличенное генерирование
Yen et al. (2024) - CEPE параллельное кодирование контекста
Touvron et al. (2023) - базовая модель LLaMA
Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение для узких мест эффективности в RAG-системах. Метод разумно спроектирован, экспериментально хорошо валидирован, обладает выдающейся практической ценностью и вносит важный вклад в развитие этой области.