Large Language Models (LLMs) have enabled a wide range of applications through their powerful capabilities in language understanding and generation. However, as LLMs are trained on static corpora, they face difficulties in addressing rapidly evolving information or domain-specific queries. Retrieval-Augmented Generation (RAG) was developed to overcome this limitation by integrating LLMs with external retrieval mechanisms, allowing them to access up-to-date and contextually relevant knowledge. However, as LLMs themselves continue to advance in scale and capability, the relative advantages of traditional RAG frameworks have become less pronounced and necessary. Here, we present a comprehensive review of RAG, beginning with its overarching objectives and core components. We then analyze the key challenges within RAG, highlighting critical weakness that may limit its effectiveness. Finally, we showcase applications where LLMs alone perform inadequately, but where RAG, when combined with LLMs, can substantially enhance their effectiveness. We hope this work will encourage researchers to reconsider the role of RAG and inspire the development of next-generation RAG systems.
- ID статьи: 2510.09106
- Название: When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs
- Авторы: Yongjie Wang, Yue Yu, Kaisong Song, Jun Lin, Zhiqi Shen
- Категория: cs.CL (вычислительная лингвистика)
- Дата публикации: 10 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.09106
Большие языковые модели (LLMs) достигли широкого применения благодаря мощным способностям понимания и генерации языка. Однако, поскольку LLMs обучаются на статических корпусах, они испытывают трудности при работе с быстро развивающейся информацией или запросами, специфичными для конкретной области. Поиск с дополнением (RAG) преодолевает это ограничение путем интеграции LLMs с внешними механизмами поиска, позволяя им получать доступ к актуальным и контекстуально релевантным знаниям. Однако с постоянным прогрессом LLMs в масштабе и возможностях относительное преимущество традиционных фреймворков RAG становится менее очевидным и необходимым. В данной статье проводится комплексный обзор RAG, начиная с его общих целей и основных компонентов, затем анализируются ключевые вызовы в RAG, выделяются критические слабости, которые могут ограничить его эффективность. Наконец, демонстрируются сценарии применения, где LLMs работают неудовлетворительно в одиночку, но RAG в сочетании с LLMs может значительно повысить их эффективность.
- Основная проблема: С быстрым повышением возможностей LLMs ставится под сомнение необходимость и эффективность традиционных фреймворков RAG
- Конкретные вызовы:
- Ограничения знаний LLMs на основе статических данных обучения
- Трудности при обработке запросов, специфичных для конкретной области, и быстро развивающейся информации
- Распространенность явления галлюцинаций
- Практические потребности: Сценарии, требующие знаний, персонализированного доступа к информации, интеграции знаний в реальном времени, по-прежнему нуждаются в RAG
- Технологическое развитие: Необходимо переоценить роль и ценность RAG в контексте современных LLMs
- Теоретическое значение: Предоставить руководство для развития систем RAG следующего поколения
- Неправильный механизм триггера поиска: Отсутствие анализа границ существующих знаний LLMs
- Недостаточное понимание сложных запросов: Ограниченные способности анализа намерений, влияющие на извлечение ключевых слов
- Неразрешенные конфликты знаний: Наличие непроверенной конфликтующей информации во внешних базах данных
- Ограниченное понимание механизма ICL: Недостаточное понимание механизмов работы контекстного обучения в фреймворке поиска с дополнением
- Систематический обзор: Предоставляет комплексный обзор технологии RAG, включая архитектуру, компоненты и вызовы
- Идентификация проблем: Глубокий анализ четырех основных вызовов, стоящих перед текущими системами RAG
- Уточнение сценариев применения: Определение и описание трех основных областей применения, где RAG остается незаменимым
- Будущие направления: Предоставление четких направлений исследований для развития систем RAG следующего поколения
В данной статье система RAG разбивается на четыре основных модуля:
- Разбиение документов: Разделение документов на управляемые блоки с кодированием с использованием BM25 или встраивания LLM
- Расширение графом знаний:
- Преобразование внешних источников в граф знаний (KG)
- Узлы представляют сущности или концепции, ребра кодируют отношения
- Иерархическая кластеризация организует сущности в многоуровневые структуры сообществ
- Вызовы: Разработка эффективных систем индексирования, соответствующих запросам пользователей; управление разнородными источниками данных
Содержит три последовательных этапа:
Анализ запроса:
- Переписывание запроса: Переформулировка запроса с различных точек зрения
- Декомпозиция запроса: Разбиение сложных вопросов на простые подвопросы
- Рассуждение об ответе: Генерация гипотетических ответов для направления поиска
- Извлечение ключевых слов: Определение значительных терминов, специфичных для области
Поиск отрывков:
- Семантическое сопоставление: Использование разреженных кодировщиков (BM25) и плотных встраиваний (SBERT)
- Обход графа: Поиск на основе KG путем обхода структуры графа
- Гибридные методы: Комбинирование поиска с грубой зернистостью (высокий отзыв) и семантического поиска (высокая точность)
Переранжирование и фильтрация:
- Техники переранжирования: Переупорядочение на основе релевантности запросу
- Техники резюмирования: Сохранение наиболее информативных фрагментов, сокращение длины контекста
- Инженерия подсказок: Обеспечение эффективного использования LLM извлеченных документов
- Обработка конфликтов: Разрешение конфликтов между извлеченными доказательствами и параметрическими знаниями
- Специализированная тонкая настройка: Обучение LLM различению релевантных и нерелевантных документов
- Управление рабочим процессом: Координация взаимодействия и потока данных между модулями
- Динамическая адаптация: Активация соответствующих компонентов в зависимости от конкретных требований запроса
- Оптимизация эффективности: Повышение разнообразия и эффективности системы
- Модульный дизайн: Систематическое разбиение системы RAG на четыре независимых, но взаимодействующих модуля
- Анализ, ориентированный на проблемы: Определение технических узких мест, исходя из практических проблем
- Управление, ориентированное на сценарии применения: Переопределение ценности RAG на основе практических потребностей
Проблема: Неясность границ знаний LLM
- Текущее состояние: Большинство методов RAG не оценивают, что известно и неизвестно LLMs
- Решение:
- Методы, основанные на неопределенности, оценивают вариативность предсказаний
- Семантическая неопределенность, самонеопределенность, уверенность в предсказании
- Активация RAG только когда LLM не может произвести уверенное предсказание
Проблема: Неэффективность методов поиска
- Трудности в задачах сложного рассуждения: Многошаговые вопросно-ответные системы, математическое рассуждение требуют глубокого понимания намерений
- Ограничения KG-RAG:
- Методы K-hop соседства вводят нерелевантные сущности
- Поиск, управляемый LLM, дорогостоящий в вычислительном отношении и непоследовательный
- Направления решения: Фреймворки на основе агентов и Agentic RAG
Проблема: Риски ненепроверенных источников данных
- Проблема предположения: Большинство методов RAG предполагают, что внешние знания по своей природе надежны
- Реальная ситуация: Даже авторитетные базы данных, такие как PubMed, содержат поддельные данные
- Решение: Построение высококачественных, эффективно извлекаемых специализированных баз данных
Проблема: Непрозрачность механизма ICL
- Разрешение конфликтов: Механизм разрешения конфликтов между извлеченными доказательствами и параметрической памятью неясен
- Потолок производительности: LLMs склонны полагаться на извлеченное содержимое без учета его точности
- Направления исследований: Анализ потоков внимания, причинное отслеживание, зондирование представлений
Сравнительный анализ:
- Преимущества LLM с длинным контекстом: Обработка полных документов, снижение зависимости от поиска
- Недостатки LLM с длинным контекстом: Срок действия знаний, высокие затраты на рассуждение, чувствительность к шуму, дефицит данных обучения
- Дополнительность: Унифицированный фреймворк, объединяющий точный поиск фактов и целостное кроссдокументное рассуждение
- Типичные сценарии: Дозировка лекарств, диагностика редких заболеваний
- Ценность RAG: Доступ к высококачественным специализированным базам данных, поддержка авторитетными доказательствами
- Типичные сценарии: Корпоративные документы, личные заметки, многораундовые диалоги
- Ценность RAG: Персонализированный безопасный поиск знаний, защита конфиденциальности данных
- Типичные сценарии: Новости, финансовые рынки, обновления нормативных актов
- Ценность RAG: Постоянный поиск актуальной информации, функция как средства извлечения информации и резюмирования
Будучи обзорной статьей, данная работа поддерживает свои выводы следующим образом:
- Обзор литературы: Систематическое изучение прогресса в исследованиях RAG
- Анализ случаев: Анализ проблем в конкретных сценариях
- Теоретический анализ: Глубокие размышления на основе существующих исследований
- Ранние работы: Lewis et al. (2020) предложили базовый фреймворк RAG
- Оптимизация запросов: Трансформация запросов, тонкая настройка моделей встраивания
- Стратегии индексирования: Методы, расширенные графом знаний, такие как GraphRAG, HippoRAG, KAG
- Интеграция агентов: Agentic RAG, объединяющий интеллектуальные агенты LLM
- Технологии индексирования: Разбиение документов, граф знаний, иерархические структуры
- Технологии поиска: Семантическое сопоставление, обход графа, гибридные методы
- Технологии генерации: Инженерия подсказок, контролируемая тонкая настройка, обучение с подкреплением
- RAG по-прежнему имеет ценность: Несмотря на повышение возможностей LLMs, RAG остается незаменимым в конкретных сценариях
- Вызовы четко определены: Определены четыре основных технических вызова
- Направления развития ясны: Предоставлено четкое руководство для систем RAG следующего поколения
- Теоретический анализ преобладает: Отсутствие крупномасштабной эмпирической проверки
- Концептуализация решений: Предложенные решения в основном носят рекомендательный характер
- Отсутствие стандартов оценки: Не предоставлен унифицированный фреймворк оценки систем RAG
- Адаптивный поиск: Интеллектуальный механизм триггера на основе границ знаний LLM
- Глубокое понимание намерений: Точный анализ и декомпозиция сложных запросов
- Экосистема надежных данных: Построение высококачественных, проверяемых баз знаний
- Прозрачность механизмов: Глубокие исследования механизмов взаимодействия ICL и RAG
- Сильная систематичность: Комплексное охватывание всех аспектов технологии RAG
- Ориентация на проблемы: Глубокий анализ, исходящий из практических вызовов
- Хорошая перспективность: Предоставление четких направлений для будущих исследований
- Четкая структура: Модульный анализ облегчает понимание и применение
- Недостаток эмпирических данных: Как обзорная статья, отсутствуют оригинальные экспериментальные проверки
- Абстрактные решения: Предложенные решения в основном остаются на концептуальном уровне
- Отсутствие оценки: Не предоставлено систематическое сравнение различных методов RAG
- Академическая ценность: Предоставляет важный теоретический фреймворк и проблемную ориентацию для исследований RAG
- Практическая ценность: Предоставляет руководство для проектирования и оптимизации систем RAG в промышленности
- Вдохновляющее значение: Стимулирует переосмысление сущности и ценности RAG
- Исследователи: Важный справочник для исследований технологии RAG
- Инженеры: Руководство для проектирования и оптимизации систем RAG
- Менеджеры продуктов: Поддержка принятия решений при выборе сценариев применения RAG
Данная статья цитирует большое количество связанных работ, включая в основном:
- Lewis et al. (2020): оригинальная статья RAG
- Edge et al. (2024): GraphRAG
- Gutiérrez et al. (2024): HippoRAG
- Singh et al. (2025): Agentic RAG
- А также многочисленные исследования, связанные с LLM, ICL и графами знаний
Общая оценка: Это высококачественная обзорная статья по технологии RAG, систематически анализирующая текущее состояние, вызовы и будущие направления RAG. Основной вклад статьи заключается в предоставлении четкого аналитического фреймворка, ориентированного на проблемы, который указывает направление для дальнейшего развития в этой области. Хотя в статье отсутствуют оригинальные технологические вклады и эмпирическая проверка, как обзорная статья, она имеет значительную теоретическую ценность и руководящее значение.