2025-11-11T10:34:09.859553

When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs

Wang, Yu, Song et al.

Large Language Models (LLMs) have enabled a wide range of applications through their powerful capabilities in language understanding and generation. However, as LLMs are trained on static corpora, they face difficulties in addressing rapidly evolving information or domain-specific queries. Retrieval-Augmented Generation (RAG) was developed to overcome this limitation by integrating LLMs with external retrieval mechanisms, allowing them to access up-to-date and contextually relevant knowledge. However, as LLMs themselves continue to advance in scale and capability, the relative advantages of traditional RAG frameworks have become less pronounced and necessary. Here, we present a comprehensive review of RAG, beginning with its overarching objectives and core components. We then analyze the key challenges within RAG, highlighting critical weakness that may limit its effectiveness. Finally, we showcase applications where LLMs alone perform inadequately, but where RAG, when combined with LLMs, can substantially enhance their effectiveness. We hope this work will encourage researchers to reconsider the role of RAG and inspire the development of next-generation RAG systems.

academic

Когда поиск успешен и неудачен: переосмысление поиска с дополнением для больших языковых моделей

Основная информация

ID статьи: 2510.09106
Название: When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs
Авторы: Yongjie Wang, Yue Yu, Kaisong Song, Jun Lin, Zhiqi Shen
Категория: cs.CL (вычислительная лингвистика)
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09106

Аннотация

Большие языковые модели (LLMs) достигли широкого применения благодаря мощным способностям понимания и генерации языка. Однако, поскольку LLMs обучаются на статических корпусах, они испытывают трудности при работе с быстро развивающейся информацией или запросами, специфичными для конкретной области. Поиск с дополнением (RAG) преодолевает это ограничение путем интеграции LLMs с внешними механизмами поиска, позволяя им получать доступ к актуальным и контекстуально релевантным знаниям. Однако с постоянным прогрессом LLMs в масштабе и возможностях относительное преимущество традиционных фреймворков RAG становится менее очевидным и необходимым. В данной статье проводится комплексный обзор RAG, начиная с его общих целей и основных компонентов, затем анализируются ключевые вызовы в RAG, выделяются критические слабости, которые могут ограничить его эффективность. Наконец, демонстрируются сценарии применения, где LLMs работают неудовлетворительно в одиночку, но RAG в сочетании с LLMs может значительно повысить их эффективность.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: С быстрым повышением возможностей LLMs ставится под сомнение необходимость и эффективность традиционных фреймворков RAG
Конкретные вызовы:
- Ограничения знаний LLMs на основе статических данных обучения
- Трудности при обработке запросов, специфичных для конкретной области, и быстро развивающейся информации
- Распространенность явления галлюцинаций

Важность исследования

Практические потребности: Сценарии, требующие знаний, персонализированного доступа к информации, интеграции знаний в реальном времени, по-прежнему нуждаются в RAG
Технологическое развитие: Необходимо переоценить роль и ценность RAG в контексте современных LLMs
Теоретическое значение: Предоставить руководство для развития систем RAG следующего поколения

Ограничения существующих методов

Неправильный механизм триггера поиска: Отсутствие анализа границ существующих знаний LLMs
Недостаточное понимание сложных запросов: Ограниченные способности анализа намерений, влияющие на извлечение ключевых слов
Неразрешенные конфликты знаний: Наличие непроверенной конфликтующей информации во внешних базах данных
Ограниченное понимание механизма ICL: Недостаточное понимание механизмов работы контекстного обучения в фреймворке поиска с дополнением

Основные вклады

Систематический обзор: Предоставляет комплексный обзор технологии RAG, включая архитектуру, компоненты и вызовы
Идентификация проблем: Глубокий анализ четырех основных вызовов, стоящих перед текущими системами RAG
Уточнение сценариев применения: Определение и описание трех основных областей применения, где RAG остается незаменимым
Будущие направления: Предоставление четких направлений исследований для развития систем RAG следующего поколения

Подробное описание методов

Архитектура системы RAG

В данной статье система RAG разбивается на четыре основных модуля:

1. Модуль индексирования (Indexing Module)

Разбиение документов: Разделение документов на управляемые блоки с кодированием с использованием BM25 или встраивания LLM
Расширение графом знаний:
- Преобразование внешних источников в граф знаний (KG)
- Узлы представляют сущности или концепции, ребра кодируют отношения
- Иерархическая кластеризация организует сущности в многоуровневые структуры сообществ
Вызовы: Разработка эффективных систем индексирования, соответствующих запросам пользователей; управление разнородными источниками данных

2. Модуль поиска (Retrieval Module)

Содержит три последовательных этапа:

Анализ запроса:

Переписывание запроса: Переформулировка запроса с различных точек зрения
Декомпозиция запроса: Разбиение сложных вопросов на простые подвопросы
Рассуждение об ответе: Генерация гипотетических ответов для направления поиска
Извлечение ключевых слов: Определение значительных терминов, специфичных для области

Поиск отрывков:

Семантическое сопоставление: Использование разреженных кодировщиков (BM25) и плотных встраиваний (SBERT)
Обход графа: Поиск на основе KG путем обхода структуры графа
Гибридные методы: Комбинирование поиска с грубой зернистостью (высокий отзыв) и семантического поиска (высокая точность)

Переранжирование и фильтрация:

Техники переранжирования: Переупорядочение на основе релевантности запросу
Техники резюмирования: Сохранение наиболее информативных фрагментов, сокращение длины контекста

3. Модуль генерации (Generation Module)

Инженерия подсказок: Обеспечение эффективного использования LLM извлеченных документов
Обработка конфликтов: Разрешение конфликтов между извлеченными доказательствами и параметрическими знаниями
Специализированная тонкая настройка: Обучение LLM различению релевантных и нерелевантных документов

4. Модуль оркестрации (Orchestration Module)

Управление рабочим процессом: Координация взаимодействия и потока данных между модулями
Динамическая адаптация: Активация соответствующих компонентов в зависимости от конкретных требований запроса
Оптимизация эффективности: Повышение разнообразия и эффективности системы

Технологические инновации

Модульный дизайн: Систематическое разбиение системы RAG на четыре независимых, но взаимодействующих модуля
Анализ, ориентированный на проблемы: Определение технических узких мест, исходя из практических проблем
Управление, ориентированное на сценарии применения: Переопределение ценности RAG на основе практических потребностей

Анализ основных вызовов

1. Время триггера поиска (When Should I Retrieve?)

Проблема: Неясность границ знаний LLM

Текущее состояние: Большинство методов RAG не оценивают, что известно и неизвестно LLMs
Решение:
- Методы, основанные на неопределенности, оценивают вариативность предсказаний
- Семантическая неопределенность, самонеопределенность, уверенность в предсказании
- Активация RAG только когда LLM не может произвести уверенное предсказание

2. Выбор содержимого для поиска (What to Retrieve?)

Проблема: Неэффективность методов поиска

Трудности в задачах сложного рассуждения: Многошаговые вопросно-ответные системы, математическое рассуждение требуют глубокого понимания намерений
Ограничения KG-RAG:
- Методы K-hop соседства вводят нерелевантные сущности
- Поиск, управляемый LLM, дорогостоящий в вычислительном отношении и непоследовательный
Направления решения: Фреймворки на основе агентов и Agentic RAG

3. Надежность источников данных (What Should I Trust?)

Проблема: Риски ненепроверенных источников данных

Проблема предположения: Большинство методов RAG предполагают, что внешние знания по своей природе надежны
Реальная ситуация: Даже авторитетные базы данных, такие как PubMed, содержат поддельные данные
Решение: Построение высококачественных, эффективно извлекаемых специализированных баз данных

4. Механизм работы RAG (How does RAG Work?)

Проблема: Непрозрачность механизма ICL

Разрешение конфликтов: Механизм разрешения конфликтов между извлеченными доказательствами и параметрической памятью неясен
Потолок производительности: LLMs склонны полагаться на извлеченное содержимое без учета его точности
Направления исследований: Анализ потоков внимания, причинное отслеживание, зондирование представлений

5. RAG против LLM с длинным контекстом

Сравнительный анализ:

Преимущества LLM с длинным контекстом: Обработка полных документов, снижение зависимости от поиска
Недостатки LLM с длинным контекстом: Срок действия знаний, высокие затраты на рассуждение, чувствительность к шуму, дефицит данных обучения
Дополнительность: Унифицированный фреймворк, объединяющий точный поиск фактов и целостное кроссдокументное рассуждение

Анализ сценариев применения

1. Приложения, требующие интенсивных знаний

Типичные сценарии: Дозировка лекарств, диагностика редких заболеваний
Ценность RAG: Доступ к высококачественным специализированным базам данных, поддержка авторитетными доказательствами

2. Управление приватными знаниями

Типичные сценарии: Корпоративные документы, личные заметки, многораундовые диалоги
Ценность RAG: Персонализированный безопасный поиск знаний, защита конфиденциальности данных

3. Интеграция знаний в реальном времени

Типичные сценарии: Новости, финансовые рынки, обновления нормативных актов
Ценность RAG: Постоянный поиск актуальной информации, функция как средства извлечения информации и резюмирования

Экспериментальная установка

Будучи обзорной статьей, данная работа поддерживает свои выводы следующим образом:

Обзор литературы: Систематическое изучение прогресса в исследованиях RAG
Анализ случаев: Анализ проблем в конкретных сценариях
Теоретический анализ: Глубокие размышления на основе существующих исследований

Связанные работы

История развития RAG

Ранние работы: Lewis et al. (2020) предложили базовый фреймворк RAG
Оптимизация запросов: Трансформация запросов, тонкая настройка моделей встраивания
Стратегии индексирования: Методы, расширенные графом знаний, такие как GraphRAG, HippoRAG, KAG
Интеграция агентов: Agentic RAG, объединяющий интеллектуальные агенты LLM

Классификация технологий

Технологии индексирования: Разбиение документов, граф знаний, иерархические структуры
Технологии поиска: Семантическое сопоставление, обход графа, гибридные методы
Технологии генерации: Инженерия подсказок, контролируемая тонкая настройка, обучение с подкреплением

Заключение и обсуждение

Основные выводы

RAG по-прежнему имеет ценность: Несмотря на повышение возможностей LLMs, RAG остается незаменимым в конкретных сценариях
Вызовы четко определены: Определены четыре основных технических вызова
Направления развития ясны: Предоставлено четкое руководство для систем RAG следующего поколения

Ограничения

Теоретический анализ преобладает: Отсутствие крупномасштабной эмпирической проверки
Концептуализация решений: Предложенные решения в основном носят рекомендательный характер
Отсутствие стандартов оценки: Не предоставлен унифицированный фреймворк оценки систем RAG

Будущие направления

Адаптивный поиск: Интеллектуальный механизм триггера на основе границ знаний LLM
Глубокое понимание намерений: Точный анализ и декомпозиция сложных запросов
Экосистема надежных данных: Построение высококачественных, проверяемых баз знаний
Прозрачность механизмов: Глубокие исследования механизмов взаимодействия ICL и RAG

Глубокая оценка

Преимущества

Сильная систематичность: Комплексное охватывание всех аспектов технологии RAG
Ориентация на проблемы: Глубокий анализ, исходящий из практических вызовов
Хорошая перспективность: Предоставление четких направлений для будущих исследований
Четкая структура: Модульный анализ облегчает понимание и применение

Недостатки

Недостаток эмпирических данных: Как обзорная статья, отсутствуют оригинальные экспериментальные проверки
Абстрактные решения: Предложенные решения в основном остаются на концептуальном уровне
Отсутствие оценки: Не предоставлено систематическое сравнение различных методов RAG

Влияние

Академическая ценность: Предоставляет важный теоретический фреймворк и проблемную ориентацию для исследований RAG
Практическая ценность: Предоставляет руководство для проектирования и оптимизации систем RAG в промышленности
Вдохновляющее значение: Стимулирует переосмысление сущности и ценности RAG

Применимые сценарии

Исследователи: Важный справочник для исследований технологии RAG
Инженеры: Руководство для проектирования и оптимизации систем RAG
Менеджеры продуктов: Поддержка принятия решений при выборе сценариев применения RAG

Библиография

Данная статья цитирует большое количество связанных работ, включая в основном:

Lewis et al. (2020): оригинальная статья RAG
Edge et al. (2024): GraphRAG
Gutiérrez et al. (2024): HippoRAG
Singh et al. (2025): Agentic RAG
А также многочисленные исследования, связанные с LLM, ICL и графами знаний

Общая оценка: Это высококачественная обзорная статья по технологии RAG, систематически анализирующая текущее состояние, вызовы и будущие направления RAG. Основной вклад статьи заключается в предоставлении четкого аналитического фреймворка, ориентированного на проблемы, который указывает направление для дальнейшего развития в этой области. Хотя в статье отсутствуют оригинальные технологические вклады и эмпирическая проверка, как обзорная статья, она имеет значительную теоретическую ценность и руководящее значение.