2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.

Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.

academic

ReMindRAG: Низкозатратный обход графа знаний с направлением LLM для эффективного RAG

Основная информация

ID статьи: 2510.13193
Название: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
Авторы: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
Категория: cs.IR (Информационный поиск)
Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2510.13193
Ссылка на код: https://github.com/kilgrims/ReMindRAG

Аннотация

Графы знаний (KG) благодаря своей структурированной репрезентации предоставляют перспективный подход для улучшения систем поиска с дополнением поколением (RAG), что привело к развитию систем KG-RAG. Однако существующие методы часто не достигают эффективного синергизма между эффективностью системы и экономической целесообразностью, что приводит к низкой производительности или чрезмерному использованию токенов подсказок LLM и времени вывода. Для решения этой проблемы в данной работе предлагается REMINDRAG, использующий направленный LLM обход графа, включающий исследование узлов, использование узлов и, что наиболее важно, механизм воспроизведения памяти для повышения эффективности системы и экономической целесообразности. В частности, REMINDRAG запоминает опыт обхода в вложениях рёбер KG, аналогично тому, как LLM "запоминает" мировые знания в своих параметрах, но без обучения. Мы подтверждаем эффективность REMINDRAG как теоретически, так и экспериментально, демонстрируя её превосходство над существующими базовыми методами на различных наборах данных и архитектурах LLM.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные методы RAG в основном полагаются на плотный векторный поиск для выявления релевантных текстовых фрагментов, но показывают ограниченную производительность в сложных задачах, требующих многошагового рассуждения или захвата долгосрочных зависимостей. Графы знаний со своим структурированным представлением сущностей и отношений предоставляют новый путь для решения этой проблемы.

Ограничения существующих методов

Традиционные алгоритмы поиска по графам: такие как PageRank и методы GNN, испытывают трудности при захвате тонких семантических отношений в графе, что приводит к недостаточной эффективности системы
Методы обхода графа с направлением LLM: хотя и показывают отличные результаты, требуют большого количества вызовов LLM, что значительно увеличивает затраты и время вывода
Компромисс между эффективностью и результативностью: существующие системы KG-RAG испытывают трудности при поиске эффективного баланса между эффективностью системы и экономической целесообразностью

Исследовательская мотивация

Данная работа направлена на решение проблемы синергетической оптимизации эффективности системы и экономической целесообразности в системах KG-RAG, что является основной проблемой для практического развёртывания и масштабируемости.

Основные вклады

Выявление ключевых вызовов: чётко определены проблемы синергетической оптимизации эффективности системы и экономической целесообразности в системах KG-RAG
Предложение фреймворка REMINDRAG: использует направленный LLM обход KG, включающий исследование узлов, использование узлов и механизм воспроизведения памяти
Теоретический анализ: теоретически доказана эффективность воспроизведения памяти при обходе графа
Экспериментальная проверка: подтверждена превосходство REMINDRAG на нескольких наборах данных и архитектурах LLM

Подробное описание метода

Определение задачи

Учитывая неструктурированные текстовые документы и запрос пользователя, целью является построение графа знаний и эффективное извлечение релевантной информации через механизм обхода графа для генерации точных ответов при минимизации затрат на вызовы LLM.

Архитектура модели

1. Построение графа знаний

REMINDRAG строит гетерогенный граф знаний, содержащий:

Узлы сущностей: именованные сущности, извлечённые из текста
Узлы якорей: хранящие заголовки текстовых блоков
Наборы текстовых блоков: разделённые исходные документы
Связи отношений: тройки сущность-отношение-сущность и сетевые скелеты контекста

2. Обход графа знаний с направлением LLM

Стратегия исследования узлов:

Приоритизирует исследование потенциальных узлов, которые могут привести к ответу
На каждой итерации LLM оценивает все узлы в подграфе S и выбирает целевой узел a, который с наибольшей вероятностью приведёт к ответу

Стратегия использования узлов:

Сосредоточена на использовании ранее исследованных узлов, расширяя пути вдоль этих узлов
Учитывая выбранный узел a, LLM выбирает оптимальный узел расширения p из набора соседних узлов Sa

3. Механизм воспроизведения памяти

Содержание памяти:

Эффективные пути: пути, приводящие к правильному ответу (положительное подкрепление)
Неэффективные пути: пути, не приводящие к ответу (отрицательное подкрепление)

Метод запоминания: Обновление вложений рёбер с использованием замкнутой формулы:

Функция веса: δ(x) = (2/π)cos(π||x||₂/2)
Усиление эффективных путей: v̂ = v + δ(v) · q/||q||₂
Штраф неэффективных путей: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Быстрое пробуждение и затухающее обновление:

Быстрое пробуждение: когда норма вложения ребра v мала, функция δ производит большие обновления направления
Затухающее обновление: когда норма вложения ребра v велика, функция δ производит только небольшие обновления, сохраняя стабильность

Технические инновации

Механизм памяти без обучения: запоминание опыта обхода через вложения рёбер без дополнительного обучения
Баланс исследования и использования: комбинирует стратегии исследования и использования узлов для достижения глобальной и локальной оптимизации поиска
Адаптивное обновление весов: стратегия адаптивного обновления на основе нормы вектора, обеспечивающая быстрое обучение и долгосрочную стабильность

Экспериментальная установка

Наборы данных

QA с долгосрочными зависимостями: набор данных LooGLE для проверки способности долгосрочного семантического поиска
Многошаговое QA: набор данных HotpotQA для оценки способности многошагового рассуждения
Простое QA: LooGLE с краткосрочными зависимостями для проверки прямого извлечения связанной информации

Метрики оценки

Оценка эффективности: использование GPT-4o в качестве судьи LLM для оценки точности ответов
Оценка экономической целесообразности: среднее количество токенов LLM, потребляемых на один запрос во время процесса обхода

Методы сравнения

Традиционные методы поиска: BM25, NaiveRAG
Системы KG-RAG с алгоритмами поиска по графам: GraphRAG, LightRAG, HippoRAG2
Системы KG-RAG с направлением LLM: Plan-on-Graph

Детали реализации

Архитектура LLM: GPT-4o-mini, Deepseek-V3
Модель вложений: nomic-ai/nomic-embed-text-v2-moe
Разбиение текста: длина 750 токенов
Ключевые параметры: α=0.1 (вес релевантности узла), λ=0.55 (порог сильной связи)

Результаты экспериментов

Основные результаты

Тип QA	GPT-4o-mini	Deepseek-V3
QA с долгосрочными зависимостями	57.04%	59.73%
Многошаговое QA	74.22%	79.38%
Простое QA	76.67%	77.01%

REMINDRAG значительно превосходит базовые методы во всех задачах:

QA с долгосрочными зависимостями: среднее улучшение 12.08%
Многошаговое QA: среднее улучшение 10.31%
Простое QA: среднее улучшение 4.66%

Анализ экономической целесообразности

Тип установки	Точность	Потребление токенов	Снижение затрат
Без памяти	57.04%	14.91K	-
1 раунд памяти	56.48%	9.68K	35.1%
2 раунда памяти	58.01%	7.55K	49.4%
3 раунда памяти	60.31%	6.71K	55.0%

После многораундовой памяти REMINDRAG достигает среднего снижения потребления токенов на 58.8%.

Абляционные исследования

Влияние сетевого скелета контекста:

После удаления сетевого скелета контекста производительность QA с долгосрочными зависимостями снизилась с 57.04% до 51.01%
Подтверждает важность захвата контекстной информации

Влияние установки количества шагов:

С увеличением максимального количества шагов производительность системы монотонно возрастает
Большее количество шагов позволяет узлам получать доступ к более широкой окрестности

Анализ примеров

Способность самокоррекции:

После первоначальной ошибки система может штрафовать нерелевантные узлы на основе правил памяти
При последующих запросах переключается на оптимизированный памятью подграф, достигая самокоррекции ошибок

Стабильность памяти:

Сохраняет стабильную производительность в сложных многораундовых установках памяти
Демонстрирует надёжность при обработке гетерогенных наборов данных

Теоретический анализ

Теорема ёмкости памяти

Для набора запросов с определённой семантической схожестью, когда размерность вложения d достаточно велика, вложения рёбер могут эффективно запоминать информацию о запросах при условии:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

где θ — максимальный угол между парами вложений запросов, λ — порог сильной связи.

Теоретические гарантии

Теоретический верхний предел λ составляет 0.775, что согласуется с существующими исследованиями по порогам семантической схожести 0.6
Когда размерность вложения превышает 100, теоретическое приближение имеет значительную практическую применимость

Связанные работы

Развитие систем KG-RAG

Традиционные методы поиска по графам: PageRank, Random Walk, GNN и др., испытывают трудности при захвате тонких семантических отношений
Методы с направлением LLM: используют способность LLM к семантическому пониманию, но требуют высоких затрат
Обрезка графов и планирование путей: существующие методы оптимизации имеют ограниченную эффективность

Механизмы воспроизведения памяти

Заимствует концепцию воспроизведения памяти из обучения с подкреплением
Инновационно встраивает память как веса в графе, а не как явное воспроизведение образцов

Заключение и обсуждение

Основные выводы

REMINDRAG успешно достигает синергетической оптимизации эффективности системы и экономической целесообразности
Механизм воспроизведения памяти значительно повышает эффективность последующих запросов
Способность самокоррекции повышает надёжность системы

Ограничения

Начальные затраты на обход: первоначальный обход всё ещё требует множественных вызовов LLM
Обработка крупномасштабных документов: построение графа знаний требует значительных временных и вычислительных ресурсов
Ограничения ёмкости памяти: теоретический анализ основан на предположении бесконечной размерности, что может быть ограничено в практических приложениях

Направления будущих исследований

Инициализация предварительно обученной памяти: использование предварительной инициализации памяти на основе часто задаваемых вопросов в конкретной области
Распределённое построение графов: оптимизация эффективности построения графов для крупномасштабных документов
Динамическое управление памятью: исследование механизмов забывания и обновления долгосрочной памяти

Глубокая оценка

Преимущества

Высокая инновационность: впервые предложен механизм памяти при обходе графа без обучения
Твёрдая теоретическая база: предоставлен теоретический анализ и гарантии ёмкости памяти
Полные эксперименты: комплексная оценка на нескольких наборах данных и архитектурах LLM
Высокая практическая ценность: значительное улучшение производительности и снижение затрат

Недостатки

Чувствительность параметров: установка нескольких гиперпараметров может влиять на производительность
Проблемы масштабируемости: применимость к сверхбольшим графам знаний не полностью проверена
Стратегия обновления памяти: простое линейное обновление может быть неприменимо во всех сценариях

Влияние

Академический вклад: предоставляет новые идеи оптимизации для области KG-RAG
Практическое применение: имеет широкие перспективы применения в системах вопросов и ответов, информационном поиске и других областях
Воспроизводимость: предоставлен открытый исходный код, облегчающий проверку и расширение исследовательским сообществом

Применимые сценарии

Многораундовые диалоговые системы: может запоминать исторические взаимодействия, повышая эффективность ответов
Вопросы и ответы в конкретной области: может накапливать и использовать опыт обхода в конкретной области
Приложения, чувствительные к затратам: сценарии с строгими требованиями к затратам на вызовы LLM

Список литературы

В данной работе цитируются важные работы из нескольких областей, включая RAG, графы знаний, графические нейронные сети и др., всего 55 связанных источников, включая:

Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
Edge et al. (2024): GraphRAG approach to query-focused summarization
Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
и другие

Общая оценка: REMINDRAG является высококачественной исследовательской работой, предлагающей инновационное решение в области KG-RAG. Этот метод не только представляет технический прорыв, но, что более важно, решает ключевую проблему практического применения — баланс между эффективностью и результативностью. Теоретический анализ строг, экспериментальный дизайн обоснован, результаты убедительны. Несмотря на некоторые ограничения, его вклад значителен и имеет важное значение для продвижения практического применения технологии KG-RAG.