2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.

Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.

academic

ReMindRAG: Traversal de Grafos de Conocimiento Guiado por LLM de Bajo Costo para RAG Eficiente

Información Básica

ID del Artículo: 2510.13193
Título: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
Autores: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
Clasificación: cs.IR (Recuperación de Información)
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2510.13193
Enlace del Código: https://github.com/kilgrims/ReMindRAG

Resumen

Los grafos de conocimiento (GC) ofrecen un camino prometedor para mejorar sistemas de generación aumentada por recuperación (RAG) mediante su capacidad de representación estructurada, lo que ha impulsado el desarrollo de sistemas KG-RAG. Sin embargo, los métodos existentes a menudo tienen dificultades para lograr una sinergia efectiva entre la efectividad del sistema y la eficiencia de costos, resultando en un rendimiento deficiente o un consumo excesivo de tokens de indicación de LLM y tiempo de inferencia. Para abordar esto, este artículo propone REMINDRAG, que adopta traversal de grafos guiado por LLM, que incluye exploración de nodos, explotación de nodos y, lo más importante, un mecanismo de reproducción de memoria para mejorar la efectividad del sistema y la eficiencia de costos. Específicamente, REMINDRAG memoriza experiencias de traversal en incrustaciones de bordes de GC, de manera similar a cómo los LLM "memorizan" conocimiento mundial en sus parámetros, pero de forma sin entrenamiento. Confirmamos la efectividad de REMINDRAG tanto teórica como experimentalmente, demostrando su superioridad sobre líneas base existentes en varios conjuntos de datos de referencia y redes troncales de LLM.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos RAG tradicionales dependen principalmente de la recuperación de vectores densos para identificar segmentos de texto relevantes, pero muestran limitaciones en tareas complejas que requieren razonamiento de múltiples saltos o captura de dependencias a largo plazo. Los grafos de conocimiento, con su representación estructurada de entidades y relaciones, ofrecen un nuevo camino para resolver este problema.

Limitaciones de Métodos Existentes

Algoritmos de búsqueda en grafos tradicionales: Como PageRank y métodos GNN, tienen dificultades para capturar relaciones semánticas sutiles en el grafo, resultando en efectividad insuficiente del sistema
Métodos de traversal de grafos guiados por LLM: Aunque muestran un desempeño excelente, requieren numerosas invocaciones de LLM, aumentando significativamente los costos y el tiempo de inferencia
Compensación entre eficiencia y efectividad: Los sistemas KG-RAG existentes tienen dificultades para encontrar un equilibrio efectivo entre la efectividad del sistema y la eficiencia de costos

Motivación de la Investigación

Este artículo tiene como objetivo abordar el problema de optimización sinérgica entre la efectividad del sistema y la eficiencia de costos en sistemas KG-RAG, que es un desafío principal para la implementación práctica y la escalabilidad.

Contribuciones Principales

Identificación de Desafíos Clave: Señala explícitamente el desafío de optimización sinérgica entre la efectividad del sistema y la eficiencia de costos en sistemas KG-RAG
Propuesta del Marco REMINDRAG: Adopta traversal de GC guiado por LLM, que incluye exploración de nodos, explotación de nodos y mecanismo de reproducción de memoria
Análisis Teórico: Demuestra teóricamente la efectividad de la reproducción de memoria en traversal de grafos
Verificación Experimental: Valida la superioridad de REMINDRAG en múltiples conjuntos de datos de referencia y redes troncales de LLM

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de documentos de texto no estructurado y una consulta del usuario, el objetivo es construir un grafo de conocimiento y recuperar información relevante mediante un mecanismo de traversal de grafos eficiente, generando respuestas precisas mientras se minimiza el costo de invocaciones de LLM.

Arquitectura del Modelo

1. Construcción del Grafo de Conocimiento

REMINDRAG construye un grafo de conocimiento heterogéneo que contiene:

Nodos de entidad: Entidades nombradas extraídas del texto
Nodos de anclaje: Almacenan títulos de bloques de texto
Conjunto de bloques de texto: Documentos originales segmentados
Conexiones de relaciones: Tripletas entidad-relación-entidad y red esquelética contextual

2. Traversal de Grafo de Conocimiento Guiado por LLM

Estrategia de Exploración de Nodos:

Prioriza la exploración de nodos potenciales que probablemente conduzcan a la respuesta
En cada iteración, el LLM evalúa todos los nodos en el subgrafo S, seleccionando el nodo objetivo a más probable que conduzca a la respuesta

Estrategia de Explotación de Nodos:

Se enfoca en explotar nodos previamente explorados, extendiendo caminos a lo largo de estos nodos
Dado un nodo seleccionado a, el LLM selecciona el nodo de extensión óptimo p del conjunto de nodos adyacentes Sa

3. Mecanismo de Reproducción de Memoria

Contenido de Memoria:

Caminos efectivos: Caminos que conducen a respuestas correctas (refuerzo positivo)
Caminos inefectivos: Caminos que no conducen a respuestas (refuerzo negativo)

Método de Memoria: Actualización de incrustaciones de bordes mediante ecuación de forma cerrada:

Función de peso: δ(x) = (2/π)cos(π||x||₂/2)
Mejorar caminos efectivos: v̂ = v + δ(v) · q/||q||₂
Penalizar caminos inefectivos: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Despertar Rápido y Actualización Amortiguada:

Despertar rápido: Cuando la norma de la incrustación de borde v es pequeña, la función δ produce actualizaciones direccionales grandes
Actualización amortiguada: Cuando la norma de la incrustación de borde v es grande, la función δ solo produce actualizaciones pequeñas, manteniendo la estabilidad

Puntos de Innovación Técnica

Mecanismo de Memoria sin Entrenamiento: Memoriza experiencias de traversal mediante incrustaciones de bordes sin requerir entrenamiento adicional
Equilibrio entre Exploración y Explotación: Combina estrategias de exploración y explotación de nodos para lograr búsqueda óptima global y local
Actualización de Peso Adaptativo: Estrategia de actualización adaptativa basada en la norma de vectores, equilibrando aprendizaje rápido y estabilidad a largo plazo

Configuración Experimental

Conjuntos de Datos

QA de Dependencia Larga: Conjunto de datos LooGLE, prueba la capacidad de recuperación semántica a largo plazo
QA de Múltiples Saltos: Conjunto de datos HotpotQA, evalúa la capacidad de razonamiento de múltiples pasos
QA Simple: QA de dependencia corta de LooGLE, prueba la capacidad de extracción de información directamente asociada

Métricas de Evaluación

Evaluación de Efectividad: Utiliza GPT-4o como juez de LLM para evaluar la precisión de respuestas
Evaluación de Eficiencia de Costos: Número promedio de tokens de LLM consumidos por consulta durante el proceso de traversal

Métodos de Comparación

Métodos de Recuperación Tradicionales: BM25, NaiveRAG
Sistemas KG-RAG con Algoritmos de Búsqueda en Grafos: GraphRAG, LightRAG, HippoRAG2
Sistemas KG-RAG Guiados por LLM: Plan-on-Graph

Detalles de Implementación

Red Troncal de LLM: GPT-4o-mini, Deepseek-V3
Modelo de Incrustación: nomic-ai/nomic-embed-text-v2-moe
Segmentación de Texto: Longitud de 750 tokens
Parámetros Clave: α=0.1 (peso de relevancia de nodo), λ=0.55 (umbral de conexión fuerte)

Resultados Experimentales

Resultados Principales

Tipo de QA	GPT-4o-mini	Deepseek-V3
QA de Dependencia Larga	57.04%	59.73%
QA de Múltiples Saltos	74.22%	79.38%
QA Simple	76.67%	77.01%

REMINDRAG supera significativamente los métodos de línea base en todas las tareas:

QA de Dependencia Larga: Mejora promedio del 12.08%
QA de Múltiples Saltos: Mejora promedio del 10.31%
QA Simple: Mejora promedio del 4.66%

Análisis de Eficiencia de Costos

Tipo de Configuración	Precisión	Consumo de Tokens	Reducción de Costos
Sin Memoria	57.04%	14.91K	-
Memoria de 1 Ronda	56.48%	9.68K	35.1%
Memoria de 2 Rondas	58.01%	7.55K	49.4%
Memoria de 3 Rondas	60.31%	6.71K	55.0%

Después de múltiples rondas de memoria, REMINDRAG logra una reducción promedio del 58.8% en el consumo de tokens.

Experimentos de Ablación

Impacto de la Red Esquelética Contextual:

Después de eliminar la red esquelética contextual, el rendimiento de QA de dependencia larga disminuye de 57.04% a 51.01%
Valida la importancia de la captura de información contextual

Impacto de la Configuración de Saltos:

Con el aumento del número máximo de saltos, el rendimiento del sistema aumenta monótonamente
Más saltos permiten que los nodos accedan a información de vecindarios más amplios

Análisis de Casos

Capacidad de Autocorrección:

Después de un error inicial, el sistema puede penalizar nodos irrelevantes basándose en reglas de memoria
En consultas posteriores, cambia a subgrafos optimizados por memoria, logrando autocorrección de errores

Estabilidad de Memoria:

Mantiene rendimiento estable en configuraciones complejas de múltiples rondas de memoria
Demuestra robustez al procesar conjuntos de datos heterogéneos alternos

Análisis Teórico

Teorema de Capacidad de Memoria

Para un conjunto de consultas con cierta similitud semántica, cuando la dimensión de incrustación d es suficientemente grande, las incrustaciones de bordes pueden memorizar efectivamente información de consultas, con la condición:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

donde θ es el ángulo máximo entre pares de incrustaciones de consultas, y λ es el umbral de conexión fuerte.

Garantías Teóricas

El límite teórico superior de λ es 0.775, consistente con investigaciones existentes sobre umbrales de similitud semántica de 0.6
Cuando la dimensión de incrustación excede 100, la aproximación teórica tiene significativa practicidad en la práctica

Trabajo Relacionado

Desarrollo de Sistemas KG-RAG

Métodos de Búsqueda en Grafos Tradicionales: PageRank, Random Walk, GNN, etc., tienen dificultades para capturar relaciones semánticas sutiles
Métodos Guiados por LLM: Aprovechan la capacidad de comprensión semántica de LLM, pero con costos elevados
Poda de Grafos y Planificación de Caminos: Los métodos de optimización existentes tienen efectividad limitada

Mecanismo de Reproducción de Memoria

Se inspira en el concepto de reproducción de memoria en aprendizaje por refuerzo
Innovadoramente memoriza la reproducción como pesos en el grafo, en lugar de reproducción explícita de muestras

Conclusiones y Discusión

Conclusiones Principales

REMINDRAG logra exitosamente la optimización sinérgica entre la efectividad del sistema y la eficiencia de costos
El mecanismo de reproducción de memoria mejora significativamente la eficiencia de consultas posteriores
La capacidad de autocorrección mejora la robustez del sistema

Limitaciones

Costo de Traversal Inicial: El primer traversal aún requiere múltiples invocaciones de LLM
Procesamiento de Documentos a Gran Escala: La construcción del grafo de conocimiento requiere tiempo y recursos computacionales significativos
Límites de Capacidad de Memoria: El análisis teórico se basa en suposiciones de dimensión infinita, que pueden estar limitadas en aplicaciones prácticas

Direcciones Futuras

Inicialización de Memoria Preentrenada: Usar preguntas frecuentes específicas del dominio para preinicializar la memoria del modelo
Construcción de Grafos Distribuida: Optimizar la eficiencia de construcción de grafos para documentos a gran escala
Gestión Dinámica de Memoria: Investigar mecanismos de olvido y actualización de memoria a largo plazo

Evaluación Profunda

Fortalezas

Innovación Fuerte: Propone por primera vez un mecanismo de memoria de traversal de grafos sin entrenamiento
Teoría Sólida: Proporciona análisis teórico y garantías de capacidad de memoria
Experimentación Completa: Evaluación integral en múltiples conjuntos de datos y redes troncales
Alto Valor Práctico: Mejoras significativas de rendimiento y reducción de costos

Insuficiencias

Sensibilidad de Parámetros: La configuración de múltiples hiperparámetros puede afectar el rendimiento
Problemas de Escalabilidad: La aplicabilidad a grafos de conocimiento de escala ultra-grande no ha sido suficientemente verificada
Estrategia de Actualización de Memoria: Las actualizaciones lineales simples pueden no ser aplicables a todos los escenarios

Impacto

Contribución Académica: Proporciona nuevas perspectivas de optimización para el campo KG-RAG
Aplicación Práctica: Tiene amplias perspectivas de aplicación en sistemas de preguntas y respuestas, recuperación de información, etc.
Reproducibilidad: Proporciona código de código abierto, facilitando la verificación y extensión por la comunidad de investigación

Escenarios Aplicables

Sistemas de Diálogo Multiturno: Puede memorizar interacciones históricas, mejorando la eficiencia de respuesta
Preguntas y Respuestas Específicas del Dominio: Puede acumular y utilizar experiencias de traversal dentro de dominios específicos
Aplicaciones Sensibles a Costos: Escenarios con requisitos estrictos sobre costos de invocación de LLM

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo RAG, grafos de conocimiento, redes neuronales de grafos, etc., incluyendo:

Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
Edge et al. (2024): GraphRAG approach to query-focused summarization
Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
Y 55 referencias relacionadas adicionales

Evaluación General: REMINDRAG es un trabajo de investigación de alta calidad que propone una solución innovadora en el campo KG-RAG. El método no solo representa un avance técnico, sino que más importantemente aborda el problema clave en aplicaciones prácticas: el equilibrio entre efectividad y eficiencia. El análisis teórico es riguroso, el diseño experimental es razonable y los resultados son convincentes. Aunque existen algunas limitaciones, sus contribuciones son significativas y tienen importancia considerable para promover la practicidad de la tecnología KG-RAG.