2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.
Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.
academic

ReMindRAG: Traversal de Grafos de Conocimiento Guiado por LLM de Bajo Costo para RAG Eficiente

Información Básica

  • ID del Artículo: 2510.13193
  • Título: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
  • Autores: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
  • Clasificación: cs.IR (Recuperación de Información)
  • Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13193
  • Enlace del Código: https://github.com/kilgrims/ReMindRAG

Resumen

Los grafos de conocimiento (GC) ofrecen un camino prometedor para mejorar sistemas de generación aumentada por recuperación (RAG) mediante su capacidad de representación estructurada, lo que ha impulsado el desarrollo de sistemas KG-RAG. Sin embargo, los métodos existentes a menudo tienen dificultades para lograr una sinergia efectiva entre la efectividad del sistema y la eficiencia de costos, resultando en un rendimiento deficiente o un consumo excesivo de tokens de indicación de LLM y tiempo de inferencia. Para abordar esto, este artículo propone REMINDRAG, que adopta traversal de grafos guiado por LLM, que incluye exploración de nodos, explotación de nodos y, lo más importante, un mecanismo de reproducción de memoria para mejorar la efectividad del sistema y la eficiencia de costos. Específicamente, REMINDRAG memoriza experiencias de traversal en incrustaciones de bordes de GC, de manera similar a cómo los LLM "memorizan" conocimiento mundial en sus parámetros, pero de forma sin entrenamiento. Confirmamos la efectividad de REMINDRAG tanto teórica como experimentalmente, demostrando su superioridad sobre líneas base existentes en varios conjuntos de datos de referencia y redes troncales de LLM.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos RAG tradicionales dependen principalmente de la recuperación de vectores densos para identificar segmentos de texto relevantes, pero muestran limitaciones en tareas complejas que requieren razonamiento de múltiples saltos o captura de dependencias a largo plazo. Los grafos de conocimiento, con su representación estructurada de entidades y relaciones, ofrecen un nuevo camino para resolver este problema.

Limitaciones de Métodos Existentes

  1. Algoritmos de búsqueda en grafos tradicionales: Como PageRank y métodos GNN, tienen dificultades para capturar relaciones semánticas sutiles en el grafo, resultando en efectividad insuficiente del sistema
  2. Métodos de traversal de grafos guiados por LLM: Aunque muestran un desempeño excelente, requieren numerosas invocaciones de LLM, aumentando significativamente los costos y el tiempo de inferencia
  3. Compensación entre eficiencia y efectividad: Los sistemas KG-RAG existentes tienen dificultades para encontrar un equilibrio efectivo entre la efectividad del sistema y la eficiencia de costos

Motivación de la Investigación

Este artículo tiene como objetivo abordar el problema de optimización sinérgica entre la efectividad del sistema y la eficiencia de costos en sistemas KG-RAG, que es un desafío principal para la implementación práctica y la escalabilidad.

Contribuciones Principales

  1. Identificación de Desafíos Clave: Señala explícitamente el desafío de optimización sinérgica entre la efectividad del sistema y la eficiencia de costos en sistemas KG-RAG
  2. Propuesta del Marco REMINDRAG: Adopta traversal de GC guiado por LLM, que incluye exploración de nodos, explotación de nodos y mecanismo de reproducción de memoria
  3. Análisis Teórico: Demuestra teóricamente la efectividad de la reproducción de memoria en traversal de grafos
  4. Verificación Experimental: Valida la superioridad de REMINDRAG en múltiples conjuntos de datos de referencia y redes troncales de LLM

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de documentos de texto no estructurado y una consulta del usuario, el objetivo es construir un grafo de conocimiento y recuperar información relevante mediante un mecanismo de traversal de grafos eficiente, generando respuestas precisas mientras se minimiza el costo de invocaciones de LLM.

Arquitectura del Modelo

1. Construcción del Grafo de Conocimiento

REMINDRAG construye un grafo de conocimiento heterogéneo que contiene:

  • Nodos de entidad: Entidades nombradas extraídas del texto
  • Nodos de anclaje: Almacenan títulos de bloques de texto
  • Conjunto de bloques de texto: Documentos originales segmentados
  • Conexiones de relaciones: Tripletas entidad-relación-entidad y red esquelética contextual

2. Traversal de Grafo de Conocimiento Guiado por LLM

Estrategia de Exploración de Nodos:

  • Prioriza la exploración de nodos potenciales que probablemente conduzcan a la respuesta
  • En cada iteración, el LLM evalúa todos los nodos en el subgrafo S, seleccionando el nodo objetivo a más probable que conduzca a la respuesta

Estrategia de Explotación de Nodos:

  • Se enfoca en explotar nodos previamente explorados, extendiendo caminos a lo largo de estos nodos
  • Dado un nodo seleccionado a, el LLM selecciona el nodo de extensión óptimo p del conjunto de nodos adyacentes Sa

3. Mecanismo de Reproducción de Memoria

Contenido de Memoria:

  • Caminos efectivos: Caminos que conducen a respuestas correctas (refuerzo positivo)
  • Caminos inefectivos: Caminos que no conducen a respuestas (refuerzo negativo)

Método de Memoria: Actualización de incrustaciones de bordes mediante ecuación de forma cerrada:

Función de peso: δ(x) = (2/π)cos(π||x||₂/2)
Mejorar caminos efectivos: v̂ = v + δ(v) · q/||q||₂
Penalizar caminos inefectivos: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Despertar Rápido y Actualización Amortiguada:

  • Despertar rápido: Cuando la norma de la incrustación de borde v es pequeña, la función δ produce actualizaciones direccionales grandes
  • Actualización amortiguada: Cuando la norma de la incrustación de borde v es grande, la función δ solo produce actualizaciones pequeñas, manteniendo la estabilidad

Puntos de Innovación Técnica

  1. Mecanismo de Memoria sin Entrenamiento: Memoriza experiencias de traversal mediante incrustaciones de bordes sin requerir entrenamiento adicional
  2. Equilibrio entre Exploración y Explotación: Combina estrategias de exploración y explotación de nodos para lograr búsqueda óptima global y local
  3. Actualización de Peso Adaptativo: Estrategia de actualización adaptativa basada en la norma de vectores, equilibrando aprendizaje rápido y estabilidad a largo plazo

Configuración Experimental

Conjuntos de Datos

  1. QA de Dependencia Larga: Conjunto de datos LooGLE, prueba la capacidad de recuperación semántica a largo plazo
  2. QA de Múltiples Saltos: Conjunto de datos HotpotQA, evalúa la capacidad de razonamiento de múltiples pasos
  3. QA Simple: QA de dependencia corta de LooGLE, prueba la capacidad de extracción de información directamente asociada

Métricas de Evaluación

  1. Evaluación de Efectividad: Utiliza GPT-4o como juez de LLM para evaluar la precisión de respuestas
  2. Evaluación de Eficiencia de Costos: Número promedio de tokens de LLM consumidos por consulta durante el proceso de traversal

Métodos de Comparación

  1. Métodos de Recuperación Tradicionales: BM25, NaiveRAG
  2. Sistemas KG-RAG con Algoritmos de Búsqueda en Grafos: GraphRAG, LightRAG, HippoRAG2
  3. Sistemas KG-RAG Guiados por LLM: Plan-on-Graph

Detalles de Implementación

  • Red Troncal de LLM: GPT-4o-mini, Deepseek-V3
  • Modelo de Incrustación: nomic-ai/nomic-embed-text-v2-moe
  • Segmentación de Texto: Longitud de 750 tokens
  • Parámetros Clave: α=0.1 (peso de relevancia de nodo), λ=0.55 (umbral de conexión fuerte)

Resultados Experimentales

Resultados Principales

Tipo de QAGPT-4o-miniDeepseek-V3
QA de Dependencia Larga57.04%59.73%
QA de Múltiples Saltos74.22%79.38%
QA Simple76.67%77.01%

REMINDRAG supera significativamente los métodos de línea base en todas las tareas:

  • QA de Dependencia Larga: Mejora promedio del 12.08%
  • QA de Múltiples Saltos: Mejora promedio del 10.31%
  • QA Simple: Mejora promedio del 4.66%

Análisis de Eficiencia de Costos

Tipo de ConfiguraciónPrecisiónConsumo de TokensReducción de Costos
Sin Memoria57.04%14.91K-
Memoria de 1 Ronda56.48%9.68K35.1%
Memoria de 2 Rondas58.01%7.55K49.4%
Memoria de 3 Rondas60.31%6.71K55.0%

Después de múltiples rondas de memoria, REMINDRAG logra una reducción promedio del 58.8% en el consumo de tokens.

Experimentos de Ablación

Impacto de la Red Esquelética Contextual:

  • Después de eliminar la red esquelética contextual, el rendimiento de QA de dependencia larga disminuye de 57.04% a 51.01%
  • Valida la importancia de la captura de información contextual

Impacto de la Configuración de Saltos:

  • Con el aumento del número máximo de saltos, el rendimiento del sistema aumenta monótonamente
  • Más saltos permiten que los nodos accedan a información de vecindarios más amplios

Análisis de Casos

Capacidad de Autocorrección:

  • Después de un error inicial, el sistema puede penalizar nodos irrelevantes basándose en reglas de memoria
  • En consultas posteriores, cambia a subgrafos optimizados por memoria, logrando autocorrección de errores

Estabilidad de Memoria:

  • Mantiene rendimiento estable en configuraciones complejas de múltiples rondas de memoria
  • Demuestra robustez al procesar conjuntos de datos heterogéneos alternos

Análisis Teórico

Teorema de Capacidad de Memoria

Para un conjunto de consultas con cierta similitud semántica, cuando la dimensión de incrustación d es suficientemente grande, las incrustaciones de bordes pueden memorizar efectivamente información de consultas, con la condición:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

donde θ es el ángulo máximo entre pares de incrustaciones de consultas, y λ es el umbral de conexión fuerte.

Garantías Teóricas

  • El límite teórico superior de λ es 0.775, consistente con investigaciones existentes sobre umbrales de similitud semántica de 0.6
  • Cuando la dimensión de incrustación excede 100, la aproximación teórica tiene significativa practicidad en la práctica

Trabajo Relacionado

Desarrollo de Sistemas KG-RAG

  1. Métodos de Búsqueda en Grafos Tradicionales: PageRank, Random Walk, GNN, etc., tienen dificultades para capturar relaciones semánticas sutiles
  2. Métodos Guiados por LLM: Aprovechan la capacidad de comprensión semántica de LLM, pero con costos elevados
  3. Poda de Grafos y Planificación de Caminos: Los métodos de optimización existentes tienen efectividad limitada

Mecanismo de Reproducción de Memoria

  • Se inspira en el concepto de reproducción de memoria en aprendizaje por refuerzo
  • Innovadoramente memoriza la reproducción como pesos en el grafo, en lugar de reproducción explícita de muestras

Conclusiones y Discusión

Conclusiones Principales

  1. REMINDRAG logra exitosamente la optimización sinérgica entre la efectividad del sistema y la eficiencia de costos
  2. El mecanismo de reproducción de memoria mejora significativamente la eficiencia de consultas posteriores
  3. La capacidad de autocorrección mejora la robustez del sistema

Limitaciones

  1. Costo de Traversal Inicial: El primer traversal aún requiere múltiples invocaciones de LLM
  2. Procesamiento de Documentos a Gran Escala: La construcción del grafo de conocimiento requiere tiempo y recursos computacionales significativos
  3. Límites de Capacidad de Memoria: El análisis teórico se basa en suposiciones de dimensión infinita, que pueden estar limitadas en aplicaciones prácticas

Direcciones Futuras

  1. Inicialización de Memoria Preentrenada: Usar preguntas frecuentes específicas del dominio para preinicializar la memoria del modelo
  2. Construcción de Grafos Distribuida: Optimizar la eficiencia de construcción de grafos para documentos a gran escala
  3. Gestión Dinámica de Memoria: Investigar mecanismos de olvido y actualización de memoria a largo plazo

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Propone por primera vez un mecanismo de memoria de traversal de grafos sin entrenamiento
  2. Teoría Sólida: Proporciona análisis teórico y garantías de capacidad de memoria
  3. Experimentación Completa: Evaluación integral en múltiples conjuntos de datos y redes troncales
  4. Alto Valor Práctico: Mejoras significativas de rendimiento y reducción de costos

Insuficiencias

  1. Sensibilidad de Parámetros: La configuración de múltiples hiperparámetros puede afectar el rendimiento
  2. Problemas de Escalabilidad: La aplicabilidad a grafos de conocimiento de escala ultra-grande no ha sido suficientemente verificada
  3. Estrategia de Actualización de Memoria: Las actualizaciones lineales simples pueden no ser aplicables a todos los escenarios

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas de optimización para el campo KG-RAG
  2. Aplicación Práctica: Tiene amplias perspectivas de aplicación en sistemas de preguntas y respuestas, recuperación de información, etc.
  3. Reproducibilidad: Proporciona código de código abierto, facilitando la verificación y extensión por la comunidad de investigación

Escenarios Aplicables

  1. Sistemas de Diálogo Multiturno: Puede memorizar interacciones históricas, mejorando la eficiencia de respuesta
  2. Preguntas y Respuestas Específicas del Dominio: Puede acumular y utilizar experiencias de traversal dentro de dominios específicos
  3. Aplicaciones Sensibles a Costos: Escenarios con requisitos estrictos sobre costos de invocación de LLM

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo RAG, grafos de conocimiento, redes neuronales de grafos, etc., incluyendo:

  • Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
  • Edge et al. (2024): GraphRAG approach to query-focused summarization
  • Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
  • Y 55 referencias relacionadas adicionales

Evaluación General: REMINDRAG es un trabajo de investigación de alta calidad que propone una solución innovadora en el campo KG-RAG. El método no solo representa un avance técnico, sino que más importantemente aborda el problema clave en aplicaciones prácticas: el equilibrio entre efectividad y eficiencia. El análisis teórico es riguroso, el diseño experimental es razonable y los resultados son convincentes. Aunque existen algunas limitaciones, sus contribuciones son significativas y tienen importancia considerable para promover la practicidad de la tecnología KG-RAG.