2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.

Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.

academic

ReMindRAG : Traversée de Graphe de Connaissances Guidée par LLM à Faible Coût pour une RAG Efficace

Informations Fondamentales

ID de l'article : 2510.13193
Titre : ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
Auteurs : Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
Classification : cs.IR (Récupération d'Informations)
Conférence de publication : 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
Lien de l'article : https://arxiv.org/abs/2510.13193
Lien du code : https://github.com/kilgrims/ReMindRAG

Résumé

Les graphes de connaissances (GC) offrent une voie prometteuse pour améliorer les systèmes de génération augmentée par récupération (RAG) grâce à leur capacité de représentation structurée, favorisant le développement des systèmes GC-RAG. Cependant, les méthodes existantes peinent souvent à réaliser une synergie efficace entre l'efficacité du système et l'efficacité des coûts, entraînant une performance médiocre ou une consommation excessive de jetons LLM et de temps d'inférence. À cet effet, cet article propose REMINDRAG, qui adopte une traversée de graphe guidée par LLM, comprenant l'exploration de nœuds, l'exploitation de nœuds, et surtout un mécanisme de relecture de mémoire pour améliorer l'efficacité du système et l'efficacité des coûts. Concrètement, REMINDRAG mémorise l'expérience de traversée dans les plongements de bords du GC, de manière similaire à la façon dont les LLM « mémorisent » les connaissances du monde dans leurs paramètres, mais en utilisant une approche sans entraînement. Nous confirmons l'efficacité de REMINDRAG tant sur le plan théorique qu'expérimental, démontrant sa supériorité par rapport aux méthodes de base existantes sur diverses données de référence et architectures LLM.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes RAG traditionnelles s'appuient principalement sur la récupération de vecteurs denses pour identifier les passages textuels pertinents, mais présentent des performances limitées dans les tâches complexes nécessitant un raisonnement multi-sauts ou la capture de dépendances à longue portée. Les graphes de connaissances, avec leur représentation structurée des entités et des relations, offrent une nouvelle voie pour résoudre ce problème.

Limitations des Méthodes Existantes

Algorithmes de recherche graphique traditionnels : Tels que PageRank et les méthodes GNN, qui peinent à capturer les relations sémantiques fines dans le graphe, entraînant une efficacité insuffisante du système
Méthodes de traversée de graphe guidées par LLM : Bien que performantes, elles nécessitent de nombreux appels LLM, augmentant considérablement les coûts et le temps d'inférence
Compromis entre efficacité et efficacité : Les systèmes GC-RAG existants peinent à trouver un équilibre efficace entre l'efficacité du système et l'efficacité des coûts

Motivation de la Recherche

Cet article vise à résoudre le problème d'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts dans les systèmes GC-RAG, qui constitue un défi majeur pour le déploiement pratique et la scalabilité.

Contributions Principales

Identification des défis clés : Clarification des défis d'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts dans les systèmes GC-RAG
Proposition du cadre REMINDRAG : Adoption d'une traversée GC guidée par LLM, comprenant l'exploration de nœuds, l'exploitation de nœuds et un mécanisme de relecture de mémoire
Analyse théorique : Preuve théorique de l'efficacité de la relecture de mémoire dans la traversée de graphe
Validation expérimentale : Vérification de la supériorité de REMINDRAG sur plusieurs ensembles de données de référence et architectures LLM

Détails de la Méthode

Définition de la Tâche

Étant donné des documents textuels non structurés et une requête utilisateur, l'objectif est de construire un graphe de connaissances et de récupérer les informations pertinentes par un mécanisme de traversée de graphe efficace, générer une réponse précise, tout en minimisant le coût des appels LLM.

Architecture du Modèle

1. Construction du Graphe de Connaissances

REMINDRAG construit un graphe de connaissances hétérogène contenant :

Nœuds d'entités : Entités nommées extraites du texte
Nœuds d'ancrage : Stockage des titres de blocs de texte
Ensemble de blocs de texte : Documents originaux segmentés
Connexions relationnelles : Triplets entité-relation-entité et réseau squelettique contextuel

2. Traversée de Graphe de Connaissances Guidée par LLM

Stratégie d'exploration de nœuds :

Exploration prioritaire des nœuds potentiels susceptibles de mener à la réponse
À chaque itération, le LLM évalue tous les nœuds du sous-graphe S, sélectionnant le nœud cible a le plus susceptible de mener à la réponse

Stratégie d'exploitation de nœuds :

Concentration sur l'exploitation des nœuds précédemment explorés, extension des chemins le long de ces nœuds
Étant donné le nœud sélectionné a, le LLM sélectionne le nœud d'extension optimal p à partir de son ensemble de nœuds adjacents Sa

3. Mécanisme de Relecture de Mémoire

Contenu de la mémoire :

Chemins efficaces : Chemins menant à la réponse correcte (renforcement positif)
Chemins inefficaces : Chemins ne menant pas à la réponse (renforcement négatif)

Méthode de mémorisation : Mise à jour des plongements de bords à l'aide d'une équation fermée :

Fonction de poids : δ(x) = (2/π)cos(π||x||₂/2)
Amélioration des chemins efficaces : v̂ = v + δ(v) · q/||q||₂
Pénalisation des chemins inefficaces : v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Réveil rapide et mise à jour amortie :

Réveil rapide : Lorsque la norme du plongement de bord v est faible, la fonction δ produit une mise à jour directionnelle importante
Mise à jour amortie : Lorsque la norme du plongement de bord v est grande, la fonction δ produit uniquement une petite mise à jour, maintenant la stabilité

Points d'Innovation Technique

Mécanisme de mémoire sans entraînement : Mémorisation de l'expérience de traversée par les plongements de bords, sans entraînement supplémentaire
Équilibre entre exploration et exploitation : Combinaison des stratégies d'exploration et d'exploitation de nœuds, réalisant une recherche optimale globale et locale
Mise à jour de poids adaptative : Stratégie de mise à jour adaptative basée sur la norme vectorielle, équilibrant l'apprentissage rapide et la stabilité à long terme

Configuration Expérimentale

Ensembles de Données

QA à dépendance longue : Ensemble de données LooGLE, testant la capacité de récupération sémantique à longue portée
QA multi-sauts : Ensemble de données HotpotQA, évaluant la capacité de raisonnement multi-étapes
QA simple : QA à dépendance courte LooGLE, testant la capacité d'extraction d'informations directement associées

Indicateurs d'Évaluation

Évaluation de l'efficacité : Utilisation de GPT-4o comme juge LLM pour évaluer la précision des réponses
Évaluation de l'efficacité des coûts : Nombre moyen de jetons LLM consommés par requête au cours du processus de traversée

Méthodes Comparatives

Méthodes de récupération traditionnelles : BM25, NaiveRAG
Systèmes GC-RAG utilisant des algorithmes de recherche graphique : GraphRAG, LightRAG, HippoRAG2
Systèmes GC-RAG guidés par LLM : Plan-on-Graph

Détails d'Implémentation

Architecture LLM : GPT-4o-mini, Deepseek-V3
Modèle d'plongement : nomic-ai/nomic-embed-text-v2-moe
Segmentation de texte : Longueur de 750 jetons
Paramètres clés : α=0,1 (poids de pertinence des nœuds), λ=0,55 (seuil de connexion forte)

Résultats Expérimentaux

Résultats Principaux

Type de QA	GPT-4o-mini	Deepseek-V3
QA à dépendance longue	57,04%	59,73%
QA multi-sauts	74,22%	79,38%
QA simple	76,67%	77,01%

REMINDRAG surpasse significativement les méthodes de base sur toutes les tâches :

QA à dépendance longue : Amélioration moyenne de 12,08%
QA multi-sauts : Amélioration moyenne de 10,31%
QA simple : Amélioration moyenne de 4,66%

Analyse de l'Efficacité des Coûts

Type de Configuration	Précision	Consommation de Jetons	Réduction de Coûts
Sans mémoire	57,04%	14,91K	-
Mémoire 1 tour	56,48%	9,68K	35,1%
Mémoire 2 tours	58,01%	7,55K	49,4%
Mémoire 3 tours	60,31%	6,71K	55,0%

Après plusieurs tours de mémorisation, REMINDRAG réalise une réduction moyenne de 58,8% de la consommation de jetons.

Expériences d'Ablation

Impact du réseau squelettique contextuel :

Après suppression du réseau squelettique contextuel, la performance du QA à dépendance longue diminue de 57,04% à 51,01%
Validation de l'importance de la capture d'informations contextuelles

Impact du paramètre de nombre de sauts :

Avec l'augmentation du nombre maximal de sauts, la performance du système augmente de manière monotone
Un nombre de sauts plus grand permet aux nœuds d'accéder à un voisinage plus large

Analyse de Cas

Capacité d'auto-correction :

Après une première réponse incorrecte, le système peut pénaliser les nœuds non pertinents basé sur les règles de mémoire
Dans les requêtes ultérieures, passage au sous-graphe optimisé par mémoire, réalisant l'auto-correction des erreurs

Stabilité de la mémoire :

Maintien de performances stables dans les configurations complexes de mémorisation multi-tours
Robustesse lors du traitement alterné d'ensembles de données hétérogènes

Analyse Théorique

Théorème de Capacité de Mémoire

Pour un ensemble de requêtes présentant une certaine similarité sémantique, lorsque la dimension d'plongement d est suffisamment grande, les plongements de bords peuvent efficacement mémoriser les informations de requête, sous la condition :

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

où θ est l'angle maximal entre les paires d'plongements de requêtes, et λ est le seuil de connexion forte.

Garanties Théoriques

La limite théorique supérieure de λ est 0,775, cohérente avec les recherches existantes sur les seuils de similarité sémantique de 0,6
Lorsque la dimension d'plongement dépasse 100, l'approximation théorique présente une utilité pratique significative

Travaux Connexes

Évolution des Systèmes GC-RAG

Méthodes de recherche graphique traditionnelles : PageRank, Marche Aléatoire, GNN, etc., peinent à capturer les relations sémantiques fines
Méthodes guidées par LLM : Exploitation de la capacité de compréhension sémantique des LLM, mais à coût élevé
Élagage de graphe et planification de chemins : Les méthodes d'optimisation existantes présentent une efficacité limitée

Mécanisme de Relecture de Mémoire

Inspiration du concept de relecture de mémoire en apprentissage par renforcement
Innovation consistant à intégrer la mémoire comme poids dans le graphe, plutôt que comme relecture explicite d'échantillons

Conclusion et Discussion

Conclusions Principales

REMINDRAG réalise avec succès l'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts
Le mécanisme de relecture de mémoire améliore significativement l'efficacité des requêtes ultérieures
La capacité d'auto-correction renforce la robustesse du système

Limitations

Coût de traversée initiale : La première traversée nécessite toujours de nombreux appels LLM
Traitement de documents à grande échelle : La construction du graphe de connaissances nécessite beaucoup de temps et de ressources informatiques
Limite de capacité de mémoire : L'analyse théorique est basée sur l'hypothèse de dimension infinie, pouvant être limitée dans les applications pratiques

Directions Futures

Initialisation de mémoire pré-entraînée : Utilisation de FAQ spécifiques au domaine pour pré-initialiser la mémoire du modèle
Construction de graphe distribuée : Optimisation de l'efficacité de construction de graphe pour les documents à grande échelle
Gestion dynamique de la mémoire : Étude des mécanismes d'oubli et de mise à jour de la mémoire à long terme

Évaluation Approfondie

Avantages

Innovation forte : Première proposition d'un mécanisme de mémoire de traversée de graphe sans entraînement
Théorie solide : Fourniture d'analyse théorique et de garanties sur la capacité de mémoire
Expérimentation complète : Évaluation exhaustive sur plusieurs ensembles de données et architectures LLM
Valeur pratique élevée : Amélioration significative de la performance et réduction des coûts

Insuffisances

Sensibilité aux paramètres : La configuration de plusieurs hyperparamètres peut affecter la performance
Problèmes de scalabilité : L'applicabilité aux graphes de connaissances à très grande échelle n'a pas été suffisamment vérifiée
Stratégie de mise à jour de mémoire : La mise à jour linéaire simple peut ne pas convenir à tous les scénarios

Impact

Contribution académique : Fourniture de nouvelles perspectives d'optimisation pour le domaine GC-RAG
Application pratique : Perspectives d'application large dans les systèmes de questions-réponses, la récupération d'informations, etc.
Reproductibilité : Fourniture de code open-source, facilitant la vérification et l'extension par la communauté de recherche

Scénarios Applicables

Systèmes de dialogue multi-tours : Capacité à mémoriser les interactions historiques, améliorant l'efficacité des réponses
Questions-réponses spécifiques au domaine : Capacité à accumuler et exploiter l'expérience de traversée au sein d'un domaine spécifique
Applications sensibles aux coûts : Scénarios avec exigences strictes sur le coût des appels LLM

Références Bibliographiques

Cet article cite des travaux importants de plusieurs domaines incluant RAG, graphes de connaissances, réseaux de neurones graphiques, notamment :

Lewis et al. (2020) : Retrieval-augmented generation for knowledge-intensive NLP tasks
Edge et al. (2024) : Approche GraphRAG pour la synthèse axée sur les requêtes
Guo et al. (2024) : LightRAG récupération augmentée par génération simple et rapide
Et 55 autres références connexes

Évaluation Globale : REMINDRAG est un travail de recherche de haute qualité proposant une solution innovante dans le domaine GC-RAG. Cette méthode non seulement représente une percée technique, mais résout surtout un problème clé dans les applications pratiques — l'équilibre entre efficacité et efficacité des coûts. L'analyse théorique est rigoureuse, la conception expérimentale est raisonnable, et les résultats sont convaincants. Bien que présentant certaines limitations, ses contributions sont significatives et son importance pour promouvoir la praticité de la technologie GC-RAG est considérable.