2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.
Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.
academic

ReMindRAG : Traversée de Graphe de Connaissances Guidée par LLM à Faible Coût pour une RAG Efficace

Informations Fondamentales

  • ID de l'article : 2510.13193
  • Titre : ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
  • Auteurs : Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
  • Classification : cs.IR (Récupération d'Informations)
  • Conférence de publication : 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article : https://arxiv.org/abs/2510.13193
  • Lien du code : https://github.com/kilgrims/ReMindRAG

Résumé

Les graphes de connaissances (GC) offrent une voie prometteuse pour améliorer les systèmes de génération augmentée par récupération (RAG) grâce à leur capacité de représentation structurée, favorisant le développement des systèmes GC-RAG. Cependant, les méthodes existantes peinent souvent à réaliser une synergie efficace entre l'efficacité du système et l'efficacité des coûts, entraînant une performance médiocre ou une consommation excessive de jetons LLM et de temps d'inférence. À cet effet, cet article propose REMINDRAG, qui adopte une traversée de graphe guidée par LLM, comprenant l'exploration de nœuds, l'exploitation de nœuds, et surtout un mécanisme de relecture de mémoire pour améliorer l'efficacité du système et l'efficacité des coûts. Concrètement, REMINDRAG mémorise l'expérience de traversée dans les plongements de bords du GC, de manière similaire à la façon dont les LLM « mémorisent » les connaissances du monde dans leurs paramètres, mais en utilisant une approche sans entraînement. Nous confirmons l'efficacité de REMINDRAG tant sur le plan théorique qu'expérimental, démontrant sa supériorité par rapport aux méthodes de base existantes sur diverses données de référence et architectures LLM.

Contexte de Recherche et Motivation

Définition du Problème

Les méthodes RAG traditionnelles s'appuient principalement sur la récupération de vecteurs denses pour identifier les passages textuels pertinents, mais présentent des performances limitées dans les tâches complexes nécessitant un raisonnement multi-sauts ou la capture de dépendances à longue portée. Les graphes de connaissances, avec leur représentation structurée des entités et des relations, offrent une nouvelle voie pour résoudre ce problème.

Limitations des Méthodes Existantes

  1. Algorithmes de recherche graphique traditionnels : Tels que PageRank et les méthodes GNN, qui peinent à capturer les relations sémantiques fines dans le graphe, entraînant une efficacité insuffisante du système
  2. Méthodes de traversée de graphe guidées par LLM : Bien que performantes, elles nécessitent de nombreux appels LLM, augmentant considérablement les coûts et le temps d'inférence
  3. Compromis entre efficacité et efficacité : Les systèmes GC-RAG existants peinent à trouver un équilibre efficace entre l'efficacité du système et l'efficacité des coûts

Motivation de la Recherche

Cet article vise à résoudre le problème d'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts dans les systèmes GC-RAG, qui constitue un défi majeur pour le déploiement pratique et la scalabilité.

Contributions Principales

  1. Identification des défis clés : Clarification des défis d'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts dans les systèmes GC-RAG
  2. Proposition du cadre REMINDRAG : Adoption d'une traversée GC guidée par LLM, comprenant l'exploration de nœuds, l'exploitation de nœuds et un mécanisme de relecture de mémoire
  3. Analyse théorique : Preuve théorique de l'efficacité de la relecture de mémoire dans la traversée de graphe
  4. Validation expérimentale : Vérification de la supériorité de REMINDRAG sur plusieurs ensembles de données de référence et architectures LLM

Détails de la Méthode

Définition de la Tâche

Étant donné des documents textuels non structurés et une requête utilisateur, l'objectif est de construire un graphe de connaissances et de récupérer les informations pertinentes par un mécanisme de traversée de graphe efficace, générer une réponse précise, tout en minimisant le coût des appels LLM.

Architecture du Modèle

1. Construction du Graphe de Connaissances

REMINDRAG construit un graphe de connaissances hétérogène contenant :

  • Nœuds d'entités : Entités nommées extraites du texte
  • Nœuds d'ancrage : Stockage des titres de blocs de texte
  • Ensemble de blocs de texte : Documents originaux segmentés
  • Connexions relationnelles : Triplets entité-relation-entité et réseau squelettique contextuel

2. Traversée de Graphe de Connaissances Guidée par LLM

Stratégie d'exploration de nœuds :

  • Exploration prioritaire des nœuds potentiels susceptibles de mener à la réponse
  • À chaque itération, le LLM évalue tous les nœuds du sous-graphe S, sélectionnant le nœud cible a le plus susceptible de mener à la réponse

Stratégie d'exploitation de nœuds :

  • Concentration sur l'exploitation des nœuds précédemment explorés, extension des chemins le long de ces nœuds
  • Étant donné le nœud sélectionné a, le LLM sélectionne le nœud d'extension optimal p à partir de son ensemble de nœuds adjacents Sa

3. Mécanisme de Relecture de Mémoire

Contenu de la mémoire :

  • Chemins efficaces : Chemins menant à la réponse correcte (renforcement positif)
  • Chemins inefficaces : Chemins ne menant pas à la réponse (renforcement négatif)

Méthode de mémorisation : Mise à jour des plongements de bords à l'aide d'une équation fermée :

Fonction de poids : δ(x) = (2/π)cos(π||x||₂/2)
Amélioration des chemins efficaces : v̂ = v + δ(v) · q/||q||₂
Pénalisation des chemins inefficaces : v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Réveil rapide et mise à jour amortie :

  • Réveil rapide : Lorsque la norme du plongement de bord v est faible, la fonction δ produit une mise à jour directionnelle importante
  • Mise à jour amortie : Lorsque la norme du plongement de bord v est grande, la fonction δ produit uniquement une petite mise à jour, maintenant la stabilité

Points d'Innovation Technique

  1. Mécanisme de mémoire sans entraînement : Mémorisation de l'expérience de traversée par les plongements de bords, sans entraînement supplémentaire
  2. Équilibre entre exploration et exploitation : Combinaison des stratégies d'exploration et d'exploitation de nœuds, réalisant une recherche optimale globale et locale
  3. Mise à jour de poids adaptative : Stratégie de mise à jour adaptative basée sur la norme vectorielle, équilibrant l'apprentissage rapide et la stabilité à long terme

Configuration Expérimentale

Ensembles de Données

  1. QA à dépendance longue : Ensemble de données LooGLE, testant la capacité de récupération sémantique à longue portée
  2. QA multi-sauts : Ensemble de données HotpotQA, évaluant la capacité de raisonnement multi-étapes
  3. QA simple : QA à dépendance courte LooGLE, testant la capacité d'extraction d'informations directement associées

Indicateurs d'Évaluation

  1. Évaluation de l'efficacité : Utilisation de GPT-4o comme juge LLM pour évaluer la précision des réponses
  2. Évaluation de l'efficacité des coûts : Nombre moyen de jetons LLM consommés par requête au cours du processus de traversée

Méthodes Comparatives

  1. Méthodes de récupération traditionnelles : BM25, NaiveRAG
  2. Systèmes GC-RAG utilisant des algorithmes de recherche graphique : GraphRAG, LightRAG, HippoRAG2
  3. Systèmes GC-RAG guidés par LLM : Plan-on-Graph

Détails d'Implémentation

  • Architecture LLM : GPT-4o-mini, Deepseek-V3
  • Modèle d'plongement : nomic-ai/nomic-embed-text-v2-moe
  • Segmentation de texte : Longueur de 750 jetons
  • Paramètres clés : α=0,1 (poids de pertinence des nœuds), λ=0,55 (seuil de connexion forte)

Résultats Expérimentaux

Résultats Principaux

Type de QAGPT-4o-miniDeepseek-V3
QA à dépendance longue57,04%59,73%
QA multi-sauts74,22%79,38%
QA simple76,67%77,01%

REMINDRAG surpasse significativement les méthodes de base sur toutes les tâches :

  • QA à dépendance longue : Amélioration moyenne de 12,08%
  • QA multi-sauts : Amélioration moyenne de 10,31%
  • QA simple : Amélioration moyenne de 4,66%

Analyse de l'Efficacité des Coûts

Type de ConfigurationPrécisionConsommation de JetonsRéduction de Coûts
Sans mémoire57,04%14,91K-
Mémoire 1 tour56,48%9,68K35,1%
Mémoire 2 tours58,01%7,55K49,4%
Mémoire 3 tours60,31%6,71K55,0%

Après plusieurs tours de mémorisation, REMINDRAG réalise une réduction moyenne de 58,8% de la consommation de jetons.

Expériences d'Ablation

Impact du réseau squelettique contextuel :

  • Après suppression du réseau squelettique contextuel, la performance du QA à dépendance longue diminue de 57,04% à 51,01%
  • Validation de l'importance de la capture d'informations contextuelles

Impact du paramètre de nombre de sauts :

  • Avec l'augmentation du nombre maximal de sauts, la performance du système augmente de manière monotone
  • Un nombre de sauts plus grand permet aux nœuds d'accéder à un voisinage plus large

Analyse de Cas

Capacité d'auto-correction :

  • Après une première réponse incorrecte, le système peut pénaliser les nœuds non pertinents basé sur les règles de mémoire
  • Dans les requêtes ultérieures, passage au sous-graphe optimisé par mémoire, réalisant l'auto-correction des erreurs

Stabilité de la mémoire :

  • Maintien de performances stables dans les configurations complexes de mémorisation multi-tours
  • Robustesse lors du traitement alterné d'ensembles de données hétérogènes

Analyse Théorique

Théorème de Capacité de Mémoire

Pour un ensemble de requêtes présentant une certaine similarité sémantique, lorsque la dimension d'plongement d est suffisamment grande, les plongements de bords peuvent efficacement mémoriser les informations de requête, sous la condition :

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

où θ est l'angle maximal entre les paires d'plongements de requêtes, et λ est le seuil de connexion forte.

Garanties Théoriques

  • La limite théorique supérieure de λ est 0,775, cohérente avec les recherches existantes sur les seuils de similarité sémantique de 0,6
  • Lorsque la dimension d'plongement dépasse 100, l'approximation théorique présente une utilité pratique significative

Travaux Connexes

Évolution des Systèmes GC-RAG

  1. Méthodes de recherche graphique traditionnelles : PageRank, Marche Aléatoire, GNN, etc., peinent à capturer les relations sémantiques fines
  2. Méthodes guidées par LLM : Exploitation de la capacité de compréhension sémantique des LLM, mais à coût élevé
  3. Élagage de graphe et planification de chemins : Les méthodes d'optimisation existantes présentent une efficacité limitée

Mécanisme de Relecture de Mémoire

  • Inspiration du concept de relecture de mémoire en apprentissage par renforcement
  • Innovation consistant à intégrer la mémoire comme poids dans le graphe, plutôt que comme relecture explicite d'échantillons

Conclusion et Discussion

Conclusions Principales

  1. REMINDRAG réalise avec succès l'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts
  2. Le mécanisme de relecture de mémoire améliore significativement l'efficacité des requêtes ultérieures
  3. La capacité d'auto-correction renforce la robustesse du système

Limitations

  1. Coût de traversée initiale : La première traversée nécessite toujours de nombreux appels LLM
  2. Traitement de documents à grande échelle : La construction du graphe de connaissances nécessite beaucoup de temps et de ressources informatiques
  3. Limite de capacité de mémoire : L'analyse théorique est basée sur l'hypothèse de dimension infinie, pouvant être limitée dans les applications pratiques

Directions Futures

  1. Initialisation de mémoire pré-entraînée : Utilisation de FAQ spécifiques au domaine pour pré-initialiser la mémoire du modèle
  2. Construction de graphe distribuée : Optimisation de l'efficacité de construction de graphe pour les documents à grande échelle
  3. Gestion dynamique de la mémoire : Étude des mécanismes d'oubli et de mise à jour de la mémoire à long terme

Évaluation Approfondie

Avantages

  1. Innovation forte : Première proposition d'un mécanisme de mémoire de traversée de graphe sans entraînement
  2. Théorie solide : Fourniture d'analyse théorique et de garanties sur la capacité de mémoire
  3. Expérimentation complète : Évaluation exhaustive sur plusieurs ensembles de données et architectures LLM
  4. Valeur pratique élevée : Amélioration significative de la performance et réduction des coûts

Insuffisances

  1. Sensibilité aux paramètres : La configuration de plusieurs hyperparamètres peut affecter la performance
  2. Problèmes de scalabilité : L'applicabilité aux graphes de connaissances à très grande échelle n'a pas été suffisamment vérifiée
  3. Stratégie de mise à jour de mémoire : La mise à jour linéaire simple peut ne pas convenir à tous les scénarios

Impact

  1. Contribution académique : Fourniture de nouvelles perspectives d'optimisation pour le domaine GC-RAG
  2. Application pratique : Perspectives d'application large dans les systèmes de questions-réponses, la récupération d'informations, etc.
  3. Reproductibilité : Fourniture de code open-source, facilitant la vérification et l'extension par la communauté de recherche

Scénarios Applicables

  1. Systèmes de dialogue multi-tours : Capacité à mémoriser les interactions historiques, améliorant l'efficacité des réponses
  2. Questions-réponses spécifiques au domaine : Capacité à accumuler et exploiter l'expérience de traversée au sein d'un domaine spécifique
  3. Applications sensibles aux coûts : Scénarios avec exigences strictes sur le coût des appels LLM

Références Bibliographiques

Cet article cite des travaux importants de plusieurs domaines incluant RAG, graphes de connaissances, réseaux de neurones graphiques, notamment :

  • Lewis et al. (2020) : Retrieval-augmented generation for knowledge-intensive NLP tasks
  • Edge et al. (2024) : Approche GraphRAG pour la synthèse axée sur les requêtes
  • Guo et al. (2024) : LightRAG récupération augmentée par génération simple et rapide
  • Et 55 autres références connexes

Évaluation Globale : REMINDRAG est un travail de recherche de haute qualité proposant une solution innovante dans le domaine GC-RAG. Cette méthode non seulement représente une percée technique, mais résout surtout un problème clé dans les applications pratiques — l'équilibre entre efficacité et efficacité des coûts. L'analyse théorique est rigoureuse, la conception expérimentale est raisonnable, et les résultats sont convaincants. Bien que présentant certaines limitations, ses contributions sont significatives et son importance pour promouvoir la praticité de la technologie GC-RAG est considérable.