ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
Hu, Zhu, Tang et al.
Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.
academic
ReMindRAG : Traversée de Graphe de Connaissances Guidée par LLM à Faible Coût pour une RAG Efficace
Les graphes de connaissances (GC) offrent une voie prometteuse pour améliorer les systèmes de génération augmentée par récupération (RAG) grâce à leur capacité de représentation structurée, favorisant le développement des systèmes GC-RAG. Cependant, les méthodes existantes peinent souvent à réaliser une synergie efficace entre l'efficacité du système et l'efficacité des coûts, entraînant une performance médiocre ou une consommation excessive de jetons LLM et de temps d'inférence. À cet effet, cet article propose REMINDRAG, qui adopte une traversée de graphe guidée par LLM, comprenant l'exploration de nœuds, l'exploitation de nœuds, et surtout un mécanisme de relecture de mémoire pour améliorer l'efficacité du système et l'efficacité des coûts. Concrètement, REMINDRAG mémorise l'expérience de traversée dans les plongements de bords du GC, de manière similaire à la façon dont les LLM « mémorisent » les connaissances du monde dans leurs paramètres, mais en utilisant une approche sans entraînement. Nous confirmons l'efficacité de REMINDRAG tant sur le plan théorique qu'expérimental, démontrant sa supériorité par rapport aux méthodes de base existantes sur diverses données de référence et architectures LLM.
Les méthodes RAG traditionnelles s'appuient principalement sur la récupération de vecteurs denses pour identifier les passages textuels pertinents, mais présentent des performances limitées dans les tâches complexes nécessitant un raisonnement multi-sauts ou la capture de dépendances à longue portée. Les graphes de connaissances, avec leur représentation structurée des entités et des relations, offrent une nouvelle voie pour résoudre ce problème.
Algorithmes de recherche graphique traditionnels : Tels que PageRank et les méthodes GNN, qui peinent à capturer les relations sémantiques fines dans le graphe, entraînant une efficacité insuffisante du système
Méthodes de traversée de graphe guidées par LLM : Bien que performantes, elles nécessitent de nombreux appels LLM, augmentant considérablement les coûts et le temps d'inférence
Compromis entre efficacité et efficacité : Les systèmes GC-RAG existants peinent à trouver un équilibre efficace entre l'efficacité du système et l'efficacité des coûts
Cet article vise à résoudre le problème d'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts dans les systèmes GC-RAG, qui constitue un défi majeur pour le déploiement pratique et la scalabilité.
Identification des défis clés : Clarification des défis d'optimisation conjointe de l'efficacité du système et de l'efficacité des coûts dans les systèmes GC-RAG
Proposition du cadre REMINDRAG : Adoption d'une traversée GC guidée par LLM, comprenant l'exploration de nœuds, l'exploitation de nœuds et un mécanisme de relecture de mémoire
Analyse théorique : Preuve théorique de l'efficacité de la relecture de mémoire dans la traversée de graphe
Validation expérimentale : Vérification de la supériorité de REMINDRAG sur plusieurs ensembles de données de référence et architectures LLM
Étant donné des documents textuels non structurés et une requête utilisateur, l'objectif est de construire un graphe de connaissances et de récupérer les informations pertinentes par un mécanisme de traversée de graphe efficace, générer une réponse précise, tout en minimisant le coût des appels LLM.
Chemins efficaces : Chemins menant à la réponse correcte (renforcement positif)
Chemins inefficaces : Chemins ne menant pas à la réponse (renforcement négatif)
Méthode de mémorisation :
Mise à jour des plongements de bords à l'aide d'une équation fermée :
Fonction de poids : δ(x) = (2/π)cos(π||x||₂/2)
Amélioration des chemins efficaces : v̂ = v + δ(v) · q/||q||₂
Pénalisation des chemins inefficaces : v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂
Réveil rapide et mise à jour amortie :
Réveil rapide : Lorsque la norme du plongement de bord v est faible, la fonction δ produit une mise à jour directionnelle importante
Mise à jour amortie : Lorsque la norme du plongement de bord v est grande, la fonction δ produit uniquement une petite mise à jour, maintenant la stabilité
Mécanisme de mémoire sans entraînement : Mémorisation de l'expérience de traversée par les plongements de bords, sans entraînement supplémentaire
Équilibre entre exploration et exploitation : Combinaison des stratégies d'exploration et d'exploitation de nœuds, réalisant une recherche optimale globale et locale
Mise à jour de poids adaptative : Stratégie de mise à jour adaptative basée sur la norme vectorielle, équilibrant l'apprentissage rapide et la stabilité à long terme
Pour un ensemble de requêtes présentant une certaine similarité sémantique, lorsque la dimension d'plongement d est suffisamment grande, les plongements de bords peuvent efficacement mémoriser les informations de requête, sous la condition :
θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]
où θ est l'angle maximal entre les paires d'plongements de requêtes, et λ est le seuil de connexion forte.
Coût de traversée initiale : La première traversée nécessite toujours de nombreux appels LLM
Traitement de documents à grande échelle : La construction du graphe de connaissances nécessite beaucoup de temps et de ressources informatiques
Limite de capacité de mémoire : L'analyse théorique est basée sur l'hypothèse de dimension infinie, pouvant être limitée dans les applications pratiques
Cet article cite des travaux importants de plusieurs domaines incluant RAG, graphes de connaissances, réseaux de neurones graphiques, notamment :
Lewis et al. (2020) : Retrieval-augmented generation for knowledge-intensive NLP tasks
Edge et al. (2024) : Approche GraphRAG pour la synthèse axée sur les requêtes
Guo et al. (2024) : LightRAG récupération augmentée par génération simple et rapide
Et 55 autres références connexes
Évaluation Globale : REMINDRAG est un travail de recherche de haute qualité proposant une solution innovante dans le domaine GC-RAG. Cette méthode non seulement représente une percée technique, mais résout surtout un problème clé dans les applications pratiques — l'équilibre entre efficacité et efficacité des coûts. L'analyse théorique est rigoureuse, la conception expérimentale est raisonnable, et les résultats sont convaincants. Bien que présentant certaines limitations, ses contributions sont significatives et son importance pour promouvoir la praticité de la technologie GC-RAG est considérable.