2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.
Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.
academic

ReMindRAG: Kostengünstige LLM-gesteuerte Wissensgraph-Traversierung für effizientes RAG

Grundinformationen

  • Papier-ID: 2510.13193
  • Titel: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
  • Autoren: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
  • Klassifizierung: cs.IR (Informationsbeschaffung)
  • Konferenz: 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025)
  • Papier-Link: https://arxiv.org/abs/2510.13193
  • Code-Link: https://github.com/kilgrims/ReMindRAG

Zusammenfassung

Wissensgraphen (KG) bieten durch ihre strukturierte Darstellungsfähigkeit vielversprechende Wege zur Verbesserung von Retrieval-Augmented-Generation-(RAG-)Systemen und haben zur Entwicklung von KG-RAG-Systemen beigetragen. Bestehende Methoden haben jedoch häufig Schwierigkeiten, eine effektive Synergie zwischen Systemeffektivität und Kosteneffizienz zu erreichen, was zu schlechter Leistung oder übermäßigen LLM-Prompt-Token und Inferenzzeiten führt. Zu diesem Zweck schlagen wir REMINDRAG vor, das LLM-gesteuerte Graphtraversierung mit Knotenexploration, Knotenausbeutung und dem wichtigsten Mechanismus der Speicherwiedergabe einsetzt, um Systemeffektivität und Kosteneffizienz zu verbessern. Konkret speichert REMINDRAG Traversierungserfahrungen in KG-Kanteneinbettungen, ähnlich wie LLMs Weltwissen in ihren Parametern „speichern", jedoch auf trainingsfreie Weise. Wir bestätigen die Effektivität von REMINDRAG sowohl theoretisch als auch experimentell und demonstrieren seine Überlegenheit gegenüber bestehenden Baselines über verschiedene Benchmark-Datensätze und LLM-Backbones hinweg.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle RAG-Methoden verlassen sich hauptsächlich auf dichte Vektorabfrage, um relevante Textpassagen zu identifizieren, zeigen aber begrenzte Leistung bei komplexen Aufgaben, die mehrstufiges Schlussfolgern oder die Erfassung von Fernabhängigkeiten erfordern. Wissensgraphen bieten mit ihrer strukturierten Darstellung von Entitäten und Beziehungen einen neuen Weg zur Lösung dieses Problems.

Einschränkungen bestehender Methoden

  1. Traditionelle Graphsuchalgorithmen: Wie PageRank und GNN-Methoden haben Schwierigkeiten, subtile semantische Beziehungen im Graphen zu erfassen, was zu unzureichender Systemeffektivität führt
  2. LLM-gesteuerte Graphtraversierungsmethoden: Obwohl sie hervorragende Leistungen zeigen, erfordern sie zahlreiche LLM-Aufrufe, was Kosten und Inferenzzeit erheblich erhöht
  3. Kompromiss zwischen Effizienz und Effektivität: Bestehende KG-RAG-Systeme haben Schwierigkeiten, ein effektives Gleichgewicht zwischen Systemeffektivität und Kosteneffizienz zu finden

Forschungsmotivation

Dieses Papier zielt darauf ab, das Problem der gemeinsamen Optimierung von Systemeffektivität und Kosteneffizienz in KG-RAG-Systemen zu lösen, was eine Hauptherausforderung für praktische Bereitstellung und Skalierbarkeit darstellt.

Kernbeiträge

  1. Identifizierung von Schlüsselherausforderungen: Klare Darlegung der Herausforderungen bei der gemeinsamen Optimierung von Systemeffektivität und Kosteneffizienz in KG-RAG-Systemen
  2. Vorschlag des REMINDRAG-Frameworks: Einsatz von LLM-gesteuerter KG-Traversierung mit Knotenexploration, Knotenausbeutung und Speicherwiedergabemechanismus
  3. Theoretische Analyse: Theoretischer Nachweis der Effektivität der Graphtraversierungs-Speicherwiedergabe
  4. Experimentelle Validierung: Validierung der Überlegenheit von REMINDRAG über mehrere Benchmark-Datensätze und LLM-Backbones

Methodische Details

Aufgabendefinition

Gegeben unstrukturierte Textdokumente und Benutzerabfragen besteht das Ziel darin, einen Wissensgraphen zu konstruieren und durch einen effizienten Graphtraversierungsmechanismus relevante Informationen abzurufen, um genaue Antworten zu generieren und gleichzeitig die LLM-Aufrufskosten zu minimieren.

Modellarchitektur

1. Wissensgraph-Konstruktion

REMINDRAG konstruiert einen heterogenen Wissensgraphen, der Folgendes enthält:

  • Entitätsknoten: Benannte Entitäten, die aus Text extrahiert werden
  • Ankerknoten: Speichern von Textblock-Titeln
  • Textblock-Sammlung: Segmentierte Originaldokumente
  • Beziehungsverbindungen: Entitäts-Beziehungs-Entitäts-Tripel und kontextuelle Skelettnetze

2. LLM-gesteuerte Wissensgraph-Traversierung

Knotenexplorationsstrategie:

  • Priorisierung der Erkundung potenzieller Knoten, die zu Antworten führen könnten
  • In jeder Iteration bewertet das LLM alle Knoten im Subgraphen S und wählt den Zielknoten a aus, der am wahrscheinlichsten zur Antwort führt

Knotenausbeutungsstrategie:

  • Konzentration auf die Ausbeutung zuvor erkundeter Knoten durch Erweiterung von Pfaden entlang dieser Knoten
  • Gegeben ein ausgewählter Knoten a wählt das LLM den optimalen Erweiterungsknoten p aus der Menge seiner Nachbarknoten Sa aus

3. Speicherwiedergabemechanismus

Speicherinhalt:

  • Effektive Pfade: Pfade, die zur richtigen Antwort führen (positive Verstärkung)
  • Ineffektive Pfade: Pfade, die nicht zur Antwort führen (negative Verstärkung)

Speichermethode: Aktualisierung von Kanteneinbettungen mit geschlossener Gleichung:

Gewichtsfunktion: δ(x) = (2/π)cos(π||x||₂/2)
Verstärkung effektiver Pfade: v̂ = v + δ(v) · q/||q||₂
Bestrafung ineffektiver Pfade: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Schnelle Aktivierung und gedämpfte Aktualisierung:

  • Schnelle Aktivierung: Wenn die Norm der Kanteneinbettung v klein ist, erzeugt die δ-Funktion große Richtungsaktualisierungen
  • Gedämpfte Aktualisierung: Wenn die Norm der Kanteneinbettung v groß ist, erzeugt die δ-Funktion nur kleine Aktualisierungen und bewahrt Stabilität

Technische Innovationen

  1. Trainingsfreier Speichermechanismus: Speicherung von Traversierungserfahrungen durch Kanteneinbettungen ohne zusätzliches Training
  2. Ausgewogene Exploration und Ausbeutung: Kombination von Knotenexplorations- und Ausbeutungsstrategien zur Erreichung globaler und lokaler optimaler Suche
  3. Adaptive Gewichtsaktualisierung: Adaptive Aktualisierungsstrategie basierend auf Vektornorm, die schnelles Lernen und Langzeitstabilität ausgleicht

Experimentelle Einrichtung

Datensätze

  1. Langabhängige QA: LooGLE-Datensatz, Test der Fähigkeit zur Langstrecken-Semantik-Abfrage
  2. Mehrstufige QA: HotpotQA-Datensatz, Bewertung der mehrstufigen Schlussfolgerungsfähigkeit
  3. Einfache QA: LooGLE-Kurzabhängige QA, Test der direkten Informationsextraktionsfähigkeit

Bewertungsmetriken

  1. Effektivitätsbewertung: Verwendung von GPT-4o als LLM-Richter zur Bewertung der Antwortgenauigkeit
  2. Kosteneffizienz-Bewertung: Durchschnittliche LLM-Token, die pro Abfrage während des Traversierungsprozesses verbraucht werden

Vergleichsmethoden

  1. Traditionelle Abrufmethoden: BM25, NaiveRAG
  2. KG-RAG-Systeme mit Graphsuchalgorithmen: GraphRAG, LightRAG, HippoRAG2
  3. LLM-gesteuerte KG-RAG-Systeme: Plan-on-Graph

Implementierungsdetails

  • LLM-Backbone: GPT-4o-mini, Deepseek-V3
  • Einbettungsmodell: nomic-ai/nomic-embed-text-v2-moe
  • Textsegmentierung: 750 Token Länge
  • Schlüsselparameter: α=0,1 (Knotenrelevanzgewicht), λ=0,55 (Schwellenwert für starke Verbindungen)

Experimentelle Ergebnisse

Hauptergebnisse

QA-TypGPT-4o-miniDeepseek-V3
Langabhängige QA57,04%59,73%
Mehrstufige QA74,22%79,38%
Einfache QA76,67%77,01%

REMINDRAG übertrifft die Baseline-Methoden bei allen Aufgaben erheblich:

  • Langabhängige QA: Durchschnittliche Verbesserung von 12,08%
  • Mehrstufige QA: Durchschnittliche Verbesserung von 10,31%
  • Einfache QA: Durchschnittliche Verbesserung von 4,66%

Kosteneffizienz-Analyse

EinrichtungstypGenauigkeitToken-VerbrauchKostensenkung
Ohne Speicher57,04%14,91K-
1 Runde Speicher56,48%9,68K35,1%
2 Runden Speicher58,01%7,55K49,4%
3 Runden Speicher60,31%6,71K55,0%

Nach mehreren Runden des Speicherns erreicht REMINDRAG eine durchschnittliche Reduzierung des Token-Verbrauchs um 58,8%.

Ablationsstudien

Auswirkung des kontextuellen Skelettnetzes:

  • Nach Entfernung des kontextuellen Skelettnetzes sinkt die Leistung der langabhängigen QA von 57,04% auf 51,01%
  • Validiert die Wichtigkeit der Erfassung kontextueller Informationen

Auswirkung der Hop-Einstellung:

  • Mit zunehmender maximaler Hop-Anzahl steigt die Systemleistung monoton
  • Größere Hop-Zahlen ermöglichen Knoten den Zugriff auf umfassendere Nachbarschaftsinformationen

Fallstudien

Selbstkorrektur-Fähigkeit:

  • Nach anfänglicher falscher Antwort kann das System basierend auf Speicherregeln irrelevante Knoten bestrafen
  • Bei nachfolgenden Abfragen wird zu dem speicheroptimierten Subgraphen gewechselt, was Selbstkorrektur von Fehlern ermöglicht

Speicherstabilität:

  • Aufrechterhaltung stabiler Leistung in komplexen mehrstufigen Speichereinrichtungen
  • Robustheit bei der abwechselnden Verarbeitung heterogener Datensätze

Theoretische Analyse

Speicherkapazitätssatz

Für eine Sammlung von Abfragen mit einer gewissen semantischen Ähnlichkeit können Kanteneinbettungen Abfrageinformationen effektiv speichern, wenn die Einbettungsdimension d ausreichend groß ist, unter der Bedingung:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

wobei θ der maximale Winkel zwischen Abfrageeinbettungspaaren ist und λ der Schwellenwert für starke Verbindungen ist.

Theoretische Garantien

  • Die theoretische Obergrenze von λ beträgt 0,775, was mit bestehenden Forschungen zu semantischen Ähnlichkeitsschwellenwerten von 0,6 übereinstimmt
  • Wenn die Einbettungsdimension 100 überschreitet, hat die theoretische Näherung in der Praxis erhebliche praktische Bedeutung

Verwandte Arbeiten

Entwicklung von KG-RAG-Systemen

  1. Traditionelle Graphsuchmethoden: PageRank, Random Walk, GNN usw., haben Schwierigkeiten, subtile semantische Beziehungen zu erfassen
  2. LLM-gesteuerte Methoden: Nutzung der semantischen Verständnisfähigkeit von LLMs, aber mit hohen Kosten
  3. Graphbeschneidung und Pfadplanung: Bestehende Optimierungsmethoden haben begrenzte Effektivität

Speicherwiedergabemechanismus

  • Inspiriert durch das Konzept der Speicherwiedergabe im Reinforcement Learning
  • Innovative Einbettung von Speicher als Gewichte im Graphen statt expliziter Stichprobenwiederholung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. REMINDRAG erreicht erfolgreich die gemeinsame Optimierung von Systemeffektivität und Kosteneffizienz
  2. Der Speicherwiedergabemechanismus verbessert die Effizienz nachfolgender Abfragen erheblich
  3. Die Selbstkorrektur-Fähigkeit erhöht die Robustheit des Systems

Einschränkungen

  1. Anfängliche Graphtraversierungskosten: Die erste Traversierung erfordert immer noch mehrere LLM-Aufrufe
  2. Verarbeitung großer Dokumente: Die Konstruktion von Wissensgraphen erfordert erhebliche Zeit und Rechenressourcen
  3. Speicherkapazitätsbeschränkungen: Die theoretische Analyse basiert auf der Annahme unendlicher Dimensionen, was in praktischen Anwendungen begrenzt sein kann

Zukünftige Richtungen

  1. Vortrainierte Speicherinitialisierung: Verwendung von domänenspezifischen FAQs zur Vorinitialisierung des Modellspeichers
  2. Verteilte Graphkonstruktion: Optimierung der Graphkonstruktionseffizienz für großmaßstäbliche Dokumente
  3. Dynamische Speicherverwaltung: Forschung zu Vergessensmechanismen und Aktualisierungsstrategien für Langzeitspeicher

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erstmals Vorschlag eines trainingsfreien Graphtraversierungs-Speichermechanismus
  2. Solide Theorie: Bereitstellung theoretischer Analyse und Garantien für Speicherkapazität
  3. Umfassende Experimente: Umfassende Bewertung über mehrere Datensätze und LLM-Backbones
  4. Hoher praktischer Wert: Signifikante Leistungsverbesserung und Kostensenkung

Mängel

  1. Parametersensitivität: Die Einstellung mehrerer Hyperparameter kann die Leistung beeinflussen
  2. Skalierbarkeitsprobleme: Die Anwendbarkeit auf extrem große Wissensgraphen wurde nicht ausreichend validiert
  3. Speicheraktualisierungsstrategie: Einfache lineare Aktualisierungen sind möglicherweise nicht für alle Szenarien geeignet

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Optimierungsideen für das KG-RAG-Feld
  2. Praktische Anwendung: Breite Anwendungsperspektiven in Frage-Antwort-Systemen, Informationsbeschaffung usw.
  3. Reproduzierbarkeit: Bereitstellung von Open-Source-Code zur Validierung und Erweiterung durch die Forschungsgemeinschaft

Anwendungsszenarien

  1. Mehrstufige Dialogsysteme: Fähigkeit, historische Interaktionen zu speichern und die Reaktionseffizienz zu verbessern
  2. Domänenspezifische Frage-Antwort: Fähigkeit, Traversierungserfahrungen in spezifischen Domänen zu sammeln und zu nutzen
  3. Kostenempfindliche Anwendungen: Szenarien mit strengeren Anforderungen an LLM-Aufrufskosten

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie RAG, Wissensgraphen und Graphneuronale Netze, darunter:

  • Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
  • Edge et al. (2024): GraphRAG approach to query-focused summarization
  • Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
  • Und 55 weitere verwandte Literaturquellen

Gesamtbewertung: REMINDRAG ist eine hochwertige Forschungsarbeit, die eine innovative Lösung im KG-RAG-Feld vorschlägt. Diese Methode stellt nicht nur einen technischen Durchbruch dar, sondern löst vor allem das Schlüsselproblem in praktischen Anwendungen – das Gleichgewicht zwischen Effektivität und Effizienz. Die theoretische Analyse ist streng, das experimentelle Design ist angemessen und die Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen gibt, sind die Beiträge erheblich und von großer Bedeutung für die Förderung der praktischen Anwendung der KG-RAG-Technologie.