2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.

Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.

academic

ReMindRAG: Kostengünstige LLM-gesteuerte Wissensgraph-Traversierung für effizientes RAG

Grundinformationen

Papier-ID: 2510.13193
Titel: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
Autoren: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
Klassifizierung: cs.IR (Informationsbeschaffung)
Konferenz: 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025)
Papier-Link: https://arxiv.org/abs/2510.13193
Code-Link: https://github.com/kilgrims/ReMindRAG

Zusammenfassung

Wissensgraphen (KG) bieten durch ihre strukturierte Darstellungsfähigkeit vielversprechende Wege zur Verbesserung von Retrieval-Augmented-Generation-(RAG-)Systemen und haben zur Entwicklung von KG-RAG-Systemen beigetragen. Bestehende Methoden haben jedoch häufig Schwierigkeiten, eine effektive Synergie zwischen Systemeffektivität und Kosteneffizienz zu erreichen, was zu schlechter Leistung oder übermäßigen LLM-Prompt-Token und Inferenzzeiten führt. Zu diesem Zweck schlagen wir REMINDRAG vor, das LLM-gesteuerte Graphtraversierung mit Knotenexploration, Knotenausbeutung und dem wichtigsten Mechanismus der Speicherwiedergabe einsetzt, um Systemeffektivität und Kosteneffizienz zu verbessern. Konkret speichert REMINDRAG Traversierungserfahrungen in KG-Kanteneinbettungen, ähnlich wie LLMs Weltwissen in ihren Parametern „speichern", jedoch auf trainingsfreie Weise. Wir bestätigen die Effektivität von REMINDRAG sowohl theoretisch als auch experimentell und demonstrieren seine Überlegenheit gegenüber bestehenden Baselines über verschiedene Benchmark-Datensätze und LLM-Backbones hinweg.

Forschungshintergrund und Motivation

Problemdefinition

Traditionelle RAG-Methoden verlassen sich hauptsächlich auf dichte Vektorabfrage, um relevante Textpassagen zu identifizieren, zeigen aber begrenzte Leistung bei komplexen Aufgaben, die mehrstufiges Schlussfolgern oder die Erfassung von Fernabhängigkeiten erfordern. Wissensgraphen bieten mit ihrer strukturierten Darstellung von Entitäten und Beziehungen einen neuen Weg zur Lösung dieses Problems.

Einschränkungen bestehender Methoden

Traditionelle Graphsuchalgorithmen: Wie PageRank und GNN-Methoden haben Schwierigkeiten, subtile semantische Beziehungen im Graphen zu erfassen, was zu unzureichender Systemeffektivität führt
LLM-gesteuerte Graphtraversierungsmethoden: Obwohl sie hervorragende Leistungen zeigen, erfordern sie zahlreiche LLM-Aufrufe, was Kosten und Inferenzzeit erheblich erhöht
Kompromiss zwischen Effizienz und Effektivität: Bestehende KG-RAG-Systeme haben Schwierigkeiten, ein effektives Gleichgewicht zwischen Systemeffektivität und Kosteneffizienz zu finden

Forschungsmotivation

Dieses Papier zielt darauf ab, das Problem der gemeinsamen Optimierung von Systemeffektivität und Kosteneffizienz in KG-RAG-Systemen zu lösen, was eine Hauptherausforderung für praktische Bereitstellung und Skalierbarkeit darstellt.

Kernbeiträge

Identifizierung von Schlüsselherausforderungen: Klare Darlegung der Herausforderungen bei der gemeinsamen Optimierung von Systemeffektivität und Kosteneffizienz in KG-RAG-Systemen
Vorschlag des REMINDRAG-Frameworks: Einsatz von LLM-gesteuerter KG-Traversierung mit Knotenexploration, Knotenausbeutung und Speicherwiedergabemechanismus
Theoretische Analyse: Theoretischer Nachweis der Effektivität der Graphtraversierungs-Speicherwiedergabe
Experimentelle Validierung: Validierung der Überlegenheit von REMINDRAG über mehrere Benchmark-Datensätze und LLM-Backbones

Methodische Details

Aufgabendefinition

Gegeben unstrukturierte Textdokumente und Benutzerabfragen besteht das Ziel darin, einen Wissensgraphen zu konstruieren und durch einen effizienten Graphtraversierungsmechanismus relevante Informationen abzurufen, um genaue Antworten zu generieren und gleichzeitig die LLM-Aufrufskosten zu minimieren.

Modellarchitektur

1. Wissensgraph-Konstruktion

REMINDRAG konstruiert einen heterogenen Wissensgraphen, der Folgendes enthält:

Entitätsknoten: Benannte Entitäten, die aus Text extrahiert werden
Ankerknoten: Speichern von Textblock-Titeln
Textblock-Sammlung: Segmentierte Originaldokumente
Beziehungsverbindungen: Entitäts-Beziehungs-Entitäts-Tripel und kontextuelle Skelettnetze

2. LLM-gesteuerte Wissensgraph-Traversierung

Knotenexplorationsstrategie:

Priorisierung der Erkundung potenzieller Knoten, die zu Antworten führen könnten
In jeder Iteration bewertet das LLM alle Knoten im Subgraphen S und wählt den Zielknoten a aus, der am wahrscheinlichsten zur Antwort führt

Knotenausbeutungsstrategie:

Konzentration auf die Ausbeutung zuvor erkundeter Knoten durch Erweiterung von Pfaden entlang dieser Knoten
Gegeben ein ausgewählter Knoten a wählt das LLM den optimalen Erweiterungsknoten p aus der Menge seiner Nachbarknoten Sa aus

3. Speicherwiedergabemechanismus

Speicherinhalt:

Effektive Pfade: Pfade, die zur richtigen Antwort führen (positive Verstärkung)
Ineffektive Pfade: Pfade, die nicht zur Antwort führen (negative Verstärkung)

Speichermethode: Aktualisierung von Kanteneinbettungen mit geschlossener Gleichung:

Gewichtsfunktion: δ(x) = (2/π)cos(π||x||₂/2)
Verstärkung effektiver Pfade: v̂ = v + δ(v) · q/||q||₂
Bestrafung ineffektiver Pfade: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Schnelle Aktivierung und gedämpfte Aktualisierung:

Schnelle Aktivierung: Wenn die Norm der Kanteneinbettung v klein ist, erzeugt die δ-Funktion große Richtungsaktualisierungen
Gedämpfte Aktualisierung: Wenn die Norm der Kanteneinbettung v groß ist, erzeugt die δ-Funktion nur kleine Aktualisierungen und bewahrt Stabilität

Technische Innovationen

Trainingsfreier Speichermechanismus: Speicherung von Traversierungserfahrungen durch Kanteneinbettungen ohne zusätzliches Training
Ausgewogene Exploration und Ausbeutung: Kombination von Knotenexplorations- und Ausbeutungsstrategien zur Erreichung globaler und lokaler optimaler Suche
Adaptive Gewichtsaktualisierung: Adaptive Aktualisierungsstrategie basierend auf Vektornorm, die schnelles Lernen und Langzeitstabilität ausgleicht

Experimentelle Einrichtung

Datensätze

Langabhängige QA: LooGLE-Datensatz, Test der Fähigkeit zur Langstrecken-Semantik-Abfrage
Mehrstufige QA: HotpotQA-Datensatz, Bewertung der mehrstufigen Schlussfolgerungsfähigkeit
Einfache QA: LooGLE-Kurzabhängige QA, Test der direkten Informationsextraktionsfähigkeit

Bewertungsmetriken

Effektivitätsbewertung: Verwendung von GPT-4o als LLM-Richter zur Bewertung der Antwortgenauigkeit
Kosteneffizienz-Bewertung: Durchschnittliche LLM-Token, die pro Abfrage während des Traversierungsprozesses verbraucht werden

Vergleichsmethoden

Traditionelle Abrufmethoden: BM25, NaiveRAG
KG-RAG-Systeme mit Graphsuchalgorithmen: GraphRAG, LightRAG, HippoRAG2
LLM-gesteuerte KG-RAG-Systeme: Plan-on-Graph

Implementierungsdetails

LLM-Backbone: GPT-4o-mini, Deepseek-V3
Einbettungsmodell: nomic-ai/nomic-embed-text-v2-moe
Textsegmentierung: 750 Token Länge
Schlüsselparameter: α=0,1 (Knotenrelevanzgewicht), λ=0,55 (Schwellenwert für starke Verbindungen)

Experimentelle Ergebnisse

Hauptergebnisse

QA-Typ	GPT-4o-mini	Deepseek-V3
Langabhängige QA	57,04%	59,73%
Mehrstufige QA	74,22%	79,38%
Einfache QA	76,67%	77,01%

REMINDRAG übertrifft die Baseline-Methoden bei allen Aufgaben erheblich:

Langabhängige QA: Durchschnittliche Verbesserung von 12,08%
Mehrstufige QA: Durchschnittliche Verbesserung von 10,31%
Einfache QA: Durchschnittliche Verbesserung von 4,66%

Kosteneffizienz-Analyse

Einrichtungstyp	Genauigkeit	Token-Verbrauch	Kostensenkung
Ohne Speicher	57,04%	14,91K	-
1 Runde Speicher	56,48%	9,68K	35,1%
2 Runden Speicher	58,01%	7,55K	49,4%
3 Runden Speicher	60,31%	6,71K	55,0%

Nach mehreren Runden des Speicherns erreicht REMINDRAG eine durchschnittliche Reduzierung des Token-Verbrauchs um 58,8%.

Ablationsstudien

Auswirkung des kontextuellen Skelettnetzes:

Nach Entfernung des kontextuellen Skelettnetzes sinkt die Leistung der langabhängigen QA von 57,04% auf 51,01%
Validiert die Wichtigkeit der Erfassung kontextueller Informationen

Auswirkung der Hop-Einstellung:

Mit zunehmender maximaler Hop-Anzahl steigt die Systemleistung monoton
Größere Hop-Zahlen ermöglichen Knoten den Zugriff auf umfassendere Nachbarschaftsinformationen

Fallstudien

Selbstkorrektur-Fähigkeit:

Nach anfänglicher falscher Antwort kann das System basierend auf Speicherregeln irrelevante Knoten bestrafen
Bei nachfolgenden Abfragen wird zu dem speicheroptimierten Subgraphen gewechselt, was Selbstkorrektur von Fehlern ermöglicht

Speicherstabilität:

Aufrechterhaltung stabiler Leistung in komplexen mehrstufigen Speichereinrichtungen
Robustheit bei der abwechselnden Verarbeitung heterogener Datensätze

Theoretische Analyse

Speicherkapazitätssatz

Für eine Sammlung von Abfragen mit einer gewissen semantischen Ähnlichkeit können Kanteneinbettungen Abfrageinformationen effektiv speichern, wenn die Einbettungsdimension d ausreichend groß ist, unter der Bedingung:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

wobei θ der maximale Winkel zwischen Abfrageeinbettungspaaren ist und λ der Schwellenwert für starke Verbindungen ist.

Theoretische Garantien

Die theoretische Obergrenze von λ beträgt 0,775, was mit bestehenden Forschungen zu semantischen Ähnlichkeitsschwellenwerten von 0,6 übereinstimmt
Wenn die Einbettungsdimension 100 überschreitet, hat die theoretische Näherung in der Praxis erhebliche praktische Bedeutung

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

REMINDRAG erreicht erfolgreich die gemeinsame Optimierung von Systemeffektivität und Kosteneffizienz
Der Speicherwiedergabemechanismus verbessert die Effizienz nachfolgender Abfragen erheblich
Die Selbstkorrektur-Fähigkeit erhöht die Robustheit des Systems

Einschränkungen

Anfängliche Graphtraversierungskosten: Die erste Traversierung erfordert immer noch mehrere LLM-Aufrufe
Verarbeitung großer Dokumente: Die Konstruktion von Wissensgraphen erfordert erhebliche Zeit und Rechenressourcen
Speicherkapazitätsbeschränkungen: Die theoretische Analyse basiert auf der Annahme unendlicher Dimensionen, was in praktischen Anwendungen begrenzt sein kann

Zukünftige Richtungen

Vortrainierte Speicherinitialisierung: Verwendung von domänenspezifischen FAQs zur Vorinitialisierung des Modellspeichers
Verteilte Graphkonstruktion: Optimierung der Graphkonstruktionseffizienz für großmaßstäbliche Dokumente
Dynamische Speicherverwaltung: Forschung zu Vergessensmechanismen und Aktualisierungsstrategien für Langzeitspeicher

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erstmals Vorschlag eines trainingsfreien Graphtraversierungs-Speichermechanismus
Solide Theorie: Bereitstellung theoretischer Analyse und Garantien für Speicherkapazität
Umfassende Experimente: Umfassende Bewertung über mehrere Datensätze und LLM-Backbones
Hoher praktischer Wert: Signifikante Leistungsverbesserung und Kostensenkung

Mängel

Parametersensitivität: Die Einstellung mehrerer Hyperparameter kann die Leistung beeinflussen
Skalierbarkeitsprobleme: Die Anwendbarkeit auf extrem große Wissensgraphen wurde nicht ausreichend validiert
Speicheraktualisierungsstrategie: Einfache lineare Aktualisierungen sind möglicherweise nicht für alle Szenarien geeignet

Auswirkungen

Akademischer Beitrag: Bietet neue Optimierungsideen für das KG-RAG-Feld
Praktische Anwendung: Breite Anwendungsperspektiven in Frage-Antwort-Systemen, Informationsbeschaffung usw.
Reproduzierbarkeit: Bereitstellung von Open-Source-Code zur Validierung und Erweiterung durch die Forschungsgemeinschaft

Anwendungsszenarien

Mehrstufige Dialogsysteme: Fähigkeit, historische Interaktionen zu speichern und die Reaktionseffizienz zu verbessern
Domänenspezifische Frage-Antwort: Fähigkeit, Traversierungserfahrungen in spezifischen Domänen zu sammeln und zu nutzen
Kostenempfindliche Anwendungen: Szenarien mit strengeren Anforderungen an LLM-Aufrufskosten

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten aus mehreren Bereichen wie RAG, Wissensgraphen und Graphneuronale Netze, darunter:

Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
Edge et al. (2024): GraphRAG approach to query-focused summarization
Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
Und 55 weitere verwandte Literaturquellen

Gesamtbewertung: REMINDRAG ist eine hochwertige Forschungsarbeit, die eine innovative Lösung im KG-RAG-Feld vorschlägt. Diese Methode stellt nicht nur einen technischen Durchbruch dar, sondern löst vor allem das Schlüsselproblem in praktischen Anwendungen – das Gleichgewicht zwischen Effektivität und Effizienz. Die theoretische Analyse ist streng, das experimentelle Design ist angemessen und die Ergebnisse sind überzeugend. Obwohl es einige Einschränkungen gibt, sind die Beiträge erheblich und von großer Bedeutung für die Förderung der praktischen Anwendung der KG-RAG-Technologie.