2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.
Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.
academic

ReMindRAG: Attraversamento di Grafi di Conoscenza Guidato da LLM a Basso Costo per RAG Efficiente

Informazioni Fondamentali

  • ID Articolo: 2510.13193
  • Titolo: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
  • Autori: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
  • Classificazione: cs.IR (Information Retrieval)
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Link Articolo: https://arxiv.org/abs/2510.13193
  • Link Codice: https://github.com/kilgrims/ReMindRAG

Riassunto

I grafi di conoscenza (KG), grazie alla loro capacità di rappresentazione strutturata, forniscono un percorso promettente per potenziare i sistemi di generazione aumentata da recupero (RAG), promuovendo lo sviluppo di sistemi KG-RAG. Tuttavia, i metodi esistenti spesso faticano a raggiungere una sinergia efficace tra l'efficacia del sistema e l'efficienza dei costi, portando a prestazioni scadenti o a un eccessivo consumo di token di prompt LLM e tempo di inferenza. A tal fine, questo articolo propone REMINDRAG, che adotta l'attraversamento di grafi guidato da LLM, includendo l'esplorazione di nodi, lo sfruttamento di nodi e, soprattutto, un meccanismo di riproduzione della memoria per migliorare l'efficacia del sistema e l'efficienza dei costi. Nello specifico, REMINDRAG memorizza l'esperienza di attraversamento negli embedding dei bordi KG, in modo simile a come gli LLM "memorizzano" la conoscenza del mondo nei loro parametri, ma adottando un approccio senza addestramento. Abbiamo confermato l'efficacia di REMINDRAG sia da una prospettiva teorica che sperimentale, dimostrando la sua superiorità rispetto ai metodi di base esistenti su vari set di dati di benchmark e backbone LLM.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi RAG tradizionali si basano principalmente sul recupero di vettori densi per identificare segmenti di testo rilevanti, ma mostrano prestazioni limitate in compiti complessi che richiedono ragionamento multi-hop o cattura di dipendenze a lungo raggio. I grafi di conoscenza, con la loro rappresentazione strutturata di entità e relazioni, forniscono un nuovo percorso per affrontare questo problema.

Limitazioni dei Metodi Esistenti

  1. Algoritmi di ricerca su grafi tradizionali: come PageRank e metodi GNN, faticano a catturare relazioni semantiche raffinate nel grafo, portando a un'efficacia del sistema insufficiente
  2. Metodi di attraversamento di grafi guidati da LLM: sebbene mostrino prestazioni eccellenti, richiedono numerose chiamate LLM, aumentando significativamente i costi e il tempo di inferenza
  3. Compromesso tra efficienza ed efficacia: i sistemi KG-RAG esistenti faticano a trovare un equilibrio efficace tra l'efficacia del sistema e l'efficienza dei costi

Motivazione della Ricerca

Questo articolo mira ad affrontare il problema dell'ottimizzazione sinergica tra l'efficacia del sistema e l'efficienza dei costi nei sistemi KG-RAG, che rappresenta una sfida principale per la distribuzione pratica e la scalabilità.

Contributi Principali

  1. Identificazione delle sfide critiche: evidenzia chiaramente la sfida dell'ottimizzazione sinergica tra l'efficacia del sistema e l'efficienza dei costi nei sistemi KG-RAG
  2. Proposta del framework REMINDRAG: adotta l'attraversamento KG guidato da LLM, includendo esplorazione di nodi, sfruttamento di nodi e meccanismo di riproduzione della memoria
  3. Analisi teorica: dimostra teoricamente l'efficacia della riproduzione della memoria nell'attraversamento di grafi
  4. Verifica sperimentale: valida la superiorità di REMINDRAG su più set di dati di benchmark e backbone LLM

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di documenti di testo non strutturato e una query dell'utente, l'obiettivo è costruire un grafo di conoscenza e recuperare informazioni rilevanti attraverso un meccanismo di attraversamento del grafo efficiente, generando risposte accurate, minimizzando al contempo i costi di chiamata LLM.

Architettura del Modello

1. Costruzione del Grafo di Conoscenza

REMINDRAG costruisce un grafo di conoscenza eterogeneo contenente:

  • Nodi di entità: entità nominate estratte dal testo
  • Nodi di ancoraggio: memorizzano i titoli dei blocchi di testo
  • Insieme di blocchi di testo: documenti originali segmentati
  • Connessioni relazionali: triple entità-relazione-entità e reti scheletriche contestuali

2. Attraversamento del Grafo di Conoscenza Guidato da LLM

Strategia di Esplorazione di Nodi:

  • Esplora prioritariamente i nodi potenziali che potrebbero portare alla risposta
  • In ogni iterazione, l'LLM valuta tutti i nodi nel sottografo S, selezionando il nodo target a più probabile che porti alla risposta

Strategia di Sfruttamento di Nodi:

  • Si concentra sullo sfruttamento dei nodi precedentemente esplorati, estendendo i percorsi lungo questi nodi
  • Dato il nodo selezionato a, l'LLM sceglie il nodo di estensione ottimale p dall'insieme dei nodi adiacenti Sa

3. Meccanismo di Riproduzione della Memoria

Contenuto della Memoria:

  • Percorsi efficaci: percorsi che portano alla risposta corretta (rinforzo positivo)
  • Percorsi inefficaci: percorsi che non portano alla risposta (rinforzo negativo)

Metodo di Memoria: Aggiornamento degli embedding dei bordi utilizzando un'equazione in forma chiusa:

Funzione di peso: δ(x) = (2/π)cos(π||x||₂/2)
Potenziamento percorsi efficaci: v̂ = v + δ(v) · q/||q||₂
Penalizzazione percorsi inefficaci: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Riattivazione Rapida e Aggiornamento Smorzato:

  • Riattivazione rapida: quando la norma dell'embedding del bordo v è piccola, la funzione δ produce grandi aggiornamenti direzionali
  • Aggiornamento smorzato: quando la norma dell'embedding del bordo v è grande, la funzione δ produce solo piccoli aggiornamenti, mantenendo la stabilità

Punti di Innovazione Tecnica

  1. Meccanismo di memoria senza addestramento: memorizza l'esperienza di attraversamento negli embedding dei bordi, senza richiedere addestramento aggiuntivo
  2. Equilibrio tra esplorazione e sfruttamento: combina strategie di esplorazione e sfruttamento di nodi, realizzando ricerca di ottimi globali e locali
  3. Aggiornamento dei pesi adattivi: strategia di aggiornamento adattiva basata sulla norma del vettore, bilanciando l'apprendimento rapido e la stabilità a lungo termine

Configurazione Sperimentale

Set di Dati

  1. QA con Dipendenze Lunghe: set di dati LooGLE, per testare la capacità di recupero semantico a lungo raggio
  2. QA Multi-hop: set di dati HotpotQA, per valutare la capacità di ragionamento multi-step
  3. QA Semplice: QA con dipendenze brevi LooGLE, per testare l'estrazione diretta di informazioni correlate

Metriche di Valutazione

  1. Valutazione dell'Efficacia: utilizza GPT-4o come giudice LLM per valutare l'accuratezza della risposta
  2. Valutazione dell'Efficienza dei Costi: numero medio di token LLM consumati per query durante il processo di attraversamento

Metodi di Confronto

  1. Metodi di recupero tradizionali: BM25, NaiveRAG
  2. Sistemi KG-RAG con algoritmi di ricerca su grafi: GraphRAG, LightRAG, HippoRAG2
  3. Sistemi KG-RAG guidati da LLM: Plan-on-Graph

Dettagli di Implementazione

  • Backbone LLM: GPT-4o-mini, Deepseek-V3
  • Modello di embedding: nomic-ai/nomic-embed-text-v2-moe
  • Segmentazione del testo: lunghezza di 750 token
  • Parametri chiave: α=0.1 (peso di rilevanza del nodo), λ=0.55 (soglia di connessione forte)

Risultati Sperimentali

Risultati Principali

Tipo di QAGPT-4o-miniDeepseek-V3
QA con Dipendenze Lunghe57.04%59.73%
QA Multi-hop74.22%79.38%
QA Semplice76.67%77.01%

REMINDRAG supera significativamente i metodi di base in tutti i compiti:

  • QA con dipendenze lunghe: miglioramento medio del 12.08%
  • QA Multi-hop: miglioramento medio del 10.31%
  • QA Semplice: miglioramento medio del 4.66%

Analisi dell'Efficienza dei Costi

Tipo di ConfigurazioneAccuratezzaConsumo di TokenRiduzione dei Costi
Senza memoria57.04%14.91K-
Memoria 1 round56.48%9.68K35.1%
Memoria 2 round58.01%7.55K49.4%
Memoria 3 round60.31%6.71K55.0%

Dopo più round di memoria, REMINDRAG realizza una riduzione media del consumo di token del 58.8%.

Esperimenti di Ablazione

Impatto della Rete Scheletrica Contestuale:

  • Dopo la rimozione della rete scheletrica contestuale, le prestazioni di QA con dipendenze lunghe scendono dal 57.04% al 51.01%
  • Convalida l'importanza della cattura di informazioni contestuali

Impatto dell'Impostazione del Numero di Hop:

  • Con l'aumento del numero massimo di hop, le prestazioni del sistema aumentano monotonicamente
  • Un numero maggiore di hop consente ai nodi di accedere a un'area di vicinato più ampia

Analisi di Casi

Capacità di Auto-Correzione:

  • Dopo un errore iniziale nella risposta, il sistema può penalizzare i nodi irrilevanti in base alle regole di memoria
  • Nelle query successive, passa al sottografo ottimizzato dalla memoria, realizzando l'auto-correzione dell'errore

Stabilità della Memoria:

  • Mantiene prestazioni stabili in configurazioni complesse di memoria multi-round
  • Dimostra robustezza nel trattamento alternato di set di dati eterogenei

Analisi Teorica

Teorema della Capacità di Memoria

Per un insieme di query con una certa somiglianza semantica, quando la dimensione dell'embedding d è sufficientemente grande, l'embedding del bordo può memorizzare efficacemente le informazioni della query, con la condizione:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

dove θ è l'angolo massimo tra le coppie di embedding di query, e λ è la soglia di connessione forte.

Garanzie Teoriche

  • Il limite teorico superiore di λ è 0.775, coerente con la ricerca esistente sulla soglia di somiglianza semantica di 0.6
  • Quando la dimensione dell'embedding supera 100, l'approssimazione teorica ha significativa praticità nella pratica

Lavori Correlati

Sviluppo dei Sistemi KG-RAG

  1. Metodi di ricerca su grafi tradizionali: PageRank, Random Walk, GNN, ecc., faticano a catturare relazioni semantiche raffinate
  2. Metodi guidati da LLM: sfruttano la capacità di comprensione semantica degli LLM, ma con costi elevati
  3. Potatura di grafi e pianificazione di percorsi: i metodi di ottimizzazione esistenti hanno effetti limitati

Meccanismo di Riproduzione della Memoria

  • Prende ispirazione dal concetto di riproduzione della memoria nell'apprendimento per rinforzo
  • Innovativamente memorizza la memoria come pesi nel grafo, piuttosto che come riproduzione esplicita di campioni

Conclusioni e Discussione

Conclusioni Principali

  1. REMINDRAG realizza con successo l'ottimizzazione sinergica tra l'efficacia del sistema e l'efficienza dei costi
  2. Il meccanismo di riproduzione della memoria migliora significativamente l'efficienza delle query successive
  3. La capacità di auto-correzione migliora la robustezza del sistema

Limitazioni

  1. Costo di attraversamento iniziale: il primo attraversamento richiede ancora numerose chiamate LLM
  2. Elaborazione di documenti su larga scala: la costruzione del grafo di conoscenza richiede tempo e risorse computazionali significativi
  3. Limitazioni della capacità di memoria: l'analisi teorica si basa sull'assunzione di dimensione infinita, che potrebbe essere limitata nelle applicazioni pratiche

Direzioni Future

  1. Inizializzazione della memoria pre-addestrata: utilizza FAQ specifici del dominio per pre-inizializzare la memoria del modello
  2. Costruzione di grafi distribuiti: ottimizza l'efficienza della costruzione di grafi per documenti su larga scala
  3. Gestione dinamica della memoria: ricerca meccanismi di dimenticanza e aggiornamento della memoria a lungo termine

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione: primo a proporre un meccanismo di memoria di attraversamento di grafi senza addestramento
  2. Teoria solida: fornisce analisi teorica e garanzie sulla capacità di memoria
  3. Esperimenti completi: valutazione completa su più set di dati e backbone LLM
  4. Alto valore pratico: miglioramenti significativi delle prestazioni e riduzione dei costi

Punti Deboli

  1. Sensibilità ai parametri: l'impostazione di più iperparametri potrebbe influenzare le prestazioni
  2. Problemi di scalabilità: l'applicabilità a grafi di conoscenza su scala molto grande non è stata sufficientemente verificata
  3. Strategia di aggiornamento della memoria: l'aggiornamento lineare semplice potrebbe non essere adatto a tutti gli scenari

Impatto

  1. Contributo accademico: fornisce nuove prospettive di ottimizzazione al campo KG-RAG
  2. Applicazione pratica: ha ampi prospettive di applicazione in sistemi di domande e risposte, recupero di informazioni e altri campi
  3. Riproducibilità: fornisce codice open source, facilitando la verifica e l'estensione della comunità di ricerca

Scenari Applicabili

  1. Sistemi di dialogo multi-turno: può memorizzare interazioni storiche, migliorando l'efficienza della risposta
  2. Domande e risposte specifiche del dominio: può accumulare e utilizzare l'esperienza di attraversamento all'interno di un dominio specifico
  3. Applicazioni sensibili ai costi: scenari con requisiti rigorosi sui costi di chiamata LLM

Riferimenti Bibliografici

Questo articolo cita importanti lavori da più campi, inclusi RAG, grafi di conoscenza, reti neurali su grafi, ecc., tra cui:

  • Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
  • Edge et al. (2024): GraphRAG approach to query-focused summarization
  • Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
  • E altri 55 lavori correlati

Valutazione Complessiva: REMINDRAG è un lavoro di ricerca di alta qualità che propone una soluzione innovativa nel campo KG-RAG. Il metodo non solo rappresenta un progresso tecnico, ma affronta soprattutto un problema critico nelle applicazioni pratiche: l'equilibrio tra efficacia ed efficienza. L'analisi teorica è rigorosa, la progettazione sperimentale è razionale e i risultati sono convincenti. Sebbene esistano alcune limitazioni, i suoi contributi sono significativi e hanno un'importanza considerevole nel promuovere l'applicazione pratica della tecnologia KG-RAG.