2025-11-20T17:34:15.321910

ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG

Hu, Zhu, Tang et al.

Knowledge graphs (KGs), with their structured representation capabilities, offer promising avenue for enhancing Retrieval Augmented Generation (RAG) systems, leading to the development of KG-RAG systems. Nevertheless, existing methods often struggle to achieve effective synergy between system effectiveness and cost efficiency, leading to neither unsatisfying performance nor excessive LLM prompt tokens and inference time. To this end, this paper proposes REMINDRAG, which employs an LLM-guided graph traversal featuring node exploration, node exploitation, and, most notably, memory replay, to improve both system effectiveness and cost efficiency. Specifically, REMINDRAG memorizes traversal experience within KG edge embeddings, mirroring the way LLMs "memorize" world knowledge within their parameters, but in a train-free manner. We theoretically and experimentally confirm the effectiveness of REMINDRAG, demonstrating its superiority over existing baselines across various benchmark datasets and LLM backbones. Our code is available at https://github.com/kilgrims/ReMindRAG.

academic

ReMindRAG: Attraversamento di Grafi di Conoscenza Guidato da LLM a Basso Costo per RAG Efficiente

Informazioni Fondamentali

ID Articolo: 2510.13193
Titolo: ReMindRAG: Low-Cost LLM-Guided Knowledge Graph Traversal for Efficient RAG
Autori: Yikuan Hu, Jifeng Zhu, Lanrui Tang, Chen Huang
Classificazione: cs.IR (Information Retrieval)
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Link Articolo: https://arxiv.org/abs/2510.13193
Link Codice: https://github.com/kilgrims/ReMindRAG

Riassunto

I grafi di conoscenza (KG), grazie alla loro capacità di rappresentazione strutturata, forniscono un percorso promettente per potenziare i sistemi di generazione aumentata da recupero (RAG), promuovendo lo sviluppo di sistemi KG-RAG. Tuttavia, i metodi esistenti spesso faticano a raggiungere una sinergia efficace tra l'efficacia del sistema e l'efficienza dei costi, portando a prestazioni scadenti o a un eccessivo consumo di token di prompt LLM e tempo di inferenza. A tal fine, questo articolo propone REMINDRAG, che adotta l'attraversamento di grafi guidato da LLM, includendo l'esplorazione di nodi, lo sfruttamento di nodi e, soprattutto, un meccanismo di riproduzione della memoria per migliorare l'efficacia del sistema e l'efficienza dei costi. Nello specifico, REMINDRAG memorizza l'esperienza di attraversamento negli embedding dei bordi KG, in modo simile a come gli LLM "memorizzano" la conoscenza del mondo nei loro parametri, ma adottando un approccio senza addestramento. Abbiamo confermato l'efficacia di REMINDRAG sia da una prospettiva teorica che sperimentale, dimostrando la sua superiorità rispetto ai metodi di base esistenti su vari set di dati di benchmark e backbone LLM.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi RAG tradizionali si basano principalmente sul recupero di vettori densi per identificare segmenti di testo rilevanti, ma mostrano prestazioni limitate in compiti complessi che richiedono ragionamento multi-hop o cattura di dipendenze a lungo raggio. I grafi di conoscenza, con la loro rappresentazione strutturata di entità e relazioni, forniscono un nuovo percorso per affrontare questo problema.

Limitazioni dei Metodi Esistenti

Algoritmi di ricerca su grafi tradizionali: come PageRank e metodi GNN, faticano a catturare relazioni semantiche raffinate nel grafo, portando a un'efficacia del sistema insufficiente
Metodi di attraversamento di grafi guidati da LLM: sebbene mostrino prestazioni eccellenti, richiedono numerose chiamate LLM, aumentando significativamente i costi e il tempo di inferenza
Compromesso tra efficienza ed efficacia: i sistemi KG-RAG esistenti faticano a trovare un equilibrio efficace tra l'efficacia del sistema e l'efficienza dei costi

Motivazione della Ricerca

Questo articolo mira ad affrontare il problema dell'ottimizzazione sinergica tra l'efficacia del sistema e l'efficienza dei costi nei sistemi KG-RAG, che rappresenta una sfida principale per la distribuzione pratica e la scalabilità.

Contributi Principali

Identificazione delle sfide critiche: evidenzia chiaramente la sfida dell'ottimizzazione sinergica tra l'efficacia del sistema e l'efficienza dei costi nei sistemi KG-RAG
Proposta del framework REMINDRAG: adotta l'attraversamento KG guidato da LLM, includendo esplorazione di nodi, sfruttamento di nodi e meccanismo di riproduzione della memoria
Analisi teorica: dimostra teoricamente l'efficacia della riproduzione della memoria nell'attraversamento di grafi
Verifica sperimentale: valida la superiorità di REMINDRAG su più set di dati di benchmark e backbone LLM

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di documenti di testo non strutturato e una query dell'utente, l'obiettivo è costruire un grafo di conoscenza e recuperare informazioni rilevanti attraverso un meccanismo di attraversamento del grafo efficiente, generando risposte accurate, minimizzando al contempo i costi di chiamata LLM.

Architettura del Modello

1. Costruzione del Grafo di Conoscenza

REMINDRAG costruisce un grafo di conoscenza eterogeneo contenente:

Nodi di entità: entità nominate estratte dal testo
Nodi di ancoraggio: memorizzano i titoli dei blocchi di testo
Insieme di blocchi di testo: documenti originali segmentati
Connessioni relazionali: triple entità-relazione-entità e reti scheletriche contestuali

2. Attraversamento del Grafo di Conoscenza Guidato da LLM

Strategia di Esplorazione di Nodi:

Esplora prioritariamente i nodi potenziali che potrebbero portare alla risposta
In ogni iterazione, l'LLM valuta tutti i nodi nel sottografo S, selezionando il nodo target a più probabile che porti alla risposta

Strategia di Sfruttamento di Nodi:

Si concentra sullo sfruttamento dei nodi precedentemente esplorati, estendendo i percorsi lungo questi nodi
Dato il nodo selezionato a, l'LLM sceglie il nodo di estensione ottimale p dall'insieme dei nodi adiacenti Sa

3. Meccanismo di Riproduzione della Memoria

Contenuto della Memoria:

Percorsi efficaci: percorsi che portano alla risposta corretta (rinforzo positivo)
Percorsi inefficaci: percorsi che non portano alla risposta (rinforzo negativo)

Metodo di Memoria: Aggiornamento degli embedding dei bordi utilizzando un'equazione in forma chiusa:

Funzione di peso: δ(x) = (2/π)cos(π||x||₂/2)
Potenziamento percorsi efficaci: v̂ = v + δ(v) · q/||q||₂
Penalizzazione percorsi inefficaci: v̂ = v - δ(v·q/||q||₂) · v·q/||q||₂

Riattivazione Rapida e Aggiornamento Smorzato:

Riattivazione rapida: quando la norma dell'embedding del bordo v è piccola, la funzione δ produce grandi aggiornamenti direzionali
Aggiornamento smorzato: quando la norma dell'embedding del bordo v è grande, la funzione δ produce solo piccoli aggiornamenti, mantenendo la stabilità

Punti di Innovazione Tecnica

Meccanismo di memoria senza addestramento: memorizza l'esperienza di attraversamento negli embedding dei bordi, senza richiedere addestramento aggiuntivo
Equilibrio tra esplorazione e sfruttamento: combina strategie di esplorazione e sfruttamento di nodi, realizzando ricerca di ottimi globali e locali
Aggiornamento dei pesi adattivi: strategia di aggiornamento adattiva basata sulla norma del vettore, bilanciando l'apprendimento rapido e la stabilità a lungo termine

Configurazione Sperimentale

Set di Dati

QA con Dipendenze Lunghe: set di dati LooGLE, per testare la capacità di recupero semantico a lungo raggio
QA Multi-hop: set di dati HotpotQA, per valutare la capacità di ragionamento multi-step
QA Semplice: QA con dipendenze brevi LooGLE, per testare l'estrazione diretta di informazioni correlate

Metriche di Valutazione

Valutazione dell'Efficacia: utilizza GPT-4o come giudice LLM per valutare l'accuratezza della risposta
Valutazione dell'Efficienza dei Costi: numero medio di token LLM consumati per query durante il processo di attraversamento

Metodi di Confronto

Metodi di recupero tradizionali: BM25, NaiveRAG
Sistemi KG-RAG con algoritmi di ricerca su grafi: GraphRAG, LightRAG, HippoRAG2
Sistemi KG-RAG guidati da LLM: Plan-on-Graph

Dettagli di Implementazione

Backbone LLM: GPT-4o-mini, Deepseek-V3
Modello di embedding: nomic-ai/nomic-embed-text-v2-moe
Segmentazione del testo: lunghezza di 750 token
Parametri chiave: α=0.1 (peso di rilevanza del nodo), λ=0.55 (soglia di connessione forte)

Risultati Sperimentali

Risultati Principali

Tipo di QA	GPT-4o-mini	Deepseek-V3
QA con Dipendenze Lunghe	57.04%	59.73%
QA Multi-hop	74.22%	79.38%
QA Semplice	76.67%	77.01%

REMINDRAG supera significativamente i metodi di base in tutti i compiti:

QA con dipendenze lunghe: miglioramento medio del 12.08%
QA Multi-hop: miglioramento medio del 10.31%
QA Semplice: miglioramento medio del 4.66%

Analisi dell'Efficienza dei Costi

Tipo di Configurazione	Accuratezza	Consumo di Token	Riduzione dei Costi
Senza memoria	57.04%	14.91K	-
Memoria 1 round	56.48%	9.68K	35.1%
Memoria 2 round	58.01%	7.55K	49.4%
Memoria 3 round	60.31%	6.71K	55.0%

Dopo più round di memoria, REMINDRAG realizza una riduzione media del consumo di token del 58.8%.

Esperimenti di Ablazione

Impatto della Rete Scheletrica Contestuale:

Dopo la rimozione della rete scheletrica contestuale, le prestazioni di QA con dipendenze lunghe scendono dal 57.04% al 51.01%
Convalida l'importanza della cattura di informazioni contestuali

Impatto dell'Impostazione del Numero di Hop:

Con l'aumento del numero massimo di hop, le prestazioni del sistema aumentano monotonicamente
Un numero maggiore di hop consente ai nodi di accedere a un'area di vicinato più ampia

Analisi di Casi

Capacità di Auto-Correzione:

Dopo un errore iniziale nella risposta, il sistema può penalizzare i nodi irrilevanti in base alle regole di memoria
Nelle query successive, passa al sottografo ottimizzato dalla memoria, realizzando l'auto-correzione dell'errore

Stabilità della Memoria:

Mantiene prestazioni stabili in configurazioni complesse di memoria multi-round
Dimostra robustezza nel trattamento alternato di set di dati eterogenei

Analisi Teorica

Teorema della Capacità di Memoria

Per un insieme di query con una certa somiglianza semantica, quando la dimensione dell'embedding d è sufficientemente grande, l'embedding del bordo può memorizzare efficacemente le informazioni della query, con la condizione:

θ ≤ lim[d→∞] [2 arcsin(√(1/2 sin(arccos(λ))))]

dove θ è l'angolo massimo tra le coppie di embedding di query, e λ è la soglia di connessione forte.

Garanzie Teoriche

Il limite teorico superiore di λ è 0.775, coerente con la ricerca esistente sulla soglia di somiglianza semantica di 0.6
Quando la dimensione dell'embedding supera 100, l'approssimazione teorica ha significativa praticità nella pratica

Lavori Correlati

Sviluppo dei Sistemi KG-RAG

Metodi di ricerca su grafi tradizionali: PageRank, Random Walk, GNN, ecc., faticano a catturare relazioni semantiche raffinate
Metodi guidati da LLM: sfruttano la capacità di comprensione semantica degli LLM, ma con costi elevati
Potatura di grafi e pianificazione di percorsi: i metodi di ottimizzazione esistenti hanno effetti limitati

Meccanismo di Riproduzione della Memoria

Prende ispirazione dal concetto di riproduzione della memoria nell'apprendimento per rinforzo
Innovativamente memorizza la memoria come pesi nel grafo, piuttosto che come riproduzione esplicita di campioni

Conclusioni e Discussione

Conclusioni Principali

REMINDRAG realizza con successo l'ottimizzazione sinergica tra l'efficacia del sistema e l'efficienza dei costi
Il meccanismo di riproduzione della memoria migliora significativamente l'efficienza delle query successive
La capacità di auto-correzione migliora la robustezza del sistema

Limitazioni

Costo di attraversamento iniziale: il primo attraversamento richiede ancora numerose chiamate LLM
Elaborazione di documenti su larga scala: la costruzione del grafo di conoscenza richiede tempo e risorse computazionali significativi
Limitazioni della capacità di memoria: l'analisi teorica si basa sull'assunzione di dimensione infinita, che potrebbe essere limitata nelle applicazioni pratiche

Direzioni Future

Inizializzazione della memoria pre-addestrata: utilizza FAQ specifici del dominio per pre-inizializzare la memoria del modello
Costruzione di grafi distribuiti: ottimizza l'efficienza della costruzione di grafi per documenti su larga scala
Gestione dinamica della memoria: ricerca meccanismi di dimenticanza e aggiornamento della memoria a lungo termine

Valutazione Approfondita

Punti di Forza

Forte innovazione: primo a proporre un meccanismo di memoria di attraversamento di grafi senza addestramento
Teoria solida: fornisce analisi teorica e garanzie sulla capacità di memoria
Esperimenti completi: valutazione completa su più set di dati e backbone LLM
Alto valore pratico: miglioramenti significativi delle prestazioni e riduzione dei costi

Punti Deboli

Sensibilità ai parametri: l'impostazione di più iperparametri potrebbe influenzare le prestazioni
Problemi di scalabilità: l'applicabilità a grafi di conoscenza su scala molto grande non è stata sufficientemente verificata
Strategia di aggiornamento della memoria: l'aggiornamento lineare semplice potrebbe non essere adatto a tutti gli scenari

Impatto

Contributo accademico: fornisce nuove prospettive di ottimizzazione al campo KG-RAG
Applicazione pratica: ha ampi prospettive di applicazione in sistemi di domande e risposte, recupero di informazioni e altri campi
Riproducibilità: fornisce codice open source, facilitando la verifica e l'estensione della comunità di ricerca

Scenari Applicabili

Sistemi di dialogo multi-turno: può memorizzare interazioni storiche, migliorando l'efficienza della risposta
Domande e risposte specifiche del dominio: può accumulare e utilizzare l'esperienza di attraversamento all'interno di un dominio specifico
Applicazioni sensibili ai costi: scenari con requisiti rigorosi sui costi di chiamata LLM

Riferimenti Bibliografici

Questo articolo cita importanti lavori da più campi, inclusi RAG, grafi di conoscenza, reti neurali su grafi, ecc., tra cui:

Lewis et al. (2020): Retrieval-augmented generation for knowledge-intensive NLP tasks
Edge et al. (2024): GraphRAG approach to query-focused summarization
Guo et al. (2024): LightRAG simple and fast retrieval-augmented generation
E altri 55 lavori correlati

Valutazione Complessiva: REMINDRAG è un lavoro di ricerca di alta qualità che propone una soluzione innovativa nel campo KG-RAG. Il metodo non solo rappresenta un progresso tecnico, ma affronta soprattutto un problema critico nelle applicazioni pratiche: l'equilibrio tra efficacia ed efficienza. L'analisi teorica è rigorosa, la progettazione sperimentale è razionale e i risultati sono convincenti. Sebbene esistano alcune limitazioni, i suoi contributi sono significativi e hanno un'importanza considerevole nel promuovere l'applicazione pratica della tecnologia KG-RAG.