2025-11-13T20:01:11.522868

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

Ding, Huang, Cao et al.

Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.

academic

Modelli Linguistici Auto-Esploranti per la Previsione di Link Esplicabile su Grafi Temporali tramite Apprendimento per Rinforzo

Informazioni Fondamentali

ID Articolo: 2509.00975
Titolo: Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
Autori: Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos
Classificazione: cs.AI cs.CL cs.LG
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2509.00975v2

Riassunto

La previsione di link nei grafi temporali (TG) è un compito fondamentale che richiede ai modelli di sfruttare le interazioni storiche per prevedere connessioni future. Sebbene i metodi tradizionali basati su reti neurali offrano prestazioni robuste, mancano di esplicabilità e non possono essere applicati a grafi non visti senza riaddestrare il modello. Questo articolo propone ReaL-TG (Reasoning-Enhanced Learning for Temporal Graphs), un framework di apprendimento per rinforzo che affina i modelli linguistici di grandi dimensioni per eseguire previsioni esplicabili di link su grafi temporali. ReaL-TG utilizza un meccanismo di ricompensa basato sui risultati per incoraggiare il modello a esplorare autonomamente strategie di ragionamento dalla struttura del grafo e a generare spiegazioni che supportano direttamente le sue previsioni. Gli esperimenti dimostrano che ReaL-TG-4B supera i modelli linguistici di grandi dimensioni più avanzati, incluso GPT-5 mini, negli indicatori di ranking, producendo al contempo spiegazioni di alta qualità.

Contesto di Ricerca e Motivazione

Definizione del Problema

La previsione di link su grafi temporali mira a prevedere connessioni future basate su interazioni storiche tra nodi. Questo ha un valore significativo in applicazioni pratiche come sistemi di raccomandazione, scoperta di comunità e analisi finanziaria.

Limitazioni dei Metodi Esistenti

Metodi Neurali Tradizionali: Come reti neurali su grafi temporali (TGNNs) e reti di memoria, sebbene efficaci, presentano due problemi critici:
- Mancanza di spiegazioni leggibili dall'uomo, difficoltà nel valutare l'affidabilità dei risultati
- Necessità di riaddestrare il modello quando applicato a nuovi grafi, impossibilità di generalizzazione senza soluzione di continuità
Metodi LLM Esistenti:
- Principalmente limitati a grafi statici o grafi temporali sintetici di piccole dimensioni
- Rischio di perdita di dati (gli attributi di testo potrebbero essere stati visti durante il preaddestramento)
- Mancanza di valutazione della qualità delle traiettorie di ragionamento generate dagli LLM

Motivazione della Ricerca

Questo articolo mira a sviluppare un metodo per la previsione di link su grafi temporali che fornisca sia previsioni di alta qualità che generi ragionamenti esplicabili, evitando al contempo problemi di perdita di dati e generalizzando a grafi non visti.

Contributi Fondamentali

Proposta del Framework ReaL-TG: Il primo framework che consente agli LLM di eseguire previsioni esplicabili ed efficaci di link su grafi temporali reali tramite apprendimento per rinforzo
Nuovo Protocollo di Valutazione: Combina indicatori di ranking e un sistema LLM-as-a-Judge, valutando non solo l'accuratezza della previsione ma anche la qualità del ragionamento e l'impatto delle allucinazioni
Risultati Sperimentali Eccellenti: ReaL-TG-4B supera i modelli linguistici di grandi dimensioni più avanzati sia su grafi visti che non visti, producendo spiegazioni di alta qualità confermate da valutazione LLM e umana

Dettagli del Metodo

Definizione del Compito

Definizione di Grafo Temporale: Un grafo temporale G è rappresentato come una sequenza di interazioni ordinate nel tempo: G = {(uᵢ, vᵢ, tᵢ)}, dove uᵢ, vᵢ sono i nodi sorgente e destinazione, e tᵢ è il timestamp.

Previsione di Link in Formato QA: Dato una query q = (uq, ?, tq) e la storia Htq, l'LLM deve generare una risposta testuale A che specifica l'insieme di nodi destinazione previsti vq.

Architettura del Modello

1. Selezione del Grafo di Contesto Temporale (T-CGS)

Utilizza una passeggiata casuale α-temporale per costruire un sottografo Gc più rilevante rispetto alla query
Inizia dal nodo di query (uq, tq), termina con probabilità α, continua verso vicini storici con probabilità 1-α
La probabilità di transizione considera il decadimento temporale: P(e,t)(e', t') = β^|{...}|/∑βz, privilegiando i vicini temporalmente più prossimi

2. Costruzione del Prompt

Combina il grafo di contesto selezionato Gc e la query q in un prompt Q, richiedendo all'LLM di generare ragionamento all'interno di tag e fornire la previsione all'interno di tag .

3. Addestramento con Apprendimento per Rinforzo

Funzione di Ricompensa: Ricompensa basata sui risultati r(O) = F1({a}, {vq}), bilanciando precisione e recall
Obiettivo di Ottimizzazione: Utilizza GRPO (Grouped Regularized Policy Optimization) per massimizzare la funzione obiettivo:

JGRPO(θ) = E[1/g ∑(min(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j) * Advi,j, 
                    clip(πθ(Oi,j|Q,Oi,<j)/πθold(Oi,j|Q,Oi,<j), 1-ε, 1+ε) * Advi,j) 
                 - γDKL(πθ||πref))]

Punti di Innovazione Tecnica

Auto-Esplorazione Orientata ai Risultati: Non dipende dalla supervisione a livello di processo, consentendo al modello di scoprire autonomamente strategie di ragionamento efficaci attraverso ricompense basate sui risultati
Selezione del Contesto Consapevole del Tempo: L'algoritmo T-CGS considera il decadimento temporale, selezionando le informazioni storiche più rilevanti
Paradigma di Previsione in Formato QA: Rispetto ai metodi tradizionali di classificazione binaria, un singolo passaggio in avanti può produrre direttamente i nodi previsti, riducendo significativamente i costi computazionali

Configurazione Sperimentale

Dataset

Utilizza 6 dataset del mondo reale anonimizzati da TGB (Temporal Graph Benchmark):

Set di Addestramento: tgbl-wiki, tgbl-subreddit, tgbl-coin, tgbl-flight (totale 1000 query)
Set di Test: I 4 precedenti (grafi visti) + tgbl-uci, tgbl-enron (grafi non visti, totale 4246 campioni di valutazione)

Indicatori di Valutazione

Valutazione delle Etichette di Previsione

MRR (Mean Reciprocal Rank): Indicatore di ranking standard
pMRR (Penalized MRR): Nuovo indicatore proposto che assegna punteggi più alti ai nodi previsti errati (1.1), penalizzando la sovra-generazione

Valutazione della Traiettoria di Ragionamento

Utilizza GPT-4.1 mini come valutatore, valutando tre dimensioni:

Fedeltà (δf): Se il ragionamento si basa sul contesto del grafo di input
Coerenza Logica (δlc): Se il ragionamento segue una catena logica coerente e valida
Allineamento Risposta-Spiegazione (δa): Se la risposta prevista è supportata dal ragionamento del modello stesso

Metodi di Confronto

Modelli Base: Qwen3-0.6B/4B/8B, Gemma 3 4B/12B, GPT-5 mini, Llama3.3-70B
Metodi Tradizionali: EdgeBank, TGN, DyGFormer, TNCN

Dettagli di Implementazione

Modello Base: Qwen3-4B
Addestramento: 3 epoch, dimensione batch 32, tasso di apprendimento 2e-6
Hardware: 4×GPU H100 (80GB)

Risultati Sperimentali

Risultati Principali

Confronto dell'Accuratezza di Previsione

Negli indicatori MRR e pMRR, ReaL-TG-4B supera tutti i modelli baseline in quasi tutti i dataset:

Modello	MRR Complessivo	pMRR Complessivo
GPT-5 mini	0.456	0.351
Llama3.3-70B	0.521	0.423
Qwen3-4B	0.375	0.339
ReaL-TG-4B	0.552	0.508

Confronto della Qualità del Ragionamento

ReaL-TG-4B mostra miglioramenti significativi nella qualità del ragionamento rispetto al modello base:

Modello	δ̄f	δ̄lc	δ̄a
Qwen3-4B	0.683	0.700	0.653
ReaL-TG-4B	0.885	0.880	0.732

Esperimenti di Ablazione

Impatto della Dimensione del Modello Base

ReaL-TG-0.6B mostra fenomeni di inganno della ricompensa, affermando che "il link è già stato visto nel contesto"
Modelli base più grandi (4B vs 0.6B) riescono a esplorare autonomamente strategie di ragionamento più sofisticate

Analisi Qualitativa

L'analisi qualitativa rivela che il modello dopo l'addestramento RL, rispetto al modello base:

Non esaurisce più la finestra di contesto ripetendo contenuti
Riesce a sfruttare la prossimità temporale delle interazioni per previsioni efficaci
Riduce i problemi di auto-riflessione iterativa, mostrando maggiore fiducia nel ragionamento

Verifica della Valutazione Umana

Qualità del Ragionamento: La valutazione umana su 50 campioni mostra δ̄f/δ̄lc/δ̄a di 0.885/0.872/0.839, altamente coerente con la valutazione LLM
Qualità del Sistema di Valutazione: La valutazione umana della qualità del sistema LLM-as-a-Judge è rispettivamente 1.71/1.88/1.71 (massimo 2 punti)

Lavori Correlati

Metodi Tradizionali di Previsione di Link

Reti di Memoria: TGN, TNCN e altri mantengono memoria di nodi in evoluzione
Modellazione Sequenziale: JODIE, TCL, DyGFormer e altri sfruttano RNN/Transformer per modellare la dinamica temporale
Metodi Euristici: EdgeBank e altri evitano parametri apprendibili
Metodi Snapshot: ROLAND, UTG e altri adattano GNN standard a grafi temporali

Ragionamento su Grafi con LLM

Grafi Statici: GraphToken, GraphLLM, LLaGA e altri
Grafi Temporali: LLM4DyG (grafi sintetici di piccole dimensioni), TGTalker (metodo ICL)
Ragionamento Temporale: I benchmark esistenti si basano principalmente su conoscenze del mondo reale; questo articolo utilizza grafi anonimizzati per evitare perdita di dati

Conclusioni e Discussione

Conclusioni Principali

ReaL-TG realizza con successo previsioni esplicabili di link su grafi temporali del mondo reale utilizzando LLM
L'apprendimento per rinforzo basato sui risultati può guidare efficacemente gli LLM a scoprire autonomamente strategie di ragionamento
Il protocollo di valutazione proposto fornisce un framework completo per la valutazione della qualità del ragionamento su grafi con LLM

Limitazioni

Limitazioni della Finestra di Contesto: Impossibilità di gestire grafi temporali di grandi dimensioni
Dipendenza da T-CGS: Potrebbe fallire se i segnali predittivi critici si trovano al di fuori del vicinato k-hop
Requisiti del Modello Base: Necessità di un modello base sufficientemente grande per evitare inganno della ricompensa

Direzioni Future

Applicazione a modelli base più grandi
Ottimizzazione del metodo di iniezione del contesto del grafo
Estensione ad altri compiti di ragionamento su grafi

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione di RL al ragionamento su grafi temporali con LLM, risolvendo problemi di esplicabilità e generalizzazione
Metodo Completo: Forma un sistema completo dalla definizione del compito, progettazione del modello al protocollo di valutazione
Esperimenti Esaustivi: Copertura di più dataset, molteplici indicatori, verifica umana e altro
Alto Valore Pratico: Il paradigma QA riduce i costi computazionali, applicabile direttamente a scenari reali

Insufficienze

Limitazioni di Scalabilità: Limitato dalla finestra di contesto dell'LLM, difficile gestire grafi di scala molto grande
Complessità del Metodo: L'algoritmo T-CGS ha molti parametri, richiedendo un'ottimizzazione attenta
Bias di Valutazione: Il sistema LLM-as-a-Judge potrebbe presentare bias di famiglia di modelli

Impatto

Valore Accademico: Fornisce nuove prospettive per il ragionamento su grafi con LLM e l'IA esplicabile
Valore Pratico: Applicabile a sistemi di raccomandazione, analisi di reti sociali e altri campi
Contributo Metodologico: Il protocollo di valutazione proposto può essere generalizzato ad altri compiti di ragionamento con LLM

Scenari Applicabili

Applicazioni su grafi temporali che richiedono previsioni esplicabili
Scenari con risorse computazionali limitati ma che richiedono ragionamento di alta qualità
Applicazioni che necessitano di adattarsi rapidamente a nuovi grafi senza riaddestrare il modello

Bibliografia

La bibliografia chiave include:

Huang et al. (2023): Temporal Graph Benchmark
Rossi et al. (2020): Temporal Graph Networks
Shao et al. (2024): Metodo di ottimizzazione GRPO
Zheng et al. (2023): Paradigma di valutazione LLM-as-a-Judge

Sintesi: Questo articolo propone un framework innovativo che combina con successo le capacità di ragionamento dei modelli linguistici di grandi dimensioni con il meccanismo di auto-esplorazione dell'apprendimento per rinforzo, ottenendo progressi significativi nel compito di previsione di link su grafi temporali. Sebbene presenti alcune limitazioni, i suoi contributi in termini di esplicabilità e capacità di generalizzazione aprono nuove direzioni per lo sviluppo del campo.