Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
Ding, Huang, Cao et al.
Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.
academic
Modelli Linguistici Auto-Esploranti per la Previsione di Link Esplicabile su Grafi Temporali tramite Apprendimento per Rinforzo
La previsione di link nei grafi temporali (TG) è un compito fondamentale che richiede ai modelli di sfruttare le interazioni storiche per prevedere connessioni future. Sebbene i metodi tradizionali basati su reti neurali offrano prestazioni robuste, mancano di esplicabilità e non possono essere applicati a grafi non visti senza riaddestrare il modello. Questo articolo propone ReaL-TG (Reasoning-Enhanced Learning for Temporal Graphs), un framework di apprendimento per rinforzo che affina i modelli linguistici di grandi dimensioni per eseguire previsioni esplicabili di link su grafi temporali. ReaL-TG utilizza un meccanismo di ricompensa basato sui risultati per incoraggiare il modello a esplorare autonomamente strategie di ragionamento dalla struttura del grafo e a generare spiegazioni che supportano direttamente le sue previsioni. Gli esperimenti dimostrano che ReaL-TG-4B supera i modelli linguistici di grandi dimensioni più avanzati, incluso GPT-5 mini, negli indicatori di ranking, producendo al contempo spiegazioni di alta qualità.
La previsione di link su grafi temporali mira a prevedere connessioni future basate su interazioni storiche tra nodi. Questo ha un valore significativo in applicazioni pratiche come sistemi di raccomandazione, scoperta di comunità e analisi finanziaria.
Questo articolo mira a sviluppare un metodo per la previsione di link su grafi temporali che fornisca sia previsioni di alta qualità che generi ragionamenti esplicabili, evitando al contempo problemi di perdita di dati e generalizzando a grafi non visti.
Proposta del Framework ReaL-TG: Il primo framework che consente agli LLM di eseguire previsioni esplicabili ed efficaci di link su grafi temporali reali tramite apprendimento per rinforzo
Nuovo Protocollo di Valutazione: Combina indicatori di ranking e un sistema LLM-as-a-Judge, valutando non solo l'accuratezza della previsione ma anche la qualità del ragionamento e l'impatto delle allucinazioni
Risultati Sperimentali Eccellenti: ReaL-TG-4B supera i modelli linguistici di grandi dimensioni più avanzati sia su grafi visti che non visti, producendo spiegazioni di alta qualità confermate da valutazione LLM e umana
Definizione di Grafo Temporale: Un grafo temporale G è rappresentato come una sequenza di interazioni ordinate nel tempo: G = {(uᵢ, vᵢ, tᵢ)}, dove uᵢ, vᵢ sono i nodi sorgente e destinazione, e tᵢ è il timestamp.
Previsione di Link in Formato QA: Dato una query q = (uq, ?, tq) e la storia Htq, l'LLM deve generare una risposta testuale A che specifica l'insieme di nodi destinazione previsti vq.
Combina il grafo di contesto selezionato Gc e la query q in un prompt Q, richiedendo all'LLM di generare ragionamento all'interno di tag e fornire la previsione all'interno di tag .
Auto-Esplorazione Orientata ai Risultati: Non dipende dalla supervisione a livello di processo, consentendo al modello di scoprire autonomamente strategie di ragionamento efficaci attraverso ricompense basate sui risultati
Selezione del Contesto Consapevole del Tempo: L'algoritmo T-CGS considera il decadimento temporale, selezionando le informazioni storiche più rilevanti
Paradigma di Previsione in Formato QA: Rispetto ai metodi tradizionali di classificazione binaria, un singolo passaggio in avanti può produrre direttamente i nodi previsti, riducendo significativamente i costi computazionali
Ragionamento Temporale: I benchmark esistenti si basano principalmente su conoscenze del mondo reale; questo articolo utilizza grafi anonimizzati per evitare perdita di dati
Zheng et al. (2023): Paradigma di valutazione LLM-as-a-Judge
Sintesi: Questo articolo propone un framework innovativo che combina con successo le capacità di ragionamento dei modelli linguistici di grandi dimensioni con il meccanismo di auto-esplorazione dell'apprendimento per rinforzo, ottenendo progressi significativi nel compito di previsione di link su grafi temporali. Sebbene presenti alcune limitazioni, i suoi contributi in termini di esplicabilità e capacità di generalizzazione aprono nuove direzioni per lo sviluppo del campo.