Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
- ID Articolo: 2510.09416
- Titolo: What Do Temporal Graph Learning Models Learn?
- Autori: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
- Classificazione: cs.LG cs.SI
- Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.09416
L'apprendimento su grafi temporali è diventato un argomento centrale nell'apprendimento della rappresentazione di grafi, con numerosi benchmark che dimostrano forti prestazioni dei modelli all'avanguardia. Tuttavia, ricerche recenti hanno sollevato preoccupazioni sull'affidabilità dei risultati dei benchmark, evidenziando problemi nei protocolli di valutazione comunemente utilizzati e la sorprendente competitività di semplici metodi euristici. Questo contrasto pone una domanda fondamentale: quali proprietà del grafo sottostante utilizzano effettivamente i modelli di apprendimento su grafi temporali per formulare previsioni? Questo articolo affronta questa questione mediante una valutazione sistematica della capacità di sette modelli di catturare otto proprietà fondamentali correlate alla struttura dei link nei grafi temporali. Queste proprietà includono caratteristiche strutturali come la densità, pattern temporali come la recenzialità, e meccanismi di formazione dei link come l'omofilia. Utilizzando dataset sintetici e del mondo reale, l'analisi valuta l'efficacia con cui i modelli apprendono queste proprietà. I risultati presentano uno scenario misto: i modelli catturano bene alcune proprietà, ma non riescono a riprodurne altre, esponendo importanti limitazioni.
- Problemi di affidabilità nella valutazione dei benchmark: Nonostante i modelli di apprendimento su grafi temporali mostrino prestazioni eccellenti in vari benchmark, ricerche recenti hanno scoperto difetti nei protocolli di valutazione, inclusi problemi nei set di test e nelle metriche di valutazione che portano a risultati non realistici.
- Competitività dei metodi euristici semplici: Sorprendentemente, semplici metodi euristici che prevedono link tra nodi attivi di recente e nodi globalmente popolari mostrano prestazioni comparabili a molti modelli all'avanguardia.
- Mancanza di interpretabilità dei modelli: Anche quando un modello specifico mostra buone prestazioni su un determinato dataset di benchmark, non è chiaro quali fattori contribuiscono a questa prestazione, e più specificamente, quali proprietà del grafo il modello utilizza per formulare previsioni.
Questo studio mira a fare un passo indietro e valutare la capacità dei modelli di apprendimento su grafi popolari di apprendere proprietà semplici e interpretabili dei grafi temporali, fornire intuizioni pratiche per l'applicazione reale dei modelli di apprendimento su grafi temporali, e promuovere una valutazione più orientata all'interpretabilità.
- Propone un nuovo framework di valutazione: Valuta sistematicamente la capacità dei modelli di apprendimento su grafi temporali di catturare proprietà intuitive delle reti temporali
- Identifica limitazioni dei modelli esistenti: Scopre che i modelli hanno limitazioni nel distinguere la direzione dei link, nel rilevare pattern ciclici o nell'enfatizzare la dinamica del grafo osservata di recente
- Fornisce guida pratica: Offre intuizioni per l'applicazione pratica dei modelli di apprendimento profondo su grafi
- Stabilisce benchmark di interpretabilità: Fornisce un benchmark per una valutazione più orientata all'interpretabilità dei modelli di apprendimento su grafi temporali, complementare ai benchmark orientati alle prestazioni esistenti
Questo articolo valuta la capacità di sette modelli di apprendimento su grafi temporali all'avanguardia di apprendere otto proprietà fondamentali del grafo:
- Caratteristiche generali del grafo: granularità temporale, direzione dei link, densità
- Pattern temporali: persistenza, periodicità, recenzialità
- Meccanismi di formazione dei link: omofilia, preferential attachment
Sono stati valutati sette modelli rappresentativi:
- DyGFormer: modello di grafo dinamico basato su Transformer
- GraphMixer: modello di rete temporale con architettura semplificata
- DyRep: apprendimento di rappresentazioni basato su reti neurali ricorrenti
- JODIE: embedding congiunto dinamico di utenti e articoli
- TGN: Temporal Graph Network
- TCL: modellazione di grafi dinamici Transformer basata su apprendimento contrastivo
- TGAT: apprendimento di rappresentazioni di grafi temporali induttivo
- Dataset reali: rete di posta elettronica Enron, rete di messaggi UCI, rete di editing Wikipedia
- Dataset sintetici: grafi artificiali progettati per proprietà specifiche, come il modello di blocchi casuali (SBM) per testare l'omofilia, modello Barabási-Albert per testare il preferential attachment
Per ogni proprietà sono stati progettati esperimenti specializzati:
- Utilizzo di una combinazione di dataset sintetici e reali
- Controllo delle variabili per isolare l'effetto di proprietà specifiche
- Valutazione delle prestazioni del modello mediante metriche come punteggi di probabilità, accuratezza, ecc.
- Metodologia di valutazione sistematica: Prima valutazione sistematica della capacità dei modelli di grafi temporali di apprendere proprietà fondamentali del grafo
- Analisi di proprietà multidimensionali: Copre proprietà su tre dimensioni: strutturale, temporale e meccanicistica
- Validazione mediante dati sintetici: Verifica la capacità dei modelli di apprendere proprietà specifiche attraverso dataset sintetici accuratamente progettati
- Orientamento verso l'interpretabilità: Valuta i modelli da una prospettiva di interpretabilità piuttosto che da una prospettiva puramente prestazionale
| Dataset | Nodi | Link Continui | Link Discreti | Link Unici | Passi Temporali Discreti |
|---|
| Enron | 184 | 125,235 | 10,472 | 3,125 | 45 (mesi) |
| UCI | 1,899 | 59,835 | 26,628 | 20,296 | 29 (settimane) |
| Wikipedia | 9,277 | 157,474 | 65,085 | 18,257 | 745 (ore) |
- ROC-AUC: per la valutazione delle prestazioni nella previsione di link
- Accuratezza bilanciata: per compiti di classificazione
- Distribuzione dei punteggi di probabilità: per l'analisi del comportamento predittivo del modello
- Statistiche di raggruppamento dei link: per l'analisi quantitativa di proprietà specifiche
- Tasso di apprendimento: 1e-4
- Dimensione del batch: 200
- Funzione di perdita: BCELoss
- Ottimizzatore: Adam
- Numero massimo di epoche di addestramento: 300
- Tolleranza early stopping: 1e-6
- Dimensione delle caratteristiche temporali: 100
| Proprietà del Grafo | DyGFormer | DyRep | JODIE | GraphMixer | TCL | TGAT | TGN |
|---|
| Granularità Temporale | ∼ | ✓ | ✓ | ✓ | ∼ | ∼ | ✓ |
| Direzione | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| Densità | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| Persistenza | ✓ | ✗ | ✗ | ∼ | ∼ | ✓ | ✗ |
| Periodicità | ✗ | ✗ | ✗ | ✓ | ✓ | ∼ | ∼ |
| Recenzialità | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| Omofilia | ✓ | ∼ | ✗ | ∼ | ✓ | ∼ | ∼ |
| Preferential Attachment | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- L'appiattimento dei timestamp danneggia gravemente le prestazioni, indicando che i modelli utilizzano effettivamente le informazioni temporali
- GraphMixer e DyRep mostrano il maggior calo di prestazioni quando i timestamp vengono discretizzati
- TGAT mostra prestazioni migliori su passi temporali discreti
- Scoperta chiave: Tutti i modelli non riescono a distinguere efficacemente la direzione dei link
- Per circa il 50% dei link, la differenza nei punteggi di probabilità predittiva tra link diretti e inversi è inferiore a 0.02
- Anche con addestramento bidirezionale, la maggior parte dei modelli produce previsioni approssimativamente simmetriche
- Limitazione importante: Tutti i modelli non riescono ad apprendere la densità del grafo
- La densità predetta è tipicamente inferiore di diversi ordini di grandezza rispetto alla densità reale
- I modelli tendono a prevedere tutti i link come negativi quando vedono una grande quantità di campioni negativi
- DyGFormer e TGAT riescono ad apprendere grafi persistenti
- JODIE e TGN mostrano prestazioni scadenti in questo compito semplice
- GraphMixer e TCL riescono bene a distinguere i passi temporali pari e dispari
- DyGFormer non riesce a distinguere i passi temporali, comportandosi in modo simile al baseline EdgeBank
- Risultato sorprendente: Nessun modello enfatizza i link osservati di recente
- Il punteggio di probabilità medio dei link non varia in base al tempo dell'ultima osservazione
- Questo contrasta con il successo dei metodi euristici basati su nodi attivi di recente
- DyGFormer e TCL riescono a prevedere in modo equilibrato i link all'interno dei gruppi
- JODIE è estremamente orientato verso il gruppo 0
- La maggior parte dei modelli tende a prevedere più link all'interno del gruppo 1
- Successo coerente: Tutti i modelli hanno imparato il preferential attachment
- I link dei nodi ad alto grado ricevono punteggi di probabilità media più elevati
- Seguono il pattern di distribuzione del grado secondo la legge di potenza
- Temporal Graph Benchmark (TGB): valuta la qualità delle reti neurali su grafi temporali
- BenchTemp: benchmark focalizzato su dati di grafi temporali
- Framework unificato: connette modelli a tempo discreto e continuo
- Baseline EdgeBank: il baseline semplice mostra prestazioni simili ai metodi all'avanguardia
- Limitazioni nell'apprendimento di pattern temporali: piccoli effetti della perturbazione dei timestamp sulle prestazioni
- Successo dei metodi euristici: gli euristici basati su popolarità e attività recente superano i modelli complessi
- Prestazioni miste: I modelli mostrano buone prestazioni su alcune proprietà (come il preferential attachment), ma hanno gravi limitazioni in altri aspetti (come la distinzione della direzione, la previsione della densità)
- Limitazioni coerenti: Tutti i modelli non riescono a distinguere la direzione dei link, non enfatizzano la recenzialità, e non riescono a prevedere accuratamente la densità
- Differenze tra modelli: Diversi modelli mostrano differenze significative nell'apprendimento di proprietà specifiche, fornendo guida per la selezione dei modelli nelle applicazioni pratiche
- Limitazioni dei dataset: A causa dell'ampiezza degli esperimenti, il numero di dataset utilizzati è limitato e potrebbe non rappresentare tutti i dataset di grafi correlati alle reti
- Selezione delle proprietà: Le otto proprietà valutate non sono esaustive; ci sono altre importanti proprietà del grafo che meritano considerazione
- Portata dei modelli: Include solo modelli a tempo continuo, non copre modelli per impostazioni a tempo discreto
- Miglioramento dei modelli: Progettare nuovi modelli affrontando le limitazioni scoperte (densità, direzione, recenzialità)
- Estensione del framework:
- Aggiungere valutazioni di più proprietà del grafo
- Includere modelli a tempo discreto
- Considerare reti eterogenee
- Guida per l'applicazione: Raccomandare modelli appropriati per diversi scenari di applicazione in base alla capacità di apprendimento delle proprietà
- Forte sistematicità: Prima valutazione sistematica dei modelli di apprendimento su grafi temporali da una prospettiva di interpretabilità, colmando un importante vuoto
- Metodologia rigorosa: La progettazione sperimentale con controllo delle variabili, combinando dataset sintetici e reali, assicura l'affidabilità dei risultati
- Scoperte importanti: Rivela gravi limitazioni nell'apprendimento di proprietà fondamentali di modelli apparentemente potenti, con significativo valore pratico
- Orientamento verso l'applicazione: Fornisce guida pratica per la selezione e l'applicazione dei modelli, piuttosto che focalizzarsi solo sulle prestazioni dei benchmark
- Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché alcuni modelli falliscono su proprietà specifiche
- Assenza di soluzioni di miglioramento: Principalmente identifica i problemi senza fornire suggerimenti o metodi di miglioramento specifici
- Metriche di valutazione limitate: Alcuni esperimenti potrebbero beneficiare da metriche di valutazione più diversificate per valutare completamente le capacità del modello
- Valore accademico: Introduce una nuova prospettiva di valutazione nel campo dell'apprendimento su grafi temporali, potenzialmente influenzando la progettazione futura dei modelli e gli standard di valutazione
- Valore pratico: Fornisce importanti riferimenti per i professionisti nella selezione di modelli appropriati, evitando di inseguire ciecamente le prestazioni dei benchmark
- Ispirazione per la ricerca: Le limitazioni esposte forniscono direzioni di miglioramento chiare per la ricerca futura
- Selezione dei modelli: Guida nella scelta dei modelli quando applicazioni specifiche richiedono considerazione di proprietà come la direzione dei link o la previsione della densità
- Progettazione dei benchmark: Fornisce riferimenti per la progettazione di benchmark più completi per l'apprendimento su grafi temporali
- Sviluppo di modelli: Fornisce obiettivi di miglioramento e standard di valutazione per lo sviluppo di nuovi modelli di apprendimento su grafi temporali
L'articolo cita ampi lavori correlati, inclusi:
- Lavori correlati ai benchmark di grafi temporali (TGB, BenchTemp, ecc.)
- Ricerche sulle limitazioni dei modelli di apprendimento su grafi temporali
- Studi critici sui metodi di valutazione dell'apprendimento su grafi
- Modelli di grafi classici (modello di blocchi casuali, modello Barabási-Albert, ecc.)
Valutazione Complessiva: Questo è un lavoro di ricerca di significativo valore che rivela importanti limitazioni dei modelli di apprendimento su grafi temporali attraverso una valutazione sistematica dell'interpretabilità. La metodologia di ricerca è rigorosa, le scoperte hanno significato pratico, e fornisce una nuova prospettiva e direzioni di miglioramento per lo sviluppo del campo. Sebbene ci sia spazio per miglioramenti nell'analisi teorica e nelle soluzioni proposte, i contributi sono sufficienti a promuovere lo sviluppo del campo verso una direzione più orientata all'interpretabilità e alla praticità.