2025-11-13T10:52:11.188844

What Do Temporal Graph Learning Models Learn?

Hayes, Schumacher, Strohmaier

Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.

academic

Was lernen zeitliche Graphenlernmodelle?

Grundinformationen

Papier-ID: 2510.09416
Titel: What Do Temporal Graph Learning Models Learn?
Autoren: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
Klassifizierung: cs.LG cs.SI
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.09416

Zusammenfassung

Das Lernen zeitlicher Graphen ist zu einem Kernthema der Graphendarstellungslernforschung geworden, wobei zahlreiche Benchmarks eine starke Leistung modernster Modelle zeigen. Jüngste Forschungen haben jedoch Bedenken hinsichtlich der Zuverlässigkeit von Benchmark-Ergebnissen geäußert und auf Probleme in häufig verwendeten Evaluierungsprotokollen sowie die überraschende Wettbewerbsfähigkeit einfacher heuristischer Methoden hingewiesen. Dieser Kontrast wirft die Frage auf: Welche Eigenschaften des zugrunde liegenden Graphen nutzen zeitliche Graphenlernmodelle tatsächlich, um Vorhersagen zu treffen? Dieses Papier adressiert diese Frage durch systematische Evaluierung der Fähigkeit von sieben Modellen, acht grundlegende Eigenschaften zeitlicher Graphenverbindungsstrukturen zu erfassen. Diese Eigenschaften umfassen strukturelle Merkmale wie Dichte, zeitliche Muster wie Aktualität sowie Mechanismen der Kantenbildung wie Homophilie. Unter Verwendung von synthetischen und realen Datensätzen wird analysiert, wie gut Modelle diese Eigenschaften lernen. Die Forschungsergebnisse zeigen ein gemischtes Bild: Modelle erfassen bestimmte Eigenschaften gut, können aber andere nicht reproduzieren, was wichtige Einschränkungen offenlegt.

Forschungshintergrund und Motivation

Problemhintergrund

Zuverlässigkeitsprobleme bei der Benchmark-Evaluierung: Obwohl zeitliche Graphenlernmodelle in verschiedenen Benchmarks hervorragende Leistungen zeigen, haben jüngste Studien Mängel in Evaluierungsprotokollen aufgedeckt, einschließlich Problemen mit Testmengen und Evaluierungsmetriken, die zu unrealistischen Ergebnissen führen.
Wettbewerbsfähigkeit einfacher Heuristiken: Überraschenderweise zeigen einfache heuristische Methoden, die die Vorhersage von Kanten zwischen kürzlich aktiven und global beliebten Knoten beinhalten, eine Leistung, die vielen modernsten Modellen entspricht.
Fehlende Modellinterpretierbarkeit: Selbst wenn ein bestimmtes Modell auf einem gegebenen Benchmark-Datensatz gut abschneidet, ist unklar, welche Faktoren zu dieser Leistung beitragen, und insbesondere, welche Grapheneigenschaften das Modell nutzt, um Vorhersagen zu treffen.

Forschungsmotivation

Diese Studie zielt darauf ab, einen Schritt zurückzutreten und die Fähigkeit beliebter Graphenlernmodelle zu bewerten, einfache und interpretierbare Eigenschaften zeitlicher Graphen zu lernen. Sie soll praktische Erkenntnisse für die praktische Anwendung zeitlicher Graphenlernmodelle liefern und die Evaluierung mit stärkerem Fokus auf Interpretierbarkeit vorantreiben.

Kernbeiträge

Vorschlag eines neuartigen Evaluierungsrahmens: Systematische Evaluierung der Fähigkeit zeitlicher Graphenlernmodelle, intuitive Eigenschaften zeitlicher Netzwerke zu erfassen
Identifizierung von Einschränkungen bestehender Modelle: Entdeckung von Einschränkungen bei der Unterscheidung von Kantenrichtungen, Erkennung zyklischer Muster oder Betonung kürzlich beobachteter Graphendynamiken
Bereitstellung praktischer Anleitung: Erkenntnisse für die praktische Anwendung tiefer Graphenlernmodelle
Etablierung eines Interpretierbarkeits-Benchmarks: Bereitstellung eines Benchmarks für interpretierbarkeitsorientiertere Evaluierung zeitlicher Graphenlernmodelle, der bestehende leistungsorientierte Benchmarks ergänzt

Methodische Details

Aufgabendefinition

Dieses Papier evaluiert die Fähigkeit von sieben modernsten zeitlichen Graphenlernmodellen, acht grundlegende Grapheneigenschaften zu lernen:

Allgemeine Grapheneigenschaften: Zeitliche Granularität, Kantenrichtung, Dichte
Zeitliche Muster: Persistenz, Periodizität, Aktualität
Kantenbildungsmechanismen: Homophilie, bevorzugte Verbindung

Evaluierungsrahmen

Modellauswahl

Evaluierung von sieben repräsentativen Modellen:

DyGFormer: Transformer-basiertes Modell für dynamische Graphen
GraphMixer: Zeitliches Netzwerkmodell mit vereinfachter Architektur
DyRep: Auf rekurrenten neuronalen Netzen basierende Darstellungslernforschung
JODIE: Gemeinsame Einbettung dynamischer Benutzer und Elemente
TGN: Zeitliches Graphennetzwerk
TCL: Transformer-basierte dynamische Graphenmodellierung mit kontrastivem Lernen
TGAT: Induktives Lernen zeitlicher Graphendarstellungen

Datensatz-Design

Reale Datensätze: Enron-E-Mail-Netzwerk, UCI-Nachrichtennetzwerk, Wikipedia-Bearbeitungsnetzwerk
Synthetische Datensätze: Künstliche Graphen für spezifische Eigenschaften, wie Stochastische Blockmodelle (SBM) für Homophilie-Tests, Barabási-Albert-Modelle für bevorzugte Verbindungstests

Evaluierungsmethode

Speziell gestaltete Experimente für jede Eigenschaft:

Verwendung einer Kombination synthetischer und realer Datensätze
Kontrolle von Variablen zur Isolierung spezifischer Eigenschaftseffekte
Evaluierung der Modellleistung durch Wahrscheinlichkeitswerte, Genauigkeit und andere Metriken

Technische Innovationen

Systematische Evaluierungsmethode: Erste systematische Evaluierung der Fähigkeit zeitlicher Graphenmodelle, grundlegende Grapheneigenschaften zu lernen
Mehrdimensionale Eigenschaftsanalyse: Abdeckung von Eigenschaften in drei Dimensionen: strukturell, zeitlich und mechanistisch
Validierung durch synthetische Daten: Validierung der Fähigkeit von Modellen, spezifische Eigenschaften durch sorgfältig gestaltete synthetische Datensätze zu lernen
Interpretierbarkeitsorientierung: Evaluierung von Modellen aus einer Interpretierbarkeits- statt einer reinen Leistungsperspektive

Experimentelle Einrichtung

Datensatz-Details

Datensatz	Knoten	Kontinuierliche Kanten	Diskrete Kanten	Eindeutige Kanten	Diskrete Zeitschritte
Enron	184	125.235	10.472	3.125	45 (Monate)
UCI	1.899	59.835	26.628	20.296	29 (Wochen)
Wikipedia	9.277	157.474	65.085	18.257	745 (Stunden)

Bewertungsmetriken

ROC-AUC: Zur Evaluierung der Linkvorhersageleistung
Ausgeglichene Genauigkeit: Für Klassifizierungsaufgaben
Wahrscheinlichkeitswertverteilung: Zur Analyse des Modellvorhersageverhaltens
Kantengruppierungsstatistiken: Für quantitative Analyse spezifischer Eigenschaften

Implementierungsdetails

Lernrate: 1e-4
Batch-Größe: 200
Verlustfunktion: BCELoss
Optimierer: Adam
Maximale Trainingsrunden: 300
Early-Stopping-Toleranz: 1e-6
Zeitliche Merkmalsdimension: 100

Experimentelle Ergebnisse

Zusammenfassung der Hauptergebnisse

Grapheneigenschaft	DyGFormer	DyRep	JODIE	GraphMixer	TCL	TGAT	TGN
Zeitliche Granularität	∼	✓	✓	✓	∼	∼	✓
Richtung	✗	✗	✗	✗	✗	✗	✗
Dichte	✗	✗	✗	✗	✗	✗	✗
Persistenz	✓	✗	✗	∼	∼	✓	✗
Periodizität	✗	✗	✗	✓	✓	∼	∼
Aktualität	✗	✗	✗	✗	✗	✗	✗
Homophilie	✓	∼	✗	∼	✓	∼	∼
Bevorzugte Verbindung	✓	✓	✓	✓	✓	✓	✓

Detaillierte Ergebnisanalyse

1. Zeitliche Granularität

Die Abflachung von Zeitstempeln beeinträchtigt die Leistung erheblich, was darauf hindeutet, dass Modelle tatsächlich zeitliche Informationen nutzen
GraphMixer und DyRep zeigen die größten Leistungseinbußen bei Zeitstempel-Diskretisierung
TGAT zeigt bessere Leistung bei diskreten Zeitschritten

2. Kantenrichtung

Schlüsselfund: Alle Modelle können Kantenrichtungen nicht effektiv unterscheiden
Bei etwa 50% der Kanten beträgt der Unterschied in den Vorhersagewahrscheinlichkeiten zwischen Vorwärts- und Rückwärtskanten weniger als 0,02
Selbst bei bidirektionalem Training erzeugen die meisten Modelle nahezu symmetrische Vorhersagen

3. Dichte

Wichtige Einschränkung: Alle Modelle können die Graphendichte nicht lernen
Vorhergesagte Dichten sind typischerweise mehrere Größenordnungen niedriger als tatsächliche Dichten
Modelle neigen dazu, alle Kanten als negativ vorherzusagen, wenn sie viele negative Stichproben sehen

4. Persistenz

DyGFormer und TGAT können persistente Graphen lernen
JODIE und TGN zeigen schlechte Leistung bei dieser einfachen Aufgabe

5. Periodizität

GraphMixer und TCL können Gerade und Ungerade Zeitschritte gut unterscheiden
DyGFormer kann Zeitschritte nicht unterscheiden, ähnlich wie die EdgeBank-Baseline

6. Aktualität

Überraschende Ergebnisse: Alle Modelle betonen kürzlich beobachtete Kanten nicht
Der durchschnittliche Wahrscheinlichkeitswert von Kanten variiert nicht mit dem letzten Beobachtungszeitpunkt
Dies steht im Kontrast zum Erfolg heuristischer Methoden basierend auf kürzlich aktiven Knoten

7. Homophilie

DyGFormer und TCL können Verbindungen innerhalb von Gruppen ausgewogen vorhersagen
JODIE ist stark zu Gruppe 0 vorgespannt
Die meisten Modelle neigen dazu, Verbindungen innerhalb von Gruppe 1 vorherzusagen

8. Bevorzugte Verbindung

Konsistenter Erfolg: Alle Modelle lernen bevorzugte Verbindung
Kanten zu hochgradigen Knoten erhalten höhere durchschnittliche Wahrscheinlichkeitswerte
Folgen dem Potenzgesetz-Gradverteilungsmuster

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Gemischte Leistung: Modelle zeigen gute Leistung bei bestimmten Eigenschaften (wie bevorzugte Verbindung), haben aber ernsthafte Einschränkungen in anderen Bereichen (wie Richtungsunterscheidung, Dichteprognose)
Konsistente Einschränkungen: Alle Modelle können Kantenrichtungen nicht unterscheiden, betonen Aktualität nicht und können Dichte nicht genau vorhersagen
Modellunterschiede: Unterschiedliche Modelle zeigen signifikante Unterschiede beim Lernen spezifischer Eigenschaften und bieten Orientierung für die Modellauswahl in praktischen Anwendungen

Einschränkungen

Datensatz-Einschränkungen: Aufgrund der Breite der Experimente ist die Anzahl der verwendeten Datensätze begrenzt und kann möglicherweise nicht alle netzwerkbezogenen Graphendatensätze repräsentieren
Eigenschaftsauswahl: Die acht bewerteten Eigenschaften sind nicht erschöpfend; es gibt andere wichtige Grapheneigenschaften, die berücksichtigung verdienen
Modellbereich: Umfasst nur kontinuierliche Zeitmodelle und deckt keine Modelle für diskrete Zeitsettings ab

Zukünftige Richtungen

Modellverbesserung: Gestaltung neuer Modelle für identifizierte Einschränkungen (Dichte, Richtung, Aktualität)
Rahmen-Erweiterung:
- Hinzufügen weiterer Grapheneigenschaftsbewertungen
- Einbeziehung von Modellen für diskrete Zeit
- Berücksichtigung heterogener Netzwerke
Anwendungsorientierung: Empfehlungen geeigneter Modelle für verschiedene Anwendungsszenarien basierend auf Eigenschaftslernfähigkeiten

Tiefe Bewertung

Stärken

Hohe Systematik: Erste systematische Evaluierung zeitlicher Graphenlernmodelle aus einer Interpretierbarkeits-Perspektive, füllt eine wichtige Lücke
Strenge Methodik: Die Kombination synthetischer und realer Datensätze mit kontrolliertem Variablendesign gewährleistet die Zuverlässigkeit der Ergebnisse
Wichtige Erkenntnisse: Offenlegung schwerwiegender Einschränkungen scheinbar leistungsstarker Modelle beim Lernen grundlegender Eigenschaften mit wichtigem praktischem Wert
Anwendungsorientierung: Bereitstellung praktischer Anleitung für Modellauswahl und Anwendung statt nur Fokus auf Benchmark-Leistung

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum bestimmte Modelle bei spezifischen Eigenschaften versagen
Fehlende Verbesserungslösungen: Hauptsächlich Problemidentifizierung ohne konkrete Verbesserungsvorschläge oder Methoden
Einzelne Bewertungsmetriken: Einige Experimente könnten vielfältigere Bewertungsmetriken zur umfassenden Evaluierung von Modellkapazitäten benötigen

Auswirkungen

Akademischer Wert: Einführung einer neuen Evaluierungsperspektive für zeitliche Graphenlernforschung, kann zukünftige Modellgestaltung und Evaluierungsstandards beeinflussen
Praktischer Wert: Wichtige Referenz für Praktiker bei der Auswahl geeigneter Modelle, vermeidet blindes Verfolgen von Benchmark-Leistung
Forschungsinspiration: Offengelegte Einschränkungen bieten klare Verbesserungsrichtungen für zukünftige Forschung

Anwendungsszenarien

Modellauswahl: Anleitung zur Modellauswahl in spezifischen Anwendungen, die Kantenrichtung, Dichteprognose und andere Eigenschaften berücksichtigen
Benchmark-Gestaltung: Referenz für die Gestaltung umfassenderer Benchmarks für zeitliche Graphenlernforschung
Modellentwicklung: Verbesserungsziele und Bewertungsstandards für die Entwicklung neuer zeitlicher Graphenlernmodelle

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

Arbeiten zu zeitlichen Graphen-Benchmarks (TGB, BenchTemp usw.)
Forschung zu Einschränkungen zeitlicher Graphenlernmodelle
Kritische Forschung zu Graphenlern-Evaluierungsmethoden
Klassische Graphenmodelle (Stochastische Blockmodelle, Barabási-Albert-Modelle usw.)

Gesamtbewertung: Dies ist eine Forschungsarbeit von erheblichem Wert, die durch systematische Interpretierbarkeits-Evaluierung wichtige Einschränkungen zeitlicher Graphenlernmodelle offenlegt. Die Forschungsmethodik ist streng, die Erkenntnisse haben praktischen Wert und bieten neue Perspektiven und Verbesserungsrichtungen für die Feldentwicklung. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Lösungsansätzen gibt, sind die Beiträge ausreichend, um das Feld in eine Richtung mit stärkerem Fokus auf Interpretierbarkeit und Praktikabilität voranzutreiben.