2025-11-13T10:52:11.188844

What Do Temporal Graph Learning Models Learn?

Hayes, Schumacher, Strohmaier
Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
academic

Was lernen zeitliche Graphenlernmodelle?

Grundinformationen

  • Papier-ID: 2510.09416
  • Titel: What Do Temporal Graph Learning Models Learn?
  • Autoren: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
  • Klassifizierung: cs.LG cs.SI
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.09416

Zusammenfassung

Das Lernen zeitlicher Graphen ist zu einem Kernthema der Graphendarstellungslernforschung geworden, wobei zahlreiche Benchmarks eine starke Leistung modernster Modelle zeigen. Jüngste Forschungen haben jedoch Bedenken hinsichtlich der Zuverlässigkeit von Benchmark-Ergebnissen geäußert und auf Probleme in häufig verwendeten Evaluierungsprotokollen sowie die überraschende Wettbewerbsfähigkeit einfacher heuristischer Methoden hingewiesen. Dieser Kontrast wirft die Frage auf: Welche Eigenschaften des zugrunde liegenden Graphen nutzen zeitliche Graphenlernmodelle tatsächlich, um Vorhersagen zu treffen? Dieses Papier adressiert diese Frage durch systematische Evaluierung der Fähigkeit von sieben Modellen, acht grundlegende Eigenschaften zeitlicher Graphenverbindungsstrukturen zu erfassen. Diese Eigenschaften umfassen strukturelle Merkmale wie Dichte, zeitliche Muster wie Aktualität sowie Mechanismen der Kantenbildung wie Homophilie. Unter Verwendung von synthetischen und realen Datensätzen wird analysiert, wie gut Modelle diese Eigenschaften lernen. Die Forschungsergebnisse zeigen ein gemischtes Bild: Modelle erfassen bestimmte Eigenschaften gut, können aber andere nicht reproduzieren, was wichtige Einschränkungen offenlegt.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Zuverlässigkeitsprobleme bei der Benchmark-Evaluierung: Obwohl zeitliche Graphenlernmodelle in verschiedenen Benchmarks hervorragende Leistungen zeigen, haben jüngste Studien Mängel in Evaluierungsprotokollen aufgedeckt, einschließlich Problemen mit Testmengen und Evaluierungsmetriken, die zu unrealistischen Ergebnissen führen.
  2. Wettbewerbsfähigkeit einfacher Heuristiken: Überraschenderweise zeigen einfache heuristische Methoden, die die Vorhersage von Kanten zwischen kürzlich aktiven und global beliebten Knoten beinhalten, eine Leistung, die vielen modernsten Modellen entspricht.
  3. Fehlende Modellinterpretierbarkeit: Selbst wenn ein bestimmtes Modell auf einem gegebenen Benchmark-Datensatz gut abschneidet, ist unklar, welche Faktoren zu dieser Leistung beitragen, und insbesondere, welche Grapheneigenschaften das Modell nutzt, um Vorhersagen zu treffen.

Forschungsmotivation

Diese Studie zielt darauf ab, einen Schritt zurückzutreten und die Fähigkeit beliebter Graphenlernmodelle zu bewerten, einfache und interpretierbare Eigenschaften zeitlicher Graphen zu lernen. Sie soll praktische Erkenntnisse für die praktische Anwendung zeitlicher Graphenlernmodelle liefern und die Evaluierung mit stärkerem Fokus auf Interpretierbarkeit vorantreiben.

Kernbeiträge

  1. Vorschlag eines neuartigen Evaluierungsrahmens: Systematische Evaluierung der Fähigkeit zeitlicher Graphenlernmodelle, intuitive Eigenschaften zeitlicher Netzwerke zu erfassen
  2. Identifizierung von Einschränkungen bestehender Modelle: Entdeckung von Einschränkungen bei der Unterscheidung von Kantenrichtungen, Erkennung zyklischer Muster oder Betonung kürzlich beobachteter Graphendynamiken
  3. Bereitstellung praktischer Anleitung: Erkenntnisse für die praktische Anwendung tiefer Graphenlernmodelle
  4. Etablierung eines Interpretierbarkeits-Benchmarks: Bereitstellung eines Benchmarks für interpretierbarkeitsorientiertere Evaluierung zeitlicher Graphenlernmodelle, der bestehende leistungsorientierte Benchmarks ergänzt

Methodische Details

Aufgabendefinition

Dieses Papier evaluiert die Fähigkeit von sieben modernsten zeitlichen Graphenlernmodellen, acht grundlegende Grapheneigenschaften zu lernen:

  • Allgemeine Grapheneigenschaften: Zeitliche Granularität, Kantenrichtung, Dichte
  • Zeitliche Muster: Persistenz, Periodizität, Aktualität
  • Kantenbildungsmechanismen: Homophilie, bevorzugte Verbindung

Evaluierungsrahmen

Modellauswahl

Evaluierung von sieben repräsentativen Modellen:

  • DyGFormer: Transformer-basiertes Modell für dynamische Graphen
  • GraphMixer: Zeitliches Netzwerkmodell mit vereinfachter Architektur
  • DyRep: Auf rekurrenten neuronalen Netzen basierende Darstellungslernforschung
  • JODIE: Gemeinsame Einbettung dynamischer Benutzer und Elemente
  • TGN: Zeitliches Graphennetzwerk
  • TCL: Transformer-basierte dynamische Graphenmodellierung mit kontrastivem Lernen
  • TGAT: Induktives Lernen zeitlicher Graphendarstellungen

Datensatz-Design

  1. Reale Datensätze: Enron-E-Mail-Netzwerk, UCI-Nachrichtennetzwerk, Wikipedia-Bearbeitungsnetzwerk
  2. Synthetische Datensätze: Künstliche Graphen für spezifische Eigenschaften, wie Stochastische Blockmodelle (SBM) für Homophilie-Tests, Barabási-Albert-Modelle für bevorzugte Verbindungstests

Evaluierungsmethode

Speziell gestaltete Experimente für jede Eigenschaft:

  • Verwendung einer Kombination synthetischer und realer Datensätze
  • Kontrolle von Variablen zur Isolierung spezifischer Eigenschaftseffekte
  • Evaluierung der Modellleistung durch Wahrscheinlichkeitswerte, Genauigkeit und andere Metriken

Technische Innovationen

  1. Systematische Evaluierungsmethode: Erste systematische Evaluierung der Fähigkeit zeitlicher Graphenmodelle, grundlegende Grapheneigenschaften zu lernen
  2. Mehrdimensionale Eigenschaftsanalyse: Abdeckung von Eigenschaften in drei Dimensionen: strukturell, zeitlich und mechanistisch
  3. Validierung durch synthetische Daten: Validierung der Fähigkeit von Modellen, spezifische Eigenschaften durch sorgfältig gestaltete synthetische Datensätze zu lernen
  4. Interpretierbarkeitsorientierung: Evaluierung von Modellen aus einer Interpretierbarkeits- statt einer reinen Leistungsperspektive

Experimentelle Einrichtung

Datensatz-Details

DatensatzKnotenKontinuierliche KantenDiskrete KantenEindeutige KantenDiskrete Zeitschritte
Enron184125.23510.4723.12545 (Monate)
UCI1.89959.83526.62820.29629 (Wochen)
Wikipedia9.277157.47465.08518.257745 (Stunden)

Bewertungsmetriken

  • ROC-AUC: Zur Evaluierung der Linkvorhersageleistung
  • Ausgeglichene Genauigkeit: Für Klassifizierungsaufgaben
  • Wahrscheinlichkeitswertverteilung: Zur Analyse des Modellvorhersageverhaltens
  • Kantengruppierungsstatistiken: Für quantitative Analyse spezifischer Eigenschaften

Implementierungsdetails

  • Lernrate: 1e-4
  • Batch-Größe: 200
  • Verlustfunktion: BCELoss
  • Optimierer: Adam
  • Maximale Trainingsrunden: 300
  • Early-Stopping-Toleranz: 1e-6
  • Zeitliche Merkmalsdimension: 100

Experimentelle Ergebnisse

Zusammenfassung der Hauptergebnisse

GrapheneigenschaftDyGFormerDyRepJODIEGraphMixerTCLTGATTGN
Zeitliche Granularität
Richtung
Dichte
Persistenz
Periodizität
Aktualität
Homophilie
Bevorzugte Verbindung

Detaillierte Ergebnisanalyse

1. Zeitliche Granularität

  • Die Abflachung von Zeitstempeln beeinträchtigt die Leistung erheblich, was darauf hindeutet, dass Modelle tatsächlich zeitliche Informationen nutzen
  • GraphMixer und DyRep zeigen die größten Leistungseinbußen bei Zeitstempel-Diskretisierung
  • TGAT zeigt bessere Leistung bei diskreten Zeitschritten

2. Kantenrichtung

  • Schlüsselfund: Alle Modelle können Kantenrichtungen nicht effektiv unterscheiden
  • Bei etwa 50% der Kanten beträgt der Unterschied in den Vorhersagewahrscheinlichkeiten zwischen Vorwärts- und Rückwärtskanten weniger als 0,02
  • Selbst bei bidirektionalem Training erzeugen die meisten Modelle nahezu symmetrische Vorhersagen

3. Dichte

  • Wichtige Einschränkung: Alle Modelle können die Graphendichte nicht lernen
  • Vorhergesagte Dichten sind typischerweise mehrere Größenordnungen niedriger als tatsächliche Dichten
  • Modelle neigen dazu, alle Kanten als negativ vorherzusagen, wenn sie viele negative Stichproben sehen

4. Persistenz

  • DyGFormer und TGAT können persistente Graphen lernen
  • JODIE und TGN zeigen schlechte Leistung bei dieser einfachen Aufgabe

5. Periodizität

  • GraphMixer und TCL können Gerade und Ungerade Zeitschritte gut unterscheiden
  • DyGFormer kann Zeitschritte nicht unterscheiden, ähnlich wie die EdgeBank-Baseline

6. Aktualität

  • Überraschende Ergebnisse: Alle Modelle betonen kürzlich beobachtete Kanten nicht
  • Der durchschnittliche Wahrscheinlichkeitswert von Kanten variiert nicht mit dem letzten Beobachtungszeitpunkt
  • Dies steht im Kontrast zum Erfolg heuristischer Methoden basierend auf kürzlich aktiven Knoten

7. Homophilie

  • DyGFormer und TCL können Verbindungen innerhalb von Gruppen ausgewogen vorhersagen
  • JODIE ist stark zu Gruppe 0 vorgespannt
  • Die meisten Modelle neigen dazu, Verbindungen innerhalb von Gruppe 1 vorherzusagen

8. Bevorzugte Verbindung

  • Konsistenter Erfolg: Alle Modelle lernen bevorzugte Verbindung
  • Kanten zu hochgradigen Knoten erhalten höhere durchschnittliche Wahrscheinlichkeitswerte
  • Folgen dem Potenzgesetz-Gradverteilungsmuster

Verwandte Arbeiten

Benchmarks für dynamische Graphenlernforschung

  • Temporal Graph Benchmark (TGB): Evaluierung der Qualität zeitlicher Graphenneuronaler Netze
  • BenchTemp: Fokus auf Benchmarks für zeitliche Graphendaten
  • Einheitlicher Rahmen: Verbindung diskreter und kontinuierlicher Zeitmodelle

Einschränkungen zeitlicher Linkvorhersagemodelle

  • EdgeBank-Baseline: Einfache Baseline mit ähnlicher Leistung wie modernste Methoden
  • Einschränkungen beim Lernen zeitlicher Muster: Kleine Auswirkungen von Zeitstempel-Störungen auf die Leistung
  • Erfolg heuristischer Methoden: Heuristiken basierend auf Popularität und kürzlicher Aktivität übertreffen komplexe Modelle

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Gemischte Leistung: Modelle zeigen gute Leistung bei bestimmten Eigenschaften (wie bevorzugte Verbindung), haben aber ernsthafte Einschränkungen in anderen Bereichen (wie Richtungsunterscheidung, Dichteprognose)
  2. Konsistente Einschränkungen: Alle Modelle können Kantenrichtungen nicht unterscheiden, betonen Aktualität nicht und können Dichte nicht genau vorhersagen
  3. Modellunterschiede: Unterschiedliche Modelle zeigen signifikante Unterschiede beim Lernen spezifischer Eigenschaften und bieten Orientierung für die Modellauswahl in praktischen Anwendungen

Einschränkungen

  1. Datensatz-Einschränkungen: Aufgrund der Breite der Experimente ist die Anzahl der verwendeten Datensätze begrenzt und kann möglicherweise nicht alle netzwerkbezogenen Graphendatensätze repräsentieren
  2. Eigenschaftsauswahl: Die acht bewerteten Eigenschaften sind nicht erschöpfend; es gibt andere wichtige Grapheneigenschaften, die berücksichtigung verdienen
  3. Modellbereich: Umfasst nur kontinuierliche Zeitmodelle und deckt keine Modelle für diskrete Zeitsettings ab

Zukünftige Richtungen

  1. Modellverbesserung: Gestaltung neuer Modelle für identifizierte Einschränkungen (Dichte, Richtung, Aktualität)
  2. Rahmen-Erweiterung:
    • Hinzufügen weiterer Grapheneigenschaftsbewertungen
    • Einbeziehung von Modellen für diskrete Zeit
    • Berücksichtigung heterogener Netzwerke
  3. Anwendungsorientierung: Empfehlungen geeigneter Modelle für verschiedene Anwendungsszenarien basierend auf Eigenschaftslernfähigkeiten

Tiefe Bewertung

Stärken

  1. Hohe Systematik: Erste systematische Evaluierung zeitlicher Graphenlernmodelle aus einer Interpretierbarkeits-Perspektive, füllt eine wichtige Lücke
  2. Strenge Methodik: Die Kombination synthetischer und realer Datensätze mit kontrolliertem Variablendesign gewährleistet die Zuverlässigkeit der Ergebnisse
  3. Wichtige Erkenntnisse: Offenlegung schwerwiegender Einschränkungen scheinbar leistungsstarker Modelle beim Lernen grundlegender Eigenschaften mit wichtigem praktischem Wert
  4. Anwendungsorientierung: Bereitstellung praktischer Anleitung für Modellauswahl und Anwendung statt nur Fokus auf Benchmark-Leistung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum bestimmte Modelle bei spezifischen Eigenschaften versagen
  2. Fehlende Verbesserungslösungen: Hauptsächlich Problemidentifizierung ohne konkrete Verbesserungsvorschläge oder Methoden
  3. Einzelne Bewertungsmetriken: Einige Experimente könnten vielfältigere Bewertungsmetriken zur umfassenden Evaluierung von Modellkapazitäten benötigen

Auswirkungen

  1. Akademischer Wert: Einführung einer neuen Evaluierungsperspektive für zeitliche Graphenlernforschung, kann zukünftige Modellgestaltung und Evaluierungsstandards beeinflussen
  2. Praktischer Wert: Wichtige Referenz für Praktiker bei der Auswahl geeigneter Modelle, vermeidet blindes Verfolgen von Benchmark-Leistung
  3. Forschungsinspiration: Offengelegte Einschränkungen bieten klare Verbesserungsrichtungen für zukünftige Forschung

Anwendungsszenarien

  1. Modellauswahl: Anleitung zur Modellauswahl in spezifischen Anwendungen, die Kantenrichtung, Dichteprognose und andere Eigenschaften berücksichtigen
  2. Benchmark-Gestaltung: Referenz für die Gestaltung umfassenderer Benchmarks für zeitliche Graphenlernforschung
  3. Modellentwicklung: Verbesserungsziele und Bewertungsstandards für die Entwicklung neuer zeitlicher Graphenlernmodelle

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Arbeiten zu zeitlichen Graphen-Benchmarks (TGB, BenchTemp usw.)
  • Forschung zu Einschränkungen zeitlicher Graphenlernmodelle
  • Kritische Forschung zu Graphenlern-Evaluierungsmethoden
  • Klassische Graphenmodelle (Stochastische Blockmodelle, Barabási-Albert-Modelle usw.)

Gesamtbewertung: Dies ist eine Forschungsarbeit von erheblichem Wert, die durch systematische Interpretierbarkeits-Evaluierung wichtige Einschränkungen zeitlicher Graphenlernmodelle offenlegt. Die Forschungsmethodik ist streng, die Erkenntnisse haben praktischen Wert und bieten neue Perspektiven und Verbesserungsrichtungen für die Feldentwicklung. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Lösungsansätzen gibt, sind die Beiträge ausreichend, um das Feld in eine Richtung mit stärkerem Fokus auf Interpretierbarkeit und Praktikabilität voranzutreiben.