2025-11-13T10:52:11.188844

What Do Temporal Graph Learning Models Learn?

Hayes, Schumacher, Strohmaier
Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
academic

¿Qué Aprenden los Modelos de Aprendizaje en Grafos Temporales?

Información Básica

  • ID del Artículo: 2510.09416
  • Título: What Do Temporal Graph Learning Models Learn?
  • Autores: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
  • Clasificación: cs.LG cs.SI
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09416

Resumen

El aprendizaje en grafos temporales se ha convertido en un tema central en el aprendizaje de representaciones de grafos, con numerosos estudios comparativos que demuestran un desempeño sólido de los modelos de última generación. Sin embargo, investigaciones recientes han cuestionado la confiabilidad de los resultados de los estudios comparativos, señalando problemas en los protocolos de evaluación comúnmente utilizados y la competitividad sorprendente de métodos heurísticos simples. Este contraste plantea una pregunta fundamental: ¿qué propiedades del grafo subyacente utilizan realmente los modelos de aprendizaje en grafos temporales para formular predicciones? Este artículo aborda esta cuestión mediante la evaluación sistemática de siete modelos y su capacidad para capturar ocho propiedades fundamentales relacionadas con la estructura de enlaces en grafos temporales. Estas propiedades incluyen características estructurales como la densidad, patrones temporales como la recencia, y mecanismos de formación de enlaces como la homofilia. Utilizando conjuntos de datos sintéticos y del mundo real, se analiza la efectividad con la que los modelos aprenden estas propiedades. Los hallazgos presentan un panorama mixto: los modelos capturan bien ciertas propiedades, pero no logran reproducir otras, exponiendo limitaciones importantes.

Contexto de Investigación y Motivación

Antecedentes del Problema

  1. Problemas de confiabilidad en la evaluación comparativa: Aunque los modelos de aprendizaje en grafos temporales muestran un desempeño excelente en diversos estudios comparativos, investigaciones recientes han identificado defectos en los protocolos de evaluación, incluyendo problemas en los conjuntos de prueba e indicadores de evaluación que conducen a resultados poco realistas.
  2. Competitividad de métodos heurísticos simples: Sorprendentemente, métodos heurísticos simples que predicen enlaces entre nodos recientemente activos y globalmente populares muestran un desempeño comparable al de muchos modelos de última generación.
  3. Falta de interpretabilidad del modelo: Incluso cuando un modelo específico muestra buen desempeño en un conjunto de datos de referencia determinado, no está claro qué factores contribuyen a este desempeño, y más específicamente, qué propiedades del grafo utiliza el modelo para formular predicciones.

Motivación de la Investigación

Este estudio tiene como objetivo dar un paso atrás para evaluar la capacidad de los modelos populares de aprendizaje en grafos para aprender propiedades simples e interpretables de grafos temporales, proporcionando información práctica para la aplicación real de modelos de aprendizaje en grafos temporales e impulsando una evaluación más orientada hacia la interpretabilidad.

Contribuciones Principales

  1. Propuesta de un marco de evaluación novedoso: Evaluación sistemática de la capacidad de los modelos de aprendizaje en grafos temporales para capturar propiedades intuitivas de redes temporales
  2. Identificación de limitaciones en modelos existentes: Descubrimiento de limitaciones en los modelos para distinguir la dirección de los enlaces, detectar patrones cíclicos o enfatizar dinámicas de grafos observadas recientemente
  3. Provisión de orientación práctica: Información para la aplicación práctica de modelos de aprendizaje profundo en grafos
  4. Establecimiento de un punto de referencia de interpretabilidad: Proporciona un punto de referencia para una evaluación más orientada hacia la interpretabilidad de modelos de aprendizaje en grafos temporales, complementando los puntos de referencia existentes orientados al desempeño

Explicación Detallada de la Metodología

Definición de Tareas

Este artículo evalúa la capacidad de siete modelos de última generación en grafos temporales para aprender ocho propiedades fundamentales del grafo:

  • Características generales del grafo: granularidad temporal, dirección de enlaces, densidad
  • Patrones temporales: persistencia, periodicidad, recencia
  • Mecanismos de formación de enlaces: homofilia, conexión preferencial

Marco de Evaluación

Selección de Modelos

Se evaluaron siete modelos representativos:

  • DyGFormer: modelo de grafo dinámico basado en Transformer
  • GraphMixer: modelo de red temporal con arquitectura simplificada
  • DyRep: aprendizaje de representaciones basado en redes neuronales recurrentes
  • JODIE: incrustación conjunta dinámica de usuarios y elementos
  • TGN: red de grafos temporales
  • TCL: modelado de grafos dinámicos Transformer basado en aprendizaje contrastivo
  • TGAT: aprendizaje de representaciones de grafos temporales inductivo

Diseño de Conjuntos de Datos

  1. Conjuntos de datos reales: red de correo electrónico Enron, red de mensajes UCI, red de ediciones de Wikipedia
  2. Conjuntos de datos sintéticos: grafos artificiales diseñados para propiedades específicas, como el modelo de bloques estocásticos (SBM) para pruebas de homofilia, modelo Barabási-Albert para pruebas de conexión preferencial

Metodología de Evaluación

Se diseñaron experimentos especializados para cada propiedad:

  • Utilización de una combinación de conjuntos de datos sintéticos y reales
  • Control de variables para aislar el impacto de propiedades específicas
  • Evaluación del desempeño del modelo mediante indicadores como puntuaciones de probabilidad y precisión

Puntos de Innovación Técnica

  1. Metodología de evaluación sistemática: Primera evaluación sistemática de la capacidad de los modelos de grafos temporales para aprender propiedades fundamentales del grafo
  2. Análisis de propiedades multidimensionales: Cobertura de propiedades en tres dimensiones: estructura, tiempo y mecanismo
  3. Validación mediante datos sintéticos: Validación de la capacidad de los modelos para aprender propiedades específicas mediante conjuntos de datos sintéticos cuidadosamente diseñados
  4. Orientación hacia la interpretabilidad: Evaluación de modelos desde una perspectiva de interpretabilidad en lugar de una perspectiva puramente de desempeño

Configuración Experimental

Detalles de los Conjuntos de Datos

Conjunto de DatosNúmero de NodosEnlaces ContinuosEnlaces DiscretosEnlaces ÚnicosPasos de Tiempo Discretos
Enron184125,23510,4723,12545 (meses)
UCI1,89959,83526,62820,29629 (semanas)
Wikipedia9,277157,47465,08518,257745 (horas)

Indicadores de Evaluación

  • ROC-AUC: para evaluación del desempeño en predicción de enlaces
  • Precisión equilibrada: para tareas de clasificación
  • Distribución de puntuaciones de probabilidad: para análisis del comportamiento predictivo del modelo
  • Estadísticas de agrupación de enlaces: para análisis cuantitativo de propiedades específicas

Detalles de Implementación

  • Tasa de aprendizaje: 1e-4
  • Tamaño de lote: 200
  • Función de pérdida: BCELoss
  • Optimizador: Adam
  • Número máximo de épocas de entrenamiento: 300
  • Tolerancia de parada temprana: 1e-6
  • Dimensión de características temporales: 100

Resultados Experimentales

Resumen de Hallazgos Principales

Propiedad del GrafoDyGFormerDyRepJODIEGraphMixerTCLTGATTGN
Granularidad Temporal
Dirección
Densidad
Persistencia
Periodicidad
Recencia
Homofilia
Conexión Preferencial

Análisis Detallado de Resultados

1. Granularidad Temporal

  • La discretización de marcas de tiempo daña severamente el desempeño, indicando que los modelos efectivamente utilizan información temporal
  • GraphMixer y DyRep muestran la mayor caída de desempeño cuando se discretizan las marcas de tiempo
  • TGAT muestra mejor desempeño en pasos de tiempo discretos

2. Dirección de Enlaces

  • Hallazgo clave: Todos los modelos no pueden distinguir efectivamente la dirección de los enlaces
  • Aproximadamente el 50% de los enlaces muestran una diferencia menor a 0.02 en las probabilidades predichas entre enlaces directos e inversos
  • Incluso con entrenamiento bidireccional, la mayoría de los modelos producen predicciones aproximadamente simétricas

3. Densidad

  • Limitación importante: Todos los modelos no pueden aprender la densidad del grafo
  • La densidad predicha es típicamente varios órdenes de magnitud menor que la densidad real
  • Los modelos tienden a predecir todos los enlaces como negativos cuando observan una gran cantidad de muestras negativas

4. Persistencia

  • DyGFormer y TGAT pueden aprender grafos persistentes
  • JODIE y TGN muestran un desempeño deficiente en esta tarea simple

5. Periodicidad

  • GraphMixer y TCL pueden distinguir bien entre pasos de tiempo pares e impares
  • DyGFormer no puede distinguir pasos de tiempo, mostrando comportamiento similar a la línea base EdgeBank

6. Recencia

  • Resultado sorprendente: Ningún modelo enfatiza fuertemente los enlaces observados recientemente
  • La puntuación de probabilidad promedio de los enlaces no varía según el tiempo de última observación
  • Esto contrasta con el éxito de métodos heurísticos basados en nodos recientemente activos

7. Homofilia

  • DyGFormer y TCL pueden predecir equilibradamente enlaces dentro de grupos
  • JODIE muestra un sesgo extremo hacia el grupo 0
  • La mayoría de los modelos tienden más a predecir enlaces dentro del grupo 1

8. Conexión Preferencial

  • Éxito consistente: Todos los modelos aprenden la conexión preferencial
  • Los enlaces de nodos de alto grado reciben puntuaciones de probabilidad promedio más altas
  • Siguen un patrón de distribución de grados de ley de potencia

Trabajo Relacionado

Estudios Comparativos de Grafos Dinámicos

  • Temporal Graph Benchmark (TGB): evaluación de la calidad de redes neuronales de grafos temporales
  • BenchTemp: punto de referencia enfocado en datos de grafos temporales
  • Marco unificado: conexión de modelos de tiempo discreto y continuo

Limitaciones de Modelos de Predicción de Enlaces Temporales

  • Línea base EdgeBank: línea base simple con desempeño similar a métodos de última generación
  • Limitaciones en el aprendizaje de patrones temporales: pequeño impacto de la perturbación de marcas de tiempo en el desempeño
  • Éxito de métodos heurísticos: métodos heurísticos basados en popularidad y actividad reciente superan modelos complejos

Conclusiones y Discusión

Conclusiones Principales

  1. Desempeño mixto: Los modelos muestran buen desempeño en ciertas propiedades (como conexión preferencial), pero presentan limitaciones graves en otros aspectos (como distinción de dirección, predicción de densidad)
  2. Limitaciones consistentes: Todos los modelos no pueden distinguir la dirección de los enlaces, no enfatizan la recencia y no pueden predecir con precisión la densidad
  3. Diferencias entre modelos: Existen diferencias significativas entre diferentes modelos en el aprendizaje de propiedades específicas, proporcionando orientación para la selección de modelos en aplicaciones prácticas

Limitaciones

  1. Limitaciones de conjuntos de datos: Debido a la amplitud del experimento, el número de conjuntos de datos utilizados es limitado, lo que puede no representar todos los conjuntos de datos de grafos relacionados con redes
  2. Selección de propiedades: Las ocho propiedades evaluadas no son exhaustivas; hay otras propiedades importantes del grafo que merecen consideración
  3. Alcance de modelos: Solo incluye modelos de tiempo continuo, sin cubrir modelos para configuraciones de tiempo discreto

Direcciones Futuras

  1. Mejora de modelos: Diseño de nuevos modelos dirigidos a las limitaciones identificadas (densidad, dirección, recencia)
  2. Extensión del marco:
    • Agregar evaluación de más propiedades del grafo
    • Incluir modelos de tiempo discreto
    • Considerar redes heterogéneas
  3. Orientación de aplicaciones: Recomendación de modelos apropiados para diferentes escenarios de aplicación basada en la capacidad de aprendizaje de propiedades

Evaluación Profunda

Fortalezas

  1. Fuerte sistematicidad: Primera evaluación sistemática de modelos de aprendizaje en grafos temporales desde una perspectiva de interpretabilidad, llenando un vacío importante
  2. Metodología rigurosa: El diseño experimental que combina conjuntos de datos sintéticos y reales con control de variables asegura la confiabilidad de los resultados
  3. Hallazgos importantes: Revela limitaciones graves en modelos aparentemente poderosos en el aprendizaje de propiedades fundamentales, con valor práctico significativo
  4. Orientación hacia aplicaciones: Proporciona orientación práctica para la selección y aplicación de modelos, en lugar de enfocarse únicamente en el desempeño comparativo

Deficiencias

  1. Análisis teórico insuficiente: Falta análisis teórico profundo sobre por qué ciertos modelos fallan en propiedades específicas
  2. Ausencia de soluciones de mejora: Se señalan principalmente problemas sin proporcionar sugerencias o métodos de mejora específicos
  3. Indicadores de evaluación limitados: Algunos experimentos pueden requerir indicadores de evaluación más diversos para evaluar completamente la capacidad del modelo

Impacto

  1. Valor académico: Introduce una nueva perspectiva de evaluación para el campo del aprendizaje en grafos temporales, que puede influir en el diseño de modelos futuros y estándares de evaluación
  2. Valor práctico: Proporciona referencias importantes para que los profesionales seleccionen modelos apropiados, evitando la búsqueda ciega del desempeño comparativo
  3. Inspiración para investigación: Las limitaciones expuestas proporcionan direcciones claras de mejora para investigaciones futuras

Escenarios Aplicables

  1. Selección de modelos: Orientación para la selección de modelos en aplicaciones específicas donde se necesitan considerar propiedades como dirección de enlaces y predicción de densidad
  2. Diseño de estudios comparativos: Proporciona referencias para diseñar estudios comparativos más completos de aprendizaje en grafos temporales
  3. Desarrollo de modelos: Proporciona objetivos de mejora y estándares de evaluación para el desarrollo de nuevos modelos de aprendizaje en grafos temporales

Referencias

El artículo cita ampliamente trabajos relacionados, incluyendo:

  • Trabajos relacionados con estudios comparativos de grafos temporales (TGB, BenchTemp, etc.)
  • Investigación sobre limitaciones de modelos de aprendizaje en grafos temporales
  • Investigación crítica sobre métodos de evaluación en aprendizaje de grafos
  • Modelos de grafos clásicos (modelo de bloques estocásticos, modelo Barabási-Albert, etc.)

Evaluación General: Este es un trabajo de investigación de valor significativo que, mediante evaluación sistemática de interpretabilidad, revela limitaciones importantes en modelos de aprendizaje en grafos temporales. La metodología de investigación es rigurosa, los hallazgos tienen significado práctico y proporciona nuevas perspectivas y direcciones de mejora para el desarrollo del campo. Aunque hay espacio para mejora en análisis teórico y soluciones, sus contribuciones son suficientes para impulsar el desarrollo del campo hacia una dirección más orientada hacia la interpretabilidad y practicidad.