2025-11-13T10:52:11.188844

What Do Temporal Graph Learning Models Learn?

Hayes, Schumacher, Strohmaier

Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.

academic

¿Qué Aprenden los Modelos de Aprendizaje en Grafos Temporales?

Información Básica

ID del Artículo: 2510.09416
Título: What Do Temporal Graph Learning Models Learn?
Autores: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
Clasificación: cs.LG cs.SI
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09416

Resumen

El aprendizaje en grafos temporales se ha convertido en un tema central en el aprendizaje de representaciones de grafos, con numerosos estudios comparativos que demuestran un desempeño sólido de los modelos de última generación. Sin embargo, investigaciones recientes han cuestionado la confiabilidad de los resultados de los estudios comparativos, señalando problemas en los protocolos de evaluación comúnmente utilizados y la competitividad sorprendente de métodos heurísticos simples. Este contraste plantea una pregunta fundamental: ¿qué propiedades del grafo subyacente utilizan realmente los modelos de aprendizaje en grafos temporales para formular predicciones? Este artículo aborda esta cuestión mediante la evaluación sistemática de siete modelos y su capacidad para capturar ocho propiedades fundamentales relacionadas con la estructura de enlaces en grafos temporales. Estas propiedades incluyen características estructurales como la densidad, patrones temporales como la recencia, y mecanismos de formación de enlaces como la homofilia. Utilizando conjuntos de datos sintéticos y del mundo real, se analiza la efectividad con la que los modelos aprenden estas propiedades. Los hallazgos presentan un panorama mixto: los modelos capturan bien ciertas propiedades, pero no logran reproducir otras, exponiendo limitaciones importantes.

Contexto de Investigación y Motivación

Antecedentes del Problema

Problemas de confiabilidad en la evaluación comparativa: Aunque los modelos de aprendizaje en grafos temporales muestran un desempeño excelente en diversos estudios comparativos, investigaciones recientes han identificado defectos en los protocolos de evaluación, incluyendo problemas en los conjuntos de prueba e indicadores de evaluación que conducen a resultados poco realistas.
Competitividad de métodos heurísticos simples: Sorprendentemente, métodos heurísticos simples que predicen enlaces entre nodos recientemente activos y globalmente populares muestran un desempeño comparable al de muchos modelos de última generación.
Falta de interpretabilidad del modelo: Incluso cuando un modelo específico muestra buen desempeño en un conjunto de datos de referencia determinado, no está claro qué factores contribuyen a este desempeño, y más específicamente, qué propiedades del grafo utiliza el modelo para formular predicciones.

Motivación de la Investigación

Este estudio tiene como objetivo dar un paso atrás para evaluar la capacidad de los modelos populares de aprendizaje en grafos para aprender propiedades simples e interpretables de grafos temporales, proporcionando información práctica para la aplicación real de modelos de aprendizaje en grafos temporales e impulsando una evaluación más orientada hacia la interpretabilidad.

Contribuciones Principales

Propuesta de un marco de evaluación novedoso: Evaluación sistemática de la capacidad de los modelos de aprendizaje en grafos temporales para capturar propiedades intuitivas de redes temporales
Identificación de limitaciones en modelos existentes: Descubrimiento de limitaciones en los modelos para distinguir la dirección de los enlaces, detectar patrones cíclicos o enfatizar dinámicas de grafos observadas recientemente
Provisión de orientación práctica: Información para la aplicación práctica de modelos de aprendizaje profundo en grafos
Establecimiento de un punto de referencia de interpretabilidad: Proporciona un punto de referencia para una evaluación más orientada hacia la interpretabilidad de modelos de aprendizaje en grafos temporales, complementando los puntos de referencia existentes orientados al desempeño

Explicación Detallada de la Metodología

Definición de Tareas

Este artículo evalúa la capacidad de siete modelos de última generación en grafos temporales para aprender ocho propiedades fundamentales del grafo:

Características generales del grafo: granularidad temporal, dirección de enlaces, densidad
Patrones temporales: persistencia, periodicidad, recencia
Mecanismos de formación de enlaces: homofilia, conexión preferencial

Marco de Evaluación

Selección de Modelos

Se evaluaron siete modelos representativos:

DyGFormer: modelo de grafo dinámico basado en Transformer
GraphMixer: modelo de red temporal con arquitectura simplificada
DyRep: aprendizaje de representaciones basado en redes neuronales recurrentes
JODIE: incrustación conjunta dinámica de usuarios y elementos
TGN: red de grafos temporales
TCL: modelado de grafos dinámicos Transformer basado en aprendizaje contrastivo
TGAT: aprendizaje de representaciones de grafos temporales inductivo

Diseño de Conjuntos de Datos

Conjuntos de datos reales: red de correo electrónico Enron, red de mensajes UCI, red de ediciones de Wikipedia
Conjuntos de datos sintéticos: grafos artificiales diseñados para propiedades específicas, como el modelo de bloques estocásticos (SBM) para pruebas de homofilia, modelo Barabási-Albert para pruebas de conexión preferencial

Metodología de Evaluación

Se diseñaron experimentos especializados para cada propiedad:

Utilización de una combinación de conjuntos de datos sintéticos y reales
Control de variables para aislar el impacto de propiedades específicas
Evaluación del desempeño del modelo mediante indicadores como puntuaciones de probabilidad y precisión

Puntos de Innovación Técnica

Metodología de evaluación sistemática: Primera evaluación sistemática de la capacidad de los modelos de grafos temporales para aprender propiedades fundamentales del grafo
Análisis de propiedades multidimensionales: Cobertura de propiedades en tres dimensiones: estructura, tiempo y mecanismo
Validación mediante datos sintéticos: Validación de la capacidad de los modelos para aprender propiedades específicas mediante conjuntos de datos sintéticos cuidadosamente diseñados
Orientación hacia la interpretabilidad: Evaluación de modelos desde una perspectiva de interpretabilidad en lugar de una perspectiva puramente de desempeño

Configuración Experimental

Detalles de los Conjuntos de Datos

Conjunto de Datos	Número de Nodos	Enlaces Continuos	Enlaces Discretos	Enlaces Únicos	Pasos de Tiempo Discretos
Enron	184	125,235	10,472	3,125	45 (meses)
UCI	1,899	59,835	26,628	20,296	29 (semanas)
Wikipedia	9,277	157,474	65,085	18,257	745 (horas)

Indicadores de Evaluación

ROC-AUC: para evaluación del desempeño en predicción de enlaces
Precisión equilibrada: para tareas de clasificación
Distribución de puntuaciones de probabilidad: para análisis del comportamiento predictivo del modelo
Estadísticas de agrupación de enlaces: para análisis cuantitativo de propiedades específicas

Detalles de Implementación

Tasa de aprendizaje: 1e-4
Tamaño de lote: 200
Función de pérdida: BCELoss
Optimizador: Adam
Número máximo de épocas de entrenamiento: 300
Tolerancia de parada temprana: 1e-6
Dimensión de características temporales: 100

Resultados Experimentales

Resumen de Hallazgos Principales

Propiedad del Grafo	DyGFormer	DyRep	JODIE	GraphMixer	TCL	TGAT	TGN
Granularidad Temporal	∼	✓	✓	✓	∼	∼	✓
Dirección	✗	✗	✗	✗	✗	✗	✗
Densidad	✗	✗	✗	✗	✗	✗	✗
Persistencia	✓	✗	✗	∼	∼	✓	✗
Periodicidad	✗	✗	✗	✓	✓	∼	∼
Recencia	✗	✗	✗	✗	✗	✗	✗
Homofilia	✓	∼	✗	∼	✓	∼	∼
Conexión Preferencial	✓	✓	✓	✓	✓	✓	✓

Análisis Detallado de Resultados

1. Granularidad Temporal

La discretización de marcas de tiempo daña severamente el desempeño, indicando que los modelos efectivamente utilizan información temporal
GraphMixer y DyRep muestran la mayor caída de desempeño cuando se discretizan las marcas de tiempo
TGAT muestra mejor desempeño en pasos de tiempo discretos

2. Dirección de Enlaces

Hallazgo clave: Todos los modelos no pueden distinguir efectivamente la dirección de los enlaces
Aproximadamente el 50% de los enlaces muestran una diferencia menor a 0.02 en las probabilidades predichas entre enlaces directos e inversos
Incluso con entrenamiento bidireccional, la mayoría de los modelos producen predicciones aproximadamente simétricas

3. Densidad

Limitación importante: Todos los modelos no pueden aprender la densidad del grafo
La densidad predicha es típicamente varios órdenes de magnitud menor que la densidad real
Los modelos tienden a predecir todos los enlaces como negativos cuando observan una gran cantidad de muestras negativas

4. Persistencia

DyGFormer y TGAT pueden aprender grafos persistentes
JODIE y TGN muestran un desempeño deficiente en esta tarea simple

5. Periodicidad

GraphMixer y TCL pueden distinguir bien entre pasos de tiempo pares e impares
DyGFormer no puede distinguir pasos de tiempo, mostrando comportamiento similar a la línea base EdgeBank

6. Recencia

Resultado sorprendente: Ningún modelo enfatiza fuertemente los enlaces observados recientemente
La puntuación de probabilidad promedio de los enlaces no varía según el tiempo de última observación
Esto contrasta con el éxito de métodos heurísticos basados en nodos recientemente activos

7. Homofilia

DyGFormer y TCL pueden predecir equilibradamente enlaces dentro de grupos
JODIE muestra un sesgo extremo hacia el grupo 0
La mayoría de los modelos tienden más a predecir enlaces dentro del grupo 1

8. Conexión Preferencial

Éxito consistente: Todos los modelos aprenden la conexión preferencial
Los enlaces de nodos de alto grado reciben puntuaciones de probabilidad promedio más altas
Siguen un patrón de distribución de grados de ley de potencia

Trabajo Relacionado

Estudios Comparativos de Grafos Dinámicos

Temporal Graph Benchmark (TGB): evaluación de la calidad de redes neuronales de grafos temporales
BenchTemp: punto de referencia enfocado en datos de grafos temporales
Marco unificado: conexión de modelos de tiempo discreto y continuo

Limitaciones de Modelos de Predicción de Enlaces Temporales

Línea base EdgeBank: línea base simple con desempeño similar a métodos de última generación
Limitaciones en el aprendizaje de patrones temporales: pequeño impacto de la perturbación de marcas de tiempo en el desempeño
Éxito de métodos heurísticos: métodos heurísticos basados en popularidad y actividad reciente superan modelos complejos

Conclusiones y Discusión

Conclusiones Principales

Desempeño mixto: Los modelos muestran buen desempeño en ciertas propiedades (como conexión preferencial), pero presentan limitaciones graves en otros aspectos (como distinción de dirección, predicción de densidad)
Limitaciones consistentes: Todos los modelos no pueden distinguir la dirección de los enlaces, no enfatizan la recencia y no pueden predecir con precisión la densidad
Diferencias entre modelos: Existen diferencias significativas entre diferentes modelos en el aprendizaje de propiedades específicas, proporcionando orientación para la selección de modelos en aplicaciones prácticas

Limitaciones

Limitaciones de conjuntos de datos: Debido a la amplitud del experimento, el número de conjuntos de datos utilizados es limitado, lo que puede no representar todos los conjuntos de datos de grafos relacionados con redes
Selección de propiedades: Las ocho propiedades evaluadas no son exhaustivas; hay otras propiedades importantes del grafo que merecen consideración
Alcance de modelos: Solo incluye modelos de tiempo continuo, sin cubrir modelos para configuraciones de tiempo discreto

Direcciones Futuras

Mejora de modelos: Diseño de nuevos modelos dirigidos a las limitaciones identificadas (densidad, dirección, recencia)
Extensión del marco:
- Agregar evaluación de más propiedades del grafo
- Incluir modelos de tiempo discreto
- Considerar redes heterogéneas
Orientación de aplicaciones: Recomendación de modelos apropiados para diferentes escenarios de aplicación basada en la capacidad de aprendizaje de propiedades

Evaluación Profunda

Fortalezas

Fuerte sistematicidad: Primera evaluación sistemática de modelos de aprendizaje en grafos temporales desde una perspectiva de interpretabilidad, llenando un vacío importante
Metodología rigurosa: El diseño experimental que combina conjuntos de datos sintéticos y reales con control de variables asegura la confiabilidad de los resultados
Hallazgos importantes: Revela limitaciones graves en modelos aparentemente poderosos en el aprendizaje de propiedades fundamentales, con valor práctico significativo
Orientación hacia aplicaciones: Proporciona orientación práctica para la selección y aplicación de modelos, en lugar de enfocarse únicamente en el desempeño comparativo

Deficiencias

Análisis teórico insuficiente: Falta análisis teórico profundo sobre por qué ciertos modelos fallan en propiedades específicas
Ausencia de soluciones de mejora: Se señalan principalmente problemas sin proporcionar sugerencias o métodos de mejora específicos
Indicadores de evaluación limitados: Algunos experimentos pueden requerir indicadores de evaluación más diversos para evaluar completamente la capacidad del modelo

Impacto

Valor académico: Introduce una nueva perspectiva de evaluación para el campo del aprendizaje en grafos temporales, que puede influir en el diseño de modelos futuros y estándares de evaluación
Valor práctico: Proporciona referencias importantes para que los profesionales seleccionen modelos apropiados, evitando la búsqueda ciega del desempeño comparativo
Inspiración para investigación: Las limitaciones expuestas proporcionan direcciones claras de mejora para investigaciones futuras

Escenarios Aplicables

Selección de modelos: Orientación para la selección de modelos en aplicaciones específicas donde se necesitan considerar propiedades como dirección de enlaces y predicción de densidad
Diseño de estudios comparativos: Proporciona referencias para diseñar estudios comparativos más completos de aprendizaje en grafos temporales
Desarrollo de modelos: Proporciona objetivos de mejora y estándares de evaluación para el desarrollo de nuevos modelos de aprendizaje en grafos temporales

Referencias

El artículo cita ampliamente trabajos relacionados, incluyendo:

Trabajos relacionados con estudios comparativos de grafos temporales (TGB, BenchTemp, etc.)
Investigación sobre limitaciones de modelos de aprendizaje en grafos temporales
Investigación crítica sobre métodos de evaluación en aprendizaje de grafos
Modelos de grafos clásicos (modelo de bloques estocásticos, modelo Barabási-Albert, etc.)

Evaluación General: Este es un trabajo de investigación de valor significativo que, mediante evaluación sistemática de interpretabilidad, revela limitaciones importantes en modelos de aprendizaje en grafos temporales. La metodología de investigación es rigurosa, los hallazgos tienen significado práctico y proporciona nuevas perspectivas y direcciones de mejora para el desarrollo del campo. Aunque hay espacio para mejora en análisis teórico y soluciones, sus contribuciones son suficientes para impulsar el desarrollo del campo hacia una dirección más orientada hacia la interpretabilidad y practicidad.