2025-11-13T10:52:11.188844

What Do Temporal Graph Learning Models Learn?

Hayes, Schumacher, Strohmaier

Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.

academic

Что изучают модели обучения временным графам?

Основная информация

ID статьи: 2510.09416
Название: What Do Temporal Graph Learning Models Learn?
Авторы: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
Классификация: cs.LG cs.SI
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09416

Аннотация

Обучение на временных графах стало центральной темой в представлении графов, и многочисленные тесты демонстрируют сильную производительность современных моделей. Однако недавние исследования подвергли сомнению надежность результатов тестирования, указав на проблемы в общепринятых протоколах оценки и удивительную конкурентоспособность простых эвристических методов. Это противоречие порождает вопрос: какие свойства базового графа фактически используют модели обучения на временных графах для формирования предсказаний? В данной работе этот вопрос решается путем систематической оценки способности семи моделей захватывать восемь фундаментальных свойств, связанных со структурой связей временных графов. Эти свойства включают структурные характеристики, такие как плотность, временные закономерности, такие как недавность, и механизмы формирования связей, такие как гомофилия. Используя синтетические и реальные наборы данных, анализируется эффективность обучения моделей этим свойствам. Результаты исследования представляют смешанную картину: модели хорошо захватывают некоторые свойства, но не могут воспроизвести другие, выявляя важные ограничения.

Предпосылки и мотивация исследования

Контекст проблемы

Проблемы надежности оценки тестирования: Несмотря на то, что модели обучения на временных графах демонстрируют отличные результаты в различных тестах, недавние исследования выявили недостатки в протоколах оценки, включая проблемы с тестовыми наборами и метриками оценки, приводящие к нереалистичным результатам.
Конкурентоспособность простых эвристик: Удивительно, что простые эвристические методы, такие как предсказание связей между недавно активными и глобально популярными узлами, показывают производительность, сравнимую со многими современными моделями.
Отсутствие интерпретируемости моделей: Даже если конкретная модель хорошо работает на данном наборе данных тестирования, остается неясным, какие факторы способствуют этой производительности, и конкретнее, какие свойства графа использует модель для формирования предсказаний.

Мотивация исследования

Данное исследование направлено на пошаговую оценку способности популярных моделей обучения на графах изучать простые, интерпретируемые свойства временных графов, предоставляя практические рекомендации для реальных приложений моделей обучения на временных графах и продвигая более интерпретируемую оценку.

Основные вклады

Предложена новая оценочная система: Систематическая оценка способности моделей обучения на временных графах захватывать интуитивные свойства временных сетей
Выявлены ограничения существующих моделей: Обнаружены ограничения моделей в различении направления связей, обнаружении циклических закономерностей и выделении недавно наблюдаемой динамики графа
Предоставлены практические рекомендации: Предложены рекомендации для практического применения глубоких моделей обучения на графах
Установлены эталоны интерпретируемости: Предоставлены эталоны для более интерпретируемой оценки моделей обучения на временных графах, дополняющие существующие эталоны, ориентированные на производительность

Подробное описание методологии

Определение задачи

В работе оценивается способность семи современных моделей обучения на временных графах изучать восемь фундаментальных свойств графа:

Общие характеристики графа: временная гранулярность, направление связей, плотность
Временные закономерности: персистентность, периодичность, недавность
Механизмы формирования связей: гомофилия, предпочтительное присоединение

Оценочная система

Выбор моделей

Оценены семь репрезентативных моделей:

DyGFormer: динамическая модель графа на основе Transformer
GraphMixer: модель временной сети с упрощенной архитектурой
DyRep: обучение представлениям на основе рекуррентных нейронных сетей
JODIE: совместное встраивание динамических пользователей и элементов
TGN: временная сеть графов
TCL: моделирование динамического графа на основе Transformer с контрастивным обучением
TGAT: индуктивное обучение представлениям временных графов

Разработка наборов данных

Реальные наборы данных: сетевая почта Enron, сеть сообщений UCI, сеть редактирования Wikipedia
Синтетические наборы данных: искусственные графы, разработанные для конкретных свойств, такие как модель случайных блоков (SBM) для тестирования гомофилии, модель Барабаши-Альберта для тестирования предпочтительного присоединения

Методология оценки

Для каждого свойства разработаны специализированные эксперименты:

Использование комбинации синтетических и реальных наборов данных
Контроль переменных для изоляции влияния конкретного свойства
Оценка производительности моделей с использованием вероятностных оценок, точности и других метрик

Технические инновации

Систематический метод оценки: Первая систематическая оценка способности моделей временных графов изучать фундаментальные свойства графов
Многомерный анализ свойств: Охватывает свойства в трех измерениях: структурное, временное и механизм
Проверка синтетическими данными: Проверка способности моделей изучать конкретные свойства с использованием тщательно разработанных синтетических наборов данных
Ориентация на интерпретируемость: Оценка моделей с точки зрения интерпретируемости, а не чистой производительности

Экспериментальная установка

Детали наборов данных

Набор данных	Количество узлов	Непрерывные связи	Дискретные связи	Уникальные связи	Дискретные временные шаги
Enron	184	125,235	10,472	3,125	45 (месяцы)
UCI	1,899	59,835	26,628	20,296	29 (недели)
Wikipedia	9,277	157,474	65,085	18,257	745 (часы)

Метрики оценки

ROC-AUC: для оценки производительности предсказания связей
Сбалансированная точность: для задач классификации
Распределение вероятностных оценок: для анализа поведения предсказаний моделей
Статистика группировки связей: для количественного анализа конкретных свойств

Детали реализации

Скорость обучения: 1e-4
Размер пакета: 200
Функция потерь: BCELoss
Оптимизатор: Adam
Максимальное количество эпох обучения: 300
Допуск ранней остановки: 1e-6
Размерность временных признаков: 100

Результаты экспериментов

Сводка основных выводов

Свойство графа	DyGFormer	DyRep	JODIE	GraphMixer	TCL	TGAT	TGN
Временная гранулярность	∼	✓	✓	✓	∼	∼	✓
Направление	✗	✗	✗	✗	✗	✗	✗
Плотность	✗	✗	✗	✗	✗	✗	✗
Персистентность	✓	✗	✗	∼	∼	✓	✗
Периодичность	✗	✗	✗	✓	✓	∼	∼
Недавность	✗	✗	✗	✗	✗	✗	✗
Гомофилия	✓	∼	✗	∼	✓	∼	∼
Предпочтительное присоединение	✓	✓	✓	✓	✓	✓	✓

Подробный анализ результатов

1. Временная гранулярность

Сглаживание временных меток серьезно снижает производительность, указывая на то, что модели действительно используют временную информацию
GraphMixer и DyRep показывают наибольшее снижение производительности при дискретизации временных меток
TGAT показывает лучшую производительность на дискретных временных шагах

2. Направление связей

Ключевой вывод: Все модели не могут эффективно различать направление связей
Примерно для 50% связей разница в вероятности предсказания между прямой и обратной связью составляет менее 0,02
Даже при двусторонней подготовке большинство моделей по-прежнему дают приблизительно симметричные предсказания

3. Плотность

Важное ограничение: Все модели не могут изучить плотность графа
Предсказанная плотность обычно на несколько порядков ниже реальной плотности
Модели склонны предсказывать все связи как отрицательные при наблюдении большого количества отрицательных образцов

4. Персистентность

DyGFormer и TGAT способны изучать персистентные графы
JODIE и TGN показывают плохую производительность на этой простой задаче

5. Периодичность

GraphMixer и TCL хорошо различают четные и нечетные временные шаги
DyGFormer не может различить временные шаги, ведя себя аналогично базовой линии EdgeBank

6. Недавность

Удивительный результат: Все модели не выделяют недавно наблюдаемые связи
Средняя вероятностная оценка связи не изменяется в зависимости от времени последнего наблюдения
Это контрастирует с успехом эвристических методов, основанных на недавно активных узлах

7. Гомофилия

DyGFormer и TCL способны сбалансированно предсказывать внутригрупповые связи
JODIE сильно смещена в сторону группы 0
Большинство моделей более склонны предсказывать связи внутри группы 1

8. Предпочтительное присоединение

Последовательный успех: Все модели изучили предпочтительное присоединение
Связи высокостепенных узлов получают более высокие средние вероятностные оценки
Следуют закону распределения степеней по степенному закону

Связанные работы

Тестирование динамических графов

Temporal Graph Benchmark (TGB): оценка качества временных графовых нейронных сетей
BenchTemp: тестирование, сосредоточенное на данных временных графов
Единая система: связь между моделями дискретного и непрерывного времени

Ограничения моделей предсказания временных связей

Базовая линия EdgeBank: простая базовая линия с производительностью, сравнимой с современными методами
Ограничения в изучении временных закономерностей: небольшое влияние возмущения временных меток на производительность
Успех эвристических методов: эвристики, основанные на популярности и недавней активности, превосходят сложные модели

Выводы и обсуждение

Основные выводы

Смешанная производительность: Модели хорошо работают на некоторых свойствах (например, предпочтительное присоединение), но имеют серьезные ограничения в других аспектах (например, различение направления, предсказание плотности)
Последовательные ограничения: Все модели не могут различать направление связей, не выделяют недавность и не могут точно предсказать плотность
Различия между моделями: Различные модели показывают значительные различия в изучении конкретных свойств, предоставляя рекомендации для выбора моделей в практических приложениях

Ограничения

Ограничения наборов данных: Из-за широты экспериментов используется ограниченное количество наборов данных, что может не представлять все наборы данных графов, связанные с сетями
Выбор свойств: Оцениваемые восемь свойств не являются исчерпывающими, и есть другие важные свойства графов, достойные рассмотрения
Диапазон моделей: Включены только модели непрерывного времени, не охватывая модели для дискретных временных параметров

Направления будущих исследований

Улучшение моделей: Разработка новых моделей для решения выявленных ограничений (плотность, направление, недавность)
Расширение системы:
- Добавление дополнительных оценок свойств графов
- Включение моделей дискретного времени
- Рассмотрение гетерогенных сетей
Рекомендации по применению: Рекомендация подходящих моделей для различных сценариев приложений на основе способности изучения свойств

Глубокая оценка

Преимущества

Высокая систематичность: Первая систематическая оценка моделей обучения на временных графах с точки зрения интерпретируемости, заполняющая важный пробел
Строгая методология: Комбинация синтетических и реальных наборов данных с контролем переменных обеспечивает надежность результатов
Важные выводы: Выявление серьезных ограничений кажущихся мощными моделей в изучении фундаментальных свойств имеет важное практическое значение
Ориентация на применение: Предоставление практических рекомендаций для выбора и применения моделей, а не только сосредоточение на производительности тестирования

Недостатки

Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа того, почему определенные модели не работают на конкретных свойствах
Отсутствие решений для улучшения: Основное внимание уделяется выявлению проблем без предоставления конкретных предложений по улучшению или методов
Ограниченность метрик оценки: Некоторые эксперименты могут требовать более разнообразных метрик оценки для полной оценки способностей моделей

Влияние

Академическая ценность: Введение новой перспективы оценки в область обучения на временных графах, которая может повлиять на будущую разработку моделей и стандарты оценки
Практическая ценность: Предоставление важных рекомендаций для практиков при выборе подходящих моделей, избегая слепого преследования производительности тестирования
Исследовательское вдохновение: Выявленные ограничения предоставляют четкие направления для улучшения будущих исследований

Применимые сценарии

Выбор модели: Рекомендации по выбору моделей при необходимости учета таких свойств, как направление связей и предсказание плотности в конкретных приложениях
Разработка тестирования: Справочная информация для разработки более комплексного тестирования моделей обучения на временных графах
Разработка моделей: Предоставление целей улучшения и стандартов оценки для разработки новых моделей обучения на временных графах

Библиография

Статья ссылается на широкий спектр связанных работ, включая:

Работы по тестированию временных графов (TGB, BenchTemp и т. д.)
Исследования ограничений моделей обучения на временных графах
Критические исследования методов оценки обучения на графах
Классические модели графов (модель случайных блоков, модель Барабаши-Альберта и т. д.)

Общая оценка: Это исследование имеет важное значение, выявляя серьезные ограничения моделей обучения на временных графах посредством систематической оценки интерпретируемости. Методология исследования строга, выводы имеют практическое значение и предоставляют новую перспективу и направления улучшения для развития области. Хотя в теоретическом анализе и решениях есть место для улучшения, его вклад достаточен для продвижения области в направлении большей интерпретируемости и практичности.