Learning on temporal graphs has become a central topic in graph representation learning, with numerous benchmarks indicating the strong performance of state-of-the-art models. However, recent work has raised concerns about the reliability of benchmark results, noting issues with commonly used evaluation protocols and the surprising competitiveness of simple heuristics. This contrast raises the question of which properties of the underlying graphs temporal graph learning models actually use to form their predictions. We address this by systematically evaluating seven models on their ability to capture eight fundamental attributes related to the link structure of temporal graphs. These include structural characteristics such as density, temporal patterns such as recency, and edge formation mechanisms such as homophily. Using both synthetic and real-world datasets, we analyze how well models learn these attributes. Our findings reveal a mixed picture: models capture some attributes well but fail to reproduce others. With this, we expose important limitations. Overall, we believe that our results provide practical insights for the application of temporal graph learning models, and motivate more interpretability-driven evaluations in temporal graph learning research.
- ID статьи: 2510.09416
- Название: What Do Temporal Graph Learning Models Learn?
- Авторы: Abigail J. Hayes, Tobias Schumacher, Markus Strohmaier
- Классификация: cs.LG cs.SI
- Дата публикации: 10 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.09416
Обучение на временных графах стало центральной темой в представлении графов, и многочисленные тесты демонстрируют сильную производительность современных моделей. Однако недавние исследования подвергли сомнению надежность результатов тестирования, указав на проблемы в общепринятых протоколах оценки и удивительную конкурентоспособность простых эвристических методов. Это противоречие порождает вопрос: какие свойства базового графа фактически используют модели обучения на временных графах для формирования предсказаний? В данной работе этот вопрос решается путем систематической оценки способности семи моделей захватывать восемь фундаментальных свойств, связанных со структурой связей временных графов. Эти свойства включают структурные характеристики, такие как плотность, временные закономерности, такие как недавность, и механизмы формирования связей, такие как гомофилия. Используя синтетические и реальные наборы данных, анализируется эффективность обучения моделей этим свойствам. Результаты исследования представляют смешанную картину: модели хорошо захватывают некоторые свойства, но не могут воспроизвести другие, выявляя важные ограничения.
- Проблемы надежности оценки тестирования: Несмотря на то, что модели обучения на временных графах демонстрируют отличные результаты в различных тестах, недавние исследования выявили недостатки в протоколах оценки, включая проблемы с тестовыми наборами и метриками оценки, приводящие к нереалистичным результатам.
- Конкурентоспособность простых эвристик: Удивительно, что простые эвристические методы, такие как предсказание связей между недавно активными и глобально популярными узлами, показывают производительность, сравнимую со многими современными моделями.
- Отсутствие интерпретируемости моделей: Даже если конкретная модель хорошо работает на данном наборе данных тестирования, остается неясным, какие факторы способствуют этой производительности, и конкретнее, какие свойства графа использует модель для формирования предсказаний.
Данное исследование направлено на пошаговую оценку способности популярных моделей обучения на графах изучать простые, интерпретируемые свойства временных графов, предоставляя практические рекомендации для реальных приложений моделей обучения на временных графах и продвигая более интерпретируемую оценку.
- Предложена новая оценочная система: Систематическая оценка способности моделей обучения на временных графах захватывать интуитивные свойства временных сетей
- Выявлены ограничения существующих моделей: Обнаружены ограничения моделей в различении направления связей, обнаружении циклических закономерностей и выделении недавно наблюдаемой динамики графа
- Предоставлены практические рекомендации: Предложены рекомендации для практического применения глубоких моделей обучения на графах
- Установлены эталоны интерпретируемости: Предоставлены эталоны для более интерпретируемой оценки моделей обучения на временных графах, дополняющие существующие эталоны, ориентированные на производительность
В работе оценивается способность семи современных моделей обучения на временных графах изучать восемь фундаментальных свойств графа:
- Общие характеристики графа: временная гранулярность, направление связей, плотность
- Временные закономерности: персистентность, периодичность, недавность
- Механизмы формирования связей: гомофилия, предпочтительное присоединение
Оценены семь репрезентативных моделей:
- DyGFormer: динамическая модель графа на основе Transformer
- GraphMixer: модель временной сети с упрощенной архитектурой
- DyRep: обучение представлениям на основе рекуррентных нейронных сетей
- JODIE: совместное встраивание динамических пользователей и элементов
- TGN: временная сеть графов
- TCL: моделирование динамического графа на основе Transformer с контрастивным обучением
- TGAT: индуктивное обучение представлениям временных графов
- Реальные наборы данных: сетевая почта Enron, сеть сообщений UCI, сеть редактирования Wikipedia
- Синтетические наборы данных: искусственные графы, разработанные для конкретных свойств, такие как модель случайных блоков (SBM) для тестирования гомофилии, модель Барабаши-Альберта для тестирования предпочтительного присоединения
Для каждого свойства разработаны специализированные эксперименты:
- Использование комбинации синтетических и реальных наборов данных
- Контроль переменных для изоляции влияния конкретного свойства
- Оценка производительности моделей с использованием вероятностных оценок, точности и других метрик
- Систематический метод оценки: Первая систематическая оценка способности моделей временных графов изучать фундаментальные свойства графов
- Многомерный анализ свойств: Охватывает свойства в трех измерениях: структурное, временное и механизм
- Проверка синтетическими данными: Проверка способности моделей изучать конкретные свойства с использованием тщательно разработанных синтетических наборов данных
- Ориентация на интерпретируемость: Оценка моделей с точки зрения интерпретируемости, а не чистой производительности
| Набор данных | Количество узлов | Непрерывные связи | Дискретные связи | Уникальные связи | Дискретные временные шаги |
|---|
| Enron | 184 | 125,235 | 10,472 | 3,125 | 45 (месяцы) |
| UCI | 1,899 | 59,835 | 26,628 | 20,296 | 29 (недели) |
| Wikipedia | 9,277 | 157,474 | 65,085 | 18,257 | 745 (часы) |
- ROC-AUC: для оценки производительности предсказания связей
- Сбалансированная точность: для задач классификации
- Распределение вероятностных оценок: для анализа поведения предсказаний моделей
- Статистика группировки связей: для количественного анализа конкретных свойств
- Скорость обучения: 1e-4
- Размер пакета: 200
- Функция потерь: BCELoss
- Оптимизатор: Adam
- Максимальное количество эпох обучения: 300
- Допуск ранней остановки: 1e-6
- Размерность временных признаков: 100
| Свойство графа | DyGFormer | DyRep | JODIE | GraphMixer | TCL | TGAT | TGN |
|---|
| Временная гранулярность | ∼ | ✓ | ✓ | ✓ | ∼ | ∼ | ✓ |
| Направление | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| Плотность | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| Персистентность | ✓ | ✗ | ✗ | ∼ | ∼ | ✓ | ✗ |
| Периодичность | ✗ | ✗ | ✗ | ✓ | ✓ | ∼ | ∼ |
| Недавность | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ |
| Гомофилия | ✓ | ∼ | ✗ | ∼ | ✓ | ∼ | ∼ |
| Предпочтительное присоединение | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
- Сглаживание временных меток серьезно снижает производительность, указывая на то, что модели действительно используют временную информацию
- GraphMixer и DyRep показывают наибольшее снижение производительности при дискретизации временных меток
- TGAT показывает лучшую производительность на дискретных временных шагах
- Ключевой вывод: Все модели не могут эффективно различать направление связей
- Примерно для 50% связей разница в вероятности предсказания между прямой и обратной связью составляет менее 0,02
- Даже при двусторонней подготовке большинство моделей по-прежнему дают приблизительно симметричные предсказания
- Важное ограничение: Все модели не могут изучить плотность графа
- Предсказанная плотность обычно на несколько порядков ниже реальной плотности
- Модели склонны предсказывать все связи как отрицательные при наблюдении большого количества отрицательных образцов
- DyGFormer и TGAT способны изучать персистентные графы
- JODIE и TGN показывают плохую производительность на этой простой задаче
- GraphMixer и TCL хорошо различают четные и нечетные временные шаги
- DyGFormer не может различить временные шаги, ведя себя аналогично базовой линии EdgeBank
- Удивительный результат: Все модели не выделяют недавно наблюдаемые связи
- Средняя вероятностная оценка связи не изменяется в зависимости от времени последнего наблюдения
- Это контрастирует с успехом эвристических методов, основанных на недавно активных узлах
- DyGFormer и TCL способны сбалансированно предсказывать внутригрупповые связи
- JODIE сильно смещена в сторону группы 0
- Большинство моделей более склонны предсказывать связи внутри группы 1
- Последовательный успех: Все модели изучили предпочтительное присоединение
- Связи высокостепенных узлов получают более высокие средние вероятностные оценки
- Следуют закону распределения степеней по степенному закону
- Temporal Graph Benchmark (TGB): оценка качества временных графовых нейронных сетей
- BenchTemp: тестирование, сосредоточенное на данных временных графов
- Единая система: связь между моделями дискретного и непрерывного времени
- Базовая линия EdgeBank: простая базовая линия с производительностью, сравнимой с современными методами
- Ограничения в изучении временных закономерностей: небольшое влияние возмущения временных меток на производительность
- Успех эвристических методов: эвристики, основанные на популярности и недавней активности, превосходят сложные модели
- Смешанная производительность: Модели хорошо работают на некоторых свойствах (например, предпочтительное присоединение), но имеют серьезные ограничения в других аспектах (например, различение направления, предсказание плотности)
- Последовательные ограничения: Все модели не могут различать направление связей, не выделяют недавность и не могут точно предсказать плотность
- Различия между моделями: Различные модели показывают значительные различия в изучении конкретных свойств, предоставляя рекомендации для выбора моделей в практических приложениях
- Ограничения наборов данных: Из-за широты экспериментов используется ограниченное количество наборов данных, что может не представлять все наборы данных графов, связанные с сетями
- Выбор свойств: Оцениваемые восемь свойств не являются исчерпывающими, и есть другие важные свойства графов, достойные рассмотрения
- Диапазон моделей: Включены только модели непрерывного времени, не охватывая модели для дискретных временных параметров
- Улучшение моделей: Разработка новых моделей для решения выявленных ограничений (плотность, направление, недавность)
- Расширение системы:
- Добавление дополнительных оценок свойств графов
- Включение моделей дискретного времени
- Рассмотрение гетерогенных сетей
- Рекомендации по применению: Рекомендация подходящих моделей для различных сценариев приложений на основе способности изучения свойств
- Высокая систематичность: Первая систематическая оценка моделей обучения на временных графах с точки зрения интерпретируемости, заполняющая важный пробел
- Строгая методология: Комбинация синтетических и реальных наборов данных с контролем переменных обеспечивает надежность результатов
- Важные выводы: Выявление серьезных ограничений кажущихся мощными моделей в изучении фундаментальных свойств имеет важное практическое значение
- Ориентация на применение: Предоставление практических рекомендаций для выбора и применения моделей, а не только сосредоточение на производительности тестирования
- Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа того, почему определенные модели не работают на конкретных свойствах
- Отсутствие решений для улучшения: Основное внимание уделяется выявлению проблем без предоставления конкретных предложений по улучшению или методов
- Ограниченность метрик оценки: Некоторые эксперименты могут требовать более разнообразных метрик оценки для полной оценки способностей моделей
- Академическая ценность: Введение новой перспективы оценки в область обучения на временных графах, которая может повлиять на будущую разработку моделей и стандарты оценки
- Практическая ценность: Предоставление важных рекомендаций для практиков при выборе подходящих моделей, избегая слепого преследования производительности тестирования
- Исследовательское вдохновение: Выявленные ограничения предоставляют четкие направления для улучшения будущих исследований
- Выбор модели: Рекомендации по выбору моделей при необходимости учета таких свойств, как направление связей и предсказание плотности в конкретных приложениях
- Разработка тестирования: Справочная информация для разработки более комплексного тестирования моделей обучения на временных графах
- Разработка моделей: Предоставление целей улучшения и стандартов оценки для разработки новых моделей обучения на временных графах
Статья ссылается на широкий спектр связанных работ, включая:
- Работы по тестированию временных графов (TGB, BenchTemp и т. д.)
- Исследования ограничений моделей обучения на временных графах
- Критические исследования методов оценки обучения на графах
- Классические модели графов (модель случайных блоков, модель Барабаши-Альберта и т. д.)
Общая оценка: Это исследование имеет важное значение, выявляя серьезные ограничения моделей обучения на временных графах посредством систематической оценки интерпретируемости. Методология исследования строга, выводы имеют практическое значение и предоставляют новую перспективу и направления улучшения для развития области. Хотя в теоретическом анализе и решениях есть место для улучшения, его вклад достаточен для продвижения области в направлении большей интерпретируемости и практичности.