2025-11-16T10:43:13.528960

PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning

García-Sigüenza, Nanni, Llorens-Largo et al.
This work addresses the challenge of using a deep learning model to prune graphs and the ability of this method to integrate explainability into spatio-temporal problems through a new approach. Instead of applying explainability to the model's behavior, we seek to gain a better understanding of the problem itself. To this end, we propose a novel model that integrates an optimized pruning mechanism capable of removing nodes from the graph during the training process, rather than doing so as a separate procedure. This integration allows the architecture to learn how to minimize prediction error while selecting the most relevant nodes. Thus, during training, the model searches for the most relevant subset of nodes, obtaining the most important elements of the problem, facilitating its analysis. To evaluate the proposed approach, we used several widely used traffic datasets, comparing the accuracy obtained by pruning with the model and with other methods. The experiments demonstrate that our method is capable of retaining a greater amount of information as the graph reduces in size compared to the other methods used. These results highlight the potential of pruning as a tool for developing models capable of simplifying spatio-temporal problems, thereby obtaining their most important elements.
academic

PruneGCRN: Минимизация и объяснение пространственно-временных задач посредством удаления узлов

Основная информация

  • ID статьи: 2510.10803
  • Название: PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning
  • Авторы: Javier García-Sigüenza, Mirco Nanni, Faraón Llorens-Largo, José F. Vicent
  • Классификация: cs.LG cs.AI
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10803

Аннотация

В данном исследовании решаются проблемы, связанные с применением методов удаления узлов в графах при использовании моделей глубокого обучения, а также интеграцией интерпретируемости в пространственно-временные задачи. В отличие от применения интерпретируемости к поведению модели, данная работа направлена на лучшее понимание самой задачи. Для этого предложена новая модель, интегрирующая оптимизированный механизм удаления узлов, способный удалять узлы из графа во время обучения, а не как отдельный этап постобработки. Такая интеграция позволяет архитектуре обучаться выбору наиболее релевантных узлов при одновременной минимизации ошибки предсказания. Таким образом, во время обучения модель ищет наиболее релевантное подмножество узлов, выявляя наиболее важные элементы задачи, что облегчает анализ.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает проблемы интерпретируемости в задачах пространственно-временного предсказания, особенно в приложениях, таких как прогнозирование дорожного движения. Традиционные методы интерпретируемости сосредоточены на понимании поведения модели, тогда как данная работа предлагает новую парадигму: понимание самой задачи посредством выявления её наиболее важных элементов.

Значимость проблемы

  1. Потребность в прозрачности ИИ: С широким распространением ИИ, особенно в высокорисковых областях (медицина, финансы, автономное вождение), интерпретируемость становится критически важной
  2. Сложность пространственно-временных задач: Пространственно-временные модели, объединяющие графовые нейронные сети (GNN) и рекуррентные нейронные сети (RNN), обладают высокой сложностью, что затрудняет применение традиционных методов интерпретируемости
  3. Практическая ценность: При прогнозировании дорожного движения выявление наиболее важных местоположений датчиков имеет большое значение для городского планирования и управления трафиком

Ограничения существующих методов

  1. Механизмы внимания: Страдают от проблемы "композиционных ярлыков", могут фокусироваться на нерелевантных токенах
  2. Прототипные сети: Применимы в основном к задачам классификации, не включают временное измерение
  3. Нечёткие системы: Низкая точность, повышенная сложность при комбинировании с глубоким обучением
  4. Апостериорные методы интерпретируемости: Обычно снижают производительность, сосредоточены в основном на пространственном измерении

Основные вклады

  1. Предложение модели PruneGCRN: Новая графовая сверточная рекуррентная сеть с интегрированным механизмом удаления узлов
  2. Инновационная парадигма интерпретируемости: Переход от понимания поведения модели к пониманию самой задачи
  3. Удаление узлов во время обучения: Интеграция выбора узлов в процесс обучения, а не как отдельный этап постобработки
  4. Техника Binary Clamp: Предложен более простой и эффективный метод генерации масок по сравнению с Hard Concrete
  5. Экспериментальная валидация: Проверка метода на нескольких наборах данных о дорожном движении

Подробное описание метода

Определение задачи

Для заданной последовательности пространственно-временного графа, где каждый узел представляет пространственное местоположение (например, датчик дорожного движения), задача заключается в:

  1. Предсказании значений узлов на будущих временных шагах
  2. Одновременном обучении маске, выявляющей подмножество узлов, наиболее важных для предсказания
  3. Минимизации количества используемых узлов при сохранении точности предсказания

Архитектура модели

Модель PruneGCRN содержит два основных модуля:

1. Модуль адаптивного обучения параметров узлов (NAPL)

Модуль NAPL обучает фильтры, специфичные для узлов, посредством встраивания узлов:

Θ = EN · WN
b = EN · bN

где:

  • EN ∈ R^(n×d): матрица встраивания узлов
  • WN ∈ R^(d×c×f): общие веса
  • bN: общее смещение

Модифицированная операция графовой свёртки:

Z = (IN + D^(-1/2)AD^(-1/2))XENWN + ENbN

2. Модуль обучения графа с удалением (PGL)

Модуль PGL генерирует маску M̃ для выбора узлов:

Процесс генерации маски:

  1. Raw Mask: Инициализация маски с плавающей точкой значениями 1
  2. Binary Clamp: Установка значений <0 в 0, значений >0 в 1
  3. Inverse Mask: Вычисление обратной маски
  4. Graph Bias: Обучение альтернативных значений для замаскированных узлов

Преимущества Binary Clamp:

  • Проще, чем Hard Concrete
  • Согласованное поведение во время обучения и валидации
  • Одношаговая оптимизация выбора узлов

3. Полная архитектура PruneGCRN

Интеграция модулей NAPL и PGL в GRU:

zt = σ(L̃[X̃:,t, ht-1]ENWzr + Ebzr)
rt = σ(In[X̃:,t, ht-1]ENWzr + Ebzr)  
ĥt = tanh([In + L̃][X̃:,t, r ⊙ ht-1]ENWĥ + ENbĥ)
ht = zt ⊙ ĥt-1 + (1-zt) ⊙ ĥt-1

Технические инновации

  1. Удаление узлов во время обучения: В отличие от традиционной постобработки, PruneGCRN одновременно оптимизирует точность предсказания и выбор узлов во время обучения
  2. Механизм Binary Clamp: По сравнению с Hard Concrete, используемым в SEGCRN, обеспечивает более стабильную и простую генерацию масок
  3. Интерпретируемость, ориентированная на задачу: Сосредоточена на выявлении ключевых элементов задачи, а не поведения модели
  4. Совместная оптимизация: Одновременный учёт ошибки предсказания и количества используемых узлов через функцию потерь

Экспериментальная установка

Наборы данных

Использованы 5 широко применяемых наборов данных о дорожном движении:

Набор данныхКоличество датчиковВременной диапазонХарактеристики
PeMSD33582018.9.9-11.30Объём трафика с интервалом 5 минут
PeMSD43072018.1.1-2.28Объём трафика с интервалом 5 минут
PeMSD78832017.5.1-2018.8.31Объём трафика с интервалом 5 минут
PeMSD81702018.7.1-8.31Объём трафика с интервалом 5 минут
PeMS-Bay3252017.1.1-5.31Включает географическую информацию

Метрики оценки

  1. Точность предсказания: MAE, RMSE, MAPE
  2. Разреженность: Sparsity = 1 - m/M (m — количество рёбер подграфа, M — количество рёбер исходного графа)
  3. Вычислительная эффективность: Время предсказания и использование памяти

Методы сравнения

  • Random: Случайный выбор узлов в качестве базовой линии
  • Correlation: Выбор наиболее независимых узлов на основе корреляции
  • PruneGCRN: Предложенный метод

Детали реализации

  • Оптимизатор: RAdam
  • Разделение данных: 6:2:2 (обучение:валидация:тестирование)
  • Размер пакета: 32
  • Скорость обучения: 0.001
  • Ранняя остановка: 25 эпох

Результаты экспериментов

Основные результаты

Сравнение производительности при различных коэффициентах удаления показывает:

Ключевые выводы:

  1. Низкий коэффициент удаления (25%): Метод на основе корреляции показывает лучшие результаты на некоторых наборах данных
  2. Средний коэффициент удаления (50%): PruneGCRN начинает демонстрировать преимущества
  3. Высокий коэффициент удаления (75%-95%): PruneGCRN последовательно показывает лучшие результаты

Пример повышения производительности (набор данных PeMSD4, удаление 75%):

  • PruneGCRN MAE: 21.88
  • Correlation MAE: 23.49
  • Random MAE: 22.93

Анализ вычислительной эффективности

Коэффициент удаленияСокращение времениСокращение памяти
50%~40%~50%
75%~55%~70%
95%~70%>90%

Результаты пространственного анализа

Посредством географической визуализации на наборе данных PeMS-Bay:

  1. Паттерны выбора узлов: Модель имеет тенденцию выбирать узлы в точках пересечения автомагистралей
  2. Пространственная корреляция: Анализ индекса Морана показывает отсутствие значительной корреляции между ошибками и пространственным расстоянием (p-значение >0.05)
  3. Согласованность: При 10 различных обучениях некоторые узлы выбираются последовательно (1 узел выбран в 100% случаев, 5 узлов выбраны в 90% и более случаев)

Абляционные исследования

Посредством сравнения различных методов генерации масок подтверждены:

  1. Преимущества Binary Clamp по сравнению с Hard Concrete
  2. Преимущества интеграции удаления во время обучения по сравнению с постобработкой
  3. Важность адаптивного обучения параметров узлов

Связанные работы

Модели пространственно-временного предсказания

  • DCRNN: Диффузионная сверточная рекуррентная нейронная сеть
  • Graph WaveNet: Стопка расширенных 1D свёрток с GCN
  • STGCN: Пространственно-временная графовая сверточная сеть
  • AGCRN: Адаптивная графовая сверточная рекуррентная сеть (основа данной работы)

Методы интерпретируемости

  1. Механизмы внимания: Ограниченная интерпретируемость
  2. Прототипные сети: Применимы к классификации, отсутствует временное измерение
  3. Нечёткие системы: Низкая точность
  4. SEGCRN: Самообъясняющаяся модель с фокусом на удаление рёбер

Методы удаления графов

  • FastGCN: Вероятностная выборка
  • GraphSAGE: Выборка на уровне узлов
  • DyGNN: Удаление на основе сходства

Заключение и обсуждение

Основные выводы

  1. PruneGCRN успешно реализует удаление узлов во время обучения, значительно превосходя базовые методы при высоких коэффициентах удаления
  2. Предложенный механизм Binary Clamp проще и эффективнее, чем Hard Concrete
  3. Модель способна выявлять ключевые элементы задачи, обеспечивая интерпретируемость, ориентированную на задачу
  4. Значительно снижает потребление вычислительных ресурсов при сохранении точности предсказания

Ограничения

  1. Ограничения наборов данных: Валидация проведена в основном на данных о дорожном движении, обобщаемость на другие области требует проверки
  2. Чувствительность к гиперпараметрам: Параметр γ значительно влияет на производительность
  3. Оценка интерпретируемости: Отсутствуют стандартизированные метрики оценки интерпретируемости
  4. Временная сложность: Хотя время предсказания сокращается, время обучения может увеличиться

Направления будущих исследований

  1. Приложения в нескольких областях: Расширение на социальные сети, потребление электроэнергии и другие пространственно-временные задачи
  2. Теоретический анализ: Обеспечение теоретических гарантий эффективности удаления
  3. Динамическое удаление: Динамическая корректировка выбора узлов в зависимости от временных изменений
  4. Многоуровневое удаление: Комбинирование удаления рёбер и удаления узлов

Глубокая оценка

Сильные стороны

  1. Высокая инновационность: Впервые предложена парадигма интерпретируемости, ориентированная на задачу
  2. Надёжная техника: Механизм Binary Clamp хорошо спроектирован, решает проблемы Hard Concrete
  3. Полные эксперименты: Валидация на нескольких наборах данных, включая пространственный анализ и проверку согласованности
  4. Высокая практическая ценность: Прямое применение в управлении трафиком и других областях

Недостатки

  1. Теоретическая база: Отсутствует теоретический анализ того, почему удаление узлов обеспечивает интерпретируемость задачи
  2. Стандарты оценки: Оценка интерпретируемости в основном опирается на визуализацию и статистический анализ, отсутствуют количественные метрики
  3. Недостаточное сравнение: Ограниченное сравнение с другими методами интерпретируемости
  4. Анализ чувствительности: Недостаточный анализ чувствительности к гиперпараметру γ

Влияние

  1. Научный вклад: Открывает новое направление в исследовании интерпретируемости пространственно-временных задач
  2. Практическая ценность: Имеет важное применение в умных городах, управлении трафиком и других областях
  3. Методологическое значение: Подход от объяснения модели к объяснению задачи имеет эвристическое значение

Применимые сценарии

  1. Прогнозирование дорожного движения: Выявление критических точек мониторинга
  2. Оптимизация сенсорных сетей: Определение наиболее важных местоположений датчиков
  3. Распределение ресурсов: Развёртывание моделей при ограниченных вычислительных ресурсах
  4. Городское планирование: Планирование инфраструктуры на основе данных

Библиография

Статья ссылается на 61 связанную работу, охватывающую множество областей, включая объяснимый ИИ, графовые нейронные сети и пространственно-временное предсказание, обеспечивая надёжную теоретическую базу для исследования.


Общая оценка: Это высококачественная исследовательская работа на пересечении пространственно-временного предсказания и объяснимого ИИ. Хотя в теоретическом анализе и стандартах оценки есть место для улучшения, инновационная парадигма интерпретируемости, ориентированная на задачу, и практические технические решения придают ей значительную научную и прикладную ценность.