2025-11-16T10:43:13.528960

PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning

GarcÃa-SigÃ¼enza, Nanni, Llorens-Largo et al.

This work addresses the challenge of using a deep learning model to prune graphs and the ability of this method to integrate explainability into spatio-temporal problems through a new approach. Instead of applying explainability to the model's behavior, we seek to gain a better understanding of the problem itself. To this end, we propose a novel model that integrates an optimized pruning mechanism capable of removing nodes from the graph during the training process, rather than doing so as a separate procedure. This integration allows the architecture to learn how to minimize prediction error while selecting the most relevant nodes. Thus, during training, the model searches for the most relevant subset of nodes, obtaining the most important elements of the problem, facilitating its analysis. To evaluate the proposed approach, we used several widely used traffic datasets, comparing the accuracy obtained by pruning with the model and with other methods. The experiments demonstrate that our method is capable of retaining a greater amount of information as the graph reduces in size compared to the other methods used. These results highlight the potential of pruning as a tool for developing models capable of simplifying spatio-temporal problems, thereby obtaining their most important elements.

academic

PruneGCRN : Minimisation et explication des problèmes spatio-temporels par élagage de nœuds

Informations de base

ID de l'article : 2510.10803
Titre : PruneGCRN: Minimizing and explaining spatio-temporal problems through node pruning
Auteurs : Javier García-Sigüenza, Mirco Nanni, Faraón Llorens-Largo, José F. Vicent
Classification : cs.LG cs.AI
Date de publication : 14 octobre 2025 (préimpression arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10803

Résumé

Cette étude aborde les défis de l'élagage de graphes utilisant des modèles d'apprentissage profond et la capacité à intégrer l'interprétabilité dans les problèmes spatio-temporels. Contrairement à l'application de l'interprétabilité au comportement du modèle, cet article cherche à mieux comprendre le problème lui-même. À cette fin, un modèle novateur est proposé, intégrant un mécanisme d'élagage optimisé capable de supprimer des nœuds du graphe pendant l'entraînement, plutôt que comme programme distinct. Cette intégration permet à l'architecture d'apprendre comment minimiser l'erreur de prédiction tout en sélectionnant les nœuds les plus pertinents. Par conséquent, pendant l'entraînement, le modèle recherche le sous-ensemble de nœuds le plus pertinent, identifiant les éléments les plus importants du problème, facilitant ainsi l'analyse.

Contexte et motivation de la recherche

Définition du problème

Cette étude aborde principalement les défis d'interprétabilité dans les problèmes de prédiction spatio-temporelle, en particulier dans les applications telles que la prédiction du trafic. Les méthodes d'interprétabilité traditionnelles se concentrent principalement sur la compréhension du comportement du modèle, tandis que cet article propose un nouveau paradigme : comprendre le problème lui-même en identifiant ses éléments les plus importants.

Importance du problème

Besoin de transparence de l'IA : Avec l'application généralisée de l'IA, en particulier dans les domaines à haut risque (médecine, finance, conduite autonome), l'interprétabilité devient cruciale
Complexité des problèmes spatio-temporels : Les modèles spatio-temporels combinant les réseaux de neurones graphiques (GNN) et les réseaux de neurones récurrents (RNN) présentent une complexité élevée, rendant les méthodes d'interprétabilité traditionnelles difficiles à appliquer
Valeur pratique : Dans la prédiction du trafic, l'identification des emplacements de capteurs les plus importants est essentielle pour la planification urbaine et la gestion du trafic

Limitations des méthodes existantes

Mécanismes d'attention : Problème de « raccourcis compositionnels », pouvant se concentrer sur des jetons non pertinents
Réseaux de prototypes : Principalement adaptés aux tâches de classification, ne contenant pas la dimension temporelle
Systèmes flous : Précision plus faible, complexité accrue lorsqu'ils sont combinés avec l'apprentissage profond
Méthodes d'interprétabilité a posteriori : Endommagent généralement les performances et se concentrent principalement sur la dimension spatiale

Contributions principales

Proposition du modèle PruneGCRN : Un réseau de neurones graphiques récurrent novateur intégrant un mécanisme d'élagage de nœuds
Paradigme d'interprétabilité innovant : Transition de la compréhension du comportement du modèle à la compréhension du problème lui-même
Élagage intégré à l'entraînement : Intégration de la sélection de nœuds dans le processus d'entraînement, plutôt que comme étape de post-traitement indépendante
Technique Binary Clamp : Proposition d'une méthode de génération de masque plus simple et efficace que Hard Concrete
Validation expérimentale : Vérification de l'efficacité de la méthode sur plusieurs ensembles de données de trafic

Détails de la méthode

Définition de la tâche

Étant donné une séquence de graphes spatio-temporels, où chaque nœud représente une localisation spatiale (par exemple, un capteur de trafic), la tâche consiste à :

Prédire les valeurs des nœuds pour les pas de temps futurs
Apprendre simultanément un masque identifiant le sous-ensemble de nœuds le plus important pour la prédiction
Minimiser le nombre de nœuds utilisés tout en maintenant la précision de prédiction

Architecture du modèle

Le modèle PruneGCRN contient deux modules principaux :

1. Module d'apprentissage des paramètres adaptatifs aux nœuds (NAPL)

Le module NAPL apprend des filtres spécifiques à des motifs par intégration de nœuds :

Θ = EN · WN
b = EN · bN

Où :

EN ∈ R^(n×d) : matrice d'intégration de nœuds
WN ∈ R^(d×c×f) : poids partagés
bN : biais partagé

L'opération de convolution graphique modifiée est :

Z = (IN + D^(-1/2)AD^(-1/2))XENWN + ENbN

2. Module d'apprentissage de graphe élagué (PGL)

Le module PGL génère un masque M̃ pour la sélection de nœuds :

Processus de génération de masque :

Masque brut : Masque de valeurs flottantes initialisé à 1
Binary Clamp : Définir les valeurs <0 à 0, les valeurs >0 à 1
Masque inverse : Calculer le masque inverse
Biais graphique : Apprendre des valeurs de substitution pour les nœuds masqués

Avantages de Binary Clamp :

Plus simple que Hard Concrete
Comportement cohérent pendant l'entraînement et la validation
Optimisation en une seule étape de la sélection de nœuds

3. Architecture complète de PruneGCRN

Intégration des modules NAPL et PGL dans un GRU :

zt = σ(L̃[X̃:,t, ht-1]ENWzr + Ebzr)
rt = σ(In[X̃:,t, ht-1]ENWzr + Ebzr)  
ĥt = tanh([In + L̃][X̃:,t, r ⊙ ht-1]ENWĥ + ENbĥ)
ht = zt ⊙ ĥt-1 + (1-zt) ⊙ ĥt-1

Points d'innovation technique

Élagage de nœuds à l'entraînement : Contrairement à l'élagage post-traitement traditionnel, PruneGCRN optimise simultanément la précision de prédiction et la sélection de nœuds pendant l'entraînement
Mécanisme Binary Clamp : Comparé à Hard Concrete utilisé par SEGCRN, fournit une génération de masque plus stable et simple
Interprétabilité orientée vers le problème : Se concentre sur l'identification des éléments clés du problème plutôt que sur le comportement du modèle
Optimisation conjointe : Considère simultanément l'erreur de prédiction et la quantité de nœuds utilisés via la fonction de perte

Configuration expérimentale

Ensembles de données

Utilisation de 5 ensembles de données de trafic largement adoptés :

Ensemble de données	Nombre de capteurs	Plage temporelle	Caractéristiques
PeMSD3	358	2018.9.9-11.30	Volume de trafic à intervalle de 5 minutes
PeMSD4	307	2018.1.1-2.28	Volume de trafic à intervalle de 5 minutes
PeMSD7	883	2017.5.1-2018.8.31	Volume de trafic à intervalle de 5 minutes
PeMSD8	170	2018.7.1-8.31	Volume de trafic à intervalle de 5 minutes
PeMS-Bay	325	2017.1.1-5.31	Inclut les informations de localisation géographique

Métriques d'évaluation

Précision de prédiction : MAE, RMSE, MAPE
Parcimonie : Sparsity = 1 - m/M (m = nombre d'arêtes du sous-graphe, M = nombre d'arêtes du graphe original)
Efficacité computationnelle : Temps de prédiction et utilisation de la mémoire

Méthodes de comparaison

Random : Sélection aléatoire de nœuds comme référence
Correlation : Sélection des nœuds les plus indépendants basée sur la corrélation
PruneGCRN : Méthode proposée dans cet article

Détails d'implémentation

Optimiseur : RAdam
Division des données : 6:2:2 (entraînement:validation:test)
Taille de lot : 32
Taux d'apprentissage : 0,001
Arrêt précoce : 25 itérations

Résultats expérimentaux

Résultats principaux

La comparaison des performances à différents taux d'élagage montre :

Découvertes clés :

Taux d'élagage faible (25%) : La méthode de corrélation affiche les meilleures performances sur certains ensembles de données
Taux d'élagage moyen (50%) : PruneGCRN commence à montrer des avantages
Taux d'élagage élevé (75%-95%) : PruneGCRN affiche constamment les meilleures performances

Exemple d'amélioration de performance (ensemble de données PeMSD4, élagage de 75%) :

PruneGCRN MAE : 21,88
Correlation MAE : 23,49
Random MAE : 22,93

Analyse de l'efficacité computationnelle

Taux d'élagage	Réduction de temps	Réduction de mémoire
50%	~40%	~50%
75%	~55%	~70%
95%	~70%	>90%

Résultats d'analyse spatiale

Par le biais d'une analyse de visualisation géographique de l'ensemble de données PeMS-Bay :

Motifs de sélection de nœuds : Le modèle tend à sélectionner les nœuds aux intersections d'autoroutes
Corrélation spatiale : L'analyse de l'indice de Moran montre aucune corrélation significative entre l'erreur et la distance spatiale (valeur p > 0,05)
Cohérence : Sur 10 entraînements différents, certains nœuds sont sélectionnés de manière cohérente (1 nœud sélectionné 100%, 5 nœuds sélectionnés >90%)

Études d'ablation

Par la comparaison de différentes méthodes de génération de masque, validation de :

Les avantages de Binary Clamp par rapport à Hard Concrete
Les avantages de l'élagage intégré à l'entraînement par rapport à l'élagage post-traitement
L'importance de l'apprentissage des paramètres adaptatifs aux nœuds

Travaux connexes

Modèles de prédiction spatio-temporelle

DCRNN : Réseau de neurones récurrent à convolution diffuse
Graph WaveNet : Convolution 1D dilatée empilée avec GCN
STGCN : Réseau de convolution graphique spatio-temporel
AGCRN : Réseau de neurones récurrent à convolution graphique adaptative (base de cet article)

Techniques d'interprétabilité

Mécanismes d'attention : Limitations d'interprétabilité
Réseaux de prototypes : Adaptés à la classification, manquent de dimension temporelle
Systèmes flous : Précision plus faible
SEGCRN : Modèle auto-explicatif axé sur l'élagage d'arêtes

Méthodes d'élagage de graphes

FastGCN : Échantillonnage probabiliste
GraphSAGE : Échantillonnage au niveau des nœuds
DyGNN : Élagage basé sur la similarité

Conclusion et discussion

Conclusions principales

PruneGCRN réalise avec succès l'élagage de nœuds à l'entraînement, surpassant significativement les méthodes de référence à des taux d'élagage élevés
Le mécanisme Binary Clamp proposé est plus simple et efficace que Hard Concrete
Le modèle peut identifier les éléments clés du problème, fournissant une interprétabilité orientée vers le problème
Réduit considérablement les ressources computationnelles nécessaires tout en maintenant la précision de prédiction

Limitations

Limitations des ensembles de données : Validation principalement sur les données de trafic, la généralisation à d'autres domaines reste à vérifier
Sensibilité aux hyperparamètres : Le paramètre γ a un impact significatif sur les performances
Évaluation de l'interprétabilité : Absence de métriques d'évaluation d'interprétabilité standardisées
Complexité temporelle : Bien que le temps de prédiction soit réduit, le temps d'entraînement peut augmenter

Directions futures

Applications multi-domaines : Extension aux réseaux sociaux, consommation d'électricité et autres problèmes spatio-temporels
Analyse théorique : Fournir des garanties théoriques sur l'efficacité de l'élagage
Élagage dynamique : Ajustement dynamique de la sélection de nœuds en fonction des variations temporelles
Élagage multi-granularité : Combinaison de l'élagage d'arêtes et d'élagage de nœuds

Évaluation approfondie

Points forts

Innovation forte : Premier paradigme d'interprétabilité orienté vers le problème proposé
Technique solide : Conception ingénieuse du mécanisme Binary Clamp, résolvant les problèmes de Hard Concrete
Expérimentation complète : Validation sur plusieurs ensembles de données, incluant analyse spatiale et vérification de cohérence
Valeur pratique élevée : Application directe dans des domaines tels que la gestion du trafic

Insuffisances

Fondements théoriques : Manque d'analyse théorique sur pourquoi l'élagage de nœuds fournit l'interprétabilité du problème
Normes d'évaluation : L'évaluation de l'interprétabilité repose principalement sur la visualisation et l'analyse statistique, manquant de métriques quantitatives
Comparaisons insuffisantes : Comparaisons limitées avec d'autres méthodes d'interprétabilité
Sensibilité aux paramètres : Analyse insuffisante de la sensibilité au hyperparamètre γ

Impact

Contribution académique : Ouvre une nouvelle direction pour la recherche en interprétabilité des problèmes spatio-temporels
Valeur pratique : Perspectives d'application importantes dans les villes intelligentes, la gestion du trafic et autres domaines
Signification méthodologique : L'approche de transition de l'interprétation du modèle à l'interprétation du problème est inspirante

Scénarios applicables

Prédiction du trafic : Identification des points de surveillance critiques
Optimisation des réseaux de capteurs : Détermination des emplacements de capteurs les plus importants
Allocation de ressources : Déploiement de modèles avec ressources computationnelles limitées
Planification urbaine : Planification d'infrastructure basée sur les données

Références

L'article cite 61 références connexes, couvrant plusieurs domaines importants incluant l'IA explicable, les réseaux de neurones graphiques et la prédiction spatio-temporelle, fournissant une base théorique solide pour la recherche.

Évaluation globale : Ceci est un travail de recherche de haute qualité dans le domaine interdisciplinaire de la prédiction spatio-temporelle et de l'IA explicable. Bien qu'il y ait une marge d'amélioration dans l'analyse théorique et les normes d'évaluation, son paradigme d'interprétabilité innovant orienté vers le problème et sa solution technique pratique lui confèrent une valeur académique et applicative importante.