Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
Qi, Do, Liu et al.
Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .
academic
Transformateur Léger et Interprétable via Déroulement d'Algorithme de Graphe Mixte pour la Prévision du Trafic
Cet article propose un modèle Transformateur léger et interprétable basé sur le déroulement d'algorithme de graphe mixte pour la prévision du trafic. Contrairement aux Transformateurs traditionnels de type « boîte noire », cette méthode construit un réseau de neurones de type Transformateur interprétable en déroulant un algorithme d'optimisation de graphe mixte. Le modèle construit deux graphes : un graphe non orienté Gu capturant les corrélations géospatiales et un graphe orienté Gd capturant les relations temporelles. En concevant de nouveaux termes de variation de normes ℓ2 et ℓ1 pour quantifier et promouvoir la régularité du signal sur le graphe orienté, et en basant un algorithme itératif sur la méthode des multiplicateurs de direction alternée (ADMM), le modèle est déroulé en réseau avant pour l'apprentissage des paramètres piloté par les données. Les expériences montrent que ce modèle maintient des performances compétitives en prévision du trafic tout en réduisant considérablement le nombre de paramètres.
Transformateurs traditionnels : nombre de paramètres énorme, manque d'interprétabilité, contraintes de calcul et de mémoire lors du déploiement pratique
Méthodes basées sur des modèles : traitent souvent indépendamment les dimensions spatiales et temporelles, n'exploitent pas pleinement les relations spatio-temporelles
Méthodes d'apprentissage profond existantes : bien que performantes, restent des modèles « boîte noire » avec un grand nombre de paramètres
Besoin urgent de modèles légers pour les applications industrielles
Le déroulement d'algorithme (Algorithm Unrolling) offre un nouveau paradigme combinant approches pilotées par modèles et pilotées par données
Les travaux existants n'utilisent que des graphes non orientés symétriques, incapables de modéliser efficacement les relations spatio-temporelles complexes
Première proposition de déroulement d'algorithme de graphe mixte : combine graphe non orienté (spatial) et graphe orienté (temporel) pour modéliser les relations spatio-temporelles complexes
Termes de régularisation de graphe orienté innovants : conçoit le régulariseur de Laplacien de graphe orienté (DGLR) et la variation totale de graphe orienté (DGTV)
Transformateur léger et interprétable : réalise une réduction massive des paramètres (seulement 6,4% de PDFormer) via déroulement d'algorithme ADMM
Contribution théorique : prouve que la définition de fréquence de graphe orienté se réduit à la fréquence de Fourier classique dans le cas de graphes linéaires orientés non pondérés
Étant donné les observations de N stations de surveillance à T+1 instants passés, prédire l'état du trafic pour les S instants futurs. L'entrée est un signal spatio-temporel partiellement observé y∈RM, la sortie est un signal spatio-temporel complet x∈RN(T+S+1).
En introduisant une variable auxiliaire ϕ, le problème d'optimisation est transformé en :
minx,ϕ∥y−Hx∥22+μuxTLux+μd,2xTLrdx+μd,1∥ϕ∥1s.c. ϕ=Lrdx
Le Théorème 3.1 prouve que pour un graphe linéaire orienté non pondéré, le Laplacien de graphe orienté symétrisé Lrd=(Lrd)TLrd est équivalent à la matrice de Laplacien du graphe linéaire non orienté, validant la rationalité de la définition de fréquence.
L'article cite plusieurs travaux importants, notamment :
Article original Transformer (Vaswani et al., 2017)
Synthèse du déroulement d'algorithme (Monga et al., 2021)
Fondamentaux du traitement de signal graphique (Ortega et al., 2018)
Travaux connexes en prévision du trafic (Li et al., 2017; Yu et al., 2018)
Évaluation Globale : Ceci est un travail innovant dans le domaine de la prévision du trafic qui étend avec succès l'idée de déroulement d'algorithme au cadre de graphe mixte, réduisant considérablement le nombre de paramètres tout en maintenant les performances. Bien qu'il y ait encore place à amélioration sur certaines métriques, ses caractéristiques légères et interprétables lui confèrent une valeur pratique et une signification académique importantes.