Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
Qi, Do, Liu et al.
Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .
academic
Leichter und interpretierbarer Transformer durch gemischtes Graphen-Algorithmus-Unrolling für Verkehrsprognose
Diese Arbeit präsentiert ein leichtes und interpretierbares Transformer-Modell basierend auf gemischtem Graphen-Algorithmus-Unrolling für Verkehrsprognosen. Im Gegensatz zu traditionellen „Black-Box"-Transformern wird ein interpretierbares Transformer-ähnliches neuronales Netzwerk durch das Unrolling eines gemischten Graphen-Optimierungsalgorithmus konstruiert. Das Modell konstruiert zwei Graphen: ein ungerichteter Graph Gu erfasst geographisch-räumliche Korrelationen, ein gerichteter Graph Gd erfasst zeitliche Beziehungen. Durch die Gestaltung neuer ℓ2- und ℓ1-Norm-Variationsterme werden Signalglätte auf dem gerichteten Graphen quantifiziert und gefördert. Basierend auf der Alternating Direction Method of Multipliers (ADMM) wird ein iterativer Algorithmus entworfen und als Feedforward-Netzwerk für datengesteuerte Parameterlernvorgänge entfaltet. Experimente zeigen, dass das Modell die Anzahl der Parameter erheblich reduziert, während es wettbewerbsfähige Verkehrsprognose-Leistung beibehält.
Traditionelle Transformer: Enorme Parametermenge, mangelnde Interpretierbarkeit, Herausforderungen bei Berechnungs- und Speicherbeschränkungen in der praktischen Bereitstellung
Modellbasierte Methoden: Behandeln räumliche und zeitliche Dimensionen oft unabhängig, nutzen raumzeitliche Beziehungen nicht vollständig
Bestehende Deep-Learning-Methoden: Obwohl leistungsstark, sind sie immer noch „Black-Box"-Modelle mit großer Parametermenge
Erstmalige Vorschlag gemischter Graphen-Algorithmus-Unrolling: Kombiniert ungerichtete Graphen (räumlich) und gerichtete Graphen (zeitlich) zur Modellierung komplexer raumzeitlicher Beziehungen
Innovative gerichtete Graphen-Regularisierungsterme: Entwurf von gerichteter Graphen-Laplace-Regularisierung (DGLR) und gerichteter Graphen-Totalvariation (DGTV)
Leichter interpretierbarer Transformer: Durch ADMM-Algorithmus-Unrolling erreichte massive Parameterreduktion (nur 6,4% von PDFormer)
Theoretischer Beitrag: Beweis, dass die gerichtete Graphen-Frequenzdefinition im Fall ungewichteter gerichteter Liniengraphen zu klassischen Fourier-Frequenzen degeneriert
Gegeben sind Beobachtungen von N Überwachungsstationen über T+1 vergangene Zeitpunkte; die Aufgabe besteht darin, den Verkehrszustand für die nächsten S Zeitpunkte vorherzusagen. Die Eingabe ist ein teilweise beobachtetes raumzeitliches Signal y∈RM, die Ausgabe ist ein vollständiges raumzeitliches Signal x∈RN(T+S+1).
Theorem 3.1 beweist: Für ungewichtete gerichtete Liniengraphen ist die symmetrisierte gerichtete Graphen-Laplace-Matrix Lrd=(Lrd)TLrd äquivalent zur Laplace-Matrix des ungerichteten Liniengraphen, was die Rationalität der Frequenzdefinition bestätigt.
Das Paper zitiert mehrere wichtige Arbeiten, einschließlich:
Originales Transformer-Paper (Vaswani et al., 2017)
Algorithmus-Unrolling-Übersicht (Monga et al., 2021)
Grundlagen der Graphen-Signalverarbeitung (Ortega et al., 2018)
Verwandte Arbeiten zur Verkehrsprognose (Li et al., 2017; Yu et al., 2018)
Gesamtbewertung: Dies ist eine innovative Arbeit im Bereich der Verkehrsprognose, die erfolgreich die Algorithmus-Unrolling-Idee auf gemischte Graphen-Einstellungen erweitert und dabei die Parametermenge erheblich reduziert, während die Leistung beibehalten wird. Obwohl bei einigen Metriken noch Verbesserungsspielraum besteht, machen die leichten und interpretierbaren Eigenschaften diese Arbeit von großem praktischem Wert und akademischer Bedeutung.