Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
Qi, Do, Liu et al.
Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .
academic
Transformer Leggero e Interpretabile tramite Algoritmo di Grafo Misto Srotolato per la Previsione del Traffico
Questo articolo propone un modello Transformer leggero e interpretabile basato sullo srotolamento di algoritmi di grafo misto per la previsione del traffico. A differenza dei Transformer tradizionali "scatola nera", questo metodo costruisce una rete neurale di tipo Transformer interpretabile srotolando algoritmi di ottimizzazione di grafo misto. Il modello costruisce due grafi: un grafo non orientato Gu che cattura le correlazioni geospaziali e un grafo orientato Gd che cattura le relazioni temporali. Progettando nuovi termini variazionali con norma ℓ2 e ℓ1 per quantificare e promuovere la levigatezza del segnale sul grafo orientato, e basandosi sul metodo dei moltiplicatori di direzione alternata (ADMM), l'articolo progetta un algoritmo iterativo che viene srotolato come rete feedforward per l'apprendimento dei parametri guidato dai dati. Gli esperimenti dimostrano che il modello mantiene prestazioni competitive nella previsione del traffico riducendo significativamente il numero di parametri.
Transformer Tradizionali: numero enorme di parametri, mancanza di interpretabilità, vincoli computazionali e di memoria nella distribuzione pratica
Metodi Basati su Modelli: tendono a elaborare indipendentemente le dimensioni spaziali e temporali, non sfruttando pienamente le relazioni spazio-temporali
Metodi di Deep Learning Esistenti: sebbene con prestazioni eccellenti, rimangono modelli "scatola nera" con un gran numero di parametri
Prima proposta di srotolamento di algoritmi di grafo misto: combina grafi non orientati (spaziali) e grafi orientati (temporali) per modellare relazioni spazio-temporali complesse
Termini di regolarizzazione innovativi per grafi orientati: progetta il regolarizzatore di Laplaciano di grafo orientato (DGLR) e la variazione totale di grafo orientato (DGTV)
Transformer leggero e interpretabile: realizza una riduzione significativa dei parametri (solo il 6,4% di PDFormer) tramite srotolamento dell'algoritmo ADMM
Contributo Teorico: dimostra che la definizione di frequenza di grafo orientato si riduce a frequenze di Fourier classiche nel caso di grafi lineari orientati non ponderati
Dato N stazioni di monitoraggio con osservazioni in T+1 istanti di tempo precedenti, prevedere lo stato del traffico nei successivi S istanti di tempo. L'input è un segnale spazio-temporale parzialmente osservato y∈RM, l'output è un segnale spazio-temporale completo x∈RN(T+S+1).
Il Teorema 3.1 dimostra che per grafi lineari orientati non ponderati, il Laplaciano di grafo orientato simmetrizzato Lrd=(Lrd)TLrd è equivalente alla matrice di Laplaciano del grafo lineare non orientato, verificando la razionalità della definizione di frequenza.
Compromesso di Prestazioni: in alcuni indicatori rimane ancora inferiore ai migliori metodi di base
Ambito di Applicabilità: principalmente validato sulla previsione del traffico, la generalizzabilità ad altri compiti spazio-temporali rimane sconosciuta
Analisi Teorica: mancano analisi teoriche di convergenza e complessità
L'articolo cita numerosi lavori importanti, inclusi:
Articolo originale su Transformer (Vaswani et al., 2017)
Rassegna su srotolamento di algoritmi (Monga et al., 2021)
Fondamenti di elaborazione di segnali di grafo (Ortega et al., 2018)
Lavori correlati sulla previsione del traffico (Li et al., 2017; Yu et al., 2018)
Valutazione Complessiva: Questo è un lavoro innovativo nel campo della previsione del traffico che estende con successo il concetto di srotolamento di algoritmi a impostazioni di grafo misto, riducendo significativamente il numero di parametri mantenendo le prestazioni. Sebbene vi sia ancora spazio per miglioramenti in alcuni indicatori, le caratteristiche di leggerezza e interpretabilità conferiscono a questo lavoro un importante valore pratico e significato accademico.