Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
Qi, Do, Liu et al.
Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .
academic
Transformador Ligero e Interpretable mediante Desenrollamiento de Algoritmos de Grafos Mixtos para Predicción de Tráfico
En este artículo se propone un modelo Transformador ligero e interpretable basado en el desenrollamiento de algoritmos de grafos mixtos para predicción de tráfico. A diferencia de los Transformadores tradicionales de "caja negra", este método construye una red neuronal tipo Transformador interpretable mediante el desenrollamiento de algoritmos de optimización de grafos mixtos. El modelo construye dos grafos: un grafo no dirigido Gu que captura correlaciones geoespaciales y un grafo dirigido Gd que captura relaciones temporales. Mediante el diseño de nuevos términos de variación con normas ℓ2 y ℓ1 para cuantificar y promover la suavidad de señales en el grafo dirigido, y basándose en el método de multiplicadores de dirección alternada (ADMM), se diseña un algoritmo iterativo que se desenrolla como una red prealimentada para el aprendizaje de parámetros impulsado por datos. Los experimentos demuestran que el modelo mantiene un rendimiento competitivo en predicción de tráfico mientras reduce significativamente la cantidad de parámetros.
Transformadores Tradicionales: cantidad masiva de parámetros, falta de interpretabilidad, enfrentan restricciones computacionales y de memoria en el despliegue práctico
Métodos Basados en Modelos: frecuentemente procesan dimensiones espaciales y temporales de forma independiente, sin aprovechar plenamente las relaciones espacio-temporales
Métodos de Aprendizaje Profundo Existentes: aunque tienen un rendimiento excelente, siguen siendo modelos de "caja negra" con gran cantidad de parámetros
Primera Propuesta de Desenrollamiento de Algoritmos de Grafos Mixtos: combina grafos no dirigidos (espaciales) y dirigidos (temporales) para modelar relaciones espacio-temporales complejas
Términos de Regularización de Grafos Dirigidos Innovadores: diseña el regularizador de Laplaciano de Grafo Dirigido (DGLR) y la Variación Total de Grafo Dirigido (DGTV)
Transformador Ligero e Interpretable: mediante el desenrollamiento del algoritmo ADMM logra una reducción significativa de parámetros (solo el 6.4% de PDFormer)
Contribución Teórica: demuestra que la definición de frecuencia de grafo dirigido se degenera en frecuencias de Fourier clásicas en el caso de grafos lineales dirigidos sin peso
Dadas observaciones de N estaciones de monitoreo en T+1 momentos pasados, predecir el estado del tráfico en S momentos futuros. La entrada es una señal espacio-temporal parcialmente observada y∈RM, y la salida es una señal espacio-temporal completa x∈RN(T+S+1).
Mediante la introducción de variables auxiliares ϕ, el problema de optimización se transforma en:
minx,ϕ∥y−Hx∥22+μuxTLux+μd,2xTLrdx+μd,1∥ϕ∥1s.t. ϕ=Lrdx
El Teorema 3.1 demuestra que para grafos lineales dirigidos sin peso, el Laplaciano de grafo dirigido simetrizado Lrd=(Lrd)TLrd es equivalente a la matriz de Laplaciano del grafo lineal no dirigido, verificando la razonabilidad de la definición de frecuencia.
El artículo cita múltiples trabajos importantes, incluyendo:
Artículo original de Transformador (Vaswani et al., 2017)
Revisión de desenrollamiento de algoritmos (Monga et al., 2021)
Fundamentos de procesamiento de señales de grafos (Ortega et al., 2018)
Trabajos relacionados con predicción de tráfico (Li et al., 2017; Yu et al., 2018)
Evaluación General: Este es un trabajo innovador en el campo de la predicción de tráfico que extiende exitosamente la idea del desenrollamiento de algoritmos a la configuración de grafos mixtos, logrando una reducción significativa de parámetros mientras mantiene el rendimiento. Aunque hay espacio para mejora en algunos indicadores, sus características de ser ligero e interpretable le confieren un valor práctico y académico importante.