2025-11-20T09:28:14.240195

Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast

Qi, Do, Liu et al.

Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .

academic

Transformador Ligero e Interpretable mediante Desenrollamiento de Algoritmos de Grafos Mixtos para Predicción de Tráfico

Información Básica

ID del Artículo: 2505.13102
Título: Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
Autores: Ji Qi, Mingxiao Liu, Tam Thuc Do, Yuzhe Li, Zhuoshi Pan, Gene Cheung, H. Vicky Zhao
Clasificación: cs.LG cs.AI eess.SP
Fecha de Publicación: 12 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2505.13102

Resumen

En este artículo se propone un modelo Transformador ligero e interpretable basado en el desenrollamiento de algoritmos de grafos mixtos para predicción de tráfico. A diferencia de los Transformadores tradicionales de "caja negra", este método construye una red neuronal tipo Transformador interpretable mediante el desenrollamiento de algoritmos de optimización de grafos mixtos. El modelo construye dos grafos: un grafo no dirigido $\mathcal{G}^u$ que captura correlaciones geoespaciales y un grafo dirigido $\mathcal{G}^d$ que captura relaciones temporales. Mediante el diseño de nuevos términos de variación con normas $\ell_2$ y $\ell_1$ para cuantificar y promover la suavidad de señales en el grafo dirigido, y basándose en el método de multiplicadores de dirección alternada (ADMM), se diseña un algoritmo iterativo que se desenrolla como una red prealimentada para el aprendizaje de parámetros impulsado por datos. Los experimentos demuestran que el modelo mantiene un rendimiento competitivo en predicción de tráfico mientras reduce significativamente la cantidad de parámetros.

Antecedentes y Motivación de la Investigación

Definición del Problema

La predicción de tráfico es un problema importante de modelado de datos espacio-temporales que requiere capturar simultáneamente:

Correlación Espacial: la correlación entre estaciones de monitoreo ubicadas geográficamente cerca
Dependencia Temporal: la relación de influencia de observaciones históricas en el futuro

Limitaciones de Métodos Existentes

Transformadores Tradicionales: cantidad masiva de parámetros, falta de interpretabilidad, enfrentan restricciones computacionales y de memoria en el despliegue práctico
Métodos Basados en Modelos: frecuentemente procesan dimensiones espaciales y temporales de forma independiente, sin aprovechar plenamente las relaciones espacio-temporales
Métodos de Aprendizaje Profundo Existentes: aunque tienen un rendimiento excelente, siguen siendo modelos de "caja negra" con gran cantidad de parámetros

Motivación de la Investigación

Necesidad urgente de modelos ligeros en aplicaciones industriales
El desenrollamiento de algoritmos proporciona un nuevo paradigma que combina enfoques impulsados por modelos y por datos
Los trabajos existentes solo utilizan grafos no dirigidos positivos, sin poder modelar efectivamente relaciones espacio-temporales complejas

Contribuciones Principales

Primera Propuesta de Desenrollamiento de Algoritmos de Grafos Mixtos: combina grafos no dirigidos (espaciales) y dirigidos (temporales) para modelar relaciones espacio-temporales complejas
Términos de Regularización de Grafos Dirigidos Innovadores: diseña el regularizador de Laplaciano de Grafo Dirigido (DGLR) y la Variación Total de Grafo Dirigido (DGTV)
Transformador Ligero e Interpretable: mediante el desenrollamiento del algoritmo ADMM logra una reducción significativa de parámetros (solo el 6.4% de PDFormer)
Contribución Teórica: demuestra que la definición de frecuencia de grafo dirigido se degenera en frecuencias de Fourier clásicas en el caso de grafos lineales dirigidos sin peso

Explicación Detallada del Método

Definición de la Tarea

Dadas observaciones de N estaciones de monitoreo en T+1 momentos pasados, predecir el estado del tráfico en S momentos futuros. La entrada es una señal espacio-temporal parcialmente observada $y \in \mathbb{R}^M$ , y la salida es una señal espacio-temporal completa $x \in \mathbb{R}^{N(T+S+1)}$ .

Construcción de Grafos Mixtos

Grafo No Dirigido $\mathcal{G}^u$

Conecta nodos de ubicaciones geográficamente cercanas en el mismo momento
Captura correlación espacial
Utiliza matriz de adyacencia simétrica $W^u$

Grafo Dirigido $\mathcal{G}^d$

Conecta nodos del mismo sitio desde el momento $\tau$ a los momentos $\tau+1, ..., \tau+W$
Captura relaciones causales temporales
Utiliza matriz de adyacencia no simétrica $W^d$

Diseño de Términos de Variación de Grafo Dirigido

Término de Norma $\ell_2$ : Regularizador de Laplaciano de Grafo Dirigido (DGLR)

$x^T\mathcal{L}_r^d x = x^T(L_r^d)^T L_r^d x = \|x - W_r^d x\|_2^2$

donde $L_r^d = I - W_r^d$ es la matriz de Laplaciano de paseo aleatorio y $W_r^d = (D^d)^{-1}W^d$ es la matriz de adyacencia normalizada por filas.

Término de Norma $\ell_1$ : Variación Total de Grafo Dirigido (DGTV)

$\|L_r^d x\|_1 = \sum_{j \in \bar{S}} |x_j - \sum_i w_{j,i} x_i|$

Función Objetivo de Optimización

$\min_x \|y - Hx\|_2^2 + \mu_u x^T L^u x + \mu_{d,2} x^T \mathcal{L}_r^d x + \mu_{d,1} \|L_r^d x\|_1$

donde $H$ es la matriz de muestreo y $\mu_u, \mu_{d,2}, \mu_{d,1}$ son parámetros de peso.

Diseño del Algoritmo ADMM

Mediante la introducción de variables auxiliares $\phi$ , el problema de optimización se transforma en: $\min_{x,\phi} \|y - Hx\|_2^2 + \mu_u x^T L^u x + \mu_{d,2} x^T \mathcal{L}_r^d x + \mu_{d,1} \|\phi\|_1$ $\text{s.t. } \phi = L_r^d x$

Resolución de Subproblemas

Subproblema $x$ : se resuelve mediante el método del gradiente conjugado para sistemas lineales
Subproblema $\phi$ : operación de umbralización suave $\phi_i^{\tau+1} = \text{sign}(\delta) \cdot \max(|\delta| - \rho^{-1}\mu_{d,1}, 0)$ donde $\delta = (L_r^d)_i x^{\tau+1} - \rho^{-1}\gamma_i^\tau$

Módulo de Aprendizaje de Grafos

Aprendizaje de Grafo No Dirigido (UGL)

Se utiliza la distancia de Mahalanobis para calcular la similitud entre nodos: $d^u(i,j) = (f_i^u - f_j^u)^T M (f_i^u - f_j^u)$

Los pesos de las aristas se calculan mediante una función exponencial normalizada: $w_{i,j}^u = \frac{\exp(-d^u(i,j))}{\sqrt{\sum_{l \in \mathcal{N}_i} \exp(-d^u(i,l))} \sqrt{\sum_{k \in \mathcal{N}_j} \exp(-d^u(k,j))}}$

Aprendizaje de Grafo Dirigido (DGL)

De forma similar, se utiliza una matriz de métrica $P$ para calcular los pesos de aristas dirigidas.

Arquitectura de la Red

Cada iteración de ADMM se implementa como una capa neuronal:

5 bloques ADMM, cada uno con 25 capas
Inserción de módulo de aprendizaje de grafos antes de cada bloque
Utilización de mecanismo de atención multicabeza (4 módulos de aprendizaje de grafos paralelos)

Configuración Experimental

Conjuntos de Datos

METR-LA: datos de velocidad de tráfico de Los Ángeles, 207 nodos, 1315 aristas
PEMS03: datos de flujo de tráfico, 358 nodos, 547 aristas
Intervalo de muestreo: 5 minutos
División de datos: 6:2:2 (entrenamiento:validación:prueba)

Métricas de Evaluación

RMSE: raíz del error cuadrático medio
MAE: error absoluto medio
MAPE: error porcentual absoluto medio

Métodos de Comparación

Incluye 6 categorías de métodos de referencia:

Basados en modelos: VAR
Métodos GNN: STGCN, STSGCN
Métodos GAT: GMAN, ST-Wave
Métodos Transformador: PDFormer, STAEformer
Métodos de grafo adaptativo: Graph WaveNet, AGCRN
Modelos lineales simples: STID, SimpleTM

Detalles de Implementación

Duración de predicción: 30/60/120 minutos (6/12/24 pasos)
Ventana histórica: 60 minutos (12 pasos)
Optimizador: Adam, tasa de aprendizaje 5×10⁻⁴
Función de pérdida: pérdida de Huber (δ=1)
Hardware: NVIDIA GeForce RTX 3090

Resultados Experimentales

Resultados Principales

Conjunto de Datos	Duración	Método Propuesto	Mejor Referencia	Comparación de Parámetros
PEMS03	30min	26.10/17.03/18.85	23.71/15.05/18.16	34K vs 531K
PEMS03	60min	27.67/17.46/17.72	25.56/15.97/15.49	(6.4% de parámetros)
METR-LA	60min	12.34/5.18/11.80	11.96/5.49/9.65

Hallazgos Clave

Eficiencia de Parámetros: utiliza solo el 6.4% de los parámetros de PDFormer mientras logra un rendimiento competitivo
Ventaja en Predicción a Largo Plazo: cuanto más larga es la duración de predicción, menor es la brecha de rendimiento con el mejor método
Eficiencia de Datos: rendimiento más estable en casos de escasez de datos

Experimento de Ablación

Variante	PEMS03 (RMSE/MAE/MAPE)	METR-LA (RMSE/MAE/MAPE)
Modelo Completo	27.67/17.46/17.72	12.34/5.18/11.80
Sin DGTV	27.78/17.85/17.90	12.36/5.40/12.31
Sin DGLR	30.89/20.02/21.10	12.41/5.35/12.20
Grafo Temporal No Dirigido	27.52/17.87/18.82	12.51/5.42/12.11

Los resultados demuestran que:

El término DGLR es más crítico para la mejora del rendimiento
El término DGTV también contribuye significativamente
El modelado de grafo dirigido es superior al modelado de grafo no dirigido

Verificación Teórica

El Teorema 3.1 demuestra que para grafos lineales dirigidos sin peso, el Laplaciano de grafo dirigido simetrizado $\mathcal{L}_r^d = (L_r^d)^T L_r^d$ es equivalente a la matriz de Laplaciano del grafo lineal no dirigido, verificando la razonabilidad de la definición de frecuencia.

Trabajos Relacionados

Modelos Ligeros

Modelos de lenguaje grande: adaptación de bajo rango LoRA, cuantificación de parámetros
Mejora de voz: atención automática local causal
Procesamiento de imágenes: procesamiento separado de canales YUV

Métodos de Predicción de Tráfico

Métodos GNN: STGCN, Graph WaveNet, etc., enfocados en modelado espacial
Métodos Transformador: Transformadores duales que procesan dimensiones espacio-temporales por separado
Modelos Lineales Simples: cuestionan la efectividad de modelos complejos

Desenrollamiento de Algoritmos

Desenrolla iteraciones de algoritmos de optimización como capas neuronales
Combina interpretabilidad matemática con capacidad impulsada por datos
Aplicaciones exitosas en procesamiento de imágenes

Conclusiones y Discusión

Conclusiones Principales

El desenrollamiento de algoritmos de grafos mixtos logra exitosamente un modelo de predicción de tráfico ligero e interpretable
Los términos de variación de grafo dirigido capturan efectivamente relaciones causales temporales
Se reduce significativamente la cantidad de parámetros mientras se mantiene un rendimiento competitivo

Limitaciones

Restricción de Distancia: la distancia de Mahalanobis aprendida es no negativa, mientras que la autoatención tradicional puede ser negativa
Escasez de Grafos: la limitación de conexiones de carreteras reales restringe la conectividad del grafo
Ventana Temporal Fija: la ventana temporal predefinida puede no ser lo suficientemente flexible

Direcciones Futuras

Extensión a distancias con signo y modelado de grafos más complejos
Aprendizaje de ventanas temporales adaptativas
Aplicación a otras tareas de predicción espacio-temporal

Evaluación Profunda

Ventajas

Innovación Teórica: primera definición de concepto de frecuencia para grafos dirigidos y diseño de términos de regularización correspondientes
Método Novedoso: el desenrollamiento de algoritmos de grafos mixtos proporciona una nueva perspectiva para el diseño de Transformadores
Valor Práctico: la reducción significativa de parámetros tiene importancia considerable para el despliegue práctico
Interpretabilidad: cada capa corresponde a una iteración del algoritmo de optimización con significado matemático claro

Insuficiencias

Compensación de Rendimiento: en algunos indicadores aún no supera los mejores métodos de referencia
Rango de Aplicabilidad: principalmente validado en predicción de tráfico, la generalización a otras tareas espacio-temporales es desconocida
Análisis Teórico: carece de análisis teórico sobre convergencia y complejidad

Impacto

Contribución Académica: proporciona nuevas perspectivas para procesamiento de señales de grafos y diseño de Transformadores
Valor Práctico: la característica ligera es adecuada para computación de borde y entornos con recursos limitados
Reproducibilidad: proporciona código de código abierto con configuración experimental detallada

Escenarios Aplicables

Entornos con Recursos Limitados: dispositivos móviles, computación de borde
Sistemas de Predicción en Tiempo Real: sistemas de gestión de tráfico que requieren respuesta rápida
Aplicaciones de IA Interpretable: sistemas críticos para la seguridad que requieren transparencia del modelo

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

Artículo original de Transformador (Vaswani et al., 2017)
Revisión de desenrollamiento de algoritmos (Monga et al., 2021)
Fundamentos de procesamiento de señales de grafos (Ortega et al., 2018)
Trabajos relacionados con predicción de tráfico (Li et al., 2017; Yu et al., 2018)

Evaluación General: Este es un trabajo innovador en el campo de la predicción de tráfico que extiende exitosamente la idea del desenrollamiento de algoritmos a la configuración de grafos mixtos, logrando una reducción significativa de parámetros mientras mantiene el rendimiento. Aunque hay espacio para mejora en algunos indicadores, sus características de ser ligero e interpretable le confieren un valor práctico y académico importante.