2025-11-20T09:28:14.240195

Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast

Qi, Do, Liu et al.
Unlike conventional "black-box" transformers with classical self-attention mechanism, we build a lightweight and interpretable transformer-like neural net by unrolling a mixed-graph-based optimization algorithm to forecast traffic with spatial and temporal dimensions. We construct two graphs: an undirected graph $\mathcal{G}^u$ capturing spatial correlations across geography, and a directed graph $\mathcal{G}^d$ capturing sequential relationships over time. We predict future samples of signal $\mathbf{x}$, assuming it is "smooth" with respect to both $\mathcal{G}^u$ and $\mathcal{G}^d$, where we design new $\ell_2$ and $\ell_1$-norm variational terms to quantify and promote signal smoothness (low-frequency reconstruction) on a directed graph. We design an iterative algorithm based on alternating direction method of multipliers (ADMM), and unroll it into a feed-forward network for data-driven parameter learning. We insert graph learning modules for $\mathcal{G}^u$ and $\mathcal{G}^d$ that play the role of self-attention. Experiments show that our unrolled networks achieve competitive traffic forecast performance as state-of-the-art prediction schemes, while reducing parameter counts drastically. Our code is available in https://github.com/SingularityUndefined/Unrolling-GSP-STForecast .
academic

Transformador Ligero e Interpretable mediante Desenrollamiento de Algoritmos de Grafos Mixtos para Predicción de Tráfico

Información Básica

  • ID del Artículo: 2505.13102
  • Título: Lightweight and Interpretable Transformer via Mixed Graph Algorithm Unrolling for Traffic Forecast
  • Autores: Ji Qi, Mingxiao Liu, Tam Thuc Do, Yuzhe Li, Zhuoshi Pan, Gene Cheung, H. Vicky Zhao
  • Clasificación: cs.LG cs.AI eess.SP
  • Fecha de Publicación: 12 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2505.13102

Resumen

En este artículo se propone un modelo Transformador ligero e interpretable basado en el desenrollamiento de algoritmos de grafos mixtos para predicción de tráfico. A diferencia de los Transformadores tradicionales de "caja negra", este método construye una red neuronal tipo Transformador interpretable mediante el desenrollamiento de algoritmos de optimización de grafos mixtos. El modelo construye dos grafos: un grafo no dirigido Gu\mathcal{G}^u que captura correlaciones geoespaciales y un grafo dirigido Gd\mathcal{G}^d que captura relaciones temporales. Mediante el diseño de nuevos términos de variación con normas 2\ell_2 y 1\ell_1 para cuantificar y promover la suavidad de señales en el grafo dirigido, y basándose en el método de multiplicadores de dirección alternada (ADMM), se diseña un algoritmo iterativo que se desenrolla como una red prealimentada para el aprendizaje de parámetros impulsado por datos. Los experimentos demuestran que el modelo mantiene un rendimiento competitivo en predicción de tráfico mientras reduce significativamente la cantidad de parámetros.

Antecedentes y Motivación de la Investigación

Definición del Problema

La predicción de tráfico es un problema importante de modelado de datos espacio-temporales que requiere capturar simultáneamente:

  1. Correlación Espacial: la correlación entre estaciones de monitoreo ubicadas geográficamente cerca
  2. Dependencia Temporal: la relación de influencia de observaciones históricas en el futuro

Limitaciones de Métodos Existentes

  1. Transformadores Tradicionales: cantidad masiva de parámetros, falta de interpretabilidad, enfrentan restricciones computacionales y de memoria en el despliegue práctico
  2. Métodos Basados en Modelos: frecuentemente procesan dimensiones espaciales y temporales de forma independiente, sin aprovechar plenamente las relaciones espacio-temporales
  3. Métodos de Aprendizaje Profundo Existentes: aunque tienen un rendimiento excelente, siguen siendo modelos de "caja negra" con gran cantidad de parámetros

Motivación de la Investigación

  1. Necesidad urgente de modelos ligeros en aplicaciones industriales
  2. El desenrollamiento de algoritmos proporciona un nuevo paradigma que combina enfoques impulsados por modelos y por datos
  3. Los trabajos existentes solo utilizan grafos no dirigidos positivos, sin poder modelar efectivamente relaciones espacio-temporales complejas

Contribuciones Principales

  1. Primera Propuesta de Desenrollamiento de Algoritmos de Grafos Mixtos: combina grafos no dirigidos (espaciales) y dirigidos (temporales) para modelar relaciones espacio-temporales complejas
  2. Términos de Regularización de Grafos Dirigidos Innovadores: diseña el regularizador de Laplaciano de Grafo Dirigido (DGLR) y la Variación Total de Grafo Dirigido (DGTV)
  3. Transformador Ligero e Interpretable: mediante el desenrollamiento del algoritmo ADMM logra una reducción significativa de parámetros (solo el 6.4% de PDFormer)
  4. Contribución Teórica: demuestra que la definición de frecuencia de grafo dirigido se degenera en frecuencias de Fourier clásicas en el caso de grafos lineales dirigidos sin peso

Explicación Detallada del Método

Definición de la Tarea

Dadas observaciones de N estaciones de monitoreo en T+1 momentos pasados, predecir el estado del tráfico en S momentos futuros. La entrada es una señal espacio-temporal parcialmente observada yRMy \in \mathbb{R}^M, y la salida es una señal espacio-temporal completa xRN(T+S+1)x \in \mathbb{R}^{N(T+S+1)}.

Construcción de Grafos Mixtos

Grafo No Dirigido Gu\mathcal{G}^u

  • Conecta nodos de ubicaciones geográficamente cercanas en el mismo momento
  • Captura correlación espacial
  • Utiliza matriz de adyacencia simétrica WuW^u

Grafo Dirigido Gd\mathcal{G}^d

  • Conecta nodos del mismo sitio desde el momento τ\tau a los momentos τ+1,...,τ+W\tau+1, ..., \tau+W
  • Captura relaciones causales temporales
  • Utiliza matriz de adyacencia no simétrica WdW^d

Diseño de Términos de Variación de Grafo Dirigido

Término de Norma 2\ell_2: Regularizador de Laplaciano de Grafo Dirigido (DGLR)

xTLrdx=xT(Lrd)TLrdx=xWrdx22x^T\mathcal{L}_r^d x = x^T(L_r^d)^T L_r^d x = \|x - W_r^d x\|_2^2

donde Lrd=IWrdL_r^d = I - W_r^d es la matriz de Laplaciano de paseo aleatorio y Wrd=(Dd)1WdW_r^d = (D^d)^{-1}W^d es la matriz de adyacencia normalizada por filas.

Término de Norma 1\ell_1: Variación Total de Grafo Dirigido (DGTV)

Lrdx1=jSˉxjiwj,ixi\|L_r^d x\|_1 = \sum_{j \in \bar{S}} |x_j - \sum_i w_{j,i} x_i|

Función Objetivo de Optimización

minxyHx22+μuxTLux+μd,2xTLrdx+μd,1Lrdx1\min_x \|y - Hx\|_2^2 + \mu_u x^T L^u x + \mu_{d,2} x^T \mathcal{L}_r^d x + \mu_{d,1} \|L_r^d x\|_1

donde HH es la matriz de muestreo y μu,μd,2,μd,1\mu_u, \mu_{d,2}, \mu_{d,1} son parámetros de peso.

Diseño del Algoritmo ADMM

Mediante la introducción de variables auxiliares ϕ\phi, el problema de optimización se transforma en: minx,ϕyHx22+μuxTLux+μd,2xTLrdx+μd,1ϕ1\min_{x,\phi} \|y - Hx\|_2^2 + \mu_u x^T L^u x + \mu_{d,2} x^T \mathcal{L}_r^d x + \mu_{d,1} \|\phi\|_1s.t. ϕ=Lrdx\text{s.t. } \phi = L_r^d x

Resolución de Subproblemas

  1. Subproblema xx: se resuelve mediante el método del gradiente conjugado para sistemas lineales
  2. Subproblema ϕ\phi: operación de umbralización suave ϕiτ+1=sign(δ)max(δρ1μd,1,0)\phi_i^{\tau+1} = \text{sign}(\delta) \cdot \max(|\delta| - \rho^{-1}\mu_{d,1}, 0) donde δ=(Lrd)ixτ+1ρ1γiτ\delta = (L_r^d)_i x^{\tau+1} - \rho^{-1}\gamma_i^\tau

Módulo de Aprendizaje de Grafos

Aprendizaje de Grafo No Dirigido (UGL)

Se utiliza la distancia de Mahalanobis para calcular la similitud entre nodos: du(i,j)=(fiufju)TM(fiufju)d^u(i,j) = (f_i^u - f_j^u)^T M (f_i^u - f_j^u)

Los pesos de las aristas se calculan mediante una función exponencial normalizada: wi,ju=exp(du(i,j))lNiexp(du(i,l))kNjexp(du(k,j))w_{i,j}^u = \frac{\exp(-d^u(i,j))}{\sqrt{\sum_{l \in \mathcal{N}_i} \exp(-d^u(i,l))} \sqrt{\sum_{k \in \mathcal{N}_j} \exp(-d^u(k,j))}}

Aprendizaje de Grafo Dirigido (DGL)

De forma similar, se utiliza una matriz de métrica PP para calcular los pesos de aristas dirigidas.

Arquitectura de la Red

Cada iteración de ADMM se implementa como una capa neuronal:

  • 5 bloques ADMM, cada uno con 25 capas
  • Inserción de módulo de aprendizaje de grafos antes de cada bloque
  • Utilización de mecanismo de atención multicabeza (4 módulos de aprendizaje de grafos paralelos)

Configuración Experimental

Conjuntos de Datos

  • METR-LA: datos de velocidad de tráfico de Los Ángeles, 207 nodos, 1315 aristas
  • PEMS03: datos de flujo de tráfico, 358 nodos, 547 aristas
  • Intervalo de muestreo: 5 minutos
  • División de datos: 6:2:2 (entrenamiento:validación:prueba)

Métricas de Evaluación

  • RMSE: raíz del error cuadrático medio
  • MAE: error absoluto medio
  • MAPE: error porcentual absoluto medio

Métodos de Comparación

Incluye 6 categorías de métodos de referencia:

  • Basados en modelos: VAR
  • Métodos GNN: STGCN, STSGCN
  • Métodos GAT: GMAN, ST-Wave
  • Métodos Transformador: PDFormer, STAEformer
  • Métodos de grafo adaptativo: Graph WaveNet, AGCRN
  • Modelos lineales simples: STID, SimpleTM

Detalles de Implementación

  • Duración de predicción: 30/60/120 minutos (6/12/24 pasos)
  • Ventana histórica: 60 minutos (12 pasos)
  • Optimizador: Adam, tasa de aprendizaje 5×10⁻⁴
  • Función de pérdida: pérdida de Huber (δ=1)
  • Hardware: NVIDIA GeForce RTX 3090

Resultados Experimentales

Resultados Principales

Conjunto de DatosDuraciónMétodo PropuestoMejor ReferenciaComparación de Parámetros
PEMS0330min26.10/17.03/18.8523.71/15.05/18.1634K vs 531K
PEMS0360min27.67/17.46/17.7225.56/15.97/15.49(6.4% de parámetros)
METR-LA60min12.34/5.18/11.8011.96/5.49/9.65

Hallazgos Clave

  1. Eficiencia de Parámetros: utiliza solo el 6.4% de los parámetros de PDFormer mientras logra un rendimiento competitivo
  2. Ventaja en Predicción a Largo Plazo: cuanto más larga es la duración de predicción, menor es la brecha de rendimiento con el mejor método
  3. Eficiencia de Datos: rendimiento más estable en casos de escasez de datos

Experimento de Ablación

VariantePEMS03 (RMSE/MAE/MAPE)METR-LA (RMSE/MAE/MAPE)
Modelo Completo27.67/17.46/17.7212.34/5.18/11.80
Sin DGTV27.78/17.85/17.9012.36/5.40/12.31
Sin DGLR30.89/20.02/21.1012.41/5.35/12.20
Grafo Temporal No Dirigido27.52/17.87/18.8212.51/5.42/12.11

Los resultados demuestran que:

  • El término DGLR es más crítico para la mejora del rendimiento
  • El término DGTV también contribuye significativamente
  • El modelado de grafo dirigido es superior al modelado de grafo no dirigido

Verificación Teórica

El Teorema 3.1 demuestra que para grafos lineales dirigidos sin peso, el Laplaciano de grafo dirigido simetrizado Lrd=(Lrd)TLrd\mathcal{L}_r^d = (L_r^d)^T L_r^d es equivalente a la matriz de Laplaciano del grafo lineal no dirigido, verificando la razonabilidad de la definición de frecuencia.

Trabajos Relacionados

Modelos Ligeros

  • Modelos de lenguaje grande: adaptación de bajo rango LoRA, cuantificación de parámetros
  • Mejora de voz: atención automática local causal
  • Procesamiento de imágenes: procesamiento separado de canales YUV

Métodos de Predicción de Tráfico

  1. Métodos GNN: STGCN, Graph WaveNet, etc., enfocados en modelado espacial
  2. Métodos Transformador: Transformadores duales que procesan dimensiones espacio-temporales por separado
  3. Modelos Lineales Simples: cuestionan la efectividad de modelos complejos

Desenrollamiento de Algoritmos

  • Desenrolla iteraciones de algoritmos de optimización como capas neuronales
  • Combina interpretabilidad matemática con capacidad impulsada por datos
  • Aplicaciones exitosas en procesamiento de imágenes

Conclusiones y Discusión

Conclusiones Principales

  1. El desenrollamiento de algoritmos de grafos mixtos logra exitosamente un modelo de predicción de tráfico ligero e interpretable
  2. Los términos de variación de grafo dirigido capturan efectivamente relaciones causales temporales
  3. Se reduce significativamente la cantidad de parámetros mientras se mantiene un rendimiento competitivo

Limitaciones

  1. Restricción de Distancia: la distancia de Mahalanobis aprendida es no negativa, mientras que la autoatención tradicional puede ser negativa
  2. Escasez de Grafos: la limitación de conexiones de carreteras reales restringe la conectividad del grafo
  3. Ventana Temporal Fija: la ventana temporal predefinida puede no ser lo suficientemente flexible

Direcciones Futuras

  1. Extensión a distancias con signo y modelado de grafos más complejos
  2. Aprendizaje de ventanas temporales adaptativas
  3. Aplicación a otras tareas de predicción espacio-temporal

Evaluación Profunda

Ventajas

  1. Innovación Teórica: primera definición de concepto de frecuencia para grafos dirigidos y diseño de términos de regularización correspondientes
  2. Método Novedoso: el desenrollamiento de algoritmos de grafos mixtos proporciona una nueva perspectiva para el diseño de Transformadores
  3. Valor Práctico: la reducción significativa de parámetros tiene importancia considerable para el despliegue práctico
  4. Interpretabilidad: cada capa corresponde a una iteración del algoritmo de optimización con significado matemático claro

Insuficiencias

  1. Compensación de Rendimiento: en algunos indicadores aún no supera los mejores métodos de referencia
  2. Rango de Aplicabilidad: principalmente validado en predicción de tráfico, la generalización a otras tareas espacio-temporales es desconocida
  3. Análisis Teórico: carece de análisis teórico sobre convergencia y complejidad

Impacto

  1. Contribución Académica: proporciona nuevas perspectivas para procesamiento de señales de grafos y diseño de Transformadores
  2. Valor Práctico: la característica ligera es adecuada para computación de borde y entornos con recursos limitados
  3. Reproducibilidad: proporciona código de código abierto con configuración experimental detallada

Escenarios Aplicables

  1. Entornos con Recursos Limitados: dispositivos móviles, computación de borde
  2. Sistemas de Predicción en Tiempo Real: sistemas de gestión de tráfico que requieren respuesta rápida
  3. Aplicaciones de IA Interpretable: sistemas críticos para la seguridad que requieren transparencia del modelo

Referencias

El artículo cita múltiples trabajos importantes, incluyendo:

  • Artículo original de Transformador (Vaswani et al., 2017)
  • Revisión de desenrollamiento de algoritmos (Monga et al., 2021)
  • Fundamentos de procesamiento de señales de grafos (Ortega et al., 2018)
  • Trabajos relacionados con predicción de tráfico (Li et al., 2017; Yu et al., 2018)

Evaluación General: Este es un trabajo innovador en el campo de la predicción de tráfico que extiende exitosamente la idea del desenrollamiento de algoritmos a la configuración de grafos mixtos, logrando una reducción significativa de parámetros mientras mantiene el rendimiento. Aunque hay espacio para mejora en algunos indicadores, sus características de ser ligero e interpretable le confieren un valor práctico y académico importante.