2025-11-20T12:34:13.863172

CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting

Yao, Zhao, Zheng et al.

Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.

academic

CaReTS: Un Marco Multi-Tarea Unificando Clasificación y Regresión para Predicción de Series Temporales

Información Básica

ID del Artículo: 2511.09789
Título: CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
Autores: Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 12 de noviembre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2511.09789

Resumen

El aprendizaje profundo ha logrado avances significativos en predicción de series temporales, pero los métodos existentes a menudo tienen dificultades para proporcionar información interpretable sobre la dinámica temporal mientras ofrecen predicciones precisas. Este artículo propone CaReTS, un marco de aprendizaje multi-tarea que combina tareas de clasificación y regresión para predicción de series temporales multisecuencial. El marco adopta una arquitectura de doble flujo: la rama de clasificación aprende tendencias futuras paso a paso, mientras que la rama de regresión estima desviaciones relativas a la observación más reciente. Este diseño proporciona predicciones más interpretables mediante el desacoplamiento de tendencias macroscópicas y desviaciones microscópicas. Para lograr un aprendizaje efectivo, se diseña una función de pérdida multi-tarea basada en incertidumbre que equilibra adaptativamente las contribuciones de cada tarea. El artículo instancia cuatro variantes (CaReTS1-4), combinadas con codificadores de modelado temporal convencionales (CNN, LSTM, Transformer). Los experimentos demuestran que CaReTS supera los algoritmos de última generación tanto en precisión predictiva como en rendimiento de clasificación de tendencias.

Contexto de Investigación y Motivación

1. Problema a Resolver

La predicción de series temporales es un problema fundamental en gestión energética, análisis financiero, monitoreo médico y modelado climático. La predicción multisecuencial es especialmente crítica, pero enfrenta dos desafíos principales:

Disminución de precisión: La precisión predictiva típicamente se reduce conforme aumenta el horizonte temporal
Interpretabilidad insuficiente: En escenarios de alto riesgo, la falta de transparencia del modelo reduce la confianza

2. Importancia del Problema

La predicción multisecuencial es crucial para capturar dinámicas temporales a corto y largo plazo del sistema, permitiendo tomar decisiones informadas. Sin embargo, aunque los modelos de aprendizaje profundo existentes mejoran la precisión, aún presentan deficiencias significativas en interpretabilidad, limitando su confiabilidad en aplicaciones prácticas.

3. Limitaciones de Métodos Existentes

Paradigma de regresión única: La mayoría de modelos de predicción profunda modelan la predicción como una única tarea de regresión, enfocándose únicamente en predicción numérica
Acoplamiento de tendencia y desviación: Difícil desacoplar tendencias macroscópicas (como trayectorias ascendentes/descendentes) y desviaciones microscópicas
Falta de modelado explícito de tendencias: Aunque modelos como Autoformer y FEDformer introducen mecanismos de descomposición, operan principalmente en capas de entrada o representación, sin separar explícitamente tendencias y amplitudes en la capa de salida

4. Motivación de la Investigación

La perspectiva central de este trabajo es que descomponer la predicción de series temporales en dos tareas complementarias —clasificación de tendencias (dirección) y regresión de desviaciones (amplitud)— puede mejorar simultáneamente la precisión predictiva y la interpretabilidad. Este desacoplamiento a nivel de salida proporciona una nueva perspectiva de aprendizaje multi-tarea.

Contribuciones Principales

Diseño de Arquitectura de Doble Flujo: Se propone el marco CaReTS con arquitectura de doble flujo, donde la rama de clasificación predice tendencias macroscópicas paso a paso y la rama de regresión estima desviaciones de grano fino relativas a la observación más reciente
Aprendizaje Multi-Tarea Consciente de Incertidumbre: Se diseña una función de pérdida multi-tarea basada en incertidumbre que optimiza conjuntamente tareas de clasificación y regresión mediante ponderación adaptativa, evitando ajuste manual de parámetros
Generalidad del Marco: Se instancian cuatro variantes (CaReTS1-4) que pueden combinarse con codificadores temporales convencionales (CNN, LSTM, Transformer), demostrando amplia compatibilidad del marco
Mejora de Rendimiento e Interpretabilidad Mejorada: Se logra precisión predictiva de última generación en conjuntos de datos reales, con precisión de clasificación de tendencias superior al 91% y sobrecarga computacional controlable

Explicación Detallada del Método

Definición de Tareas

Entrada: Serie temporal $\mathbf{x} = \{x_1, x_2, \ldots, x_n\}$ , donde $x_n$ es la observación más reciente de la variable objetivo
Salida: Predicción de K pasos futuros $\hat{\mathbf{y}} = \{\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_K\}$
Idea Central: Descomponer cada predicción de paso en dirección de tendencia $d^{(k)}$ y amplitud de desviación $\delta^{(k)}$

Arquitectura del Modelo

1. Dos Arquitecturas de Doble Flujo

Arquitectura (a): Doble Flujo Paralelo

El codificador temporal (CNN/LSTM/Transformer) extrae características temporales
Las características se introducen en paralelo en dos flujos de capas completamente conectadas independientes:
- Flujo de clasificación: Predice tendencias paso a paso (ascendente/descendente)
- Flujo de regresión: Estima desviaciones relativas a $x_n$
Fusión residual: $\hat{y}^{(k)} = x_n + \text{fusión}(d^{(k)}, \delta^{(k)})$

Arquitectura (b): Doble Flujo Secuencial

Primero se infieren tendencias a través del flujo de clasificación
La salida de clasificación se concatena con características temporales originales
Se introduce en el flujo de regresión para estimación de desviaciones
Fusión directa: $\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}$

2. Cuatro Variantes de Modelo

Modelo	Arquitectura	Representación de Tendencia	Representación de Desviación	Método de Fusión
CaReTS1	(a)	Etiqueta binaria $\hat{d}^{(k)} \in \{+1,-1\}$	Desviación única no negativa $\hat{\delta}^{(k)}$	$\hat{y}^{(k)} = x_n + \hat{d}^{(k)} \cdot \hat{\delta}^{(k)}$
CaReTS2	(a)	Etiqueta binaria $\hat{d}^{(k)} \in \{+1,-1\}$	Desviaciones específicas de dirección $(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})$	Selecciona desviación correspondiente según tendencia
CaReTS3	(a)	Probabilidad $(p^{(k)}_{up}, p^{(k)}_{down})$	Desviaciones específicas de dirección $(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})$	$\hat{y}^{(k)} = x_n + p^{(k)}_{up}\hat{\delta}^{(k)}_{up} - p^{(k)}_{down}\hat{\delta}^{(k)}_{down}$
CaReTS4	(b)	Probabilidad $p^{(k)}$	Desviación con signo $\hat{\delta}^{(k)}$	$\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}$

Función de Pérdida Multi-Tarea

Función de Pérdida para Arquitectura (a)

$L^{(a)} = \alpha_{ca}L_{ca} + \alpha_{de}L_{de} + \alpha_{op}L_{op}$

Donde:

$L_{ca}$ : Pérdida de clasificación de tendencias (entropía cruzada binaria o entropía cruzada categórica)
$L_{de}$ : Pérdida de estimación de desviaciones (MSE)
$L_{op}$ : Pérdida de predicción de salida (MSE)

Función de Pérdida para Arquitectura (b)

$L^{(b)} = \alpha_{ca}L_{ca} + \alpha_{op}L_{op}$

Ponderación Consciente de Incertidumbre

Innovación central: Modelar pesos de tareas como parámetros aprendibles, ajustándose adaptativamente basado en incertidumbre predictiva:

$\alpha_i = \frac{1}{2\sigma_i^2}, \quad i \in \{ca, de, op\}$

En la implementación, $\log \sigma_i^2$ actúa como parámetro aprendible, y la pérdida final es:

$L^{(a)} = \sum_{i \in \{ca,de,op\}} \left(\frac{1}{2}e^{-\log \sigma_i^2}L_i + \frac{1}{2}\log \sigma_i^2\right)$

Estrategias de Estabilización:

Regularización suave: Agregar término de penalización a parámetros de varianza logarítmica
Restricción de rango: Limitar $\log \sigma_i^2$ al rango $[-10, 10]$

Puntos de Innovación Técnica

Desacoplamiento a Nivel de Salida: A diferencia de Autoformer y otros que descomponen en la capa de entrada, CaReTS separa explícitamente tendencias y desviaciones a nivel de salida, proporcionando interpretabilidad más directa
Mecanismo de Fusión Suave (CaReTS3): Mediante fusión ponderada por probabilidad de dos direcciones de desviación, logra transición suave cuando la tendencia es incierta
Equilibrio Adaptativo de Tareas: El aprendizaje de pesos basado en incertidumbre evita ajuste manual de parámetros, permitiendo que el modelo se enfoque automáticamente en tareas más confiables
Diseño de Complejidad Progresiva: De CaReTS1 a CaReTS4, aumenta progresivamente la capacidad de modelado, explorando sistemáticamente el espacio de diseño

Configuración Experimental

Conjuntos de Datos

Dos tareas reales de predicción de series temporales:

Predicción de Precio de Electricidad: 8,784 observaciones horarias (un año)
Predicción de Demanda de Energía de Entrada/Salida (Energía No Satisfecha): 8,784 observaciones horarias

Configuración de Predicción: Esquema 15-a-6

Entrada: Mes, día de la semana, hora del paso temporal actual + 12 observaciones anteriores de la variable objetivo
Salida: Predicción de 6 pasos futuros de la variable objetivo

División de Datos:

Conjunto de entrenamiento: 6,048 puntos
Conjunto de prueba: 2,736 puntos
Método de evaluación: Validación cruzada de 10 pliegues

Métricas de Evaluación

RMSE (Error Cuadrático Medio Raíz): Mide precisión predictiva
Precisión de Clasificación de Tendencias: Mide corrección de predicción de dirección de tendencia

Métodos de Comparación

Métodos Base (3 líneas base de diseño):

Baseline1: Arquitectura codificador-decodificador tradicional
Baseline2: Versión simplificada sin conexiones residuales
Baseline3: Reemplaza módulo de fusión con capa FC única

Algoritmos SOTA (10):

Serie Transformer: Autoformer, FEDformer, Non-stationary Transformer, Informer
Modelos Híbridos: TimesNet, TimeXer, D-CNN-LSTM
Modelos Ligeros: DLinear, NLinear, TimeMixer
Red Neuronal Difusa: SOIT2FNN-MO

Detalles de Implementación

Plataforma: Google Colab con GPU T4
Codificador: 2 capas, 64 unidades ocultas
- CNN: Tamaño de núcleo de convolución 3, padding 1
- Transformer: 4 cabezas de atención
Ramas de clasificación/regresión: 2 capas FC, 64 unidades ocultas
Optimizador: Adam, tasa de aprendizaje 0.001
Tamaño de lote: 64
Épocas de entrenamiento: Máximo 600, estrategia de parada temprana (50 épocas sin mejora)
Función de activación: ReLU
Normalización: Normalización Min-Max

Resultados Experimentales

Resultados Principales

1. Evaluación de Arquitectura (Tabla 2)

Predicción de Energía No Satisfecha (RMSE en conjunto de prueba):

Mejor: CaReTS2-Transformer (0.0691 ± 0.0018)
Segundo mejor: CaReTS3-CNN (0.0692 ± 0.0010)
Todas las variantes CaReTS2-4 superan las líneas base

Predicción de Precio de Electricidad (RMSE en conjunto de prueba):

Mejor: CaReTS2-Transformer (0.0465 ± 0.0012)
CaReTS1-4 superan las líneas base en todas las configuraciones de codificador (excepto CaReTS1-LSTM)

Hallazgos Clave:

CaReTS2 muestra rendimiento más consistente, mejor en 4 de 6 configuraciones, segundo mejor en 2
El codificador Transformer generalmente supera CNN y LSTM
CaReTS1 muestra ventajas menos claras debido a simplificación de rama de desviación

2. Rendimiento de Clasificación de Tendencias (Tabla 3)

Todas las variantes alcanzan precisión superior al 90%:

Energía No Satisfecha: CaReTS2-Transformer máximo (0.9192 ± 0.0022)
Precio de Electricidad: CaReTS2-Transformer máximo (0.9146 ± 0.0019)

Análisis Entre Pasos (Figura 5):

La precisión de clasificación de tendencias se mantiene estable en 6 pasos de predicción, incluso con ligera mejora
Contrasta con RMSE creciente, demostrando robustez del marco en mantener consistencia de tendencias en predicción a largo plazo

Experimentos de Ablación

Aprendizaje Multi-Tarea vs Aprendizaje Único (Tabla 4)

Usando codificador Transformer como ejemplo:

Energía No Satisfecha:

CaReTS2 multi-tarea: RMSE 0.0691, precisión de tendencia 0.9192
CaReTS2 tarea única: RMSE 0.0704, precisión de tendencia 0.9060
Mejora: RMSE reducido 1.8%, precisión de tendencia mejorada 1.3%

Precio de Electricidad:

CaReTS1 multi-tarea: RMSE 0.0473, precisión de tendencia 0.9142
CaReTS1 tarea única: RMSE 0.0539, precisión de tendencia 0.8663
Mejora: RMSE reducido 12.2%, precisión de tendencia mejorada 5.5%

Sobrecarga Computacional:

Parámetros adicionales solo 3 escalares de peso de tarea
Aumento de tiempo de ejecución negligible (253-401 segundos vs 216-386 segundos)

Comparación SOTA (Tabla 5)

Energía No Satisfecha:

CaReTS2: RMSE 0.0691, precisión de tendencia 0.9192
TimeXer (segundo mejor SOTA): RMSE 0.0700, precisión de tendencia 0.9066
Ventaja: RMSE reducido 1.3%, precisión de tendencia mejorada 1.4%

Precio de Electricidad:

CaReTS2: RMSE 0.0465, precisión de tendencia 0.9146
TimeXer (mejor SOTA): RMSE 0.0463, precisión de tendencia 0.9013
Ventaja: Aunque RMSE ligeramente superior 0.4%, precisión de tendencia superior 1.5%

Comparación de Eficiencia:

Tiempo de ejecución CaReTS: 200-400 segundos
Modelos ligeros (DLinear/NLinear): <70 segundos
Modelos pesados (Autoformer/TimeXer): >460 segundos
Conclusión: CaReTS logra buen equilibrio entre precisión y eficiencia

Experimentos Extendidos (Apéndice A.6)

En configuraciones de predicción 15-a-4 y 15-a-8:

CaReTS2 siempre en los tres primeros en RMSE y precisión de tendencia
Valida estabilidad del marco en diferentes horizontes de predicción

Hallazgos Experimentales

Estabilidad de Tendencias: La precisión de clasificación de tendencias no disminuye con aumento de pasos de predicción, demostrando robustez del modelado de tendencias macroscópicas
Aprendizaje Complementario: El aprendizaje multi-tarea promueve aprendizaje complementario en lugar de interferencia de tareas, con optimización conjunta superior a tarea única
Compatibilidad de Codificador: El marco es bien compatible con diferentes codificadores, con Transformer típicamente mostrando mejor rendimiento
Modelado Específico de Dirección: El diseño de desviación específica de dirección de CaReTS2 captura dinámicas asimétricas, superior a desviación única (CaReTS1)
Ventaja de Fusión Suave: La ponderación probabilística de CaReTS3 proporciona transición suave cuando la tendencia es incierta

Trabajo Relacionado

1. Predicción Profunda de Series Temporales

Métodos CNN: Extraen patrones espacio-temporales locales
Métodos RNN: LSTM, GRU capturan dependencias de secuencia
Métodos Transformer:
- Informer: Atención ProbSparse
- Autoformer: Descomposición estación-tendencia + atención de autocorrelación
- FEDformer: Filtrado en dominio de frecuencia
- PatchTST: Incrustación basada en parches
- iTransformer: Modelado de eje invertido enfocando dependencias entre variables

2. Descomposición e Interpretabilidad

Descomposición Lineal: DLinear, NLinear logran resultados competitivos mediante descomposición simple tendencia-estación
Descomposición Transformer: ETSformer, Autoformer, FEDformer modelan componentes en capas de entrada/representación
Diferencia de Este Trabajo: Desacoplamiento a nivel de salida, separación directa de tendencia y desviación del objetivo predictivo

3. Arquitecturas Multi-Tarea y Modular

TimeXer: Distingue señales endógenas y exógenas
TimesNet: Módulos multi-período capturan diferentes escalas temporales
MLP Ligero: TimeMixer, LightTS, TSMixer
Innovación de Este Trabajo: Marco de doble flujo a nivel de salida, equilibrio adaptativo de tareas basado en incertidumbre

Conclusiones y Discusión

Conclusiones Principales

CaReTS desacopla exitosamente clasificación de tendencias y estimación de desviaciones mediante arquitectura de doble flujo, mejorando simultáneamente precisión predictiva e interpretabilidad
El mecanismo de aprendizaje multi-tarea basado en incertidumbre equilibra efectivamente las contribuciones de tres tareas, evitando ajuste manual de parámetros
Cuatro variantes demuestran flexibilidad del marco, con combinación CaReTS2-Transformer mostrando mejor rendimiento
Logra rendimiento SOTA o superior en conjuntos de datos reales, con precisión de clasificación de tendencias superior al 91%, sobrecarga computacional controlable

Limitaciones

Verificación de Predicción a Largo Plazo Insuficiente: Limitado por recursos GPU, evaluación principal en predicción de 6 pasos, sin verificación suficiente de capacidad de predicción ultra-larga
Diversidad de Conjuntos de Datos: Prueba solo en dos conjuntos de datos relacionados con electricidad, falta verificación entre dominios (como finanzas, medicina)
Innovación de Codificador Limitada: Adopta codificadores estándar, sin exploración de extractores de características temporales personalizados
Simplificación de Tendencia Binaria: Solo modela tendencias ascendentes/descendentes, sin considerar tendencias estacionarias o clasificación de tendencias más granular
Falta de Cuantificación de Interpretabilidad: Aunque reclama mejora de interpretabilidad, carece de investigación de usuarios o evaluación cuantitativa de métricas de interpretabilidad

Direcciones Futuras

Extensión de Predicción a Largo Plazo: Verificar capacidad de predicción ultra-larga (como 100+ pasos) con mayores recursos computacionales
Verificación Entre Dominios: Probar generalización del marco en dominios diversos como finanzas, medicina, clima
Clasificación de Tendencias Multinivel: Expandir a clasificación de tendencias multi-clase (como ascenso fuerte, ascenso débil, estacionario)
Codificadores Personalizados: Explorar extractores de características optimizados para descomposición tendencia-desviación
Investigación de Interpretabilidad: Conducir investigación de usuarios, evaluar cuantitativamente mejora de interpretabilidad

Evaluación Profunda

Fortalezas

Descomposición Innovadora del Problema: Descomponer predicción de series temporales en clasificación de tendencias y regresión de desviaciones es intuitivo y efectivo, proporcionando nueva perspectiva de modelado
Fundamento Teórico Sólido: El aprendizaje multi-tarea consciente de incertidumbre tiene apoyo teórico sólido (Kendall et al., 2018), con detalles de implementación completos
Exploración Sistemática de Diseño: Cuatro variantes evolucionan progresivamente de simple a complejo, demostrando claramente el espacio de diseño
Experimentos Rigurosos y Completos:
- Validación cruzada de 10 pliegues proporciona estimación confiable
- Comparación con 10 algoritmos SOTA
- Experimentos de ablación validan contribución de componentes
- Análisis entre pasos revela estabilidad de tendencias
Reproducibilidad Fuerte: Proporciona código anónimo, detalles de implementación exhaustivos
Escritura Clara: Estructura razonable, figuras ricas, descripción técnica precisa

Deficiencias

Evaluación de Interpretabilidad Insuficiente:
- Falta visualización de casos mostrando cómo descomposición tendencia-desviación ayuda a entender
- Sin investigación de usuarios validando mejora de interpretabilidad
- Interpretabilidad principalmente a nivel conceptual
Limitación de Conjuntos de Datos:
- Solo dos conjuntos de datos de dominio relacionado
- Tamaño de muestra relativamente pequeño (8784 puntos)
- Falta verificación de series temporales multivariables
Falta de Verificación de Predicción a Largo Plazo:
- Evaluación principal en predicción de 6 pasos
- Aunque Figura 5 muestra estabilidad de tendencias, sin prueba real en horizonte más largo
- Limita juicio sobre capacidad de predicción a largo plazo
Análisis de Sobrecarga Computacional Tosco:
- Solo reporta tiempo de ejecución total
- Falta análisis detallado de complejidad temporal y espacial
- Sin análisis de cuello de botella computacional de componentes
Cuestionamiento de Diseño de Línea Base:
- Tres líneas base de diseño pueden ser insuficientemente fuertes
- Falta comparación con otros métodos de aprendizaje multi-tarea
Simplificación de Definición de Tendencia:
- Tendencia binaria (ascendente/descendente) puede ser demasiado tosca
- Sin considerar estado estacionario o intensidad de tendencia

Impacto

Contribución Académica:
- Proporciona nueva perspectiva de descomposición a nivel de salida
- Aplicación de aprendizaje multi-tarea consciente de incertidumbre en predicción de series temporales
- Puede inspirar más investigación en separación tendencia-amplitud
Valor Práctico:
- Demuestra practicidad en aplicaciones como predicción de electricidad
- Clasificación de tendencias proporciona información auxiliar para decisiones
- Sobrecarga computacional controlable, adecuada para despliegue práctico
Reproducibilidad:
- Proporciona código (aunque anónimo)
- Detalles de implementación completos
- Facilita reproducción y extensión de investigación posterior
Impacto de Limitaciones:
- Limitaciones de conjunto de datos y predicción a largo plazo pueden limitar impacto
- Requiere más verificación entre dominios para aplicación amplia

Escenarios Aplicables

Escenarios Apropiados:

Tareas de Predicción a Corto-Medio Plazo (6-8 pasos): Marco verificado suficientemente en este rango
Aplicaciones Requiriendo Explicación de Tendencias: Como decisiones financieras, despacho de energía, donde dirección de tendencia es más importante que valor exacto
Series Temporales Univariables o Baja Dimensión: Configuración experimental actual es univariable
Escenarios con Volumen de Datos Medio: Muestra de entrenamiento aproximadamente 6000 puntos

Escenarios Menos Apropiados:

Predicción Ultra-Larga (>10 pasos): Falta verificación, efecto desconocido
Series Temporales Multivariables de Alta Dimensión: Sin prueba suficiente en configuración multivariable
Predicción en Tiempo Real: Tiempo computacional 200-400 segundos puede no satisfacer requisitos en tiempo real
Series Estacionarias sin Tendencia Obvia: Clasificación de tendencias puede no mostrar ventaja significativa

Referencias

Referencias Clave Citadas en el Artículo

Kendall et al. (2018): Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. Fundamento teórico de ponderación por incertidumbre
Vaswani et al. (2017): Attention is all you need. NeurIPS. Arquitectura Transformer
Zhou et al. (2021): Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. Atención ProbSparse
Wu et al. (2021): Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. Descomposición estación-tendencia
Zhou et al. (2022): FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. Descomposición en dominio de frecuencia
Liu et al. (2023): iTransformer: Inverted transformers are effective for time series forecasting. arXiv. Modelado de eje invertido
Zeng et al. (2023): Are transformers effective for time series forecasting? AAAI. Líneas base simples DLinear/NLinear
Wang et al. (2024c): TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. Modelado de variables exógenas

Evaluación General: Este es un artículo de predicción de series temporales ingeniosamente diseñado y experimentalmente riguroso. La innovación central —descomposición tendencia-desviación a nivel de salida— es simple pero efectiva, proporcionando nueva perspectiva de modelado. El aprendizaje multi-tarea consciente de incertidumbre se implementa elegantemente. Los resultados experimentales demuestran efectividad del método, con mejoras tanto en precisión como en interpretabilidad. Las deficiencias principales radican en evaluación insuficiente de interpretabilidad, diversidad limitada de conjuntos de datos, y falta de verificación de predicción a largo plazo. Se recomienda que trabajo futuro verifique en más dominios y horizontes temporales más largos, y cuantifique mejora de interpretabilidad mediante investigación de usuarios. En general, esta es una contribución valiosa que proporciona nuevo paradigma de modelado para predicción de series temporales.