Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.
CaReTS: Un Marco Multi-Tarea Unificando Clasificación y Regresión para Predicción de Series Temporales
- ID del Artículo: 2511.09789
- Título: CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
- Autores: Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
- Clasificación: cs.LG (Aprendizaje Automático)
- Fecha de Publicación: 12 de noviembre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2511.09789
El aprendizaje profundo ha logrado avances significativos en predicción de series temporales, pero los métodos existentes a menudo tienen dificultades para proporcionar información interpretable sobre la dinámica temporal mientras ofrecen predicciones precisas. Este artículo propone CaReTS, un marco de aprendizaje multi-tarea que combina tareas de clasificación y regresión para predicción de series temporales multisecuencial. El marco adopta una arquitectura de doble flujo: la rama de clasificación aprende tendencias futuras paso a paso, mientras que la rama de regresión estima desviaciones relativas a la observación más reciente. Este diseño proporciona predicciones más interpretables mediante el desacoplamiento de tendencias macroscópicas y desviaciones microscópicas. Para lograr un aprendizaje efectivo, se diseña una función de pérdida multi-tarea basada en incertidumbre que equilibra adaptativamente las contribuciones de cada tarea. El artículo instancia cuatro variantes (CaReTS1-4), combinadas con codificadores de modelado temporal convencionales (CNN, LSTM, Transformer). Los experimentos demuestran que CaReTS supera los algoritmos de última generación tanto en precisión predictiva como en rendimiento de clasificación de tendencias.
La predicción de series temporales es un problema fundamental en gestión energética, análisis financiero, monitoreo médico y modelado climático. La predicción multisecuencial es especialmente crítica, pero enfrenta dos desafíos principales:
- Disminución de precisión: La precisión predictiva típicamente se reduce conforme aumenta el horizonte temporal
- Interpretabilidad insuficiente: En escenarios de alto riesgo, la falta de transparencia del modelo reduce la confianza
La predicción multisecuencial es crucial para capturar dinámicas temporales a corto y largo plazo del sistema, permitiendo tomar decisiones informadas. Sin embargo, aunque los modelos de aprendizaje profundo existentes mejoran la precisión, aún presentan deficiencias significativas en interpretabilidad, limitando su confiabilidad en aplicaciones prácticas.
- Paradigma de regresión única: La mayoría de modelos de predicción profunda modelan la predicción como una única tarea de regresión, enfocándose únicamente en predicción numérica
- Acoplamiento de tendencia y desviación: Difícil desacoplar tendencias macroscópicas (como trayectorias ascendentes/descendentes) y desviaciones microscópicas
- Falta de modelado explícito de tendencias: Aunque modelos como Autoformer y FEDformer introducen mecanismos de descomposición, operan principalmente en capas de entrada o representación, sin separar explícitamente tendencias y amplitudes en la capa de salida
La perspectiva central de este trabajo es que descomponer la predicción de series temporales en dos tareas complementarias —clasificación de tendencias (dirección) y regresión de desviaciones (amplitud)— puede mejorar simultáneamente la precisión predictiva y la interpretabilidad. Este desacoplamiento a nivel de salida proporciona una nueva perspectiva de aprendizaje multi-tarea.
- Diseño de Arquitectura de Doble Flujo: Se propone el marco CaReTS con arquitectura de doble flujo, donde la rama de clasificación predice tendencias macroscópicas paso a paso y la rama de regresión estima desviaciones de grano fino relativas a la observación más reciente
- Aprendizaje Multi-Tarea Consciente de Incertidumbre: Se diseña una función de pérdida multi-tarea basada en incertidumbre que optimiza conjuntamente tareas de clasificación y regresión mediante ponderación adaptativa, evitando ajuste manual de parámetros
- Generalidad del Marco: Se instancian cuatro variantes (CaReTS1-4) que pueden combinarse con codificadores temporales convencionales (CNN, LSTM, Transformer), demostrando amplia compatibilidad del marco
- Mejora de Rendimiento e Interpretabilidad Mejorada: Se logra precisión predictiva de última generación en conjuntos de datos reales, con precisión de clasificación de tendencias superior al 91% y sobrecarga computacional controlable
Entrada: Serie temporal x={x1,x2,…,xn}, donde xn es la observación más reciente de la variable objetivo
Salida: Predicción de K pasos futuros y^={y^1,y^2,…,y^K}
Idea Central: Descomponer cada predicción de paso en dirección de tendencia d(k) y amplitud de desviación δ(k)
Arquitectura (a): Doble Flujo Paralelo
- El codificador temporal (CNN/LSTM/Transformer) extrae características temporales
- Las características se introducen en paralelo en dos flujos de capas completamente conectadas independientes:
- Flujo de clasificación: Predice tendencias paso a paso (ascendente/descendente)
- Flujo de regresión: Estima desviaciones relativas a xn
- Fusión residual: y^(k)=xn+fusioˊn(d(k),δ(k))
Arquitectura (b): Doble Flujo Secuencial
- Primero se infieren tendencias a través del flujo de clasificación
- La salida de clasificación se concatena con características temporales originales
- Se introduce en el flujo de regresión para estimación de desviaciones
- Fusión directa: y^(k)=xn+δ^(k)
| Modelo | Arquitectura | Representación de Tendencia | Representación de Desviación | Método de Fusión |
|---|
| CaReTS1 | (a) | Etiqueta binaria d^(k)∈{+1,−1} | Desviación única no negativa δ^(k) | y^(k)=xn+d^(k)⋅δ^(k) |
| CaReTS2 | (a) | Etiqueta binaria d^(k)∈{+1,−1} | Desviaciones específicas de dirección (δ^up(k),δ^down(k)) | Selecciona desviación correspondiente según tendencia |
| CaReTS3 | (a) | Probabilidad (pup(k),pdown(k)) | Desviaciones específicas de dirección (δ^up(k),δ^down(k)) | y^(k)=xn+pup(k)δ^up(k)−pdown(k)δ^down(k) |
| CaReTS4 | (b) | Probabilidad p(k) | Desviación con signo δ^(k) | y^(k)=xn+δ^(k) |
L(a)=αcaLca+αdeLde+αopLop
Donde:
- Lca: Pérdida de clasificación de tendencias (entropía cruzada binaria o entropía cruzada categórica)
- Lde: Pérdida de estimación de desviaciones (MSE)
- Lop: Pérdida de predicción de salida (MSE)
L(b)=αcaLca+αopLop
Innovación central: Modelar pesos de tareas como parámetros aprendibles, ajustándose adaptativamente basado en incertidumbre predictiva:
αi=2σi21,i∈{ca,de,op}
En la implementación, logσi2 actúa como parámetro aprendible, y la pérdida final es:
L(a)=∑i∈{ca,de,op}(21e−logσi2Li+21logσi2)
Estrategias de Estabilización:
- Regularización suave: Agregar término de penalización a parámetros de varianza logarítmica
- Restricción de rango: Limitar logσi2 al rango [−10,10]
- Desacoplamiento a Nivel de Salida: A diferencia de Autoformer y otros que descomponen en la capa de entrada, CaReTS separa explícitamente tendencias y desviaciones a nivel de salida, proporcionando interpretabilidad más directa
- Mecanismo de Fusión Suave (CaReTS3): Mediante fusión ponderada por probabilidad de dos direcciones de desviación, logra transición suave cuando la tendencia es incierta
- Equilibrio Adaptativo de Tareas: El aprendizaje de pesos basado en incertidumbre evita ajuste manual de parámetros, permitiendo que el modelo se enfoque automáticamente en tareas más confiables
- Diseño de Complejidad Progresiva: De CaReTS1 a CaReTS4, aumenta progresivamente la capacidad de modelado, explorando sistemáticamente el espacio de diseño
Dos tareas reales de predicción de series temporales:
- Predicción de Precio de Electricidad: 8,784 observaciones horarias (un año)
- Predicción de Demanda de Energía de Entrada/Salida (Energía No Satisfecha): 8,784 observaciones horarias
Configuración de Predicción: Esquema 15-a-6
- Entrada: Mes, día de la semana, hora del paso temporal actual + 12 observaciones anteriores de la variable objetivo
- Salida: Predicción de 6 pasos futuros de la variable objetivo
División de Datos:
- Conjunto de entrenamiento: 6,048 puntos
- Conjunto de prueba: 2,736 puntos
- Método de evaluación: Validación cruzada de 10 pliegues
- RMSE (Error Cuadrático Medio Raíz): Mide precisión predictiva
- Precisión de Clasificación de Tendencias: Mide corrección de predicción de dirección de tendencia
Métodos Base (3 líneas base de diseño):
- Baseline1: Arquitectura codificador-decodificador tradicional
- Baseline2: Versión simplificada sin conexiones residuales
- Baseline3: Reemplaza módulo de fusión con capa FC única
Algoritmos SOTA (10):
- Serie Transformer: Autoformer, FEDformer, Non-stationary Transformer, Informer
- Modelos Híbridos: TimesNet, TimeXer, D-CNN-LSTM
- Modelos Ligeros: DLinear, NLinear, TimeMixer
- Red Neuronal Difusa: SOIT2FNN-MO
- Plataforma: Google Colab con GPU T4
- Codificador: 2 capas, 64 unidades ocultas
- CNN: Tamaño de núcleo de convolución 3, padding 1
- Transformer: 4 cabezas de atención
- Ramas de clasificación/regresión: 2 capas FC, 64 unidades ocultas
- Optimizador: Adam, tasa de aprendizaje 0.001
- Tamaño de lote: 64
- Épocas de entrenamiento: Máximo 600, estrategia de parada temprana (50 épocas sin mejora)
- Función de activación: ReLU
- Normalización: Normalización Min-Max
Predicción de Energía No Satisfecha (RMSE en conjunto de prueba):
- Mejor: CaReTS2-Transformer (0.0691 ± 0.0018)
- Segundo mejor: CaReTS3-CNN (0.0692 ± 0.0010)
- Todas las variantes CaReTS2-4 superan las líneas base
Predicción de Precio de Electricidad (RMSE en conjunto de prueba):
- Mejor: CaReTS2-Transformer (0.0465 ± 0.0012)
- CaReTS1-4 superan las líneas base en todas las configuraciones de codificador (excepto CaReTS1-LSTM)
Hallazgos Clave:
- CaReTS2 muestra rendimiento más consistente, mejor en 4 de 6 configuraciones, segundo mejor en 2
- El codificador Transformer generalmente supera CNN y LSTM
- CaReTS1 muestra ventajas menos claras debido a simplificación de rama de desviación
Todas las variantes alcanzan precisión superior al 90%:
- Energía No Satisfecha: CaReTS2-Transformer máximo (0.9192 ± 0.0022)
- Precio de Electricidad: CaReTS2-Transformer máximo (0.9146 ± 0.0019)
Análisis Entre Pasos (Figura 5):
- La precisión de clasificación de tendencias se mantiene estable en 6 pasos de predicción, incluso con ligera mejora
- Contrasta con RMSE creciente, demostrando robustez del marco en mantener consistencia de tendencias en predicción a largo plazo
Usando codificador Transformer como ejemplo:
Energía No Satisfecha:
- CaReTS2 multi-tarea: RMSE 0.0691, precisión de tendencia 0.9192
- CaReTS2 tarea única: RMSE 0.0704, precisión de tendencia 0.9060
- Mejora: RMSE reducido 1.8%, precisión de tendencia mejorada 1.3%
Precio de Electricidad:
- CaReTS1 multi-tarea: RMSE 0.0473, precisión de tendencia 0.9142
- CaReTS1 tarea única: RMSE 0.0539, precisión de tendencia 0.8663
- Mejora: RMSE reducido 12.2%, precisión de tendencia mejorada 5.5%
Sobrecarga Computacional:
- Parámetros adicionales solo 3 escalares de peso de tarea
- Aumento de tiempo de ejecución negligible (253-401 segundos vs 216-386 segundos)
Energía No Satisfecha:
- CaReTS2: RMSE 0.0691, precisión de tendencia 0.9192
- TimeXer (segundo mejor SOTA): RMSE 0.0700, precisión de tendencia 0.9066
- Ventaja: RMSE reducido 1.3%, precisión de tendencia mejorada 1.4%
Precio de Electricidad:
- CaReTS2: RMSE 0.0465, precisión de tendencia 0.9146
- TimeXer (mejor SOTA): RMSE 0.0463, precisión de tendencia 0.9013
- Ventaja: Aunque RMSE ligeramente superior 0.4%, precisión de tendencia superior 1.5%
Comparación de Eficiencia:
- Tiempo de ejecución CaReTS: 200-400 segundos
- Modelos ligeros (DLinear/NLinear): <70 segundos
- Modelos pesados (Autoformer/TimeXer): >460 segundos
- Conclusión: CaReTS logra buen equilibrio entre precisión y eficiencia
En configuraciones de predicción 15-a-4 y 15-a-8:
- CaReTS2 siempre en los tres primeros en RMSE y precisión de tendencia
- Valida estabilidad del marco en diferentes horizontes de predicción
- Estabilidad de Tendencias: La precisión de clasificación de tendencias no disminuye con aumento de pasos de predicción, demostrando robustez del modelado de tendencias macroscópicas
- Aprendizaje Complementario: El aprendizaje multi-tarea promueve aprendizaje complementario en lugar de interferencia de tareas, con optimización conjunta superior a tarea única
- Compatibilidad de Codificador: El marco es bien compatible con diferentes codificadores, con Transformer típicamente mostrando mejor rendimiento
- Modelado Específico de Dirección: El diseño de desviación específica de dirección de CaReTS2 captura dinámicas asimétricas, superior a desviación única (CaReTS1)
- Ventaja de Fusión Suave: La ponderación probabilística de CaReTS3 proporciona transición suave cuando la tendencia es incierta
- Métodos CNN: Extraen patrones espacio-temporales locales
- Métodos RNN: LSTM, GRU capturan dependencias de secuencia
- Métodos Transformer:
- Informer: Atención ProbSparse
- Autoformer: Descomposición estación-tendencia + atención de autocorrelación
- FEDformer: Filtrado en dominio de frecuencia
- PatchTST: Incrustación basada en parches
- iTransformer: Modelado de eje invertido enfocando dependencias entre variables
- Descomposición Lineal: DLinear, NLinear logran resultados competitivos mediante descomposición simple tendencia-estación
- Descomposición Transformer: ETSformer, Autoformer, FEDformer modelan componentes en capas de entrada/representación
- Diferencia de Este Trabajo: Desacoplamiento a nivel de salida, separación directa de tendencia y desviación del objetivo predictivo
- TimeXer: Distingue señales endógenas y exógenas
- TimesNet: Módulos multi-período capturan diferentes escalas temporales
- MLP Ligero: TimeMixer, LightTS, TSMixer
- Innovación de Este Trabajo: Marco de doble flujo a nivel de salida, equilibrio adaptativo de tareas basado en incertidumbre
- CaReTS desacopla exitosamente clasificación de tendencias y estimación de desviaciones mediante arquitectura de doble flujo, mejorando simultáneamente precisión predictiva e interpretabilidad
- El mecanismo de aprendizaje multi-tarea basado en incertidumbre equilibra efectivamente las contribuciones de tres tareas, evitando ajuste manual de parámetros
- Cuatro variantes demuestran flexibilidad del marco, con combinación CaReTS2-Transformer mostrando mejor rendimiento
- Logra rendimiento SOTA o superior en conjuntos de datos reales, con precisión de clasificación de tendencias superior al 91%, sobrecarga computacional controlable
- Verificación de Predicción a Largo Plazo Insuficiente: Limitado por recursos GPU, evaluación principal en predicción de 6 pasos, sin verificación suficiente de capacidad de predicción ultra-larga
- Diversidad de Conjuntos de Datos: Prueba solo en dos conjuntos de datos relacionados con electricidad, falta verificación entre dominios (como finanzas, medicina)
- Innovación de Codificador Limitada: Adopta codificadores estándar, sin exploración de extractores de características temporales personalizados
- Simplificación de Tendencia Binaria: Solo modela tendencias ascendentes/descendentes, sin considerar tendencias estacionarias o clasificación de tendencias más granular
- Falta de Cuantificación de Interpretabilidad: Aunque reclama mejora de interpretabilidad, carece de investigación de usuarios o evaluación cuantitativa de métricas de interpretabilidad
- Extensión de Predicción a Largo Plazo: Verificar capacidad de predicción ultra-larga (como 100+ pasos) con mayores recursos computacionales
- Verificación Entre Dominios: Probar generalización del marco en dominios diversos como finanzas, medicina, clima
- Clasificación de Tendencias Multinivel: Expandir a clasificación de tendencias multi-clase (como ascenso fuerte, ascenso débil, estacionario)
- Codificadores Personalizados: Explorar extractores de características optimizados para descomposición tendencia-desviación
- Investigación de Interpretabilidad: Conducir investigación de usuarios, evaluar cuantitativamente mejora de interpretabilidad
- Descomposición Innovadora del Problema: Descomponer predicción de series temporales en clasificación de tendencias y regresión de desviaciones es intuitivo y efectivo, proporcionando nueva perspectiva de modelado
- Fundamento Teórico Sólido: El aprendizaje multi-tarea consciente de incertidumbre tiene apoyo teórico sólido (Kendall et al., 2018), con detalles de implementación completos
- Exploración Sistemática de Diseño: Cuatro variantes evolucionan progresivamente de simple a complejo, demostrando claramente el espacio de diseño
- Experimentos Rigurosos y Completos:
- Validación cruzada de 10 pliegues proporciona estimación confiable
- Comparación con 10 algoritmos SOTA
- Experimentos de ablación validan contribución de componentes
- Análisis entre pasos revela estabilidad de tendencias
- Reproducibilidad Fuerte: Proporciona código anónimo, detalles de implementación exhaustivos
- Escritura Clara: Estructura razonable, figuras ricas, descripción técnica precisa
- Evaluación de Interpretabilidad Insuficiente:
- Falta visualización de casos mostrando cómo descomposición tendencia-desviación ayuda a entender
- Sin investigación de usuarios validando mejora de interpretabilidad
- Interpretabilidad principalmente a nivel conceptual
- Limitación de Conjuntos de Datos:
- Solo dos conjuntos de datos de dominio relacionado
- Tamaño de muestra relativamente pequeño (8784 puntos)
- Falta verificación de series temporales multivariables
- Falta de Verificación de Predicción a Largo Plazo:
- Evaluación principal en predicción de 6 pasos
- Aunque Figura 5 muestra estabilidad de tendencias, sin prueba real en horizonte más largo
- Limita juicio sobre capacidad de predicción a largo plazo
- Análisis de Sobrecarga Computacional Tosco:
- Solo reporta tiempo de ejecución total
- Falta análisis detallado de complejidad temporal y espacial
- Sin análisis de cuello de botella computacional de componentes
- Cuestionamiento de Diseño de Línea Base:
- Tres líneas base de diseño pueden ser insuficientemente fuertes
- Falta comparación con otros métodos de aprendizaje multi-tarea
- Simplificación de Definición de Tendencia:
- Tendencia binaria (ascendente/descendente) puede ser demasiado tosca
- Sin considerar estado estacionario o intensidad de tendencia
- Contribución Académica:
- Proporciona nueva perspectiva de descomposición a nivel de salida
- Aplicación de aprendizaje multi-tarea consciente de incertidumbre en predicción de series temporales
- Puede inspirar más investigación en separación tendencia-amplitud
- Valor Práctico:
- Demuestra practicidad en aplicaciones como predicción de electricidad
- Clasificación de tendencias proporciona información auxiliar para decisiones
- Sobrecarga computacional controlable, adecuada para despliegue práctico
- Reproducibilidad:
- Proporciona código (aunque anónimo)
- Detalles de implementación completos
- Facilita reproducción y extensión de investigación posterior
- Impacto de Limitaciones:
- Limitaciones de conjunto de datos y predicción a largo plazo pueden limitar impacto
- Requiere más verificación entre dominios para aplicación amplia
Escenarios Apropiados:
- Tareas de Predicción a Corto-Medio Plazo (6-8 pasos): Marco verificado suficientemente en este rango
- Aplicaciones Requiriendo Explicación de Tendencias: Como decisiones financieras, despacho de energía, donde dirección de tendencia es más importante que valor exacto
- Series Temporales Univariables o Baja Dimensión: Configuración experimental actual es univariable
- Escenarios con Volumen de Datos Medio: Muestra de entrenamiento aproximadamente 6000 puntos
Escenarios Menos Apropiados:
- Predicción Ultra-Larga (>10 pasos): Falta verificación, efecto desconocido
- Series Temporales Multivariables de Alta Dimensión: Sin prueba suficiente en configuración multivariable
- Predicción en Tiempo Real: Tiempo computacional 200-400 segundos puede no satisfacer requisitos en tiempo real
- Series Estacionarias sin Tendencia Obvia: Clasificación de tendencias puede no mostrar ventaja significativa
- Kendall et al. (2018): Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. Fundamento teórico de ponderación por incertidumbre
- Vaswani et al. (2017): Attention is all you need. NeurIPS. Arquitectura Transformer
- Zhou et al. (2021): Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. Atención ProbSparse
- Wu et al. (2021): Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. Descomposición estación-tendencia
- Zhou et al. (2022): FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. Descomposición en dominio de frecuencia
- Liu et al. (2023): iTransformer: Inverted transformers are effective for time series forecasting. arXiv. Modelado de eje invertido
- Zeng et al. (2023): Are transformers effective for time series forecasting? AAAI. Líneas base simples DLinear/NLinear
- Wang et al. (2024c): TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. Modelado de variables exógenas
Evaluación General: Este es un artículo de predicción de series temporales ingeniosamente diseñado y experimentalmente riguroso. La innovación central —descomposición tendencia-desviación a nivel de salida— es simple pero efectiva, proporcionando nueva perspectiva de modelado. El aprendizaje multi-tarea consciente de incertidumbre se implementa elegantemente. Los resultados experimentales demuestran efectividad del método, con mejoras tanto en precisión como en interpretabilidad. Las deficiencias principales radican en evaluación insuficiente de interpretabilidad, diversidad limitada de conjuntos de datos, y falta de verificación de predicción a largo plazo. Se recomienda que trabajo futuro verifique en más dominios y horizontes temporales más largos, y cuantifique mejora de interpretabilidad mediante investigación de usuarios. En general, esta es una contribución valiosa que proporciona nuevo paradigma de modelado para predicción de series temporales.