2025-11-20T12:34:13.863172

CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting

Yao, Zhao, Zheng et al.

Recent advances in deep forecasting models have achieved remarkable performance, yet most approaches still struggle to provide both accurate predictions and interpretable insights into temporal dynamics. This paper proposes CaReTS, a novel multi-task learning framework that combines classification and regression tasks for multi-step time series forecasting problems. The framework adopts a dual-stream architecture, where a classification branch learns the stepwise trend into the future, while a regression branch estimates the corresponding deviations from the latest observation of the target variable. The dual-stream design provides more interpretable predictions by disentangling macro-level trends from micro-level deviations in the target variable. To enable effective learning in output prediction, deviation estimation, and trend classification, we design a multi-task loss with uncertainty-aware weighting to adaptively balance the contribution of each task. Furthermore, four variants (CaReTS1--4) are instantiated under this framework to incorporate mainstream temporal modelling encoders, including convolutional neural networks (CNNs), long short-term memory networks (LSTMs), and Transformers. Experiments on real-world datasets demonstrate that CaReTS outperforms state-of-the-art (SOTA) algorithms in forecasting accuracy, while achieving higher trend classification performance.

academic

CaReTS : Un Cadre Multi-Tâches Unifiant la Classification et la Régression pour la Prévision de Séries Temporelles

Informations Fondamentales

ID de l'article : 2511.09789
Titre : CaReTS: A Multi-Task Framework Unifying Classification and Regression for Time Series Forecasting
Auteurs : Fulong Yao (Cardiff University), Wanqing Zhao (Newcastle University), Chao Zheng (Newcastle University), Xiaofei Han (University of Leeds)
Classification : cs.LG (Apprentissage Automatique)
Date de publication : 12 novembre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2511.09789

Résumé

L'apprentissage profond a réalisé des progrès remarquables dans le domaine de la prévision de séries temporelles, mais les méthodes existantes peinent souvent à fournir des perspectives interprétables sur la dynamique temporelle tout en offrant des prévisions précises. Cet article propose CaReTS, un cadre d'apprentissage multi-tâches combinant classification et régression pour la prévision de séries temporelles multi-étapes. Le cadre adopte une architecture à double flux : la branche de classification apprend les tendances futures étape par étape, tandis que la branche de régression estime les écarts par rapport à l'observation la plus récente. Cette conception fournit des prévisions plus interprétables en découplant les tendances macroscopiques et les écarts microscopiques. Pour réaliser un apprentissage efficace, une fonction de perte multi-tâches basée sur l'incertitude a été conçue pour équilibrer de manière adaptative les contributions de chaque tâche. L'article instancie quatre variantes (CaReTS1-4), combinées avec les principaux encodeurs de modélisation temporelle (CNN, LSTM, Transformer). Les expériences montrent que CaReTS surpasse les algorithmes de pointe existants en termes de précision de prévision et de performance de classification des tendances.

Contexte de Recherche et Motivation

1. Problème à Résoudre

La prévision de séries temporelles est un problème fondamental dans des domaines tels que la gestion de l'énergie, l'analyse financière, la surveillance médicale et la modélisation climatique. La prévision multi-étapes est particulièrement critique, mais elle fait face à deux défis majeurs :

Dégradation de la précision : À mesure que l'horizon de prévision augmente, la précision des prévisions diminue généralement
Manque d'interprétabilité : Dans les scénarios à haut risque, le manque de transparence du modèle réduit la confiance

2. Importance du Problème

La prévision multi-étapes est cruciale pour capturer la dynamique temporelle à court et long terme d'un système, permettant une prise de décision éclairée. Cependant, bien que les modèles d'apprentissage profond existants aient amélioré la précision, ils présentent toujours des lacunes significatives en matière d'explicabilité, ce qui limite leur fiabilité dans les applications pratiques.

3. Limitations des Méthodes Existantes

Paradigme de régression unique : La plupart des modèles de prévision profonde modélisent la prévision comme une seule tâche de régression, se concentrant uniquement sur la prévision numérique
Couplage tendance-écart : Difficulté à découpler les tendances macroscopiques (comme les trajectoires ascendantes/descendantes) et les écarts microscopiques
Manque de modélisation explicite des tendances : Bien que des modèles comme Autoformer et FEDformer introduisent des mécanismes de décomposition, ils opèrent principalement au niveau de l'entrée ou de la représentation, sans séparation explicite des tendances et de l'amplitude au niveau de la sortie

4. Motivation de la Recherche

L'intuition centrale de cet article est que la décomposition de la prévision de séries temporelles en deux tâches complémentaires — classification des tendances (direction) et régression des écarts (amplitude) — peut simultanément améliorer la précision des prévisions et l'interprétabilité. Ce découplage au niveau de la sortie offre une nouvelle perspective d'apprentissage multi-tâches.

Contributions Principales

Conception d'architecture à double flux : Propose le cadre CaReTS avec une architecture à double flux, où la branche de classification prédit les tendances macroscopiques étape par étape et la branche de régression estime les écarts fins par rapport à l'observation la plus récente
Apprentissage multi-tâches conscient de l'incertitude : Conçoit une fonction de perte multi-tâches basée sur l'incertitude qui optimise conjointement les tâches de classification et de régression par pondération adaptative, évitant l'ajustement manuel des paramètres
Généralité du cadre : Instancie quatre variantes (CaReTS1-4) pouvant être utilisées avec les principaux encodeurs temporels (CNN, LSTM, Transformer), démontrant la compatibilité générale du cadre
Amélioration des performances et amélioration de l'interprétabilité : Réalise la précision de prévision de pointe sur les ensembles de données réels, avec une précision de classification des tendances dépassant 91%, et des frais de calcul contrôlables

Détails de la Méthode

Définition des Tâches

Entrée : Série temporelle $\mathbf{x} = \{x_1, x_2, \ldots, x_n\}$ , où $x_n$ est l'observation la plus récente de la variable cible
Sortie : Prévisions des K étapes futures $\hat{\mathbf{y}} = \{\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_K\}$
Idée centrale : Décomposer chaque prévision étape par étape en direction de tendance $d^{(k)}$ et amplitude d'écart $\delta^{(k)}$

Architecture du Modèle

1. Deux Architectures à Double Flux

Architecture (a) : Double Flux Parallèle

L'encodeur temporel (CNN/LSTM/Transformer) extrait les caractéristiques temporelles
Les caractéristiques sont parallèlement entrées dans deux flux de couches entièrement connectées indépendants :
- Flux de classification : Prédit les tendances étape par étape (ascendante/descendante)
- Flux de régression : Estime l'écart par rapport à $x_n$
Fusion résiduelle : $\hat{y}^{(k)} = x_n + \text{fusion}(d^{(k)}, \delta^{(k)})$

Architecture (b) : Double Flux Séquentiel

Passe d'abord par le flux de classification pour déduire la tendance
Concatène la sortie de classification avec les caractéristiques temporelles originales
Entre dans le flux de régression pour l'estimation des écarts
Fusion directe : $\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}$

2. Quatre Variantes de Modèles

Modèle	Architecture	Représentation de Tendance	Représentation d'Écart	Méthode de Fusion
CaReTS1	(a)	Étiquette binaire $\hat{d}^{(k)} \in \{+1,-1\}$	Écart unique non-négatif $\hat{\delta}^{(k)}$	$\hat{y}^{(k)} = x_n + \hat{d}^{(k)} \cdot \hat{\delta}^{(k)}$
CaReTS2	(a)	Étiquette binaire $\hat{d}^{(k)} \in \{+1,-1\}$	Écarts spécifiques à la direction $(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})$	Sélectionner l'écart correspondant selon la tendance
CaReTS3	(a)	Probabilité $(p^{(k)}_{up}, p^{(k)}_{down})$	Écarts spécifiques à la direction $(\hat{\delta}^{(k)}_{up}, \hat{\delta}^{(k)}_{down})$	$\hat{y}^{(k)} = x_n + p^{(k)}_{up}\hat{\delta}^{(k)}_{up} - p^{(k)}_{down}\hat{\delta}^{(k)}_{down}$
CaReTS4	(b)	Probabilité $p^{(k)}$	Écart signé $\hat{\delta}^{(k)}$	$\hat{y}^{(k)} = x_n + \hat{\delta}^{(k)}$

Fonction de Perte Multi-Tâches

Fonction de Perte pour l'Architecture (a)

$L^{(a)} = \alpha_{ca}L_{ca} + \alpha_{de}L_{de} + \alpha_{op}L_{op}$

Où :

$L_{ca}$ : Perte de classification des tendances (entropie croisée binaire ou entropie croisée catégorique)
$L_{de}$ : Perte d'estimation des écarts (MSE)
$L_{op}$ : Perte de prévision de sortie (MSE)

Fonction de Perte pour l'Architecture (b)

$L^{(b)} = \alpha_{ca}L_{ca} + \alpha_{op}L_{op}$

Poids Conscients de l'Incertitude

Innovation centrale : Modéliser les poids des tâches comme des paramètres apprenables, ajustés de manière adaptative en fonction de l'incertitude de prévision :

$\alpha_i = \frac{1}{2\sigma_i^2}, \quad i \in \{ca, de, op\}$

En implémentation, la variance logarithmique $\log \sigma_i^2$ est utilisée comme paramètre apprenable, et la perte finale devient :

$L^{(a)} = \sum_{i \in \{ca,de,op\}} \left(\frac{1}{2}e^{-\log \sigma_i^2}L_i + \frac{1}{2}\log \sigma_i^2\right)$

Stratégies de Stabilisation :

Régularisation douce : Ajouter un terme de pénalité aux paramètres de variance logarithmique
Limitation de plage : Limiter $\log \sigma_i^2$ à la plage $[-10, 10]$

Points d'Innovation Technique

Découplage au niveau de la sortie : Contrairement à Autoformer et autres qui se décomposent au niveau de l'entrée, CaReTS sépare explicitement les tendances et les écarts au niveau de la sortie, fournissant une interprétabilité plus directe
Mécanisme de fusion douce (CaReTS3) : Fusionne les écarts des deux directions par pondération probabiliste, réalisant une transition en douceur lorsque la tendance est incertaine
Équilibrage adaptatif des tâches : L'apprentissage des poids basé sur l'incertitude évite l'ajustement manuel des paramètres, permettant au modèle de se concentrer automatiquement sur les tâches plus fiables
Conception de complexité progressive : De CaReTS1 à CaReTS4, augmente progressivement la capacité de modélisation, explorant systématiquement l'espace de conception

Configuration Expérimentale

Ensembles de Données

Deux tâches de prévision de séries temporelles du monde réel :

Prévision des prix de l'électricité : 8 784 observations horaires (un an)
Prévision de la demande d'électricité importée/exportée (électricité non satisfaite) : 8 784 observations horaires

Configuration de prévision : Schéma 15-à-6

Entrée : Mois, jour de la semaine, heure du pas de temps actuel + 12 observations passées de la variable cible
Sortie : Prévisions des 6 étapes futures de la variable cible

Division des données :

Ensemble d'entraînement : 6 048 points
Ensemble de test : 2 736 points
Méthode d'évaluation : Validation croisée 10 fois

Métriques d'Évaluation

RMSE (Erreur Quadratique Moyenne Racine) : Mesure la précision de prévision
Précision de Classification des Tendances : Mesure la correction de la prévision de direction de tendance

Méthodes de Comparaison

Méthodes de Base (3 lignes de base de conception) :

Baseline1 : Architecture encodeur-décodeur traditionnelle
Baseline2 : Version simplifiée sans connexions résiduelles
Baseline3 : Remplacer le module de fusion par une seule couche FC

Algorithmes SOTA (10 algorithmes) :

Série Transformer : Autoformer, FEDformer, Non-stationary Transformer, Informer
Modèles hybrides : TimesNet, TimeXer, D-CNN-LSTM
Modèles légers : DLinear, NLinear, TimeMixer
Réseau de neurones flou : SOIT2FNN-MO

Détails d'Implémentation

Plateforme : Google Colab avec GPU T4
Encodeur : 2 couches, 64 unités cachées
- CNN : Taille du noyau de convolution 3, padding 1
- Transformer : 4 têtes d'attention
Branches de classification/régression : 2 couches FC, 64 unités cachées
Optimiseur : Adam, taux d'apprentissage 0.001
Taille de lot : 64
Nombre d'épochs : Maximum 600, stratégie d'arrêt anticipé (50 epochs sans amélioration)
Fonction d'activation : ReLU
Normalisation : Normalisation Min-Max

Résultats Expérimentaux

Résultats Principaux

1. Évaluation de l'Architecture (Tableau 2)

Prévision d'électricité non satisfaite (RMSE sur l'ensemble de test) :

Meilleur : CaReTS2-Transformer (0.0691 ± 0.0018)
Deuxième meilleur : CaReTS3-CNN (0.0692 ± 0.0010)
Toutes les variantes CaReTS2-4 surpassent les lignes de base

Prévision des prix de l'électricité (RMSE sur l'ensemble de test) :

Meilleur : CaReTS2-Transformer (0.0465 ± 0.0012)
CaReTS1-4 surpassent les lignes de base dans toutes les configurations d'encodeur (sauf CaReTS1-LSTM)

Découvertes clés :

CaReTS2 montre les performances les plus stables, meilleur dans 4 sur 6 configurations, deuxième meilleur dans 2
L'encodeur Transformer surpasse généralement CNN et LSTM
CaReTS1 montre des avantages moins évidents en raison de la simplification de la branche d'écart

2. Performance de Classification des Tendances (Tableau 3)

Toutes les variantes atteignent une précision supérieure à 90% :

Électricité non satisfaite : CaReTS2-Transformer le plus élevé (0.9192 ± 0.0022)
Prix de l'électricité : CaReTS2-Transformer le plus élevé (0.9146 ± 0.0019)

Analyse inter-étapes (Figure 5) :

La précision de classification des tendances reste stable sur les 6 étapes de prévision, voire s'améliore légèrement
Contraste avec l'augmentation du RMSE, démontrant la robustesse du cadre à maintenir la cohérence des tendances dans les prévisions à long terme

Expériences d'Ablation

Apprentissage Multi-Tâches vs Apprentissage Unique (Tableau 4)

Exemple avec encodeur Transformer :

Électricité non satisfaite :

CaReTS2 multi-tâches : RMSE 0.0691, précision de tendance 0.9192
CaReTS2 unique : RMSE 0.0704, précision de tendance 0.9060
Amélioration : RMSE réduit de 1.8%, précision de tendance améliorée de 1.3%

Prix de l'électricité :

CaReTS1 multi-tâches : RMSE 0.0473, précision de tendance 0.9142
CaReTS1 unique : RMSE 0.0539, précision de tendance 0.8663
Amélioration : RMSE réduit de 12.2%, précision de tendance améliorée de 5.5%

Frais de calcul :

Paramètres supplémentaires : seulement 3 scalaires de poids de tâche
Augmentation du temps d'exécution négligeable (253-401 secondes vs 216-386 secondes)

Comparaison SOTA (Tableau 5)

Électricité non satisfaite :

CaReTS2 : RMSE 0.0691, précision de tendance 0.9192
TimeXer (deuxième meilleur SOTA) : RMSE 0.0700, précision de tendance 0.9066
Avantage : RMSE réduit de 1.3%, précision de tendance améliorée de 1.4%

Prix de l'électricité :

CaReTS2 : RMSE 0.0465, précision de tendance 0.9146
TimeXer (meilleur SOTA) : RMSE 0.0463, précision de tendance 0.9013
Avantage : Bien que RMSE soit légèrement supérieur de 0.4%, la précision de tendance est supérieure de 1.5%

Comparaison d'efficacité :

Temps d'exécution de CaReTS : 200-400 secondes
Modèles légers (DLinear/NLinear) : <70 secondes
Modèles lourds (Autoformer/TimeXer) : >460 secondes
Conclusion : CaReTS atteint un bon équilibre entre précision et efficacité

Expériences Étendues (Annexe A.6)

Avec les configurations de prévision 15-4 et 15-8 :

CaReTS2 se classe toujours dans les trois premiers pour RMSE et précision de tendance
Valide la stabilité du cadre sur différents horizons de prévision

Découvertes Expérimentales

Stabilité des tendances : La précision de classification des tendances ne diminue pas avec l'augmentation du nombre d'étapes de prévision, démontrant la robustesse de la modélisation des tendances macroscopiques
Apprentissage complémentaire : L'apprentissage multi-tâches favorise l'apprentissage complémentaire plutôt que l'interférence des tâches, l'optimisation conjointe surpassant l'approche unique
Compatibilité des encodeurs : Le cadre est bien compatible avec différents encodeurs, Transformer montrant généralement les meilleures performances
Modélisation spécifique à la direction : La conception d'écarts spécifiques à la direction de CaReTS2 capture les dynamiques asymétriques, surpassant l'écart unique (CaReTS1)
Avantage de la fusion douce : La pondération probabiliste de CaReTS3 fournit une transition en douceur lorsque la tendance est incertaine

Travaux Connexes

1. Prévision Profonde de Séries Temporelles

Méthodes CNN : Extraction de motifs spatio-temporels locaux
Méthodes RNN : LSTM, GRU capturant les dépendances de séquence
Méthodes Transformer :
- Informer : Attention ProbSparse
- Autoformer : Décomposition saisonnière-tendance + attention d'autocorrélation
- FEDformer : Filtrage dans le domaine fréquentiel
- PatchTST : Plongement basé sur patch
- iTransformer : Modélisation inversée axée sur les dépendances entre variables

2. Décomposition et Interprétabilité

Décomposition linéaire : DLinear, NLinear obtiennent des résultats compétitifs par décomposition simple tendance-saisonnière
Décomposition Transformer : ETSformer, Autoformer, FEDformer modélisent les composants au niveau de l'entrée/représentation
Différence de cet article : Découplage au niveau de la sortie, séparation directe des tendances et écarts de l'objectif de prévision

3. Architecture Multi-Tâches et Modulaire

TimeXer : Distinction entre signaux endogènes et exogènes
TimesNet : Modules multi-périodes capturant différentes échelles temporelles
MLP légers : TimeMixer, LightTS, TSMixer
Innovation de cet article : Cadre à double flux au niveau de la sortie, équilibrage adaptatif des tâches basé sur l'incertitude

Conclusion et Discussion

Conclusions Principales

CaReTS découple avec succès la classification des tendances et l'estimation des écarts par une architecture à double flux, améliorant simultanément la précision des prévisions et l'interprétabilité
Le mécanisme d'apprentissage multi-tâches basé sur l'incertitude équilibre efficacement les contributions des trois tâches, évitant l'ajustement manuel des paramètres
Les quatre variantes démontrent la flexibilité du cadre, la combinaison CaReTS2-Transformer montrant les meilleures performances
Atteint ou surpasse les performances SOTA sur les ensembles de données réels, avec une précision de classification des tendances dépassant 91%, et des frais de calcul contrôlables

Limitations

Vérification insuffisante des prévisions à long terme : Limité par les ressources GPU, l'évaluation principale porte sur 6 étapes de prévision, sans vérification suffisante de la capacité de prévision ultra-long terme
Diversité limitée des ensembles de données : Testé uniquement sur deux ensembles de données liés à l'électricité, manquant de vérification inter-domaines (finance, médecine)
Innovation d'encodeur limitée : Utilise des encodeurs standard, n'explore pas les extracteurs de caractéristiques temporelles personnalisés
Simplification des tendances binaires : Modélise uniquement les tendances ascendantes/descendantes, ne considère pas les tendances stationnaires ou la classification des tendances plus fine
Absence de quantification de l'interprétabilité : Bien que prétendant améliorer l'interprétabilité, manque d'études utilisateur ou d'évaluation quantitative des métriques d'interprétabilité

Directions Futures

Extension des prévisions à long terme : Vérifier la capacité de prévision ultra-long terme (par exemple, 100+ étapes) avec plus de ressources de calcul
Vérification inter-domaines : Tester la généralisation du cadre dans des domaines diversifiés (finance, médecine, climat)
Classification multi-niveaux des tendances : Étendre à des tendances multi-classes (par exemple, forte hausse, faible hausse, stationnaire)
Encodeurs personnalisés : Explorer les extracteurs de caractéristiques optimisés pour la décomposition tendance-écart
Recherche en interprétabilité : Mener des études utilisateur, évaluer quantitativement l'amélioration de l'interprétabilité

Évaluation Approfondie

Points Forts

Décomposition innovante du problème : La décomposition de la prévision de séries temporelles en classification des tendances et régression des écarts est intuitive et efficace, offrant une nouvelle perspective de modélisation
Fondation théorique solide : L'apprentissage multi-tâches conscient de l'incertitude repose sur un soutien théorique solide (Kendall et al., 2018), avec des détails d'implémentation complets
Exploration systématique de la conception : Les quatre variantes évoluent progressivement du simple au complexe, démontrant clairement l'espace de conception
Expériences rigoureuses et complètes :
- Validation croisée 10 fois fournissant des estimations fiables
- Comparaison avec 10 algorithmes SOTA
- Expériences d'ablation validant les contributions de chaque composant
- Analyse inter-étapes révélant la stabilité des tendances
Forte reproductibilité : Fournit du code anonyme, détails d'implémentation exhaustifs
Rédaction claire : Structure logique, figures riches, descriptions techniques précises

Insuffisances

Évaluation insuffisante de l'interprétabilité :
- Manque de cas visuels démontrant comment la décomposition tendance-écart aide à la compréhension
- Pas d'études utilisateur validant l'amélioration de l'interprétabilité
- L'interprétabilité reste principalement au niveau conceptuel
Limitations des ensembles de données :
- Seulement deux ensembles de données du domaine connexe
- Taille d'échantillon relativement petite (8 784 points)
- Manque de vérification sur séries temporelles multivariées
Vérification manquante des prévisions à long terme :
- Évaluation principale sur 6 étapes de prévision
- Bien que la Figure 5 montre la stabilité des tendances, aucun test réel sur des horizons plus longs
- Limite le jugement sur la capacité de prévision à long terme
Analyse grossière des frais de calcul :
- Rapporte uniquement le temps d'exécution total
- Manque d'analyse détaillée de la complexité temporelle et spatiale
- N'analyse pas les goulots d'étranglement de calcul des différents composants
Conception de base discutable :
- Les trois lignes de base de conception peuvent ne pas être suffisamment solides
- Manque de comparaison avec d'autres méthodes d'apprentissage multi-tâches
Simplification de la définition des tendances :
- Les tendances binaires (ascendante/descendante) peuvent être trop grossières
- Ne considère pas l'état stationnaire ou l'intensité des tendances

Impact

Contribution académique :
- Fournit une nouvelle perspective de décomposition au niveau de la sortie
- Application de l'apprentissage multi-tâches conscient de l'incertitude à la prévision de séries temporelles
- Peut inspirer davantage de recherches sur la séparation tendance-amplitude
Valeur pratique :
- Démontre l'applicabilité dans des domaines comme la prévision d'électricité
- La classification des tendances fournit des informations d'aide à la décision
- Les frais de calcul contrôlables conviennent au déploiement pratique
Reproductibilité :
- Fournit du code (bien qu'anonyme)
- Détails d'implémentation complets
- Facilite la reproduction et l'extension par les recherches ultérieures
Impact des limitations :
- Les limitations des ensembles de données et des prévisions à long terme peuvent limiter l'impact
- Nécessite davantage de vérification inter-domaines pour une application généralisée

Scénarios Applicables

Scénarios appropriés :

Tâches de prévision à court-moyen terme (6-8 étapes) : Le cadre est suffisamment vérifié dans cette plage
Applications nécessitant une explication des tendances : Comme la prise de décision financière, la planification énergétique, où la direction des tendances est plus importante que la valeur exacte
Séries temporelles univariées ou basse dimension : Configuration expérimentale actuelle univariée
Scénarios avec volume de données moyen : Environ 6 000 échantillons d'entraînement

Scénarios moins appropriés :

Prévisions ultra-long terme (>10 étapes) : Manque de vérification, efficacité inconnue
Séries temporelles multivariées haute dimension : Pas suffisamment testé dans les paramètres multivariés
Prévision en temps réel : Le temps de calcul de 200-400 secondes peut ne pas satisfaire les exigences en temps réel
Séries stationnaires sans tendances évidentes : La classification des tendances peut ne pas montrer d'avantages significatifs

Références

Références Clés Citées dans l'Article

Kendall et al. (2018) : Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR. Fondation théorique de la pondération par incertitude
Vaswani et al. (2017) : Attention is all you need. NeurIPS. Architecture Transformer
Zhou et al. (2021) : Informer: Beyond efficient transformer for long sequence time-series forecasting. AAAI. Attention ProbSparse
Wu et al. (2021) : Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting. NeurIPS. Décomposition saisonnière-tendance
Zhou et al. (2022) : FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. ICML. Décomposition dans le domaine fréquentiel
Liu et al. (2023) : iTransformer: Inverted transformers are effective for time series forecasting. arXiv. Modélisation inversée
Zeng et al. (2023) : Are transformers effective for time series forecasting? AAAI. Lignes de base simples DLinear/NLinear
Wang et al. (2024c) : TimeXer: Empowering transformers for time series forecasting with exogenous variables. NeurIPS. Modélisation des variables exogènes

Évaluation Générale : Ceci est un article bien conçu et expérimentalement rigoureux sur la prévision de séries temporelles. L'innovation centrale — la décomposition tendance-écart au niveau de la sortie — est simple mais efficace. L'apprentissage multi-tâches conscient de l'incertitude est implémenté avec élégance. Les résultats expérimentaux démontrent l'efficacité de la méthode, avec des améliorations en précision et interprétabilité. Les principales insuffisances résident dans l'évaluation insuffisante de l'interprétabilité, la diversité limitée des ensembles de données, et l'absence de vérification des prévisions à long terme. Il est recommandé que les travaux futurs valident le cadre sur plus de domaines et horizons plus longs, et quantifient l'amélioration de l'interprétabilité par des études utilisateur. Dans l'ensemble, c'est une contribution précieuse offrant un nouveau paradigme de modélisation pour la prévision de séries temporelles.