2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.
Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.
academic

Relever les Variétés pour Atténuer l'Alignement Pseudo dans LLM4TS

Informations Fondamentales

  • ID de l'article: 2510.12847
  • Titre: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
  • Auteurs: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
  • Classification: cs.LG (Apprentissage Automatique)
  • Date de publication: 14 octobre 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.12847

Résumé

L'alignement pseudo est un défi omniprésent dans de nombreux grands modèles de langage pour les séries temporelles (LLM4TS), conduisant souvent à des performances inférieures aux modèles linéaires ou aux réseaux de base initialisés aléatoirement. Cependant, la communauté a peu discuté des causes de l'alignement pseudo. Cet article approfondit les causes fondamentales de l'alignement pseudo dans LLM4TS et établit un lien entre l'alignement pseudo et l'effet de cône dans les LLM. L'étude montre que l'alignement pseudo résulte de l'interaction entre l'effet de cône dans les composants LLM préentraînés et la variété intrinsèquement de faible dimension des données de séries temporelles. De plus, cet article introduit TimeSUP, une nouvelle technique conçue pour atténuer ce problème et améliorer les performances prédictives des méthodes LLM4TS existantes.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central: Le phénomène d'alignement pseudo omniprésent dans les modèles LLM4TS, conduisant à des performances médiocres, voire inférieures aux modèles linéaires simples
  2. Description du phénomène: Les représentations de séries temporelles et de langage semblent alignées au niveau des statistiques du premier ordre (comme la moyenne), mais les distributions complètes restent différentes, indiquant l'échec d'un véritable alignement sémantique et la distorsion des caractéristiques spécifiques aux modalités

Importance de la Recherche

  • Valeur d'application pratique: L'analyse des séries temporelles a des applications importantes dans le diagnostic médical, la prévision météorologique, le flux de trafic et la prévision de charge énergétique
  • Signification théorique: Comprendre les mécanismes d'adaptation des LLM dans les domaines non linguistiques, fournissant une base théorique pour l'apprentissage multimodal
  • Défis technologiques: Les méthodes LLM4TS existantes manquent d'une étude systématique des origines mécaniques de l'alignement pseudo

Limitations des Approches Existantes

  1. Manque d'analyse approfondie des causes fondamentales de l'alignement pseudo
  2. Absence de modifications architecturales efficaces ou de stratégies d'entraînement pour activer les connaissances riches des LLM pour la prédiction de séries temporelles
  3. Les méthodes existantes fonctionnent souvent moins bien que les modèles de base légers

Contributions Principales

  1. Révéler pour la première fois le problème d'alignement pseudo sous l'angle de la dimensionnalité des variétés de données, fournissant de nouvelles perspectives pour les modèles LLM4TS, et démontrer par des expériences complètes l'impact de la faible dimensionnalité sur les séries temporelles
  2. Proposer la méthode TimeSUP, une approche simple et efficace de reprogrammation des séries temporelles pour les grands modèles de langage, résolvant efficacement le problème d'alignement pseudo en augmentant la dimensionnalité exacte des données de séries temporelles
  3. Réaliser des améliorations de performance cohérentes, TimeSUP surpasse continuellement les lignes de base LLM4TS de pointe sur divers ensembles de données de prédiction à long terme, et s'adapte facilement à d'autres méthodes LLM4TS

Explication Détaillée de la Méthode

Définition de la Tâche

Cet article se concentre sur la tâche de prédiction de séries temporelles à long terme, avec comme entrée les données historiques de séries temporelles et comme sortie les valeurs prédites pour les pas de temps futurs. Le défi central est de savoir comment exploiter efficacement les connaissances linguistiques des LLM préentraînés pour améliorer les performances de prédiction des séries temporelles.

Fondements Théoriques

Analyse des Variétés de Séries Temporelles

Par analyse en composantes principales (PCA), on découvre:

  • Les tokens de séries temporelles (taille de patch=16, stride=8) ne nécessitent que 21 composantes principales pour une bonne représentation
  • Les tokens de langage GPT-2 conservent 712 composantes (sur 768 au total)
  • La modalité de séries temporelles réside sur une variété de dimensionnalité inférieure à celle de la modalité linguistique

Analyse Théorique de l'Alignement Pseudo

Théorème 1: Lorsque la dimensionnalité de la variété m→0 et n→0, la similarité cosinus tend à converger uniquement vers la similarité entre les moyennes des distributions de séries temporelles et de langage, conduisant à un alignement pseudo.

Expression mathématique:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

Lorsque m≪n et mσ_ts est négligeable, en raison de l'effet de cône, la similarité cosinus augmente considérablement, et l'équation converge vers une similarité élevée de μ_ts avec l'ensemble de la distribution linguistique.

Architecture de TimeSUP

1. Intégration de Séries Temporelles en Patchs

  • Longueur de séquence d'entrée L, taille de patch P, stride S
  • Nombre de patchs générés: N = ⌈(P-L)/S⌉ + 1
  • Mappage linéaire vers l'espace d'intégration de langage partagé R^d

2. Sélection des Prototypes Textuels Top-K

  • Génération de 1000 prototypes textuels par combinaison linéaire du vocabulaire
  • Utilisation d'attention croisée asymétrique pour trouver les prototypes Top-K décrivant au mieux les patchs temporels
  • Calcul des poids d'attention: A_k = TopK(Softmax(QK^T/√d))

3. Amplificateur de Variété Temporelle

Conception de deux MLP légers:

  • M_c ∈ R^((K+1)×N)×n: opérant sur la dimension des tokens
  • M_f ∈ R^(d×d): opérant sur les canaux de caractéristiques

Processus de fusion:

T* = M_f(M_c^T T_t)^T

où T_t est la représentation concaténée de la paire temps-texte.

Vérification de l'Efficacité

Par expérience de sondage PCA, on vérifie que la représentation augmentée élève la dimensionnalité intrinsèque de la variété de séries temporelles de 21 à 224 (comparé aux 712 dimensions des tokens de langage GPT-2), augmentant significativement la dimensionnalité de la variété de données.

Configuration Expérimentale

Ensembles de Données

Utilisation de 8 ensembles de données de référence largement adoptés pour la prédiction à long terme:

  • Série ETT: ETTh1, ETTh2, ETTm1, ETTm2 (données de température du transformateur électrique)
  • Illness: Données de maladie (7 dimensions, fréquence hebdomadaire)
  • Weather: Données météorologiques (21 dimensions, fréquence de 10 minutes)
  • Traffic: Données de trafic (862 dimensions, fréquence horaire)
  • ECL: Données de consommation électrique (862 dimensions, fréquence horaire)

Métriques d'Évaluation

  • MSE: Erreur quadratique moyenne
  • MAE: Erreur absolue moyenne

Méthodes de Comparaison

Méthodes LLM4TS: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA Lignes de base légères: TimeMixer, TimesNet, iTransformer

Détails d'Implémentation

  • Matériel: 4×RTX 4090 24GB et 4×A100 40GB
  • Optimiseur: Adam
  • Fonction de perte: Erreur quadratique moyenne
  • Visualisation basée sur l'implémentation officielle d'OFA

Résultats Expérimentaux

Résultats Principaux

TimeSUP obtient les meilleures performances dans 60 configurations sur 80 tests, surpassant significativement toutes les méthodes de base:

Résultats représentatifs:

  • Moyenne ETTh1: MSE 0,412 vs meilleure ligne de base 0,426 (amélioration de 3,3%)
  • Moyenne ETTh2: MSE 0,353 vs meilleure ligne de base 0,355 (amélioration de 0,6%)
  • Moyenne Illness: MSE 1,885 vs meilleure ligne de base 2,056 (amélioration de 8,3%)
  • Moyenne Weather: MSE 0,231 vs meilleure ligne de base 0,233 (amélioration de 0,9%)

Expériences d'Analyse Hiérarchique

Par visualisation couche par couche des 6 couches de GPT-2, on découvre:

  • Modèle de base: La similarité cosinus monte en flèche à près de 1 dès la première couche et reste au-dessus de 0,9 dans les couches suivantes
  • TimeSUP: À partir de la 2e couche, les intégrations de séries temporelles commencent à se déployer en éventail et à se mapper sur la variété linguistique, la similarité cosinus augmente progressivement mais se stabilise finalement à environ 0,6643

Expériences d'Adaptabilité

TimeSUP peut s'intégrer de manière transparente à plusieurs méthodes LLM4TS existantes:

  • S2IP+TimeSUP: Réduction MSE de 3% sur ETTh1, MAE de 2%
  • OFA+TimeSUP: Réduction MSE de 4,8%, MAE de 1,3%
  • Amélioration moyenne: Réduction MSE moyenne de 11% sur l'ensemble de données Illness, réduction de 2% sur ETTh1

Expériences d'Ablation

Par contrôle de l'état de préentraînement/fine-tuning de LayerNorm (LN) et de l'attention multi-têtes (MHA), on découvre:

  • LN-PT & MHA-PT: Produit l'alignement pseudo le plus grave
  • Composants initialisés aléatoirement: Réduit considérablement les performances prédictives
  • LN-PF & MHA-RF: Réduction de performance maximale
  • LN-RT & MHA-PF: Réduction de performance minimale, indiquant que la plupart des connaissances linguistiques sont stockées dans la couche MHA

Travaux Connexes

Modèles Légers de Séries Temporelles

  • Basés sur RNN: Apprentissage des caractéristiques temporelles par récurrence, mais avec des problèmes de dépendances à long terme
  • Basés sur CNN: Apprentissage des noyaux de convolution pour extraire les caractéristiques temporelles et locales
  • Basés sur Transformer: PatchTST, iTransformer, AutoFormer, etc. exploitant le champ réceptif global
  • Basés sur MLP: DLinear, TimesNet, TimeMixer, etc. simplifiant les paramètres

Méthodes LLM4TS

  • OFA: Reprogrammation de GPT-2 pour les séries temporelles multitâches par fine-tuning des couches LayerNorm
  • TimeLLM: Utilisation d'invites et d'attention croisée pour trouver les meilleurs tokens textuels décrivant les caractéristiques temporelles du vocabulaire
  • CALF: Exploitation du fine-tuning LoRA et de la perte de cohérence texte-temps
  • S2IP: Décomposition des séries temporelles et alignement des tokens de langage aux composantes STL

Conclusions et Discussion

Conclusions Principales

  1. Cause fondamentale de l'alignement pseudo: Preuve que l'alignement pseudo est un effet synthétique de l'interaction entre l'effet de cône et la variété de faible dimension des séries temporelles
  2. Solution efficace: TimeSUP atténue efficacement le problème d'alignement pseudo en augmentant la dimensionnalité de la variété de séries temporelles
  3. Applicabilité générale: Cette méthode peut être intégrée en tant que module "plug-and-play" dans diverses architectures LLM4TS

Limitations

  1. Surcharge de calcul: Bien que TimeSUP soit relativement léger, l'augmentation de dimensionnalité entraîne certains coûts de calcul
  2. Sensibilité aux hyperparamètres: La sélection Top-K et le nombre de tokens compressés et autres hyperparamètres nécessitent un ajustement pour différents ensembles de données
  3. Analyse théorique: Bien que fournissant des preuves mathématiques, la couverture théorique pour les scénarios réels complexes reste limitée

Directions Futures

  1. Augmentation de dimensionnalité adaptative: Développement de méthodes pouvant déterminer automatiquement la dimensionnalité optimale de la variété
  2. Extension multimodale: Extension de cette idée à d'autres problèmes d'alignement de modalités
  3. Optimisation de l'efficacité: Recherche de techniques d'amplification de variété plus efficaces

Évaluation Approfondie

Points Forts

  1. Contribution théorique remarquable: Première analyse approfondie du problème d'alignement pseudo sous l'angle de la dimensionnalité des variétés, fournissant un soutien théorique mathématique clair
  2. Méthode simple et efficace: TimeSUP est simple à concevoir mais très efficace, facile à comprendre et à mettre en œuvre
  3. Expériences complètes: Comparaison complète avec 10 méthodes de base sur 8 ensembles de données, résultats convaincants
  4. Analyse de visualisation approfondie: Démonstration claire du mécanisme de fonctionnement de la méthode par UMAP et analyse couche par couche
  5. Applicabilité générale: Preuve que la méthode peut s'intégrer à plusieurs architectures existantes

Insuffisances

  1. Analyse insuffisante de l'efficacité de calcul: Manque d'analyse détaillée des coûts de calcul et du temps d'entraînement augmentés
  2. Sensibilité aux hyperparamètres: Différents ensembles de données nécessitent différents paramètres, manque de stratégie de sélection unifiée
  3. Vérification des effets à long terme: Concentration principale sur la prédiction à long terme, l'efficacité sur la prédiction à court terme et d'autres tâches de séries temporelles nécessite une vérification supplémentaire
  4. Hypothèses théoriques: Certaines dérivations mathématiques sont basées sur des hypothèses idéalisées, l'applicabilité dans les applications réelles peut être limitée

Impact

  1. Valeur académique: Fournit des perspectives théoriques importantes au domaine LLM4TS, susceptible d'inspirer les recherches ultérieures
  2. Valeur pratique: En tant que module plug-and-play, possède un fort potentiel d'application pratique
  3. Reproductibilité: L'article fournit des détails d'implémentation détaillés et des paramètres, facilitant la reproduction

Scénarios d'Application

  1. Prédiction de séries temporelles à long terme: Particulièrement adapté aux tâches complexes de prédiction de séries temporelles nécessitant l'exploitation des connaissances des LLM
  2. Apprentissage multimodal: Cette idée peut s'étendre à d'autres problèmes d'apprentissage multimodal avec inadéquation dimensionnelle
  3. Adaptation de modèles préentraînés: Fournit de nouvelles perspectives pour adapter les modèles de langage préentraînés à d'autres domaines

Références

Cet article cite 35 références pertinentes, couvrant les domaines importants de la prédiction de séries temporelles, des grands modèles de langage, de l'apprentissage multimodal, etc., fournissant une base théorique solide pour la recherche.


Évaluation Générale: Cet article est de qualité relativement élevée, avec une analyse théorique et une vérification expérimentale suffisantes. L'article identifie et résout un problème important dans le domaine LLM4TS, la méthode proposée est simple et efficace, possédant une forte valeur pratique et une signification académique.