2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.

Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.

academic

Relever les Variétés pour Atténuer l'Alignement Pseudo dans LLM4TS

Informations Fondamentales

ID de l'article: 2510.12847
Titre: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
Auteurs: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
Classification: cs.LG (Apprentissage Automatique)
Date de publication: 14 octobre 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.12847

Résumé

L'alignement pseudo est un défi omniprésent dans de nombreux grands modèles de langage pour les séries temporelles (LLM4TS), conduisant souvent à des performances inférieures aux modèles linéaires ou aux réseaux de base initialisés aléatoirement. Cependant, la communauté a peu discuté des causes de l'alignement pseudo. Cet article approfondit les causes fondamentales de l'alignement pseudo dans LLM4TS et établit un lien entre l'alignement pseudo et l'effet de cône dans les LLM. L'étude montre que l'alignement pseudo résulte de l'interaction entre l'effet de cône dans les composants LLM préentraînés et la variété intrinsèquement de faible dimension des données de séries temporelles. De plus, cet article introduit TimeSUP, une nouvelle technique conçue pour atténuer ce problème et améliorer les performances prédictives des méthodes LLM4TS existantes.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: Le phénomène d'alignement pseudo omniprésent dans les modèles LLM4TS, conduisant à des performances médiocres, voire inférieures aux modèles linéaires simples
Description du phénomène: Les représentations de séries temporelles et de langage semblent alignées au niveau des statistiques du premier ordre (comme la moyenne), mais les distributions complètes restent différentes, indiquant l'échec d'un véritable alignement sémantique et la distorsion des caractéristiques spécifiques aux modalités

Importance de la Recherche

Valeur d'application pratique: L'analyse des séries temporelles a des applications importantes dans le diagnostic médical, la prévision météorologique, le flux de trafic et la prévision de charge énergétique
Signification théorique: Comprendre les mécanismes d'adaptation des LLM dans les domaines non linguistiques, fournissant une base théorique pour l'apprentissage multimodal
Défis technologiques: Les méthodes LLM4TS existantes manquent d'une étude systématique des origines mécaniques de l'alignement pseudo

Limitations des Approches Existantes

Manque d'analyse approfondie des causes fondamentales de l'alignement pseudo
Absence de modifications architecturales efficaces ou de stratégies d'entraînement pour activer les connaissances riches des LLM pour la prédiction de séries temporelles
Les méthodes existantes fonctionnent souvent moins bien que les modèles de base légers

Contributions Principales

Révéler pour la première fois le problème d'alignement pseudo sous l'angle de la dimensionnalité des variétés de données, fournissant de nouvelles perspectives pour les modèles LLM4TS, et démontrer par des expériences complètes l'impact de la faible dimensionnalité sur les séries temporelles
Proposer la méthode TimeSUP, une approche simple et efficace de reprogrammation des séries temporelles pour les grands modèles de langage, résolvant efficacement le problème d'alignement pseudo en augmentant la dimensionnalité exacte des données de séries temporelles
Réaliser des améliorations de performance cohérentes, TimeSUP surpasse continuellement les lignes de base LLM4TS de pointe sur divers ensembles de données de prédiction à long terme, et s'adapte facilement à d'autres méthodes LLM4TS

Explication Détaillée de la Méthode

Définition de la Tâche

Cet article se concentre sur la tâche de prédiction de séries temporelles à long terme, avec comme entrée les données historiques de séries temporelles et comme sortie les valeurs prédites pour les pas de temps futurs. Le défi central est de savoir comment exploiter efficacement les connaissances linguistiques des LLM préentraînés pour améliorer les performances de prédiction des séries temporelles.

Fondements Théoriques

Analyse des Variétés de Séries Temporelles

Par analyse en composantes principales (PCA), on découvre:

Les tokens de séries temporelles (taille de patch=16, stride=8) ne nécessitent que 21 composantes principales pour une bonne représentation
Les tokens de langage GPT-2 conservent 712 composantes (sur 768 au total)
La modalité de séries temporelles réside sur une variété de dimensionnalité inférieure à celle de la modalité linguistique

Analyse Théorique de l'Alignement Pseudo

Théorème 1: Lorsque la dimensionnalité de la variété m→0 et n→0, la similarité cosinus tend à converger uniquement vers la similarité entre les moyennes des distributions de séries temporelles et de langage, conduisant à un alignement pseudo.

Expression mathématique:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

Lorsque m≪n et mσ_ts est négligeable, en raison de l'effet de cône, la similarité cosinus augmente considérablement, et l'équation converge vers une similarité élevée de μ_ts avec l'ensemble de la distribution linguistique.

Architecture de TimeSUP

1. Intégration de Séries Temporelles en Patchs

Longueur de séquence d'entrée L, taille de patch P, stride S
Nombre de patchs générés: N = ⌈(P-L)/S⌉ + 1
Mappage linéaire vers l'espace d'intégration de langage partagé R^d

2. Sélection des Prototypes Textuels Top-K

Génération de 1000 prototypes textuels par combinaison linéaire du vocabulaire
Utilisation d'attention croisée asymétrique pour trouver les prototypes Top-K décrivant au mieux les patchs temporels
Calcul des poids d'attention: A_k = TopK(Softmax(QK^T/√d))

3. Amplificateur de Variété Temporelle

Conception de deux MLP légers:

M_c ∈ R^((K+1)×N)×n: opérant sur la dimension des tokens
M_f ∈ R^(d×d): opérant sur les canaux de caractéristiques

Processus de fusion:

T* = M_f(M_c^T T_t)^T

où T_t est la représentation concaténée de la paire temps-texte.

Vérification de l'Efficacité

Par expérience de sondage PCA, on vérifie que la représentation augmentée élève la dimensionnalité intrinsèque de la variété de séries temporelles de 21 à 224 (comparé aux 712 dimensions des tokens de langage GPT-2), augmentant significativement la dimensionnalité de la variété de données.

Configuration Expérimentale

Ensembles de Données

Utilisation de 8 ensembles de données de référence largement adoptés pour la prédiction à long terme:

Série ETT: ETTh1, ETTh2, ETTm1, ETTm2 (données de température du transformateur électrique)
Illness: Données de maladie (7 dimensions, fréquence hebdomadaire)
Weather: Données météorologiques (21 dimensions, fréquence de 10 minutes)
Traffic: Données de trafic (862 dimensions, fréquence horaire)
ECL: Données de consommation électrique (862 dimensions, fréquence horaire)

Métriques d'Évaluation

MSE: Erreur quadratique moyenne
MAE: Erreur absolue moyenne

Méthodes de Comparaison

Méthodes LLM4TS: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA Lignes de base légères: TimeMixer, TimesNet, iTransformer

Détails d'Implémentation

Matériel: 4×RTX 4090 24GB et 4×A100 40GB
Optimiseur: Adam
Fonction de perte: Erreur quadratique moyenne
Visualisation basée sur l'implémentation officielle d'OFA

Résultats Expérimentaux

Résultats Principaux

TimeSUP obtient les meilleures performances dans 60 configurations sur 80 tests, surpassant significativement toutes les méthodes de base:

Résultats représentatifs:

Moyenne ETTh1: MSE 0,412 vs meilleure ligne de base 0,426 (amélioration de 3,3%)
Moyenne ETTh2: MSE 0,353 vs meilleure ligne de base 0,355 (amélioration de 0,6%)
Moyenne Illness: MSE 1,885 vs meilleure ligne de base 2,056 (amélioration de 8,3%)
Moyenne Weather: MSE 0,231 vs meilleure ligne de base 0,233 (amélioration de 0,9%)

Expériences d'Analyse Hiérarchique

Par visualisation couche par couche des 6 couches de GPT-2, on découvre:

Modèle de base: La similarité cosinus monte en flèche à près de 1 dès la première couche et reste au-dessus de 0,9 dans les couches suivantes
TimeSUP: À partir de la 2e couche, les intégrations de séries temporelles commencent à se déployer en éventail et à se mapper sur la variété linguistique, la similarité cosinus augmente progressivement mais se stabilise finalement à environ 0,6643

Expériences d'Adaptabilité

TimeSUP peut s'intégrer de manière transparente à plusieurs méthodes LLM4TS existantes:

S2IP+TimeSUP: Réduction MSE de 3% sur ETTh1, MAE de 2%
OFA+TimeSUP: Réduction MSE de 4,8%, MAE de 1,3%
Amélioration moyenne: Réduction MSE moyenne de 11% sur l'ensemble de données Illness, réduction de 2% sur ETTh1

Expériences d'Ablation

Par contrôle de l'état de préentraînement/fine-tuning de LayerNorm (LN) et de l'attention multi-têtes (MHA), on découvre:

LN-PT & MHA-PT: Produit l'alignement pseudo le plus grave
Composants initialisés aléatoirement: Réduit considérablement les performances prédictives
LN-PF & MHA-RF: Réduction de performance maximale
LN-RT & MHA-PF: Réduction de performance minimale, indiquant que la plupart des connaissances linguistiques sont stockées dans la couche MHA

Travaux Connexes

Modèles Légers de Séries Temporelles

Basés sur RNN: Apprentissage des caractéristiques temporelles par récurrence, mais avec des problèmes de dépendances à long terme
Basés sur CNN: Apprentissage des noyaux de convolution pour extraire les caractéristiques temporelles et locales
Basés sur Transformer: PatchTST, iTransformer, AutoFormer, etc. exploitant le champ réceptif global
Basés sur MLP: DLinear, TimesNet, TimeMixer, etc. simplifiant les paramètres

Méthodes LLM4TS

OFA: Reprogrammation de GPT-2 pour les séries temporelles multitâches par fine-tuning des couches LayerNorm
TimeLLM: Utilisation d'invites et d'attention croisée pour trouver les meilleurs tokens textuels décrivant les caractéristiques temporelles du vocabulaire
CALF: Exploitation du fine-tuning LoRA et de la perte de cohérence texte-temps
S2IP: Décomposition des séries temporelles et alignement des tokens de langage aux composantes STL

Conclusions et Discussion

Conclusions Principales

Cause fondamentale de l'alignement pseudo: Preuve que l'alignement pseudo est un effet synthétique de l'interaction entre l'effet de cône et la variété de faible dimension des séries temporelles
Solution efficace: TimeSUP atténue efficacement le problème d'alignement pseudo en augmentant la dimensionnalité de la variété de séries temporelles
Applicabilité générale: Cette méthode peut être intégrée en tant que module "plug-and-play" dans diverses architectures LLM4TS

Limitations

Surcharge de calcul: Bien que TimeSUP soit relativement léger, l'augmentation de dimensionnalité entraîne certains coûts de calcul
Sensibilité aux hyperparamètres: La sélection Top-K et le nombre de tokens compressés et autres hyperparamètres nécessitent un ajustement pour différents ensembles de données
Analyse théorique: Bien que fournissant des preuves mathématiques, la couverture théorique pour les scénarios réels complexes reste limitée

Directions Futures

Augmentation de dimensionnalité adaptative: Développement de méthodes pouvant déterminer automatiquement la dimensionnalité optimale de la variété
Extension multimodale: Extension de cette idée à d'autres problèmes d'alignement de modalités
Optimisation de l'efficacité: Recherche de techniques d'amplification de variété plus efficaces

Évaluation Approfondie

Points Forts

Contribution théorique remarquable: Première analyse approfondie du problème d'alignement pseudo sous l'angle de la dimensionnalité des variétés, fournissant un soutien théorique mathématique clair
Méthode simple et efficace: TimeSUP est simple à concevoir mais très efficace, facile à comprendre et à mettre en œuvre
Expériences complètes: Comparaison complète avec 10 méthodes de base sur 8 ensembles de données, résultats convaincants
Analyse de visualisation approfondie: Démonstration claire du mécanisme de fonctionnement de la méthode par UMAP et analyse couche par couche
Applicabilité générale: Preuve que la méthode peut s'intégrer à plusieurs architectures existantes

Insuffisances

Analyse insuffisante de l'efficacité de calcul: Manque d'analyse détaillée des coûts de calcul et du temps d'entraînement augmentés
Sensibilité aux hyperparamètres: Différents ensembles de données nécessitent différents paramètres, manque de stratégie de sélection unifiée
Vérification des effets à long terme: Concentration principale sur la prédiction à long terme, l'efficacité sur la prédiction à court terme et d'autres tâches de séries temporelles nécessite une vérification supplémentaire
Hypothèses théoriques: Certaines dérivations mathématiques sont basées sur des hypothèses idéalisées, l'applicabilité dans les applications réelles peut être limitée

Impact

Valeur académique: Fournit des perspectives théoriques importantes au domaine LLM4TS, susceptible d'inspirer les recherches ultérieures
Valeur pratique: En tant que module plug-and-play, possède un fort potentiel d'application pratique
Reproductibilité: L'article fournit des détails d'implémentation détaillés et des paramètres, facilitant la reproduction

Scénarios d'Application

Prédiction de séries temporelles à long terme: Particulièrement adapté aux tâches complexes de prédiction de séries temporelles nécessitant l'exploitation des connaissances des LLM
Apprentissage multimodal: Cette idée peut s'étendre à d'autres problèmes d'apprentissage multimodal avec inadéquation dimensionnelle
Adaptation de modèles préentraînés: Fournit de nouvelles perspectives pour adapter les modèles de langage préentraînés à d'autres domaines

Références

Cet article cite 35 références pertinentes, couvrant les domaines importants de la prédiction de séries temporelles, des grands modèles de langage, de l'apprentissage multimodal, etc., fournissant une base théorique solide pour la recherche.

Évaluation Générale: Cet article est de qualité relativement élevée, avec une analyse théorique et une vérification expérimentale suffisantes. L'article identifie et résout un problème important dans le domaine LLM4TS, la méthode proposée est simple et efficace, possédant une forte valeur pratique et une signification académique.