2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.
Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.
academic

Sollevamento di Varietà per Mitigare lo Pseudo-Allineamento in LLM4TS

Informazioni Fondamentali

  • ID Articolo: 2510.12847
  • Titolo: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
  • Autori: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 14 ottobre 2024 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.12847

Riassunto

Lo pseudo-allineamento rappresenta una sfida diffusa in molti modelli di linguaggio di grandi dimensioni per serie temporali (LLM4TS), spesso causando prestazioni inferiori rispetto ai modelli lineari o alle reti di base inizializzate casualmente. Tuttavia, la comunità ha discusso limitatamente delle cause dello pseudo-allineamento. Questo articolo approfondisce le cause fondamentali dello pseudo-allineamento in LLM4TS e stabilisce un collegamento tra lo pseudo-allineamento e l'effetto cono (cone effect) negli LLM. La ricerca dimostra che lo pseudo-allineamento origina dall'interazione tra l'effetto cono nei componenti LLM preaddestrati e la varietà intrinsecamente a bassa dimensionalità dei dati di serie temporali. Inoltre, l'articolo introduce TimeSUP, una nuova tecnica progettata per mitigare questo problema e migliorare le prestazioni predittive dei metodi LLM4TS esistenti.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Il fenomeno dello pseudo-allineamento diffuso nei modelli LLM4TS, che causa scarse prestazioni del modello, persino inferiori ai semplici modelli lineari
  2. Descrizione del Fenomeno: Le rappresentazioni di serie temporali e linguaggio sembrano allineate a livello di statistiche del primo ordine (come la media), ma la distribuzione completa rimane diversa, indicando il fallimento del vero allineamento semantico e la distorsione delle caratteristiche specifiche della modalità

Importanza della Ricerca

  • Valore Applicativo Pratico: L'analisi delle serie temporali ha importanti applicazioni nella diagnosi medica, previsione meteorologica, flusso del traffico e previsione dei carichi energetici
  • Significato Teorico: Comprendere i meccanismi di adattamento degli LLM in domini non linguistici, fornendo una base teorica per l'apprendimento cross-modale
  • Sfida Tecnica: I metodi LLM4TS esistenti mancano di uno studio sistematico delle origini meccanicistiche dello pseudo-allineamento

Limitazioni dei Metodi Esistenti

  1. Mancanza di analisi approfondita delle cause fondamentali dello pseudo-allineamento
  2. Assenza di modifiche architettoniche efficaci o strategie di addestramento per attivare la conoscenza ricca degli LLM per la previsione di serie temporali
  3. I metodi esistenti spesso hanno prestazioni inferiori ai modelli di base leggeri

Contributi Principali

  1. Rivelazione per la prima volta del problema dello pseudo-allineamento dalla prospettiva della dimensionalità della varietà dei dati, fornendo nuove intuizioni per i modelli LLM4TS e dimostrando attraverso esperimenti completi l'impatto della bassa dimensionalità sulle serie temporali
  2. Proposta del metodo TimeSUP, un metodo semplice ed efficace di riprogrammazione di serie temporali per modelli di linguaggio di grandi dimensioni, che risolve efficacemente il problema dello pseudo-allineamento elevando la dimensionalità esatta dei dati di serie temporali
  3. Realizzazione di miglioramenti coerenti delle prestazioni, TimeSUP supera costantemente i migliori metodi di base LLM4TS su vari dataset di previsione a lungo termine ed è facilmente adattabile ad altri metodi LLM4TS

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo si concentra sul compito di previsione di serie temporali a lungo termine, con input costituiti da dati storici di serie temporali e output costituiti da valori predetti per i passi temporali futuri. La sfida centrale è come utilizzare efficacemente la conoscenza linguistica preaddestrata degli LLM per migliorare le prestazioni di previsione delle serie temporali.

Fondamenti Teorici

Analisi della Varietà di Serie Temporali

Attraverso l'analisi PCA si scopre che:

  • I token di serie temporali (patch size=16, stride=8) richiedono solo 21 componenti principali per una buona rappresentazione
  • I token linguistici di GPT-2 mantengono 712 componenti (su 768 totali)
  • La modalità di serie temporali risiede su una varietà di dimensionalità inferiore rispetto alla modalità linguistica

Analisi Teorica dello Pseudo-Allineamento

Teorema 1: Quando la dimensionalità della varietà m→0 e n→0, la similarità del coseno converge solo alla similarità tra le medie delle distribuzioni di serie temporali e linguaggio, causando pseudo-allineamento.

Espressione matematica:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

Quando m≪n e mσ_ts è trascurabile, a causa dell'effetto cono, la similarità del coseno aumenta significativamente e l'equazione converge all'alta similarità di μ_ts con l'intera distribuzione linguistica.

Architettura TimeSUP

1. Incorporamento di Serie Temporali in Patch

  • Lunghezza della sequenza di input L, dimensione del patch P, stride S
  • Numero di patch generati: N = ⌈(P-L)/S⌉ + 1
  • Mappatura lineare allo spazio di incorporamento linguistico condiviso R^d

2. Selezione dei Prototipi Testuali Top-K

  • Generazione di 1000 prototipi testuali attraverso combinazioni lineari del vocabolario
  • Utilizzo dell'attenzione incrociata asimmetrica per trovare i prototipi Top-K che descrivono meglio i patch temporali
  • Calcolo dei pesi di attenzione: A_k = TopK(Softmax(QK^T/√d))

3. Amplificatore della Varietà Temporale

Progettazione di due MLP leggeri:

  • M_c ∈ R^((K+1)×N)×n: operazione sulla dimensione del token
  • M_f ∈ R^(d×d): operazione sul canale delle caratteristiche

Processo di fusione:

T* = M_f(M_c^T T_t)^T

dove T_t è la rappresentazione concatenata della coppia tempo-testo.

Verifica dell'Effetto

L'esperimento di sondaggio PCA dimostra che la rappresentazione migliorata eleva la dimensionalità intrinseca della varietà di serie temporali da 21 a 224 (rispetto ai 712 dei token linguistici di GPT-2), aumentando significativamente la dimensionalità della varietà dei dati.

Configurazione Sperimentale

Dataset

Utilizzo di 8 dataset di benchmark di previsione a lungo termine ampiamente adottati:

  • Serie ETT: ETTh1, ETTh2, ETTm1, ETTm2 (dati di temperatura del trasformatore di potenza)
  • Illness: Dati di malattia (7 dimensioni, frequenza settimanale)
  • Weather: Dati meteorologici (21 dimensioni, frequenza di 10 minuti)
  • Traffic: Dati di traffico (862 dimensioni, frequenza oraria)
  • ECL: Dati di consumo di energia (862 dimensioni, frequenza oraria)

Metriche di Valutazione

  • MSE: Errore Quadratico Medio
  • MAE: Errore Assoluto Medio

Metodi di Confronto

Metodi LLM4TS: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA Baseline Leggeri: TimeMixer, TimesNet, iTransformer

Dettagli di Implementazione

  • Hardware: 4×RTX 4090 24GB e 4×A100 40GB
  • Ottimizzatore: Adam
  • Funzione di perdita: Errore Quadratico Medio
  • Analisi di visualizzazione basata sull'implementazione ufficiale di OFA

Risultati Sperimentali

Risultati Principali

TimeSUP ottiene le migliori prestazioni in 60 su 80 configurazioni di test, superando significativamente tutti i metodi di base:

Risultati Rappresentativi:

  • ETTh1 Media: MSE 0.412 vs miglior baseline 0.426 (miglioramento 3.3%)
  • ETTh2 Media: MSE 0.353 vs miglior baseline 0.355 (miglioramento 0.6%)
  • Illness Media: MSE 1.885 vs miglior baseline 2.056 (miglioramento 8.3%)
  • Weather Media: MSE 0.231 vs miglior baseline 0.233 (miglioramento 0.9%)

Esperimento di Analisi Gerarchica

Attraverso l'analisi di visualizzazione strato per strato di 6 strati di GPT-2 si scopre che:

  • Modello di Base: La similarità del coseno sale a quasi 1 nel primo strato e rimane sopra 0.9 negli strati successivi
  • TimeSUP: A partire dal secondo strato, gli incorporamenti di serie temporali iniziano a espandersi a ventaglio e mappare sulla varietà linguistica, con la similarità del coseno che aumenta gradualmente ma si stabilizza infine a circa 0.6643

Esperimento di Adattabilità

TimeSUP può essere integrato senza problemi in più metodi LLM4TS esistenti:

  • S2IP+TimeSUP: Riduzione MSE del 3% su ETTh1, MAE del 2%
  • OFA+TimeSUP: Riduzione MSE del 4.8%, MAE dell'1.3%
  • Miglioramento Medio: Riduzione MSE media dell'11% sul dataset Illness, riduzione del 2% su ETTh1

Esperimento di Ablazione

Attraverso il controllo dello stato di preaddestramento/fine-tuning di LayerNorm (LN) e dell'attenzione multi-testa (MHA) si scopre che:

  • LN-PT & MHA-PT: Produce lo pseudo-allineamento più grave
  • Componenti Inizializzate Casualmente: Riduce significativamente le prestazioni di previsione
  • LN-PF & MHA-RF: Massima riduzione delle prestazioni
  • LN-RT & MHA-PF: Minima riduzione delle prestazioni, indicando che la maggior parte della conoscenza linguistica è conservata nello strato MHA

Lavori Correlati

Modelli Leggeri di Serie Temporali

  • Basati su RNN: Apprendono caratteristiche temporali attraverso ricorrenza, ma soffrono di problemi di dipendenze a lungo termine
  • Basati su CNN: Apprendono kernel convoluzionali per estrarre caratteristiche temporali e locali
  • Basati su Transformer: PatchTST, iTransformer, AutoFormer ecc. utilizzano campi ricettivi globali
  • Basati su MLP: DLinear, TimesNet, TimeMixer ecc. semplificano i parametri del modello

Metodi LLM4TS

  • OFA: Riprogramma GPT-2 per adattarsi alle serie temporali multitask attraverso il fine-tuning dello strato LayerNorm
  • TimeLLM: Utilizza prompt e attenzione incrociata per trovare i token testuali che descrivono meglio le caratteristiche temporali dal vocabolario
  • CALF: Sfrutta il fine-tuning LoRA e la perdita di coerenza testo-tempo
  • S2IP: Decompone le serie temporali e allinea i token linguistici ai componenti STL

Conclusioni e Discussione

Conclusioni Principali

  1. Causa Radice dello Pseudo-Allineamento: Dimostra che lo pseudo-allineamento è un effetto composito dell'interazione tra l'effetto cono e la varietà a bassa dimensionalità delle serie temporali
  2. Soluzione Efficace: TimeSUP mitiga efficacemente il problema dello pseudo-allineamento elevando la dimensionalità della varietà di serie temporali
  3. Ampia Applicabilità: Il metodo può essere integrato come modulo "plug-and-play" in varie architetture LLM4TS

Limitazioni

  1. Costo Computazionale: Sebbene TimeSUP sia relativamente leggero, l'aumento di dimensionalità aggiunto comporta comunque un certo costo computazionale
  2. Sensibilità agli Iperparametri: Iperparametri come la selezione Top-K e il numero di token compressi richiedono ottimizzazione per diversi dataset
  3. Analisi Teorica: Sebbene fornisca prove matematiche, la copertura teorica per scenari pratici complessi rimane limitata

Direzioni Future

  1. Aumento Dimensionale Adattivo: Sviluppare metodi in grado di determinare automaticamente la dimensionalità ottimale della varietà
  2. Estensione Multimodale: Estendere questa idea ad altri problemi di allineamento modale
  3. Ottimizzazione dell'Efficienza: Ricercare tecniche di amplificazione della varietà più efficienti

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Notevole: Analisi approfondita per la prima volta del problema dello pseudo-allineamento dalla prospettiva della dimensionalità della varietà, fornendo un solido supporto teorico matematico
  2. Metodo Semplice ed Efficace: TimeSUP è semplice nella progettazione ma significativo negli effetti, facile da comprendere e implementare
  3. Esperimenti Completi: Confronto completo con 10 metodi di base su 8 dataset, risultati convincenti
  4. Analisi di Visualizzazione Approfondita: Dimostra chiaramente il meccanismo di funzionamento del metodo attraverso UMAP e analisi strato per strato
  5. Ampia Applicabilità: Dimostra che il metodo può essere integrato in varie architetture esistenti

Insufficienze

  1. Analisi dell'Efficienza Computazionale Insufficiente: Manca un'analisi dettagliata dei costi computazionali aggiuntivi e dei tempi di addestramento
  2. Sensibilità agli Iperparametri: Diversi dataset richiedono diverse impostazioni di iperparametri, manca una strategia di selezione unificata
  3. Verifica degli Effetti a Lungo Termine: Si concentra principalmente sulla previsione a lungo termine, gli effetti su previsioni a breve termine e altri compiti di serie temporali richiedono ulteriore verifica
  4. Ipotesi Teoriche: Alcune derivazioni matematiche si basano su ipotesi idealizzate, l'applicabilità in applicazioni pratiche potrebbe essere limitata

Impatto

  1. Valore Accademico: Fornisce importanti intuizioni teoriche al campo LLM4TS, potrebbe ispirare ricerche correlate successive
  2. Valore Pratico: Come modulo plug-and-play, ha un forte potenziale di applicazione pratica
  3. Riproducibilità: L'articolo fornisce dettagli di implementazione e impostazioni di parametri dettagliati, facilitando la riproduzione

Scenari Applicabili

  1. Previsione di Serie Temporali a Lungo Termine: Particolarmente adatto a compiti complessi di previsione di serie temporali che richiedono l'utilizzo della conoscenza LLM
  2. Apprendimento Multimodale: L'idea può essere estesa ad altri problemi di apprendimento cross-modale con disadattamento dimensionale
  3. Adattamento di Modelli Preaddestrati: Fornisce nuove prospettive per l'adattamento di modelli linguistici preaddestrati ad altri domini

Bibliografia

Questo articolo cita 35 articoli correlati, coprendo importanti lavori in più campi inclusa la previsione di serie temporali, modelli di linguaggio di grandi dimensioni e apprendimento multimodale, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di qualità relativamente elevata, con analisi teorica e verifica sperimentale abbastanza complete. L'articolo identifica e risolve un importante problema nel campo LLM4TS, il metodo proposto è semplice ed efficace, con forte valore pratico e significato accademico.