2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.
Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.
academic

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Grundinformationen

  • Papier-ID: 2510.12847
  • Titel: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
  • Autoren: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 14. Oktober 2024 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.12847

Zusammenfassung

Pseudo-Alignment ist eine weit verbreitete Herausforderung in vielen großen Sprachmodellen für Zeitreihen (LLM4TS), die häufig dazu führt, dass diese Modelle schlechter abschneiden als lineare Modelle oder zufällig initialisierte Backbone-Netzwerke. Die Gemeinschaft hat jedoch begrenzt über die Ursachen von Pseudo-Alignment diskutiert. Dieses Papier untersucht die grundlegenden Ursachen von Pseudo-Alignment in LLM4TS eingehend und stellt eine Verbindung zwischen Pseudo-Alignment und dem Kegeleffekt (cone effect) in LLMs her. Die Forschung zeigt, dass Pseudo-Alignment aus der Wechselwirkung zwischen dem Kegeleffekt in vortrainierten LLM-Komponenten und der inhärenten niedrigdimensionalen Mannigfaltigkeit von Zeitreihendaten stammt. Darüber hinaus wird TimeSUP eingeführt, eine neue Technik zur Abschwächung dieses Problems und zur Verbesserung der Vorhersageleistung bestehender LLM4TS-Methoden.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Das weit verbreitete Pseudo-Alignment-Phänomen in LLM4TS-Modellen, das zu schlechter Modellleistung führt, sogar schlechter als einfache lineare Modelle
  2. Phänomenbeschreibung: Zeitreihen- und Sprachdarstellungen scheinen auf der Ebene der Statistiken erster Ordnung (wie Mittelwert) ausgerichtet zu sein, aber die vollständige Verteilung bleibt unterschiedlich, was auf das Scheitern echter semantischer Ausrichtung und die Verzerrung modalitätsspezifischer Merkmale hindeutet

Forschungsbedeutung

  • Praktischer Anwendungswert: Zeitreihenanalyse hat wichtige Anwendungen in medizinischer Diagnose, Wettervorhersage, Verkehrsflussvorhersage und Energielastprognose
  • Theoretische Bedeutung: Verständnis der Anpassungsmechanismen von LLMs in nicht-sprachlichen Bereichen, Bereitstellung einer theoretischen Grundlage für modalitätsübergreifendes Lernen
  • Technische Herausforderung: Bestehende LLM4TS-Methoden ermangeln einer systematischen Untersuchung der mechanistischen Ursprünge von Pseudo-Alignment

Einschränkungen bestehender Methoden

  1. Mangel an tiefgehender Analyse der grundlegenden Ursachen von Pseudo-Alignment
  2. Fehlende effektive Architekturmodifikationen oder Trainingsstrategien zur Aktivierung des umfangreichen Wissens von LLMs für Zeitreihenvorhersage
  3. Bestehende Methoden schneiden oft schlechter ab als leichte Baseline-Modelle

Kernbeiträge

  1. Erstmalige Offenlegung des Pseudo-Alignment-Problems aus der Perspektive der Datenmannigfaltigkeitsdimension, Bereitstellung neuer Erkenntnisse für LLM4TS-Modelle und Demonstration der Auswirkungen niedriger Dimensionalität auf Zeitreihen durch umfassende Experimente
  2. Vorschlag der TimeSUP-Methode, eine einfache und effektive Reprogrammierungsmethode für große Sprachmodelle bei Zeitreihen, die das Pseudo-Alignment-Problem effektiv durch Erhöhung der exakten Dimensionalität von Zeitreihendaten löst
  3. Erreichung konsistenter Leistungsverbesserungen, TimeSUP übertrifft kontinuierlich die neuesten LLM4TS-Baselines auf verschiedenen Langzeit-Vorhersage-Datensätzen und lässt sich leicht in andere LLM4TS-Methoden integrieren

Methodendetails

Aufgabendefinition

Dieses Papier konzentriert sich auf die Langzeit-Zeitreihenvorhersageaufgabe, wobei die Eingabe historische Zeitreihendaten sind und die Ausgabe Vorhersagewerte für zukünftige Zeitschritte sind. Die Kernherausforderung besteht darin, das Sprachwissen von vortrainierten LLMs effektiv zu nutzen, um die Zeitreihenvorhersageleistung zu verbessern.

Theoretische Grundlagen

Zeitreihen-Mannigfaltigkeitsanalyse

Durch PCA-Analyse wurde festgestellt:

  • Zeitreihen-Token (Patch-Größe=16, Schrittweite=8) benötigen nur 21 Hauptkomponenten für eine gute Darstellung
  • GPT-2-Sprach-Token behalten 712 (von insgesamt 768) Komponenten
  • Die Zeitreihenmodalität liegt auf einer niedrigerdimensionalen Mannigfaltigkeit als die Sprachmodalität

Pseudo-Alignment-Theorieanalyse

Satz 1: Wenn die Mannigfaltigkeitsdimension m→0 und n→0, konvergiert die Kosinus-Ähnlichkeit nur zur Ähnlichkeit zwischen den Mitteln der Zeitreihen- und Sprachverteilung, was zu Pseudo-Alignment führt.

Mathematischer Ausdruck:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

Wenn m≪n und mσ_ts vernachlässigbar ist, nimmt die Kosinus-Ähnlichkeit aufgrund des Kegeleffekts erheblich zu, und die Gleichung konvergiert zur hohen Ähnlichkeit von μ_ts mit der gesamten Sprachverteilung.

TimeSUP-Architektur

1. Patch-Zeitreihen-Einbettung

  • Eingabesequenzlänge L, Patch-Größe P, Schrittweite S
  • Anzahl der generierten Patches: N = ⌈(P-L)/S⌉ + 1
  • Lineare Abbildung in gemeinsamen Spracheinbettungsraum R^d

2. Top-K-Textprototyp-Auswahl

  • Generierung von 1000 Textprototypen durch lineare Kombinationen des Vokabulars
  • Verwendung von asymmetrischer Cross-Attention zur Findung der besten Top-K-Prototypen, die Zeit-Patches beschreiben
  • Aufmerksamkeitsgewichtsberechnung: A_k = TopK(Softmax(QK^T/√d))

3. Zeitliche Mannigfaltigkeitsverstärker

Entwurf von zwei leichten MLPs:

  • M_c ∈ R^((K+1)×N)×n: Betrieb über Token-Dimensionen
  • M_f ∈ R^(d×d): Betrieb über Merkmalkanäle

Fusionsprozess:

T* = M_f(M_c^T T_t)^T

wobei T_t die verbundene Darstellung von Zeit-Text-Paaren ist.

Effektivitätsverifikation

Durch PCA-Sondierungsexperimente wird nachgewiesen, dass die verstärkte Darstellung die innere Mannigfaltigkeitsdimension der Zeitreihe von 21 auf 224 erhöht (im Vergleich zu 712 Dimensionen von GPT-2-Sprach-Token), was die Datenmannigfaltigkeitsdimension erheblich erhöht.

Experimentelles Setup

Datensätze

Verwendung von 8 weit verbreiteten Langzeit-Vorhersage-Benchmark-Datensätzen:

  • ETT-Serie: ETTh1, ETTh2, ETTm1, ETTm2 (Daten zur Temperatur von Stromwandlern)
  • Illness: Krankheitsdaten (7-dimensional, wöchentliche Häufigkeit)
  • Weather: Wetterdaten (21-dimensional, 10-Minuten-Häufigkeit)
  • Traffic: Verkehrsdaten (862-dimensional, stündliche Häufigkeit)
  • ECL: Stromverbrauchsdaten (862-dimensional, stündliche Häufigkeit)

Bewertungsmetriken

  • MSE: Mittlerer quadratischer Fehler
  • MAE: Mittlerer absoluter Fehler

Vergleichsmethoden

LLM4TS-Methoden: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA Leichte Baselines: TimeMixer, TimesNet, iTransformer

Implementierungsdetails

  • Hardware: 4×RTX 4090 24GB und 4×A100 40GB
  • Optimierer: Adam
  • Verlustfunktion: Mittlerer quadratischer Fehler
  • Visualisierungsanalyse basierend auf offizieller OFA-Implementierung

Experimentelle Ergebnisse

Hauptergebnisse

TimeSUP erreicht in 80 Testkonfigurationen 60-mal die beste Leistung und übertrifft alle Baseline-Methoden erheblich:

Repräsentative Ergebnisse:

  • ETTh1 Durchschnitt: MSE 0,412 vs. beste Baseline 0,426 (Verbesserung 3,3%)
  • ETTh2 Durchschnitt: MSE 0,353 vs. beste Baseline 0,355 (Verbesserung 0,6%)
  • Illness Durchschnitt: MSE 1,885 vs. beste Baseline 2,056 (Verbesserung 8,3%)
  • Weather Durchschnitt: MSE 0,231 vs. beste Baseline 0,233 (Verbesserung 0,9%)

Schichtweise Analyseexperimente

Durch schichtweise Visualisierungsanalyse von 6-Schicht-GPT-2 wurde festgestellt:

  • Baseline-Modell: Kosinus-Ähnlichkeit schnellt in der ersten Schicht auf nahe 1 und bleibt in nachfolgenden Schichten über 0,9
  • TimeSUP: Ab der 2. Schicht beginnen sich Zeitreihen-Einbettungen fächerförmig auszubreiten und auf die Sprachmannigfaltigkeit abzubilden, wobei die Kosinus-Ähnlichkeit allmählich ansteigt, aber schließlich bei etwa 0,6643 stabilisiert

Adaptabilitätsexperimente

TimeSUP kann nahtlos in mehrere bestehende LLM4TS-Methoden integriert werden:

  • S2IP+TimeSUP: MSE-Reduktion um 3% auf ETTh1, MAE-Reduktion um 2%
  • OFA+TimeSUP: MSE-Reduktion um 4,8%, MAE-Reduktion um 1,3%
  • Durchschnittliche Verbesserung: MSE-Reduktion um durchschnittlich 11% auf Illness-Datensatz, um 2% auf ETTh1

Ablationsstudien

Durch Kontrolle des Vortrainings-/Feinabstimmungsstatus von LayerNorm (LN) und Multi-Head-Attention (MHA) wurde festgestellt:

  • LN-PT & MHA-PT: Erzeugt das schwerwiegendste Pseudo-Alignment
  • Zufällig initialisierte Komponenten: Reduziert die Vorhersageleistung erheblich
  • LN-PF & MHA-RF: Größte Leistungsabnahme
  • LN-RT & MHA-PF: Kleinste Leistungsabnahme, was darauf hindeutet, dass das meiste Sprachwissen in MHA-Schichten gespeichert ist

Verwandte Arbeiten

Leichte Zeitreihenmodelle

  • RNN-basiert: Lernen von Zeitmerkalen durch Rekursion, aber mit Problemen bei langfristigen Abhängigkeiten
  • CNN-basiert: Lernen von Faltungskernen zur Extraktion von Zeit- und lokalen Merkmalen
  • Transformer-basiert: PatchTST, iTransformer, AutoFormer usw. nutzen globales Empfangsfeld
  • MLP-basiert: DLinear, TimesNet, TimeMixer usw. vereinfachen Parameter

LLM4TS-Methoden

  • OFA: Reprogrammierung von GPT-2 für Zeitreihen-Multitasking durch Feinabstimmung von LayerNorm-Schichten
  • TimeLLM: Verwendung von Prompts und Cross-Attention zur Findung der besten Sprach-Token aus dem Vokabular, die Zeitmerkale beschreiben
  • CALF: Nutzung von LoRA-Feinabstimmung und Text-Zeit-Konsistenz-Verlust
  • S2IP: Zerlegung von Zeitreihen und Ausrichtung von Sprach-Token auf STL-Komponenten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Grundursache von Pseudo-Alignment: Nachweis, dass Pseudo-Alignment ein kombinierter Effekt der Wechselwirkung zwischen Kegeleffekt und der niedrigdimensionalen Mannigfaltigkeit von Zeitreihen ist
  2. Effektive Lösung: TimeSUP lindert das Pseudo-Alignment-Problem effektiv durch Erhöhung der Zeitreihen-Mannigfaltigkeitsdimension
  3. Breite Anwendbarkeit: Die Methode kann als "Plug-and-Play"-Modul in verschiedene LLM4TS-Architekturen integriert werden

Einschränkungen

  1. Rechenaufwand: Obwohl TimeSUP relativ leicht ist, führt die zusätzliche Dimensionserhöhung zu gewissen Rechenkosten
  2. Hyperparameter-Empfindlichkeit: Hyperparameter wie Top-K-Auswahl und Anzahl der komprimierten Token müssen für verschiedene Datensätze optimiert werden
  3. Theoretische Analyse: Obwohl mathematische Beweise bereitgestellt werden, ist die theoretische Abdeckung für komplexe praktische Szenarien noch begrenzt

Zukünftige Richtungen

  1. Adaptive Dimensionserhöhung: Entwicklung von Methoden, die automatisch die optimale Mannigfaltigkeitsdimension bestimmen können
  2. Multimodale Erweiterung: Erweiterung dieser Idee auf andere Modalitätsausrichtungsprobleme
  3. Effizienzoptimierung: Untersuchung effizienterer Mannigfaltigkeitsverstärkungstechniken

Tiefgehende Bewertung

Stärken

  1. Herausragende theoretische Beiträge: Erstmalige tiefgehende Analyse des Pseudo-Alignment-Problems aus der Perspektive der Mannigfaltigkeitsdimension mit klarer mathematischer theoretischer Unterstützung
  2. Einfache und effektive Methode: TimeSUP ist einfach konzipiert, aber wirksam, leicht zu verstehen und zu implementieren
  3. Umfassende Experimente: Umfassender Vergleich mit 10 Baseline-Methoden auf 8 Datensätzen mit überzeugenden Ergebnissen
  4. Tiefgehende Visualisierungsanalyse: Klare Demonstration des Funktionsmechanismus der Methode durch UMAP und schichtweise Analyse
  5. Breite Anwendbarkeit: Nachweis, dass die Methode in verschiedene bestehende Architekturen integriert werden kann

Mängel

  1. Unzureichende Effizienzanalyse: Mangel an detaillierter Analyse der zusätzlichen Rechenkosten und Trainingszeit
  2. Hyperparameter-Empfindlichkeit: Verschiedene Datensätze erfordern unterschiedliche Hyperparameter-Einstellungen, es fehlt eine einheitliche Auswahlstrategie
  3. Validierung langfristiger Effekte: Hauptfokus auf Langzeit-Vorhersage, Effektivität bei Kurzzeit-Vorhersage und anderen Zeitreihenaufgaben bedarf weiterer Verifikation
  4. Theoretische Annahmen: Einige mathematische Ableitungen basieren auf idealisierten Annahmen, deren Anwendbarkeit in der Praxis möglicherweise begrenzt ist

Einfluss

  1. Akademischer Wert: Bietet wichtige theoretische Erkenntnisse für das LLM4TS-Feld, kann nachfolgende verwandte Forschung inspirieren
  2. Praktischer Wert: Als Plug-and-Play-Modul mit starkem praktischen Anwendungspotenzial
  3. Reproduzierbarkeit: Papier bietet detaillierte Implementierungsdetails und Parametereinstellungen für einfache Reproduktion

Anwendungsszenarien

  1. Langzeit-Zeitreihenvorhersage: Besonders geeignet für komplexe Zeitreihenvorhersageaufgaben, die LLM-Wissen nutzen müssen
  2. Multimodales Lernen: Diese Idee kann auf andere Probleme der Modalitätsausrichtung mit Dimensionsmismatch erweitert werden
  3. Anpassung vortrainierter Modelle: Bietet neue Perspektiven für die Anpassung vortrainierter Sprachmodelle an andere Bereiche

Literaturverzeichnis

Dieses Papier zitiert 35 relevante Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie Zeitreihenvorhersage, große Sprachmodelle und multimodales Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Papier mit ausreichender theoretischer Analyse und experimenteller Verifikation. Das Papier identifiziert und löst ein wichtiges Problem im LLM4TS-Feld, die vorgeschlagene Methode ist einfach und effektiv mit starkem praktischen Wert und akademischer Bedeutung.