2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.

Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.

academic

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Grundinformationen

Papier-ID: 2510.12847
Titel: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
Autoren: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 14. Oktober 2024 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.12847

Zusammenfassung

Pseudo-Alignment ist eine weit verbreitete Herausforderung in vielen großen Sprachmodellen für Zeitreihen (LLM4TS), die häufig dazu führt, dass diese Modelle schlechter abschneiden als lineare Modelle oder zufällig initialisierte Backbone-Netzwerke. Die Gemeinschaft hat jedoch begrenzt über die Ursachen von Pseudo-Alignment diskutiert. Dieses Papier untersucht die grundlegenden Ursachen von Pseudo-Alignment in LLM4TS eingehend und stellt eine Verbindung zwischen Pseudo-Alignment und dem Kegeleffekt (cone effect) in LLMs her. Die Forschung zeigt, dass Pseudo-Alignment aus der Wechselwirkung zwischen dem Kegeleffekt in vortrainierten LLM-Komponenten und der inhärenten niedrigdimensionalen Mannigfaltigkeit von Zeitreihendaten stammt. Darüber hinaus wird TimeSUP eingeführt, eine neue Technik zur Abschwächung dieses Problems und zur Verbesserung der Vorhersageleistung bestehender LLM4TS-Methoden.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Das weit verbreitete Pseudo-Alignment-Phänomen in LLM4TS-Modellen, das zu schlechter Modellleistung führt, sogar schlechter als einfache lineare Modelle
Phänomenbeschreibung: Zeitreihen- und Sprachdarstellungen scheinen auf der Ebene der Statistiken erster Ordnung (wie Mittelwert) ausgerichtet zu sein, aber die vollständige Verteilung bleibt unterschiedlich, was auf das Scheitern echter semantischer Ausrichtung und die Verzerrung modalitätsspezifischer Merkmale hindeutet

Forschungsbedeutung

Praktischer Anwendungswert: Zeitreihenanalyse hat wichtige Anwendungen in medizinischer Diagnose, Wettervorhersage, Verkehrsflussvorhersage und Energielastprognose
Theoretische Bedeutung: Verständnis der Anpassungsmechanismen von LLMs in nicht-sprachlichen Bereichen, Bereitstellung einer theoretischen Grundlage für modalitätsübergreifendes Lernen
Technische Herausforderung: Bestehende LLM4TS-Methoden ermangeln einer systematischen Untersuchung der mechanistischen Ursprünge von Pseudo-Alignment

Einschränkungen bestehender Methoden

Mangel an tiefgehender Analyse der grundlegenden Ursachen von Pseudo-Alignment
Fehlende effektive Architekturmodifikationen oder Trainingsstrategien zur Aktivierung des umfangreichen Wissens von LLMs für Zeitreihenvorhersage
Bestehende Methoden schneiden oft schlechter ab als leichte Baseline-Modelle

Kernbeiträge

Erstmalige Offenlegung des Pseudo-Alignment-Problems aus der Perspektive der Datenmannigfaltigkeitsdimension, Bereitstellung neuer Erkenntnisse für LLM4TS-Modelle und Demonstration der Auswirkungen niedriger Dimensionalität auf Zeitreihen durch umfassende Experimente
Vorschlag der TimeSUP-Methode, eine einfache und effektive Reprogrammierungsmethode für große Sprachmodelle bei Zeitreihen, die das Pseudo-Alignment-Problem effektiv durch Erhöhung der exakten Dimensionalität von Zeitreihendaten löst
Erreichung konsistenter Leistungsverbesserungen, TimeSUP übertrifft kontinuierlich die neuesten LLM4TS-Baselines auf verschiedenen Langzeit-Vorhersage-Datensätzen und lässt sich leicht in andere LLM4TS-Methoden integrieren

Methodendetails

Aufgabendefinition

Dieses Papier konzentriert sich auf die Langzeit-Zeitreihenvorhersageaufgabe, wobei die Eingabe historische Zeitreihendaten sind und die Ausgabe Vorhersagewerte für zukünftige Zeitschritte sind. Die Kernherausforderung besteht darin, das Sprachwissen von vortrainierten LLMs effektiv zu nutzen, um die Zeitreihenvorhersageleistung zu verbessern.

Theoretische Grundlagen

Zeitreihen-Mannigfaltigkeitsanalyse

Durch PCA-Analyse wurde festgestellt:

Zeitreihen-Token (Patch-Größe=16, Schrittweite=8) benötigen nur 21 Hauptkomponenten für eine gute Darstellung
GPT-2-Sprach-Token behalten 712 (von insgesamt 768) Komponenten
Die Zeitreihenmodalität liegt auf einer niedrigerdimensionalen Mannigfaltigkeit als die Sprachmodalität

Pseudo-Alignment-Theorieanalyse

Satz 1: Wenn die Mannigfaltigkeitsdimension m→0 und n→0, konvergiert die Kosinus-Ähnlichkeit nur zur Ähnlichkeit zwischen den Mitteln der Zeitreihen- und Sprachverteilung, was zu Pseudo-Alignment führt.

Mathematischer Ausdruck:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

Wenn m≪n und mσ_ts vernachlässigbar ist, nimmt die Kosinus-Ähnlichkeit aufgrund des Kegeleffekts erheblich zu, und die Gleichung konvergiert zur hohen Ähnlichkeit von μ_ts mit der gesamten Sprachverteilung.

TimeSUP-Architektur

1. Patch-Zeitreihen-Einbettung

Eingabesequenzlänge L, Patch-Größe P, Schrittweite S
Anzahl der generierten Patches: N = ⌈(P-L)/S⌉ + 1
Lineare Abbildung in gemeinsamen Spracheinbettungsraum R^d

2. Top-K-Textprototyp-Auswahl

Generierung von 1000 Textprototypen durch lineare Kombinationen des Vokabulars
Verwendung von asymmetrischer Cross-Attention zur Findung der besten Top-K-Prototypen, die Zeit-Patches beschreiben
Aufmerksamkeitsgewichtsberechnung: A_k = TopK(Softmax(QK^T/√d))

3. Zeitliche Mannigfaltigkeitsverstärker

Entwurf von zwei leichten MLPs:

M_c ∈ R^((K+1)×N)×n: Betrieb über Token-Dimensionen
M_f ∈ R^(d×d): Betrieb über Merkmalkanäle

Fusionsprozess:

T* = M_f(M_c^T T_t)^T

wobei T_t die verbundene Darstellung von Zeit-Text-Paaren ist.

Effektivitätsverifikation

Durch PCA-Sondierungsexperimente wird nachgewiesen, dass die verstärkte Darstellung die innere Mannigfaltigkeitsdimension der Zeitreihe von 21 auf 224 erhöht (im Vergleich zu 712 Dimensionen von GPT-2-Sprach-Token), was die Datenmannigfaltigkeitsdimension erheblich erhöht.

Experimentelles Setup

Datensätze

Verwendung von 8 weit verbreiteten Langzeit-Vorhersage-Benchmark-Datensätzen:

ETT-Serie: ETTh1, ETTh2, ETTm1, ETTm2 (Daten zur Temperatur von Stromwandlern)
Illness: Krankheitsdaten (7-dimensional, wöchentliche Häufigkeit)
Weather: Wetterdaten (21-dimensional, 10-Minuten-Häufigkeit)
Traffic: Verkehrsdaten (862-dimensional, stündliche Häufigkeit)
ECL: Stromverbrauchsdaten (862-dimensional, stündliche Häufigkeit)

Bewertungsmetriken

MSE: Mittlerer quadratischer Fehler
MAE: Mittlerer absoluter Fehler

Vergleichsmethoden

LLM4TS-Methoden: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA Leichte Baselines: TimeMixer, TimesNet, iTransformer

Implementierungsdetails

Hardware: 4×RTX 4090 24GB und 4×A100 40GB
Optimierer: Adam
Verlustfunktion: Mittlerer quadratischer Fehler
Visualisierungsanalyse basierend auf offizieller OFA-Implementierung

Experimentelle Ergebnisse

Hauptergebnisse

TimeSUP erreicht in 80 Testkonfigurationen 60-mal die beste Leistung und übertrifft alle Baseline-Methoden erheblich:

Repräsentative Ergebnisse:

ETTh1 Durchschnitt: MSE 0,412 vs. beste Baseline 0,426 (Verbesserung 3,3%)
ETTh2 Durchschnitt: MSE 0,353 vs. beste Baseline 0,355 (Verbesserung 0,6%)
Illness Durchschnitt: MSE 1,885 vs. beste Baseline 2,056 (Verbesserung 8,3%)
Weather Durchschnitt: MSE 0,231 vs. beste Baseline 0,233 (Verbesserung 0,9%)

Schichtweise Analyseexperimente

Durch schichtweise Visualisierungsanalyse von 6-Schicht-GPT-2 wurde festgestellt:

Baseline-Modell: Kosinus-Ähnlichkeit schnellt in der ersten Schicht auf nahe 1 und bleibt in nachfolgenden Schichten über 0,9
TimeSUP: Ab der 2. Schicht beginnen sich Zeitreihen-Einbettungen fächerförmig auszubreiten und auf die Sprachmannigfaltigkeit abzubilden, wobei die Kosinus-Ähnlichkeit allmählich ansteigt, aber schließlich bei etwa 0,6643 stabilisiert

Adaptabilitätsexperimente

TimeSUP kann nahtlos in mehrere bestehende LLM4TS-Methoden integriert werden:

S2IP+TimeSUP: MSE-Reduktion um 3% auf ETTh1, MAE-Reduktion um 2%
OFA+TimeSUP: MSE-Reduktion um 4,8%, MAE-Reduktion um 1,3%
Durchschnittliche Verbesserung: MSE-Reduktion um durchschnittlich 11% auf Illness-Datensatz, um 2% auf ETTh1

Ablationsstudien

Durch Kontrolle des Vortrainings-/Feinabstimmungsstatus von LayerNorm (LN) und Multi-Head-Attention (MHA) wurde festgestellt:

LN-PT & MHA-PT: Erzeugt das schwerwiegendste Pseudo-Alignment
Zufällig initialisierte Komponenten: Reduziert die Vorhersageleistung erheblich
LN-PF & MHA-RF: Größte Leistungsabnahme
LN-RT & MHA-PF: Kleinste Leistungsabnahme, was darauf hindeutet, dass das meiste Sprachwissen in MHA-Schichten gespeichert ist

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Grundursache von Pseudo-Alignment: Nachweis, dass Pseudo-Alignment ein kombinierter Effekt der Wechselwirkung zwischen Kegeleffekt und der niedrigdimensionalen Mannigfaltigkeit von Zeitreihen ist
Effektive Lösung: TimeSUP lindert das Pseudo-Alignment-Problem effektiv durch Erhöhung der Zeitreihen-Mannigfaltigkeitsdimension
Breite Anwendbarkeit: Die Methode kann als "Plug-and-Play"-Modul in verschiedene LLM4TS-Architekturen integriert werden

Einschränkungen

Rechenaufwand: Obwohl TimeSUP relativ leicht ist, führt die zusätzliche Dimensionserhöhung zu gewissen Rechenkosten
Hyperparameter-Empfindlichkeit: Hyperparameter wie Top-K-Auswahl und Anzahl der komprimierten Token müssen für verschiedene Datensätze optimiert werden
Theoretische Analyse: Obwohl mathematische Beweise bereitgestellt werden, ist die theoretische Abdeckung für komplexe praktische Szenarien noch begrenzt

Zukünftige Richtungen

Adaptive Dimensionserhöhung: Entwicklung von Methoden, die automatisch die optimale Mannigfaltigkeitsdimension bestimmen können
Multimodale Erweiterung: Erweiterung dieser Idee auf andere Modalitätsausrichtungsprobleme
Effizienzoptimierung: Untersuchung effizienterer Mannigfaltigkeitsverstärkungstechniken

Tiefgehende Bewertung

Stärken

Herausragende theoretische Beiträge: Erstmalige tiefgehende Analyse des Pseudo-Alignment-Problems aus der Perspektive der Mannigfaltigkeitsdimension mit klarer mathematischer theoretischer Unterstützung
Einfache und effektive Methode: TimeSUP ist einfach konzipiert, aber wirksam, leicht zu verstehen und zu implementieren
Umfassende Experimente: Umfassender Vergleich mit 10 Baseline-Methoden auf 8 Datensätzen mit überzeugenden Ergebnissen
Tiefgehende Visualisierungsanalyse: Klare Demonstration des Funktionsmechanismus der Methode durch UMAP und schichtweise Analyse
Breite Anwendbarkeit: Nachweis, dass die Methode in verschiedene bestehende Architekturen integriert werden kann

Mängel

Unzureichende Effizienzanalyse: Mangel an detaillierter Analyse der zusätzlichen Rechenkosten und Trainingszeit
Hyperparameter-Empfindlichkeit: Verschiedene Datensätze erfordern unterschiedliche Hyperparameter-Einstellungen, es fehlt eine einheitliche Auswahlstrategie
Validierung langfristiger Effekte: Hauptfokus auf Langzeit-Vorhersage, Effektivität bei Kurzzeit-Vorhersage und anderen Zeitreihenaufgaben bedarf weiterer Verifikation
Theoretische Annahmen: Einige mathematische Ableitungen basieren auf idealisierten Annahmen, deren Anwendbarkeit in der Praxis möglicherweise begrenzt ist

Einfluss

Akademischer Wert: Bietet wichtige theoretische Erkenntnisse für das LLM4TS-Feld, kann nachfolgende verwandte Forschung inspirieren
Praktischer Wert: Als Plug-and-Play-Modul mit starkem praktischen Anwendungspotenzial
Reproduzierbarkeit: Papier bietet detaillierte Implementierungsdetails und Parametereinstellungen für einfache Reproduktion

Anwendungsszenarien

Langzeit-Zeitreihenvorhersage: Besonders geeignet für komplexe Zeitreihenvorhersageaufgaben, die LLM-Wissen nutzen müssen
Multimodales Lernen: Diese Idee kann auf andere Probleme der Modalitätsausrichtung mit Dimensionsmismatch erweitert werden
Anpassung vortrainierter Modelle: Bietet neue Perspektiven für die Anpassung vortrainierter Sprachmodelle an andere Bereiche

Literaturverzeichnis

Dieses Papier zitiert 35 relevante Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie Zeitreihenvorhersage, große Sprachmodelle und multimodales Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit ausreichender theoretischer Analyse und experimenteller Verifikation. Das Papier identifiziert und löst ein wichtiges Problem im LLM4TS-Feld, die vorgeschlagene Methode ist einfach und effektiv mit starkem praktischen Wert und akademischer Bedeutung.