2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.
Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.
academic

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

基本信息

  • 论文ID: 2510.12847
  • 标题: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
  • 作者: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
  • 分类: cs.LG (Machine Learning)
  • 发表时间: 2024年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12847

摘要

Pseudo-Alignment是许多用于时间序列的大语言模型(LLM4TS)中普遍存在的挑战,经常导致这些模型的表现不如线性模型或随机初始化的骨干网络。然而,社区对pseudo-alignment发生原因的讨论有限。本文深入研究了LLM4TS中pseudo-alignment的根本原因,并建立了pseudo-alignment与LLM中锥形效应(cone effect)的联系。研究表明,pseudo-alignment源于预训练LLM组件中锥形效应与时间序列数据固有低维流形的相互作用。此外,本文还引入了TimeSUP,这是一种旨在缓解这一问题并提高现有LLM4TS方法预测性能的新技术。

研究背景与动机

问题定义

  1. 核心问题: LLM4TS模型中普遍存在的pseudo-alignment现象,导致模型性能不佳,甚至不如简单的线性模型
  2. 现象描述: 时间序列和语言表示在一阶统计量(如均值)层面看似对齐,但完整分布仍然不同,表明真正语义对齐的失败和模态特定特征的扭曲

研究重要性

  • 实际应用价值: 时间序列分析在医疗诊断、天气预报、交通流量和能源负荷预测等领域具有重要应用
  • 理论意义: 理解LLM在非语言域中的适应机制,为跨模态学习提供理论基础
  • 技术挑战: 现有LLM4TS方法缺乏对pseudo-alignment机制性起源的系统性研究

现有方法局限性

  1. 缺乏对pseudo-alignment根本原因的深入分析
  2. 没有有效的架构修改或训练策略来激活LLM的丰富知识用于时间序列预测
  3. 现有方法往往表现不如轻量级基线模型

核心贡献

  1. 首次从数据流形维度角度揭示pseudo-alignment问题,为LLM4TS模型提供新的洞察,并通过综合实验展示低维度对时间序列的影响
  2. 提出TimeSUP方法,一种简单而有效的大语言模型时间序列重编程方法,通过提升时间序列数据的确切维度来有效解决pseudo-alignment问题
  3. 实现一致的性能提升,TimeSUP在各种长期预测数据集上持续优于最先进的LLM4TS基线,且易于适配到其他LLM4TS方法中

方法详解

任务定义

本文聚焦于长期时间序列预测任务,输入为历史时间序列数据,输出为未来时间步的预测值。核心挑战是如何有效利用预训练LLM的语言知识来提升时间序列预测性能。

理论基础

时间序列流形分析

通过PCA分析发现:

  • 时间序列token(patch size=16, stride=8)仅需21个主成分即可很好表示
  • GPT-2语言token保留712个(共768个)组件
  • 时间序列模态位于比语言模态更低维的流形上

Pseudo-Alignment理论分析

定理1: 当流形维度m→0和n→0时,余弦相似度趋向于仅收敛到时间序列和语言分布均值之间的相似性,导致pseudo-alignment。

数学表达:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

当m≪n且mσ_ts可忽略时,由于锥形效应,余弦相似度显著增加,方程收敛到μ_ts与整个语言分布的高相似性。

TimeSUP架构

1. 补丁时间序列嵌入

  • 输入序列长度L,补丁大小P,步长S
  • 生成补丁数量:N = ⌈(P-L)/S⌉ + 1
  • 线性映射到共享语言嵌入空间R^d

2. Top-K文本原型选择

  • 生成1000个文本原型,通过词汇表的线性组合
  • 使用非对称交叉注意力找到最佳描述时间补丁的Top-K原型
  • 注意力权重计算:A_k = TopK(Softmax(QK^T/√d))

3. 时间流形增强器

设计两个轻量级MLP:

  • M_c ∈ R^((K+1)×N)×n:跨token维度操作
  • M_f ∈ R^(d×d):跨特征通道操作

融合过程:

T* = M_f(M_c^T T_t)^T

其中T_t是时间-文本对的连接表示。

效果验证

通过PCA探测实验证明,增强后的表示将时间序列的内在流形维度从21提升到224(相比GPT-2语言token的712维),显著增加了数据流形维度。

实验设置

数据集

使用8个广泛采用的长期预测基准数据集:

  • ETT系列: ETTh1, ETTh2, ETTm1, ETTm2 (电力变压器温度数据)
  • Illness: 疾病数据 (7维,周频率)
  • Weather: 天气数据 (21维,10分钟频率)
  • Traffic: 交通数据 (862维,小时频率)
  • ECL: 电力消费数据 (862维,小时频率)

评价指标

  • MSE: 均方误差
  • MAE: 平均绝对误差

对比方法

LLM4TS方法: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA 轻量级基线: TimeMixer, TimesNet, iTransformer

实现细节

  • 硬件:4×RTX 4090 24GB 和 4×A100 40GB
  • 优化器:Adam
  • 损失函数:均方误差
  • 基于OFA的官方实现进行可视化分析

实验结果

主要结果

TimeSUP在80个测试配置中获得60次最佳性能,显著优于所有基线方法:

代表性结果

  • ETTh1平均: MSE 0.412 vs 最佳基线0.426 (提升3.3%)
  • ETTh2平均: MSE 0.353 vs 最佳基线0.355 (提升0.6%)
  • Illness平均: MSE 1.885 vs 最佳基线2.056 (提升8.3%)
  • Weather平均: MSE 0.231 vs 最佳基线0.233 (提升0.9%)

层级分析实验

通过6层GPT-2的逐层可视化分析发现:

  • 基线模型: 余弦相似度在第一层就飙升至接近1,并在后续层保持0.9以上
  • TimeSUP: 从第2层开始,时间序列嵌入开始扇形展开并映射到语言流形上,余弦相似度逐渐上升但最终稳定在约0.6643

适配性实验

TimeSUP可无缝集成到多个现有LLM4TS方法中:

  • S2IP+TimeSUP: ETTh1上MSE降低3%,MAE降低2%
  • OFA+TimeSUP: MSE降低4.8%,MAE降低1.3%
  • 平均改进: Illness数据集上MSE平均降低11%,ETTh1上降低2%

消融实验

通过控制LayerNorm(LN)和多头注意力(MHA)的预训练/微调状态发现:

  • LN-PT & MHA-PT: 产生最严重的pseudo-alignment
  • 随机初始化组件: 显著降低预测性能
  • LN-PF & MHA-RF: 性能下降最大
  • LN-RT & MHA-PF: 性能下降最小,表明大部分语言知识保存在MHA层中

相关工作

轻量级时间序列模型

  • RNN-based: 通过递归学习时间特征,但存在长期依赖问题
  • CNN-based: 学习卷积核提取时间和局部特征
  • Transformer-based: PatchTST, iTransformer, AutoFormer等利用全局感受野
  • MLP-based: DLinear, TimesNet, TimeMixer等简化参数的方法

LLM4TS方法

  • OFA: 通过微调LayerNorm层重编程GPT-2适应时间序列多任务
  • TimeLLM: 使用提示和交叉注意力从词汇表中找到最佳描述时间特征的文本token
  • CALF: 利用LoRA微调和文本-时间一致性损失
  • S2IP: 分解时间序列并将语言token对齐到STL组件

结论与讨论

主要结论

  1. Pseudo-alignment根因: 证明了pseudo-alignment是锥形效应和时间序列低维流形相互作用的综合效果
  2. 有效解决方案: TimeSUP通过提升时间序列流形维度有效缓解pseudo-alignment问题
  3. 广泛适用性: 该方法可作为"即插即用"模块集成到多种LLM4TS架构中

局限性

  1. 计算开销: 虽然TimeSUP相对轻量,但增加的维度提升仍会带来一定计算成本
  2. 超参数敏感性: Top-K选择和压缩token数量等超参数需要针对不同数据集调优
  3. 理论分析: 虽然提供了数学证明,但对于复杂实际场景的理论覆盖仍有限

未来方向

  1. 自适应维度提升: 开发能够自动确定最优流形维度的方法
  2. 多模态扩展: 将该思想扩展到其他模态对齐问题
  3. 效率优化: 研究更高效的流形增强技术

深度评价

优点

  1. 理论贡献突出: 首次从流形维度角度深入分析pseudo-alignment问题,提供了清晰的数学理论支撑
  2. 方法简洁有效: TimeSUP设计简单但效果显著,易于理解和实现
  3. 实验充分: 在8个数据集上与10个基线方法的全面对比,结果具有说服力
  4. 可视化分析深入: 通过UMAP和逐层分析清晰展示了方法的工作机制
  5. 广泛适用性: 证明了该方法可集成到多种现有架构中

不足

  1. 计算效率分析不足: 缺乏对增加的计算成本和训练时间的详细分析
  2. 超参数敏感性: 不同数据集需要不同的超参数设置,缺乏统一的选择策略
  3. 长期效果验证: 主要关注长期预测,对短期预测和其他时间序列任务的效果需要进一步验证
  4. 理论假设: 某些数学推导基于理想化假设,实际应用中的适用性可能有限

影响力

  1. 学术价值: 为LLM4TS领域提供了重要的理论洞察,可能启发后续相关研究
  2. 实用价值: 作为即插即用模块,具有很强的实际应用潜力
  3. 可复现性: 论文提供了详细的实现细节和参数设置,便于复现

适用场景

  1. 长期时间序列预测: 特别适用于需要利用LLM知识的复杂时间序列预测任务
  2. 多模态学习: 该思想可扩展到其他存在维度不匹配的跨模态学习问题
  3. 预训练模型适配: 为将预训练语言模型适配到其他领域提供了新的思路

参考文献

本文引用了35篇相关文献,涵盖了时间序列预测、大语言模型、多模态学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇质量较高的论文,在理论分析和实验验证方面都比较充分。论文识别并解决了LLM4TS领域的一个重要问题,提出的方法简洁有效,具有较强的实用价值和学术意义。