2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.

Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.

academic

LLM4TS에서 의사정렬 완화를 위한 다양체 상승

기본 정보

논문 ID: 2510.12847
제목: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
저자: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
분류: cs.LG (기계학습)
발표 시간: 2024년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.12847

초록

의사정렬(Pseudo-Alignment)은 시계열을 위한 많은 대규모 언어모델(LLM4TS)에서 널리 존재하는 과제로, 이러한 모델들의 성능이 선형 모델이나 무작위로 초기화된 백본 네트워크보다 떨어지게 하는 경우가 많습니다. 그러나 커뮤니티에서 의사정렬이 발생하는 원인에 대한 논의는 제한적입니다. 본 논문은 LLM4TS의 의사정렬의 근본 원인을 심층 연구하고, 의사정렬과 LLM의 원뿔 효과(cone effect) 간의 연관성을 확립합니다. 연구 결과는 의사정렬이 사전학습된 LLM 구성 요소의 원뿔 효과와 시계열 데이터의 내재적 저차원 다양체의 상호작용에서 비롯됨을 보여줍니다. 더욱이, 본 논문은 이 문제를 완화하고 기존 LLM4TS 방법의 예측 성능을 향상시키기 위해 고안된 새로운 기법인 TimeSUP을 소개합니다.

연구 배경 및 동기

문제 정의

핵심 문제: LLM4TS 모델에서 널리 존재하는 의사정렬 현상으로 인한 모델 성능 저하, 심지어 단순 선형 모델보다도 성능이 떨어지는 현상
현상 설명: 시계열과 언어 표현이 1차 통계량(예: 평균) 수준에서는 정렬된 것처럼 보이지만, 완전한 분포는 여전히 다르며, 이는 진정한 의미론적 정렬의 실패와 모달리티 특정 특징의 왜곡을 나타냅니다.

연구의 중요성

실제 응용 가치: 시계열 분석은 의료 진단, 날씨 예보, 교통 흐름 및 에너지 부하 예측 등의 분야에서 중요한 응용을 가집니다.
이론적 의의: 비언어 영역에서 LLM의 적응 메커니즘을 이해하고, 교차 모달리티 학습을 위한 이론적 기초를 제공합니다.
기술적 과제: 기존 LLM4TS 방법은 의사정렬 메커니즘의 근원에 대한 체계적 연구가 부족합니다.

기존 방법의 한계

의사정렬의 근본 원인에 대한 심층 분석 부족
LLM의 풍부한 지식을 시계열 예측에 활성화하기 위한 효과적인 아키텍처 수정 또는 훈련 전략 부재
기존 방법은 종종 경량 기준 모델보다 성능이 떨어집니다.

핵심 기여

데이터 다양체 차원 관점에서 의사정렬 문제를 처음으로 공개, LLM4TS 모델에 새로운 통찰력을 제공하고 종합적인 실험을 통해 저차원이 시계열에 미치는 영향을 보여줍니다.
TimeSUP 방법 제안, 시계열 데이터의 정확한 차원을 상승시켜 의사정렬 문제를 효과적으로 해결하는 단순하면서도 효과적인 대규모 언어모델 시계열 재프로그래밍 방법입니다.
일관된 성능 향상 달성, TimeSUP은 다양한 장기 예측 데이터셋에서 최첨단 LLM4TS 기준선을 지속적으로 능가하며, 다른 LLM4TS 방법에 쉽게 적응할 수 있습니다.

방법 상세 설명

작업 정의

본 논문은 장기 시계열 예측 작업에 초점을 맞추고 있으며, 입력은 과거 시계열 데이터이고 출력은 미래 시간 단계의 예측값입니다. 핵심 과제는 사전학습된 LLM의 언어 지식을 효과적으로 활용하여 시계열 예측 성능을 향상시키는 방법입니다.

이론적 기초

시계열 다양체 분석

PCA 분석을 통해 발견한 사항:

시계열 토큰(패치 크기=16, 스트라이드=8)은 21개의 주성분만으로 잘 표현됨
GPT-2 언어 토큰은 712개(총 768개) 구성 요소 유지
시계열 모달리티는 언어 모달리티보다 더 낮은 차원의 다양체 위에 위치합니다.

의사정렬 이론 분석

정리 1: 다양체 차원 m→0 및 n→0일 때, 코사인 유사도는 시계열과 언어 분포의 평균 간의 유사성으로만 수렴하는 경향이 있어 의사정렬을 초래합니다.

수학적 표현:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

m≪n이고 mσ_ts가 무시할 수 있을 때, 원뿔 효과로 인해 코사인 유사도가 크게 증가하고, 방정식은 μ_ts와 전체 언어 분포의 높은 유사성으로 수렴합니다.

TimeSUP 아키텍처

1. 패치 시계열 임베딩

입력 시퀀스 길이 L, 패치 크기 P, 스트라이드 S
생성된 패치 수: N = ⌈(P-L)/S⌉ + 1
공유 언어 임베딩 공간 R^d로의 선형 매핑

2. 상위-K 텍스트 프로토타입 선택

어휘의 선형 조합을 통해 1000개의 텍스트 프로토타입 생성
비대칭 교차 주의를 사용하여 시계열 패치를 가장 잘 설명하는 상위-K 프로토타입 찾기
주의 가중치 계산: A_k = TopK(Softmax(QK^T/√d))

3. 시계열 다양체 강화기

두 개의 경량 MLP 설계:

M_c ∈ R^((K+1)×N)×n: 토큰 차원에서 작동
M_f ∈ R^(d×d): 특징 채널에서 작동

융합 프로세스:

T* = M_f(M_c^T T_t)^T

여기서 T_t는 시계열-텍스트 쌍의 연결 표현입니다.

효과 검증

PCA 탐사 실험을 통해 강화된 표현이 시계열의 내재적 다양체 차원을 21에서 224로 상승시킴을 증명했습니다(GPT-2 언어 토큰의 712차원과 비교).

실험 설정

데이터셋

8개의 광범위하게 채택된 장기 예측 벤치마크 데이셋 사용:

ETT 시리즈: ETTh1, ETTh2, ETTm1, ETTm2 (전력 변압기 온도 데이터)
Illness: 질병 데이터 (7차원, 주간 빈도)
Weather: 날씨 데이터 (21차원, 10분 빈도)
Traffic: 교통 데이터 (862차원, 시간 빈도)
ECL: 전력 소비 데이터 (862차원, 시간 빈도)

평가 지표

MSE: 평균 제곱 오차
MAE: 평균 절대 오차

비교 방법

LLM4TS 방법: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA 경량 기준선: TimeMixer, TimesNet, iTransformer

구현 세부 사항

하드웨어: 4×RTX 4090 24GB 및 4×A100 40GB
최적화기: Adam
손실 함수: 평균 제곱 오차
OFA의 공식 구현을 기반으로 시각화 분석 수행

실험 결과

주요 결과

TimeSUP은 80개의 테스트 구성에서 60회 최고 성능을 달성하여 모든 기준선 방법을 크게 능가합니다:

대표적 결과:

ETTh1 평균: MSE 0.412 vs 최고 기준선 0.426 (3.3% 개선)
ETTh2 평균: MSE 0.353 vs 최고 기준선 0.355 (0.6% 개선)
Illness 평균: MSE 1.885 vs 최고 기준선 2.056 (8.3% 개선)
Weather 평균: MSE 0.231 vs 최고 기준선 0.233 (0.9% 개선)

계층별 분석 실험

6층 GPT-2의 계층별 시각화 분석을 통해 발견한 사항:

기준선 모델: 코사인 유사도가 첫 번째 계층에서 거의 1로 급상승하고 후속 계층에서 0.9 이상 유지
TimeSUP: 2번째 계층부터 시계열 임베딩이 부채꼴로 펼쳐지고 언어 다양체로 매핑되며, 코사인 유사도가 점진적으로 상승하지만 최종적으로 약 0.6643에서 안정화