2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.

Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.

academic

Elevación de Variedades para Mitigar la Pseudo-Alineación en LLM4TS

Información Básica

ID del Artículo: 2510.12847
Título: Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
Autores: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 14 de octubre de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12847

Resumen

La pseudo-alineación es un desafío generalizado en muchos modelos de lenguaje grande para series temporales (LLM4TS), que frecuentemente resulta en un rendimiento inferior al de modelos lineales o redes troncales inicializadas aleatoriamente. Sin embargo, la comunidad ha tenido una discusión limitada sobre las causas de la pseudo-alineación. Este artículo investiga profundamente las causas fundamentales de la pseudo-alineación en LLM4TS y establece una conexión entre la pseudo-alineación y el efecto de cono (cone effect) en los LLM. La investigación demuestra que la pseudo-alineación surge de la interacción entre el efecto de cono en componentes LLM preentrenados y la variedad intrínsecamente de baja dimensión de los datos de series temporales. Además, el artículo introduce TimeSUP, una nueva técnica diseñada para mitigar este problema y mejorar el rendimiento predictivo de los métodos LLM4TS existentes.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: El fenómeno generalizado de pseudo-alineación en modelos LLM4TS, que resulta en un rendimiento deficiente, incluso inferior al de modelos lineales simples
Descripción del Fenómeno: Las representaciones de series temporales y lenguaje parecen alineadas a nivel de estadísticas de primer orden (como la media), pero las distribuciones completas siguen siendo diferentes, lo que indica un fallo en la verdadera alineación semántica y una distorsión de características específicas de la modalidad

Importancia de la Investigación

Valor de Aplicación Práctica: El análisis de series temporales tiene aplicaciones importantes en diagnóstico médico, pronóstico del tiempo, flujo de tráfico y predicción de carga energética
Significado Teórico: Comprender los mecanismos de adaptación de los LLM en dominios no lingüísticos, proporcionando una base teórica para el aprendizaje multimodal
Desafíos Técnicos: Los métodos LLM4TS existentes carecen de un estudio sistemático sobre los orígenes mecanísticos de la pseudo-alineación

Limitaciones de Métodos Existentes

Falta de análisis profundo sobre las causas fundamentales de la pseudo-alineación
Ausencia de modificaciones arquitectónicas o estrategias de entrenamiento efectivas para activar el conocimiento rico de los LLM para predicción de series temporales
Los métodos existentes a menudo tienen un rendimiento inferior al de modelos base ligeros

Contribuciones Principales

Primera revelación de la pseudo-alineación desde la perspectiva de la dimensionalidad de la variedad de datos, proporcionando nuevas perspectivas para modelos LLM4TS y demostrando mediante experimentos exhaustivos el impacto de la baja dimensionalidad en series temporales
Propuesta del método TimeSUP, un método simple y efectivo de reprogramación de series temporales para modelos de lenguaje grande, que resuelve efectivamente el problema de pseudo-alineación elevando la dimensionalidad exacta de los datos de series temporales
Logro de mejoras de rendimiento consistentes, TimeSUP supera consistentemente los métodos base LLM4TS de última generación en diversos conjuntos de datos de predicción a largo plazo, y se adapta fácilmente a otros métodos LLM4TS

Explicación Detallada del Método

Definición de la Tarea

Este artículo se enfoca en la tarea de predicción de series temporales a largo plazo, donde la entrada son datos históricos de series temporales y la salida son valores predichos para pasos de tiempo futuros. El desafío central es cómo utilizar efectivamente el conocimiento lingüístico de los LLM preentrenados para mejorar el rendimiento de predicción de series temporales.

Fundamentos Teóricos

Análisis de Variedad de Series Temporales

A través del análisis de PCA se descubre que:

Los tokens de series temporales (tamaño de parche=16, paso=8) requieren solo 21 componentes principales para una buena representación
Los tokens de lenguaje de GPT-2 retienen 712 componentes (de 768 totales)
La modalidad de series temporales se encuentra en una variedad de dimensión más baja que la modalidad lingüística

Análisis Teórico de Pseudo-Alineación

Teorema 1: Cuando la dimensionalidad de la variedad m→0 y n→0, la similitud del coseno tiende a converger solo a la similitud entre las medias de las distribuciones de series temporales y lenguaje, resultando en pseudo-alineación.

Expresión matemática:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

Cuando m≪n y mσ_ts es despreciable, debido al efecto de cono, la similitud del coseno aumenta significativamente, y la ecuación converge a una alta similitud de μ_ts con toda la distribución lingüística.

Arquitectura de TimeSUP

1. Incrustación de Series Temporales en Parches

Longitud de secuencia de entrada L, tamaño de parche P, paso S
Número de parches generados: N = ⌈(P-L)/S⌉ + 1
Mapeo lineal al espacio de incrustación de lenguaje compartido R^d

2. Selección de Prototipos de Texto Top-K

Generación de 1000 prototipos de texto mediante combinación lineal del vocabulario
Uso de atención cruzada asimétrica para encontrar los prototipos Top-K que mejor describen los parches de tiempo
Cálculo de pesos de atención: A_k = TopK(Softmax(QK^T/√d))

3. Amplificador de Variedad Temporal

Diseño de dos MLP ligeros:

M_c ∈ R^((K+1)×N)×n: operación en la dimensión entre tokens
M_f ∈ R^(d×d): operación en el canal de características

Proceso de fusión:

T* = M_f(M_c^T T_t)^T

donde T_t es la representación concatenada del par tiempo-texto.

Verificación de Efectividad

A través de experimentos de sonda PCA se demuestra que la representación mejorada eleva la dimensionalidad intrínseca de la variedad de series temporales de 21 a 224 (en comparación con 712 dimensiones de tokens de lenguaje de GPT-2), aumentando significativamente la dimensionalidad de la variedad de datos.

Configuración Experimental

Conjuntos de Datos

Se utilizan 8 conjuntos de datos de referencia ampliamente adoptados para predicción a largo plazo:

Serie ETT: ETTh1, ETTh2, ETTm1, ETTm2 (datos de temperatura de transformador de potencia)
Illness: Datos de enfermedades (7 dimensiones, frecuencia semanal)
Weather: Datos meteorológicos (21 dimensiones, frecuencia de 10 minutos)
Traffic: Datos de tráfico (862 dimensiones, frecuencia horaria)
ECL: Datos de consumo de energía (862 dimensiones, frecuencia horaria)

Métricas de Evaluación

MSE: Error Cuadrático Medio
MAE: Error Absoluto Medio

Métodos de Comparación

Métodos LLM4TS: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA Métodos Base Ligeros: TimeMixer, TimesNet, iTransformer

Detalles de Implementación

Hardware: 4×RTX 4090 24GB y 4×A100 40GB
Optimizador: Adam
Función de pérdida: Error cuadrático medio
Análisis de visualización basado en la implementación oficial de OFA

Resultados Experimentales

Resultados Principales

TimeSUP logra el mejor rendimiento en 60 de 80 configuraciones de prueba, superando significativamente todos los métodos base:

Resultados Representativos:

Promedio ETTh1: MSE 0.412 vs mejor base 0.426 (mejora del 3.3%)
Promedio ETTh2: MSE 0.353 vs mejor base 0.355 (mejora del 0.6%)
Promedio Illness: MSE 1.885 vs mejor base 2.056 (mejora del 8.3%)
Promedio Weather: MSE 0.231 vs mejor base 0.233 (mejora del 0.9%)

Experimento de Análisis por Capas

A través del análisis de visualización capa por capa de 6 capas de GPT-2 se descubre que:

Modelo Base: La similitud del coseno se dispara a casi 1 en la primera capa y se mantiene por encima de 0.9 en capas posteriores
TimeSUP: A partir de la capa 2, las incrustaciones de series temporales comienzan a abrirse en abanico y mapearse a la variedad lingüística, con la similitud del coseno aumentando gradualmente pero estabilizándose en aproximadamente 0.6643

Experimento de Adaptabilidad

TimeSUP se puede integrar sin problemas en múltiples métodos LLM4TS existentes:

S2IP+TimeSUP: MSE reducido en 3% en ETTh1, MAE reducido en 2%
OFA+TimeSUP: MSE reducido en 4.8%, MAE reducido en 1.3%
Mejora Promedio: MSE reducido en promedio 11% en conjunto de datos Illness, reducido en 2% en ETTh1

Experimento de Ablación

Mediante el control del estado de preentrenamiento/ajuste fino de LayerNorm (LN) y atención multiencabezado (MHA) se descubre que:

LN-PT & MHA-PT: Produce la pseudo-alineación más severa
Componentes inicializados aleatoriamente: Reduce significativamente el rendimiento de predicción
LN-PF & MHA-RF: Mayor reducción de rendimiento
LN-RT & MHA-PF: Menor reducción de rendimiento, indicando que la mayoría del conocimiento lingüístico se almacena en la capa MHA

Trabajo Relacionado

Modelos de Series Temporales Ligeros

Basados en RNN: Aprenden características temporales mediante recurrencia, pero sufren problemas de dependencias a largo plazo
Basados en CNN: Aprenden núcleos convolucionales para extraer características temporales y locales
Basados en Transformer: PatchTST, iTransformer, AutoFormer, etc., utilizan campos receptivos globales
Basados en MLP: DLinear, TimesNet, TimeMixer, etc., simplifican métodos de parámetros

Métodos LLM4TS

OFA: Reprograma GPT-2 para adaptarse a series temporales multitarea mediante ajuste fino de capas LayerNorm
TimeLLM: Utiliza indicaciones y atención cruzada para encontrar tokens de texto que mejor describan características temporales del vocabulario
CALF: Utiliza ajuste fino LoRA y pérdida de consistencia texto-tiempo
S2IP: Descompone series temporales y alinea tokens de lenguaje a componentes STL

Conclusiones y Discusión

Conclusiones Principales

Causa Raíz de Pseudo-Alineación: Se demuestra que la pseudo-alineación es un efecto combinado de la interacción entre el efecto de cono y la variedad de baja dimensión de series temporales
Solución Efectiva: TimeSUP resuelve efectivamente el problema de pseudo-alineación elevando la dimensionalidad de la variedad de series temporales
Aplicabilidad Amplia: El método puede integrarse como módulo "plug-and-play" en múltiples arquitecturas LLM4TS

Limitaciones

Costo Computacional: Aunque TimeSUP es relativamente ligero, el aumento de dimensionalidad aún conlleva cierto costo computacional
Sensibilidad de Hiperparámetros: La selección Top-K y la cantidad de tokens comprimidos requieren optimización para diferentes conjuntos de datos
Análisis Teórico: Aunque proporciona pruebas matemáticas, la cobertura teórica para escenarios prácticos complejos sigue siendo limitada

Direcciones Futuras

Elevación de Dimensionalidad Adaptativa: Desarrollar métodos que determinen automáticamente la dimensionalidad óptima de la variedad
Extensión Multimodal: Extender esta idea a otros problemas de alineación de modalidades
Optimización de Eficiencia: Investigar técnicas de amplificación de variedad más eficientes

Evaluación Profunda

Fortalezas

Contribución Teórica Destacada: Primera revelación de la pseudo-alineación desde la perspectiva de dimensionalidad de variedad, proporcionando apoyo teórico matemático claro
Método Simple y Efectivo: TimeSUP tiene un diseño simple pero efectos significativos, fácil de entender e implementar
Experimentos Exhaustivos: Comparación completa con 10 métodos base en 8 conjuntos de datos, resultados convincentes
Análisis de Visualización Profundo: Demuestra claramente el mecanismo de funcionamiento del método mediante UMAP y análisis capa por capa
Aplicabilidad Amplia: Demuestra que el método puede integrarse en múltiples arquitecturas existentes

Insuficiencias

Análisis de Eficiencia Computacional Insuficiente: Falta análisis detallado del costo computacional y tiempo de entrenamiento agregado
Sensibilidad de Hiperparámetros: Diferentes conjuntos de datos requieren diferentes configuraciones de hiperparámetros, falta estrategia unificada de selección
Verificación de Efectos a Largo Plazo: Se enfoca principalmente en predicción a largo plazo, requiere verificación adicional de efectos en predicción a corto plazo y otras tareas de series temporales
Supuestos Teóricos: Algunas derivaciones matemáticas se basan en supuestos idealizados, la aplicabilidad en escenarios reales puede ser limitada

Impacto

Valor Académico: Proporciona perspectivas teóricas importantes para el campo LLM4TS, puede inspirar investigaciones posteriores relacionadas
Valor Práctico: Como módulo plug-and-play, tiene fuerte potencial de aplicación práctica
Reproducibilidad: El artículo proporciona detalles de implementación y configuraciones de parámetros detalladas, facilitando la reproducción

Escenarios Aplicables

Predicción de Series Temporales a Largo Plazo: Particularmente adecuado para tareas complejas de predicción de series temporales que requieren utilizar conocimiento de LLM
Aprendizaje Multimodal: Esta idea puede extenderse a otros problemas de aprendizaje entre modalidades con desajuste de dimensionalidad
Adaptación de Modelos Preentrenados: Proporciona nuevas perspectivas para adaptar modelos de lenguaje preentrenados a otros dominios

Referencias

Este artículo cita 35 referencias relacionadas, cubriendo trabajos importantes en múltiples campos incluyendo predicción de series temporales, modelos de lenguaje grande y aprendizaje multimodal, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de calidad relativamente alta, con análisis teórico y verificación experimental bastante completos. El artículo identifica y resuelve un problema importante en el campo LLM4TS, el método propuesto es simple y efectivo, con fuerte valor práctico y significado académico.