Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS
Zheng, Liang, Zhang et al.
Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.
يُعتبر الانحياز الزائف (Pseudo-Alignment) تحديًا شائعًا في العديد من نماذج اللغات الكبيرة للسلاسل الزمنية (LLM4TS)، مما يؤدي غالبًا إلى أداء أسوأ من النماذج الخطية أو الشبكات العصبية المهيأة عشوائيًا. ومع ذلك، هناك نقاش محدود في المجتمع العلمي حول أسباب حدوث الانحياز الزائف. تتعمق هذه الورقة في الأسباب الجذرية للانحياز الزائف في LLM4TS وتؤسس علاقة بين الانحياز الزائف وتأثير المخروط (cone effect) في نماذج اللغات الكبيرة. تُظهر الدراسة أن الانحياز الزائف ينشأ من التفاعل بين تأثير المخروط في مكونات اللغات الكبيرة المدربة مسبقًا والمتعددات منخفضة الأبعاد الكامنة في بيانات السلاسل الزمنية. علاوة على ذلك، تقدم الورقة TimeSUP، وهي تقنية جديدة مصممة لتخفيف هذه المشكلة وتحسين الأداء التنبؤية لطرق LLM4TS الموجودة.
المشكلة الأساسية: ظاهرة الانحياز الزائف الشائعة في نماذج LLM4TS، مما يؤدي إلى أداء ضعيفة، بل أسوأ من النماذج الخطية البسيطة
وصف الظاهرة: تبدو تمثيلات السلاسل الزمنية واللغة متوافقة على مستوى الإحصائيات من الدرجة الأولى (مثل المتوسط)، لكن التوزيع الكامل يظل مختلفًا، مما يشير إلى فشل التوافق الدلالي الحقيقي وتشويه الميزات الخاصة بالنمط
الكشف الأول عن مشكلة الانحياز الزائف من منظور بُعد متعدد البيانات، مما يوفر رؤى جديدة لنماذج LLM4TS، وعرض تأثير البُعد المنخفض على السلاسل الزمنية من خلال تجارب شاملة
اقتراح طريقة TimeSUP، وهي طريقة بسيطة وفعالة لإعادة برمجة السلاسل الزمنية للغات الكبيرة، تحل مشكلة الانحياز الزائف بشكل فعال من خلال رفع البُعد الدقيق لبيانات السلاسل الزمنية
تحقيق تحسن متسق في الأداء، حيث يتفوق TimeSUP باستمرار على أحدث خطوط أساس LLM4TS عبر مجموعات بيانات التنبؤ طويلة الأجل المختلفة، وسهل التكيف مع طرق LLM4TS الأخرى
تركز هذه الورقة على مهمة التنبؤ بالسلاسل الزمنية طويلة الأجل، حيث يكون الإدخال بيانات السلاسل الزمنية التاريخية والإخراج هو القيم المتنبأ بها للخطوات الزمنية المستقبلية. التحدي الأساسي هو كيفية الاستفادة الفعالة من معرفة نماذج اللغات الكبيرة المدربة مسبقًا لتحسين أداء التنبؤ بالسلاسل الزمنية.
النظرية 1: عندما يميل بُعد المتعدد m→0 و n→0، يميل جيب التمام للتشابه إلى التقارب فقط إلى التشابه بين متوسطات توزيعات السلاسل الزمنية واللغة، مما يؤدي إلى الانحياز الزائف.
عندما يكون m≪n و mσ_ts مهملاً، بسبب تأثير المخروط، يزداد جيب التمام للتشابه بشكل كبير، وتتقارب المعادلة إلى تشابه عالي لـ μ_ts مع التوزيع اللغوي الكامل.
من خلال تجارب اختبار PCA، تم إثبات أن التمثيلات المحسّنة ترفع البُعد المتعدد الكامن للسلاسل الزمنية من 21 إلى 224 (مقارنة بـ 712 بُعد لرموز لغة GPT-2)، مما يزيد بشكل كبير من بُعد متعدد البيانات.
من خلال التصور الطبقي لـ 6 طبقات من GPT-2 تم اكتشاف:
نموذج الخط الأساسي: يرتفع جيب التمام للتشابه إلى قريب من 1 في الطبقة الأولى، ويبقى فوق 0.9 في الطبقات اللاحقة
TimeSUP: بدءًا من الطبقة الثانية، تبدأ تضمينات السلاسل الزمنية في الانتشار والتعيين على المتعدد اللغوي، يرتفع جيب التمام للتشابه تدريجيًا لكن يستقر في النهاية عند حوالي 0.6643
تستشهد هذه الورقة بـ 35 مرجعًا ذا صلة، تغطي التنبؤ بالسلاسل الزمنية ونماذج اللغات الكبيرة والتعلم متعدد الأنماط وغيرها من المجالات المهمة، مما يوفر أساسًا نظريًا قويًا للبحث.
التقييم الإجمالي: هذه ورقة عالية الجودة، مع تحليل نظري وتحقق تجريبي شامل. تحدد الورقة وتحل مشكلة مهمة في مجال LLM4TS، والطريقة المقترحة بسيطة وفعالة، مع قيمة عملية وأكاديمية قوية.