2025-11-25T08:13:17.519450

Lifting Manifolds to Mitigate Pseudo-Alignment in LLM4TS

Zheng, Liang, Zhang et al.

Pseudo-Alignment is a pervasive challenge in many large language models for time series (LLM4TS) models, often causing them to underperform compared to linear models or randomly initialised backbones. However, there is limited discussion in the community for the reasons that pseudo-alignment occurs. In this work, we conduct a thorough investigation into the root causes of pseudo-alignment in LLM4TS and build a connection of pseudo-alignment to the cone effect in LLM. We demonstrate that pseudo-alignment arises from the interplay of cone effect within pretrained LLM components and the intrinsically low-dimensional manifold of time-series data. In addition, we also introduce \textit{\textbf{TimeSUP}}, a novel technique designed to mitigate this issue and improve forecast performance in existing LLM4TS approaches. TimeSUP addresses this by increasing the time series manifold to more closely match the intrinsic dimension of language embeddings, allowing the model to distinguish temporal signals clearly while still capturing shared structures across modalities. As a result, representations for time and language tokens remain distinct yet exhibit high cosine similarity, signifying that the model preserves each modality unique features while learning their commonalities in a unified embedding space. Empirically, TimeSUP consistently outperforms state-of-the-art LLM4TS methods and other lightweight baselines on long-term forecasting performance. Furthermore, it can be seamlessly integrated into four existing LLM4TS pipelines and delivers significant improvements in forecasting performance.

academic

رفع المتعددات لتخفيف الانحياز الزائف في LLM4TS

المعلومات الأساسية

معرّف الورقة: 2510.12847
العنوان: رفع المتعددات لتخفيف الانحياز الزائف في LLM4TS
المؤلفون: Liangwei Nathan Zheng, Wenhao Liang, Wei Emma Zhang, Miao Xu, Olaf Maennel, Weitong Chen
التصنيف: cs.LG (تعلم الآلة)
تاريخ النشر: 14 أكتوبر 2024 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.12847

الملخص

يُعتبر الانحياز الزائف (Pseudo-Alignment) تحديًا شائعًا في العديد من نماذج اللغات الكبيرة للسلاسل الزمنية (LLM4TS)، مما يؤدي غالبًا إلى أداء أسوأ من النماذج الخطية أو الشبكات العصبية المهيأة عشوائيًا. ومع ذلك، هناك نقاش محدود في المجتمع العلمي حول أسباب حدوث الانحياز الزائف. تتعمق هذه الورقة في الأسباب الجذرية للانحياز الزائف في LLM4TS وتؤسس علاقة بين الانحياز الزائف وتأثير المخروط (cone effect) في نماذج اللغات الكبيرة. تُظهر الدراسة أن الانحياز الزائف ينشأ من التفاعل بين تأثير المخروط في مكونات اللغات الكبيرة المدربة مسبقًا والمتعددات منخفضة الأبعاد الكامنة في بيانات السلاسل الزمنية. علاوة على ذلك، تقدم الورقة TimeSUP، وهي تقنية جديدة مصممة لتخفيف هذه المشكلة وتحسين الأداء التنبؤية لطرق LLM4TS الموجودة.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية: ظاهرة الانحياز الزائف الشائعة في نماذج LLM4TS، مما يؤدي إلى أداء ضعيفة، بل أسوأ من النماذج الخطية البسيطة
وصف الظاهرة: تبدو تمثيلات السلاسل الزمنية واللغة متوافقة على مستوى الإحصائيات من الدرجة الأولى (مثل المتوسط)، لكن التوزيع الكامل يظل مختلفًا، مما يشير إلى فشل التوافق الدلالي الحقيقي وتشويه الميزات الخاصة بالنمط

أهمية البحث

القيمة التطبيقية العملية: تحليل السلاسل الزمنية له تطبيقات مهمة في التشخيص الطبي والتنبؤ بالطقس وتدفق حركة المرور والتنبؤ بحمل الطاقة
الأهمية النظرية: فهم آليات تكيف نماذج اللغات الكبيرة في المجالات غير اللغوية، مما يوفر أساسًا نظريًا للتعلم عبر الأنماط
التحديات التقنية: تفتقر طرق LLM4TS الموجودة إلى دراسة منهجية لأصول آلية الانحياز الزائف

قيود الطرق الموجودة

نقص التحليل المتعمق للأسباب الجذرية للانحياز الزائف
عدم وجود تعديلات معمارية فعالة أو استراتيجيات تدريب لتفعيل المعرفة الغنية في نماذج اللغات الكبيرة للتنبؤ بالسلاسل الزمنية
غالبًا ما تؤدي الطرق الموجودة أداءً أسوأ من نماذج الخط الأساسي الخفيفة الوزن

المساهمات الأساسية

الكشف الأول عن مشكلة الانحياز الزائف من منظور بُعد متعدد البيانات، مما يوفر رؤى جديدة لنماذج LLM4TS، وعرض تأثير البُعد المنخفض على السلاسل الزمنية من خلال تجارب شاملة
اقتراح طريقة TimeSUP، وهي طريقة بسيطة وفعالة لإعادة برمجة السلاسل الزمنية للغات الكبيرة، تحل مشكلة الانحياز الزائف بشكل فعال من خلال رفع البُعد الدقيق لبيانات السلاسل الزمنية
تحقيق تحسن متسق في الأداء، حيث يتفوق TimeSUP باستمرار على أحدث خطوط أساس LLM4TS عبر مجموعات بيانات التنبؤ طويلة الأجل المختلفة، وسهل التكيف مع طرق LLM4TS الأخرى

شرح الطريقة

تعريف المهمة

تركز هذه الورقة على مهمة التنبؤ بالسلاسل الزمنية طويلة الأجل، حيث يكون الإدخال بيانات السلاسل الزمنية التاريخية والإخراج هو القيم المتنبأ بها للخطوات الزمنية المستقبلية. التحدي الأساسي هو كيفية الاستفادة الفعالة من معرفة نماذج اللغات الكبيرة المدربة مسبقًا لتحسين أداء التنبؤ بالسلاسل الزمنية.

الأساس النظري

تحليل متعدد السلاسل الزمنية

من خلال تحليل المكونات الرئيسية (PCA) تم اكتشاف:

رموز السلاسل الزمنية (حجم الرقعة=16، الخطوة=8) تحتاج فقط إلى 21 مكونًا رئيسيًا للتمثيل الجيد
رموز لغة GPT-2 تحتفظ بـ 712 مكونًا (من أصل 768)
نمط السلاسل الزمنية يقع على متعدد أبعاد أقل من نمط اللغة

تحليل نظرية الانحياز الزائف

النظرية 1: عندما يميل بُعد المتعدد m→0 و n→0، يميل جيب التمام للتشابه إلى التقارب فقط إلى التشابه بين متوسطات توزيعات السلاسل الزمنية واللغة، مما يؤدي إلى الانحياز الزائف.

التعبير الرياضي:

E[cos(x_ts, x_l)] = (μ_ts μ_l) / (√(||μ_ts|| + mσ_ts) √(||μ_l|| + nσ_l))

عندما يكون m≪n و mσ_ts مهملاً، بسبب تأثير المخروط، يزداد جيب التمام للتشابه بشكل كبير، وتتقارب المعادلة إلى تشابه عالي لـ μ_ts مع التوزيع اللغوي الكامل.

معمارية TimeSUP

1. تضمين السلاسل الزمنية للرقعة

طول الإدخال L، حجم الرقعة P، الخطوة S
عدد الرقع المُنتجة: N = ⌈(P-L)/S⌉ + 1
تعيين خطي إلى فضاء التضمين اللغوي المشترك R^d

2. اختيار النماذج الأولية النصية Top-K

توليد 1000 نموذج أولي نصي من خلال التركيبات الخطية للمفردات
استخدام الانتباه المتقاطع غير المتماثل للعثور على أفضل النماذج الأولية Top-K التي تصف رقع السلاسل الزمنية
حساب أوزان الانتباه: A_k = TopK(Softmax(QK^T/√d))

3. معزز متعدد السلاسل الزمنية

تصميم شبكتي MLP خفيفتي الوزن:

M_c ∈ R^((K+1)×N)×n: تعمل عبر بُعد الرمز
M_f ∈ R^(d×d): تعمل عبر قنوات الميزات

عملية الدمج:

T* = M_f(M_c^T T_t)^T

حيث T_t هو تمثيل الاتصال لزوج السلاسل الزمنية والنص.

التحقق من الفعالية

من خلال تجارب اختبار PCA، تم إثبات أن التمثيلات المحسّنة ترفع البُعد المتعدد الكامن للسلاسل الزمنية من 21 إلى 224 (مقارنة بـ 712 بُعد لرموز لغة GPT-2)، مما يزيد بشكل كبير من بُعد متعدد البيانات.

إعداد التجارب

مجموعات البيانات

استخدام 8 مجموعات بيانات معيارية موسعة للتنبؤ طويل الأجل:

سلسلة ETT: ETTh1, ETTh2, ETTm1, ETTm2 (بيانات درجة حرارة محول الطاقة)
Illness: بيانات الأمراض (7 أبعاد، تكرار أسبوعي)
Weather: بيانات الطقس (21 بُعد، تكرار كل 10 دقائق)
Traffic: بيانات حركة المرور (862 بُعد، تكرار بالساعة)
ECL: بيانات استهلاك الكهرباء (862 بُعد، تكرار بالساعة)

مقاييس التقييم

MSE: متوسط الخطأ التربيعي
MAE: متوسط الخطأ المطلق

طرق المقارنة

طرق LLM4TS: FSCA, CALF, S2IP, TimeLLM, UniTime, OFA خطوط الأساس الخفيفة الوزن: TimeMixer, TimesNet, iTransformer

تفاصيل التنفيذ

الأجهزة: 4×RTX 4090 بسعة 24GB و 4×A100 بسعة 40GB
محسّن: Adam
دالة الخسارة: متوسط الخطأ التربيعي
التصور بناءً على التنفيذ الرسمي لـ OFA

نتائج التجارب

النتائج الرئيسية

حقق TimeSUP أفضل أداء في 60 من 80 تكوين اختبار، متفوقًا بشكل كبير على جميع طرق الخط الأساسي:

النتائج التمثيلية:

متوسط ETTh1: MSE 0.412 مقابل أفضل خط أساس 0.426 (تحسن 3.3%)
متوسط ETTh2: MSE 0.353 مقابل أفضل خط أساس 0.355 (تحسن 0.6%)
متوسط Illness: MSE 1.885 مقابل أفضل خط أساس 2.056 (تحسن 8.3%)
متوسط Weather: MSE 0.231 مقابل أفضل خط أساس 0.233 (تحسن 0.9%)

تجارب التحليل الهرمي

من خلال التصور الطبقي لـ 6 طبقات من GPT-2 تم اكتشاف:

نموذج الخط الأساسي: يرتفع جيب التمام للتشابه إلى قريب من 1 في الطبقة الأولى، ويبقى فوق 0.9 في الطبقات اللاحقة
TimeSUP: بدءًا من الطبقة الثانية، تبدأ تضمينات السلاسل الزمنية في الانتشار والتعيين على المتعدد اللغوي، يرتفع جيب التمام للتشابه تدريجيًا لكن يستقر في النهاية عند حوالي 0.6643

تجارب التكيف

يمكن دمج TimeSUP بسلاسة في عدة طرق LLM4TS موجودة:

S2IP+TimeSUP: انخفاض MSE بنسبة 3% على ETTh1، انخفاض MAE بنسبة 2%
OFA+TimeSUP: انخفاض MSE بنسبة 4.8%، انخفاض MAE بنسبة 1.3%
متوسط التحسن: انخفاض MSE بمتوسط 11% على مجموعة بيانات Illness، انخفاض بنسبة 2% على ETTh1

تجارب الاستئصال

من خلال التحكم في حالات التدريب المسبق والضبط الدقيق لـ LayerNorm (LN) والانتباه متعدد الرؤوس (MHA) تم اكتشاف:

LN-PT & MHA-PT: ينتج أشد الانحياز الزائف
المكونات المهيأة عشوائيًا: تقلل بشكل كبير من أداء التنبؤ
LN-PF & MHA-RF: أكبر انخفاض في الأداء
LN-RT & MHA-PF: أقل انخفاض في الأداء، مما يشير إلى أن معظم معرفة اللغة محفوظة في طبقة MHA

الأعمال ذات الصلة

نماذج السلاسل الزمنية الخفيفة الوزن

القائمة على RNN: تتعلم الميزات الزمنية من خلال التكرار، لكن تعاني من مشاكل الاعتماديات طويلة الأجل
القائمة على CNN: تتعلم نوى الالتفاف لاستخراج الميزات الزمنية والمحلية
القائمة على Transformer: PatchTST, iTransformer, AutoFormer وغيرها تستفيد من مجال الاستقبال العام
القائمة على MLP: DLinear, TimesNet, TimeMixer وغيرها تبسط طرق المعاملات

طرق LLM4TS

OFA: إعادة برمجة GPT-2 للتكيف مع السلاسل الزمنية متعددة المهام من خلال ضبط طبقات LayerNorm
TimeLLM: استخدام التلميحات والانتباه المتقاطع للعثور على أفضل رموز نصية تصف ميزات السلاسل الزمنية من المفردات
CALF: الاستفادة من ضبط LoRA وخسارة الاتساق بين النص والسلاسل الزمنية
S2IP: تحليل السلاسل الزمنية ومحاذاة رموز اللغة مع مكونات STL

الخلاصة والمناقشة

الاستنتاجات الرئيسية

السبب الجذري للانحياز الزائف: إثبات أن الانحياز الزائف هو تأثير مركب لتأثير المخروط والمتعددات منخفضة الأبعاد للسلاسل الزمنية
حل فعال: يحل TimeSUP مشكلة الانحياز الزائف بشكل فعال من خلال رفع بُعد متعدد السلاسل الزمنية
قابلية التطبيق الواسعة: يمكن دمج الطريقة كوحدة "توصيل وتشغيل" في معماريات LLM4TS المختلفة

القيود

التكلفة الحسابية: على الرغم من أن TimeSUP خفيف نسبيًا، إلا أن رفع البُعد الإضافي سيجلب بعض التكاليف الحسابية
حساسية المعاملات الفائقة: تحتاج معاملات مثل اختيار Top-K وعدد الرموز المضغوطة إلى ضبط لمجموعات بيانات مختلفة
التحليل النظري: على الرغم من توفير إثبات رياضي، إلا أن التغطية النظرية للسيناريوهات العملية المعقدة لا تزال محدودة

الاتجاهات المستقبلية

رفع البُعد التكيفي: تطوير طرق يمكنها تحديد البُعد المتعدد الأمثل تلقائيًا
التوسع متعدد الأنماط: توسيع هذه الفكرة إلى مشاكل محاذاة الأنماط الأخرى
تحسين الكفاءة: البحث عن تقنيات تحسين متعدد أكثر كفاءة

التقييم المتعمق

المميزات

مساهمة نظرية بارزة: أول تحليل متعمق لمشكلة الانحياز الزائف من منظور بُعد المتعدد، مع توفير دعم نظري رياضي واضح
طريقة بسيطة وفعالة: تصميم TimeSUP بسيط لكن النتائج مهمة، سهل الفهم والتنفيذ
تجارب شاملة: مقارنة شاملة مع 10 طرق خط أساسي على 8 مجموعات بيانات، النتائج مقنعة
تحليل التصور المتعمق: عرض واضح لآلية عمل الطريقة من خلال UMAP والتحليل الطبقي
قابلية التطبيق الواسعة: إثبات أن الطريقة يمكن دمجها في معماريات موجودة متعددة

أوجه القصور

تحليل الكفاءة الحسابية غير كافٍ: نقص التحليل التفصيلي للتكاليف الحسابية الإضافية ووقت التدريب
حساسية المعاملات الفائقة: تحتاج مجموعات بيانات مختلفة إلى إعدادات معاملات مختلفة، نقص استراتيجية اختيار موحدة
التحقق من التأثيرات طويلة الأجل: التركيز الأساسي على التنبؤ طويل الأجل، تحتاج التأثيرات على التنبؤ قصير الأجل والمهام الأخرى إلى مزيد من التحقق
الافتراضات النظرية: بعض الاشتقاقات الرياضية تعتمد على افتراضات مثالية، قد تكون قابلية التطبيق في التطبيقات العملية محدودة

التأثير

القيمة الأكاديمية: توفير رؤى نظرية مهمة لمجال LLM4TS، قد تلهم الأبحاث ذات الصلة اللاحقة
القيمة العملية: كوحدة توصيل وتشغيل، لها إمكانية تطبيق عملي قوية
قابلية الاستنساخ: توفر الورقة تفاصيل تنفيذ وإعدادات معاملات مفصلة، مما يسهل الاستنساخ

السيناريوهات المناسبة

التنبؤ بالسلاسل الزمنية طويلة الأجل: مناسب بشكل خاص لمهام التنبؤ بالسلاسل الزمنية المعقدة التي تتطلب الاستفادة من معرفة نماذج اللغات الكبيرة
التعلم متعدد الأنماط: يمكن توسيع هذه الفكرة إلى مشاكل التعلم عبر الأنماط الأخرى حيث يوجد عدم تطابق في الأبعاد
تكيف النماذج المدربة مسبقًا: توفير أفكار جديدة لتكيف نماذج اللغات الكبيرة المدربة مسبقًا مع مجالات أخرى

المراجع

تستشهد هذه الورقة بـ 35 مرجعًا ذا صلة، تغطي التنبؤ بالسلاسل الزمنية ونماذج اللغات الكبيرة والتعلم متعدد الأنماط وغيرها من المجالات المهمة، مما يوفر أساسًا نظريًا قويًا للبحث.

التقييم الإجمالي: هذه ورقة عالية الجودة، مع تحليل نظري وتحقق تجريبي شامل. تحدد الورقة وتحل مشكلة مهمة في مجال LLM4TS، والطريقة المقترحة بسيطة وفعالة، مع قيمة عملية وأكاديمية قوية.