2025-11-25T22:34:18.624435

Efficient Autoregressive Inference for Transformer Probabilistic Models

Hassan, Loka, Li et al.

Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.

academic

الاستدلال الذاتي الانحداري الفعال لنماذج Transformer الاحتمالية

المعلومات الأساسية

معرّف الورقة: 2510.09477
العنوان: الاستدلال الذاتي الانحداري الفعال لنماذج Transformer الاحتمالية
المؤلفون: Conor Hassan, Nasrulloh Loka, Cen-You Li, Daolang Huang, Paul E. Chang, Yang Yang, Francesco Silvestrin, Samuel Kaski, Luigi Acerbi
التصنيف: stat.ML cs.LG
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv الأولية)
رابط الورقة: https://arxiv.org/abs/2510.09477

الملخص

تُظهر نماذج الاستدلال الاحتمالي المستهلكة القائمة على Transformer (مثل العمليات العصبية والشبكات المجهزة مسبقاً والنماذج الأساسية الجدولية) أداءً ممتازاً في التنبؤات الهامشية الفردية. ومع ذلك، فإن العديد من التطبيقات العملية، من استيفاء الإشارات إلى التنبؤ بأعمدة متعددة في الجداول، تتطلب التقاط التوزيع المشترك المتماسك الذي يعكس التبعيات بين التنبؤات. بينما تولد العمائر الانحدارية البحتة هذه التوزيعات بكفاءة، إلا أنها تضحي بقدرات التكييف المرن للمجموعات التي تجعل هذه النماذج قوية في التعلم الفوقي. على العكس من ذلك، فإن الطريقة القياسية للحصول على التوزيع المشترك من النماذج القائمة على المجموعات تتطلب إعادة ترميز مكلفة لمجموعة السياق المعززة بالكامل في كل خطوة انحدارية. تقدم هذه الورقة المخزن المؤقت الانحداري السببي، الذي يحتفظ بمزايا كلا النموذجين. تفصل الطريقة ترميز السياق عن تحديثات مجموعة التكييف، حيث تعالج النموذج السياق مرة واحدة وتخزنه مؤقتاً، بينما يلتقط المخزن المؤقت الديناميكي التبعيات بين الأهداف. عبر الدوال الاصطناعية وإشارات EEG والنماذج المعرفية والبيانات الجدولية، تحقق الطريقة تسريعاً يصل إلى 20 مرة في سرعة العينات المشتركة مع الحفاظ على دقة التنبؤ المماثلة للخطوط الأساسية القوية.

الخلفية البحثية والدافع

المشكلة الأساسية

تواجه نماذج Transformer الاحتمالية الحالية اختناقاً أساسياً في الكفاءة: عند الحاجة إلى توليد توزيع مشترك، يجب إعادة ترميز مجموعة التكييف بالكامل في كل خطوة انحدارية. بشكل محدد:

قيود نماذج التكييف القائمة على المجموعات: تتفوق نماذج مثل العمليات العصبية (NPs) والشبكات المجهزة مسبقاً (PFNs) في التنبؤ الهامشي، لكن عند النشر الانحداري تتطلب إعادة ترميز السياق بشكل متكرر، مما يؤدي إلى تعقيد حسابي بمقدار O(K(N+K)²)
قصور النماذج الانحدارية البحتة: بينما تتمتع بكفاءة حسابية، إلا أنها تفتقر إلى قدرات التكييف المرن للمجموعات، مما يحد من تطبيقاتها في مهام التعلم الفوقي

الأهمية

يعتبر التنبؤ بالتوزيع المشترك حاسماً في عدة تطبيقات رئيسية:

العلاقات الزمنية في استيفاء الإشارات
الارتباطات بين الميزات في التنبؤ بأعمدة متعددة
التبعيات التسلسلية في نمذجة بيانات السلوك
تقييم الاحتمالية المشتركة في اختيار النموذج البايزي

قيود الطرق الموجودة

نشر TNP-D الانحداري: يتطلب إعادة ترميز مجموعة السياق المتنامية في كل خطوة
TNP-A: يتطلب معالجة مجموعات الأهداف المكررة في التدريب والاستدلال، مما يسبب نفقات حسابية ضخمة
TNP-ND: مقتصر على التوزيعات الغوسية متعددة المتغيرات، مما يحد من القدرة التعبيرية

المساهمات الأساسية

تقديم آلية المخزن المؤقت الانحداري السببي: فصل ترميز السياق للتكييف القائم على المجموعات عن التنبؤ التسلسلي، مما يحقق أخذ عينات مشتركة وتقييم احتمالية فعالة
تصميم استراتيجية تدريب موحدة: استخدام قناع الانتباه وتعلم منهج حجم المخزن المؤقت، مما يمكّن نموذجاً واحداً من تعلم أسلوبي التشغيل بتكلفة إضافية ضئيلة
التحقق من القابلية للتطبيق على نطاق واسع: تحقيق تسريع يصل إلى 20 مرة في أخذ العينات المشتركة على TNPs/PFNs والنماذج الأساسية الجدولية، مع الحفاظ على دقة تنبؤ مقارنة
تحسين التعقيد النظري: تقليل التعقيد الحسابي من O(K(N+K)²) إلى O(N²+NK+K²)

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة السياق C = {(xₙ, yₙ)}ᴺₙ₌₁ ومجموعة الأهداف T = {(xₘ, yₘ)}ᴹₘ₌₁، الهدف هو تعلم توزيع التنبؤ p_θ(y₁:ₘ|x₁:ₘ; C)، حيث θ هي معاملات النموذج.

معمارية النموذج

المكونات الأساسية

مشفر السياق rC: يعالج أزواج السياق، باستخدام الانتباه الذاتي متعدد الرؤوس ثنائي الاتجاه، مع تخزين مؤقت لأزواج المفاتيح والقيم في كل طبقة
مشفر المخزن المؤقت rB: يستخدم الانتباه الذاتي متعدد الرؤوس السببي الصارم لبادئة المخزن المؤقت
فك تشفير الهدف rtgt: يستعلم عن السياق المخزن مؤقتاً وبادئة المخزن المؤقت المرئية من خلال الانتباه المتقاطع

معاملات توزيع التنبؤ

p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))

حيث bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)

تصميم قناع الانتباه

ينفذ أربع متطلبات رئيسية:

(R1) عدم تغيير السياق: ترميز مرة واحدة وتخزين مؤقت للقراءة فقط
(R2) السببية الصارمة للمخزن المؤقت: يمكن للرمز j فقط الانتباه إلى المواضع <j
(R3) تدفق المعلومات أحادي الاتجاه من السياق: لا توجد كتابة خلفية إلى C
(R4) الهدف ينتبه إلى السياق المخزن مؤقتاً وبادئة المخزن المؤقت المرئية

نقاط الابتكار التقني

1. التصميم المفصول

ذاكرة تخزين مؤقت للسياق الثابت: ترميز مرة واحدة، إعادة استخدام متعددة
مخزن مؤقت ديناميكي: تحديث تدريجي، يلتقط التبعيات بين الأهداف

2. منهج التدريب

50% من الأهداف تنتبه فقط إلى السياق
50% من الأهداف تنتبه إلى السياق + بادئة مخزن مؤقت بطول عشوائي
يضمن أن يعمل النموذج بشكل جيد في حالات مختلفة من المخزن المؤقت

3. أنماط الاستدلال الفعالة

أخذ العينات الانحداري: ملء مسبق للسياق، فك تشفير تسلسلي للأهداف
تقييم الاحتمالية المشتركة: حساب جميع الاحتمالات الشرطية في تمرير أمامي واحد
أخذ عينات دفعية: مشاركة ذاكرة تخزين مؤقت للسياق، حالات مخزن مؤقت مستقلة

إعداد التجارب

مجموعات البيانات

الدوال الاصطناعية:
- عمليات غوسية (GP): نوى RBF و Matérn-3/2 و Matérn-5/2
- دالة المنشار: غير غوسية، مشتقات غير متصلة
بيانات EEG: 11,520 محاولة، 122 موضوعاً، 7 قنوات ذات صلة، 256 نقطة زمنية
نموذج الاستدلال السببي متعدد الحواس: بيانات تجارب التوطين السمعي البصري، 15 مشاركاً
البيانات الجدولية: مجموعات بيانات UCI (استهلاك الكهرباء، انبعاثات التوربينات الغازية، مشاركة الدراجات)

مؤشرات التقييم

متوسط احتمالية السجل: تقييم جودة التنبؤ
وقت الساعة الحائطية: وقت التشغيل الفعلي لأخذ العينات وتقييم الاحتمالية وخطوات التدريب
RMSE احتمالية الهامش اللوغاريتمي: دقة مهام اختيار النموذج

طرق المقارنة

TNP-D-Ind: تنبؤ مستقل، سريع لكن بدون نمذجة التبعية
TNP-D-AR: نشر انحداري، قوي تعبيرياً لكن يتطلب إعادة ترميز
TNP-ND: توزيع غوسي متعدد المتغيرات مشترك، قدرة تعبيرية محدودة
TNP-A: نمذجة انحدارية كاملة، بطيء في التدريب وأخذ العينات

تفاصيل التنفيذ

المحسّن: Adam، معدل التعلم 1×10⁻⁴
المعمارية: 6 طبقات Transformer، 4 رؤوس انتباه، البعد 128
رأس التنبؤ: نموذج خليط غوسي بـ 20 مكون
حجم المخزن المؤقت: K=16 (التجارب الرئيسية)

نتائج التجارب

النتائج الرئيسية

الكفاءة الحسابية

أخذ العينات الانحداري: أسرع بـ 3-20 مرة من TNP-A و TNP-D-AR
تقييم الاحتمالية: مماثل لـ TNP-A، أسرع بـ K مرة من TNP-D-AR
سرعة التدريب: أسرع بـ 4-12 مرة من TNP-A، مماثل لأسرع خط أساس

دقة التنبؤ

مجموعة البيانات	TNP-D-AR	TNP-A	الطريقة (K=16)	الطريقة (K=1)
GP	2.57	0.80	2.51	2.56
Sawtooth	1.05	-0.43	1.00	1.09
EEG-Int	0.51	0.46	0.52	0.54
EEG-For	1.07	-0.04	0.85	1.21

تجارب الاستئصال

تأثير حجم المخزن المؤقت: K=1 معادل للانحدار الذاتي القياسي، K=16 يحقق انخفاضاً طفيفاً في الأداء لكن تسريعاً كبيراً في السرعة
نوى Triton المخصصة: توفر تسريعاً كبيراً في الدفعات الكبيرة
أنماط الانتباه: حتى مع تعطيل FlashAttention، يبقى TNP-A أبطأ بعدة رتب من حيث الحجم من الطرق الأخرى

دراسات الحالة

في مهمة الاستدلال السببي متعدد الحواس:

اختيار النموذج: RMSE احتمالية الهامش اللوغاريتمي 3.56، قريب من 3.47 لـ TNP-D-AR
التنبؤ بالبيانات: متوسط احتمالية السجل -2.76، مماثل لجميع الخطوط الأساسية القوية
الارتباط بالقيم الحقيقية: R²=1.00 (احتمالية الهامش اللوغاريتمي)، R²=0.92 (ΔLML)

الأعمال ذات الصلة

العمليات العصبية والشبكات المجهزة مسبقاً

تعمل طريقتنا كمكون معياري يمكن دمجه في معماريات NP/PFN الموجودة. تكمل الأعمال السابقة التي تركز على قابلية توسع مجموعة السياق، حيث تركز هذه الورقة على كفاءة أخذ العينات المشتركة الانحدارية.

نماذج Transformer الاحتمالية

تبني على الاتجاه الذي يصيغ الاستدلال البايزي كمهام التعلم السياقي، مستفيدة من متغيرات NP و PFN القائمة على Transformer.

النماذج الأساسية الجدولية

تتكامل بشكل طبيعي مع نماذج مثل TabPFN و TabICL، توفر مكوناً تكميلياً للتنبؤ المشترك الفعال.

تقدير الكثافة المشتركة الانحداري

مرتبط بـ TNP-A لكن مع اختلافات رئيسية: يستخدم TNP-A تكرار الأهداف في التدريب والاستدلال، بينما تتطلب طريقتنا ذلك فقط عند تقييم الاحتمالية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

اختراق الكفاءة: نجحت في إدخال كفاءة Transformer الانحداري إلى إطار عمل NP/PFN
الحفاظ على الأداء: حافظت على دقة التنبؤ مع تحسين السرعة بشكل كبير
التطبيق الواسع: تحقق من فعالية الطريقة عبر مجالات وعمليات متعددة

القيود

توسع طول المخزن المؤقت: لا يزال يحتوي على حد O(K²) عند زيادة K، ويستخدم حالياً تضمين موضع ثابت
انجراف جودة المخزن المؤقت الطويل: قد يكون هناك انخفاض في الجودة مقارنة بالانحدار الذاتي الدقيق الذي يعيد الترميز في كل خطوة
استهلاك الذاكرة: يتطلب الحفاظ على ذاكرة تخزين مؤقت للسياق وحالات المخزن المؤقت

الاتجاهات المستقبلية

تحسين ترميز الموضع: استخدام RoPE أو ALiBi لدعم تسلسلات أطول
فك التشفير التخميني: استراتيجيات استدلال تكيفية مستوحاة من عمليات draft-verify
الضبط الدقيق الفعال للمعاملات: استخدام المحولات أو LoRA لإضافة وظيفة المخزن المؤقت إلى النماذج المدربة مسبقاً

التقييم المتعمق

المزايا

ابتكار قوي: حل ذكي لمشكلة المقايضة بين التكييف القائم على المجموعات وكفاءة الانحدار الذاتي
أساس نظري متين: توفير تحليل تعقيد واضح واشتقاقات رياضية
تجارب شاملة: تغطي البيانات الاصطناعية والحقيقية ومجالات تطبيق متعددة
تحسينات هندسية: تتضمن نوى CUDA مخصصة وتحسينات على مستوى منخفض
قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ مفصلة والتزام بفتح الكود

أوجه القصور

نطاق التطبيق: ينطبق بشكل أساسي على تسلسلات أهداف متوسطة الطول، لا تزال التسلسلات الطويلة جداً تواجه تحديات
التحليل النظري: يفتقد إلى حدود نظرية لخطأ تقريب المخزن المؤقت
تجارب المقارنة: لم تقارن مع آليات الانتباه الفعالة الأحدث (مثل الانتباه الخطي)

التأثير

القيمة الأكاديمية: توفير أفكار جديدة للاستدلال الفعال للنماذج الاحتمالية
القيمة العملية: تقليل كبير في التكاليف الحسابية للتنبؤ المشترك، مما يجعل التطبيقات العملية ممكنة
قابلية التوسع: تتمتع الطريقة بعمومية جيدة، قابلة للتطبيق على متغيرات Transformer متعددة

السيناريوهات المناسبة

التطبيقات التي تتطلب أخذ عينات مشتركة متكررة (مثل قياس عدم اليقين)
مهام التنبؤ التسلسلي مع السياق واسع النطاق
السيناريوهات ذات متطلبات الاستدلال في الوقت الفعلي العالية
نمذجة البيانات متعددة الأنماط المشتركة

المراجع

تتضمن المراجع الرئيسية:

Garnelo et al. (2018): ورقة العمليات العصبية الأصلية
Nguyen & Grover (2022): Transformer Neural Processes
Müller et al. (2022): Prior-Fitted Networks
Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
Jingang et al. (2025): نموذج TabICL الأساسي الجدولي

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تتفوق في الابتكار النظري والتحقق التجريبي والتنفيذ الهندسي. تحل الطريقة بنجاح اختناقاً كفاءة مهماً في النماذج الاحتمالية، مع آفاق تطبيقية واسعة وقيمة أكاديمية كبيرة.