Efficient Autoregressive Inference for Transformer Probabilistic Models
Hassan, Loka, Li et al.
Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.
تُظهر نماذج الاستدلال الاحتمالي المستهلكة القائمة على Transformer (مثل العمليات العصبية والشبكات المجهزة مسبقاً والنماذج الأساسية الجدولية) أداءً ممتازاً في التنبؤات الهامشية الفردية. ومع ذلك، فإن العديد من التطبيقات العملية، من استيفاء الإشارات إلى التنبؤ بأعمدة متعددة في الجداول، تتطلب التقاط التوزيع المشترك المتماسك الذي يعكس التبعيات بين التنبؤات. بينما تولد العمائر الانحدارية البحتة هذه التوزيعات بكفاءة، إلا أنها تضحي بقدرات التكييف المرن للمجموعات التي تجعل هذه النماذج قوية في التعلم الفوقي. على العكس من ذلك، فإن الطريقة القياسية للحصول على التوزيع المشترك من النماذج القائمة على المجموعات تتطلب إعادة ترميز مكلفة لمجموعة السياق المعززة بالكامل في كل خطوة انحدارية. تقدم هذه الورقة المخزن المؤقت الانحداري السببي، الذي يحتفظ بمزايا كلا النموذجين. تفصل الطريقة ترميز السياق عن تحديثات مجموعة التكييف، حيث تعالج النموذج السياق مرة واحدة وتخزنه مؤقتاً، بينما يلتقط المخزن المؤقت الديناميكي التبعيات بين الأهداف. عبر الدوال الاصطناعية وإشارات EEG والنماذج المعرفية والبيانات الجدولية، تحقق الطريقة تسريعاً يصل إلى 20 مرة في سرعة العينات المشتركة مع الحفاظ على دقة التنبؤ المماثلة للخطوط الأساسية القوية.
تواجه نماذج Transformer الاحتمالية الحالية اختناقاً أساسياً في الكفاءة: عند الحاجة إلى توليد توزيع مشترك، يجب إعادة ترميز مجموعة التكييف بالكامل في كل خطوة انحدارية. بشكل محدد:
قيود نماذج التكييف القائمة على المجموعات: تتفوق نماذج مثل العمليات العصبية (NPs) والشبكات المجهزة مسبقاً (PFNs) في التنبؤ الهامشي، لكن عند النشر الانحداري تتطلب إعادة ترميز السياق بشكل متكرر، مما يؤدي إلى تعقيد حسابي بمقدار O(K(N+K)²)
قصور النماذج الانحدارية البحتة: بينما تتمتع بكفاءة حسابية، إلا أنها تفتقر إلى قدرات التكييف المرن للمجموعات، مما يحد من تطبيقاتها في مهام التعلم الفوقي
تقديم آلية المخزن المؤقت الانحداري السببي: فصل ترميز السياق للتكييف القائم على المجموعات عن التنبؤ التسلسلي، مما يحقق أخذ عينات مشتركة وتقييم احتمالية فعالة
تصميم استراتيجية تدريب موحدة: استخدام قناع الانتباه وتعلم منهج حجم المخزن المؤقت، مما يمكّن نموذجاً واحداً من تعلم أسلوبي التشغيل بتكلفة إضافية ضئيلة
التحقق من القابلية للتطبيق على نطاق واسع: تحقيق تسريع يصل إلى 20 مرة في أخذ العينات المشتركة على TNPs/PFNs والنماذج الأساسية الجدولية، مع الحفاظ على دقة تنبؤ مقارنة
تحسين التعقيد النظري: تقليل التعقيد الحسابي من O(K(N+K)²) إلى O(N²+NK+K²)
بالنظر إلى مجموعة السياق C = {(xₙ, yₙ)}ᴺₙ₌₁ ومجموعة الأهداف T = {(xₘ, yₘ)}ᴹₘ₌₁، الهدف هو تعلم توزيع التنبؤ p_θ(y₁:ₘ|x₁:ₘ; C)، حيث θ هي معاملات النموذج.
تعمل طريقتنا كمكون معياري يمكن دمجه في معماريات NP/PFN الموجودة. تكمل الأعمال السابقة التي تركز على قابلية توسع مجموعة السياق، حيث تركز هذه الورقة على كفاءة أخذ العينات المشتركة الانحدارية.
Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
Jingang et al. (2025): نموذج TabICL الأساسي الجدولي
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تتفوق في الابتكار النظري والتحقق التجريبي والتنفيذ الهندسي. تحل الطريقة بنجاح اختناقاً كفاءة مهماً في النماذج الاحتمالية، مع آفاق تطبيقية واسعة وقيمة أكاديمية كبيرة.