2025-11-25T22:34:18.624435

Efficient Autoregressive Inference for Transformer Probabilistic Models

Hassan, Loka, Li et al.

Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.

academic

Transformer संभाव्य मॉडल के लिए कुशल ऑटोरेग्रेसिव अनुमान

मूल जानकारी

पेपर ID: 2510.09477
शीर्षक: Efficient Autoregressive Inference for Transformer Probabilistic Models
लेखक: Conor Hassan, Nasrulloh Loka, Cen-You Li, Daolang Huang, Paul E. Chang, Yang Yang, Francesco Silvestrin, Samuel Kaski, Luigi Acerbi
वर्गीकरण: stat.ML cs.LG
प्रकाशन तिथि: 25 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09477

सारांश

Transformer-आधारित परिशोधित संभाव्य अनुमान मॉडल (जैसे तंत्रिका प्रक्रियाएं, पूर्व-फिटिंग नेटवर्क और सारणीबद्ध आधार मॉडल) एकल सीमांत भविष्यवाणी में उत्कृष्ट प्रदर्शन करते हैं। हालांकि, संकेत प्रक्षेप से लेकर बहु-स्तंभ सारणीबद्ध भविष्यवाणी तक कई व्यावहारिक अनुप्रयोगों को भविष्यवाणी-अंतर्निहितता को पकड़ने वाले सुसंगत संयुक्त वितरण की आवश्यकता होती है। शुद्ध ऑटोरेग्रेसिव आर्किटेक्चर ऐसे वितरण को कुशलतापूर्वक उत्पन्न कर सकते हैं, लेकिन मेटा-लर्निंग में इन मॉडलों को शक्तिशाली बनाने वाली लचीली समुच्चय-आधारित कंडीशनिंग क्षमता का त्याग करते हैं। इसके विपरीत, समुच्चय-आधारित मॉडल से संयुक्त वितरण प्राप्त करने की मानक विधि प्रत्येक ऑटोरेग्रेसिव चरण में संपूर्ण संवर्धित सशर्त समुच्चय के महंगे पुनः-एन्कोडिंग की आवश्यकता होती है। यह पेपर कारणात्मक ऑटोरेग्रेसिव बफर प्रस्तुत करता है, जो दोनों प्रतिमानों के लाभों को बनाए रखता है। यह विधि संदर्भ एन्कोडिंग को सशर्त समुच्चय अपडेट से अलग करती है, मॉडल संदर्भ को एक बार संसाधित करता है और कैश करता है, जबकि गतिशील बफर लक्ष्य-निर्भरता को पकड़ता है। सिंथेटिक फ़ंक्शन, EEG संकेत, संज्ञानात्मक मॉडल और सारणीबद्ध डेटा पर, यह विधि मजबूत आधारभूत भविष्यवाणी सटीकता से मेल खाते हुए संयुक्त नमूनाकरण गति में 20 गुना तक सुधार प्रदान करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

मौजूदा Transformer-आधारित संभाव्य मॉडल एक मौलिक दक्षता बाधा का सामना करते हैं: जब संयुक्त वितरण उत्पन्न करने की आवश्यकता होती है, तो प्रत्येक ऑटोरेग्रेसिव चरण में संपूर्ण सशर्त समुच्चय को पुनः-एन्कोड करना होता है। विशेष रूप से:

समुच्चय-कंडीशनिंग मॉडल की सीमाएं: तंत्रिका प्रक्रियाएं (NPs), पूर्व-फिटिंग नेटवर्क (PFNs) आदि मॉडल सीमांत भविष्यवाणी में माहिर हैं, लेकिन ऑटोरेग्रेसिव तैनाती में संदर्भ के दोहराए गए पुनः-एन्कोडिंग की आवश्यकता होती है, जिससे O(K(N+K)²) की कम्प्यूटेशनल जटिलता होती है
शुद्ध ऑटोरेग्रेसिव मॉडल की कमियां: हालांकि कम्प्यूटेशनल रूप से कुशल, लेकिन लचीली समुच्चय-कंडीशनिंग क्षमता की कमी है, जो मेटा-लर्निंग कार्यों में अनुप्रयोग को सीमित करती है

महत्व

संयुक्त वितरण भविष्यवाणी कई महत्वपूर्ण अनुप्रयोगों में महत्वपूर्ण है:

संकेत प्रक्षेप में समय-निर्भरता
बहु-स्तंभ सारणीबद्ध भविष्यवाणी में विशेषता सहसंबंध
व्यवहार डेटा मॉडलिंग में अनुक्रमिक निर्भरता
बेयेसियन मॉडल चयन में संयुक्त संभावना मूल्यांकन

मौजूदा विधियों की सीमाएं

TNP-D ऑटोरेग्रेसिव तैनाती: प्रत्येक चरण में बढ़ते सशर्त समुच्चय को पुनः-एन्कोड करने की आवश्यकता
TNP-A: प्रशिक्षण और अनुमान दोनों को दोहराए गए लक्ष्य समुच्चय को संभालने की आवश्यकता है, विशाल कम्प्यूटेशनल ओवरहेड
TNP-ND: केवल बहुभिन्न गाऊसी वितरण तक सीमित, सीमित अभिव्यक्ति क्षमता

मुख्य योगदान

कारणात्मक ऑटोरेग्रेसिव बफर तंत्र प्रस्तावित: समुच्चय-कंडीशनिंग के संदर्भ एन्कोडिंग को अनुक्रमिक भविष्यवाणी से अलग करता है, कुशल संयुक्त नमूनाकरण और संभावना मूल्यांकन को सक्षम करता है
एकीकृत प्रशिक्षण रणनीति डिजाइन: मुखौटा ध्यान और बफर आकार पाठ्यक्रम सीखने का उपयोग करके, एकल मॉडल को न्यूनतम अतिरिक्त लागत पर दोनों ऑपरेशन मोड सीखने में सक्षम बनाता है
व्यापक प्रयोज्यता सत्यापन: TNPs/PFNs और सारणीबद्ध आधार मॉडल पर 20 गुना तक संयुक्त नमूनाकरण त्वरण प्राप्त करता है, तुलनीय भविष्यवाणी सटीकता बनाए रखते हुए
सैद्धांतिक जटिलता अनुकूलन: कम्प्यूटेशनल जटिलता को O(K(N+K)²) से O(N²+NK+K²) तक कम करता है

विधि विवरण

कार्य परिभाषा

दिए गए संदर्भ समुच्चय C = {(xₙ, yₙ)}ᴺₙ₌₁ और लक्ष्य समुच्चय T = {(xₘ, yₘ)}ᴹₘ₌₁, लक्ष्य भविष्यवाणी वितरण p_θ(y₁:ₘ|x₁:ₘ; C) सीखना है, जहां θ मॉडल पैरामीटर हैं।

मॉडल आर्किटेक्चर

मुख्य घटक

संदर्भ एन्कोडर rC: संदर्भ जोड़ी को संसाधित करता है, द्विदिशात्मक बहु-सिर आत्म-ध्यान का उपयोग करता है, प्रत्येक परत में कुंजी-मान जोड़ी को कैश करता है
बफर एन्कोडर rB: कड़ाई से कारणात्मक बहु-सिर आत्म-ध्यान का उपयोग करके बफर उपसर्ग को संसाधित करता है
लक्ष्य डिकोडर rtgt: क्रॉस-ध्यान के माध्यम से कैश किए गए संदर्भ और दृश्यमान बफर उपसर्ग को क्वेरी करता है

भविष्यवाणी वितरण पैरामीटराइजेशन

p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))

जहां bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)

ध्यान मुखौटा डिजाइन

चार मुख्य आवश्यकताओं को लागू करता है:

(R1) संदर्भ अपरिवर्तनीय: एक बार एन्कोड और केवल-पढ़ने के लिए कैश किया गया
(R2) बफर कड़ाई से कारणात्मक: टोकन j केवल <j स्थितियों को देख सकता है
(R3) संदर्भ से सूचना एकदिशात्मक प्रवाह: C में कोई पिछड़ा लेखन नहीं
(R4) लक्ष्य कैश किए गए संदर्भ और दृश्यमान बफर उपसर्ग पर ध्यान देता है

तकनीकी नवाचार

1. विघटन डिजाइन

स्थिर संदर्भ कैश: एक बार एन्कोड, कई बार पुनः उपयोग
गतिशील बफर: वृद्धिशील अपडेट, लक्ष्य-अंतर्निहितता को पकड़ता है

2. प्रशिक्षण पाठ्यक्रम

50% लक्ष्य केवल संदर्भ पर ध्यान देते हैं
50% लक्ष्य संदर्भ + यादृच्छिक लंबाई बफर उपसर्ग पर ध्यान देते हैं
विभिन्न बफर स्थितियों में मॉडल अच्छी तरह से काम करना सुनिश्चित करता है

3. कुशल अनुमान मोड

ऑटोरेग्रेसिव नमूनाकरण: संदर्भ को पूर्व-भरता है, अनुक्रमिक रूप से लक्ष्य को डिकोड करता है
संयुक्त संभावना मूल्यांकन: सभी सशर्त संभावनाओं की गणना के लिए एकल आगे पास
बैच नमूनाकरण: साझा संदर्भ कैश, स्वतंत्र बफर स्थितियां

प्रयोगात्मक सेटअप

डेटासेट

सिंथेटिक फ़ंक्शन:
- गाऊसी प्रक्रिया (GP): RBF, Matérn-3/2, Matérn-5/2 कर्नेल
- आरी-दांत फ़ंक्शन: गैर-गाऊसी, असंतत व्युत्पन्न
EEG डेटा: 11,520 परीक्षण, 122 विषय, 7 प्रासंगिक चैनल, 256 समय बिंदु
बहु-संवेदी कारणात्मक अनुमान मॉडल: ऑडियो-विजुअल स्थानीयकरण प्रयोग डेटा, 15 प्रतिभागी
सारणीबद्ध डेटा: UCI डेटासेट (विद्युत खपत, गैस टर्बाइन उत्सर्जन, बाइक साझाकरण)

मूल्यांकन मेट्रिक्स

औसत लॉग संभावना: भविष्यवाणी गुणवत्ता का मूल्यांकन
वॉल-क्लॉक समय: नमूनाकरण, संभावना मूल्यांकन, प्रशिक्षण चरणों का वास्तविक रन समय
लॉग सीमांत संभावना RMSE: मॉडल चयन कार्य की सटीकता

तुलना विधियां

TNP-D-Ind: स्वतंत्र भविष्यवाणी, तेज़ लेकिन निर्भरता मॉडलिंग नहीं
TNP-D-AR: ऑटोरेग्रेसिव तैनाती, अभिव्यक्ति शक्तिशाली लेकिन पुनः-एन्कोडिंग की आवश्यकता
TNP-ND: बहुभिन्न गाऊसी संयुक्त वितरण, सीमित अभिव्यक्ति
TNP-A: पूर्ण ऑटोरेग्रेसिव मॉडलिंग, प्रशिक्षण और नमूनाकरण दोनों धीमे

कार्यान्वयन विवरण

ऑप्टिमाइज़र: Adam, सीखने की दर 1×10⁻⁴
आर्किटेक्चर: 6-परत Transformer, 4 ध्यान सिर, आयाम 128
भविष्यवाणी सिर: 20-घटक गाऊसी मिश्रण मॉडल
बफर आकार: K=16 (मुख्य प्रयोग)

प्रयोगात्मक परिणाम

मुख्य परिणाम

कम्प्यूटेशनल दक्षता

ऑटोरेग्रेसिव नमूनाकरण: TNP-A और TNP-D-AR से 3-20 गुना तेज़
संभावना मूल्यांकन: TNP-A के समान, TNP-D-AR से K गुना तेज़
प्रशिक्षण गति: TNP-A से 4-12 गुना तेज़, सबसे तेज़ आधारभूत के समान

भविष्यवाणी सटीकता

डेटासेट	TNP-D-AR	TNP-A	यह विधि (K=16)	यह विधि (K=1)
GP	2.57	0.80	2.51	2.56
आरी-दांत	1.05	-0.43	1.00	1.09
EEG-Int	0.51	0.46	0.52	0.54
EEG-For	1.07	-0.04	0.85	1.21

विघटन प्रयोग

बफर आकार प्रभाव: K=1 पर मानक ऑटोरेग्रेसिव के बराबर, K=16 पर मामूली प्रदर्शन में कमी लेकिन गति में बड़ी वृद्धि
कस्टम Triton कर्नेल: बड़े बैच पर महत्वपूर्ण त्वरण प्रदान करता है
ध्यान पैटर्न: FlashAttention को अक्षम करने के बाद भी, TNP-A अन्य विधियों से कई परिमाण धीमा है

केस विश्लेषण

बहु-संवेदी कारणात्मक अनुमान कार्य में:

मॉडल चयन: LML RMSE 3.56, TNP-D-AR के 3.47 के करीब
डेटा भविष्यवाणी: औसत लॉग संभावना -2.76, सभी मजबूत आधारभूत के समान
वास्तविक मूल्यों के साथ सहसंबंध: R²=1.00 (LML), R²=0.92 (ΔLML)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

दक्षता सफलता: ऑटोरेग्रेसिव Transformer की दक्षता को NP/PFN ढांचे में सफलतापूर्वक लाया
प्रदर्शन संरक्षण: गति में बड़ी वृद्धि के दौरान भविष्यवाणी सटीकता बनाए रखता है
व्यापक प्रयोज्यता: कई डोमेन और कार्यों में विधि की प्रभावशीलता सत्यापित

सीमाएं

बफर लंबाई विस्तार: K बढ़ने पर अभी भी O(K²) पद है, वर्तमान में निश्चित स्थिति एम्बेडिंग का उपयोग करता है
लंबे बफर गुणवत्ता बहाव: प्रत्येक चरण पुनः-एन्कोडिंग की सटीक ऑटोरेग्रेसिव की तुलना में संभावित गुणवत्ता में कमी
मेमोरी खपत: संदर्भ कैश और बफर स्थिति बनाए रखने की आवश्यकता

भविष्य की दिशाएं

स्थिति एन्कोडिंग सुधार: RoPE या ALiBi का उपयोग करके लंबे अनुक्रमों का समर्थन करता है
अनुमानित डिकोडिंग: ड्राफ्ट-सत्यापन प्रक्रिया के अनुकूल अनुमान रणनीति
पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग: पूर्व-प्रशिक्षित मॉडल में बफर कार्यक्षमता जोड़ने के लिए एडेप्टर या LoRA का उपयोग

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: समुच्चय-कंडीशनिंग और ऑटोरेग्रेसिव दक्षता के बीच समझौते को चतुराई से हल करता है
ठोस सिद्धांत: स्पष्ट जटिलता विश्लेषण और गणितीय व्युत्पत्ति प्रदान करता है
व्यापक प्रयोग: सिंथेटिक डेटा, वास्तविक डेटा, कई अनुप्रयोग डोमेन को कवर करता है
इंजीनियरिंग अनुकूलन: कस्टम CUDA कर्नेल जैसे निम्न-स्तरीय अनुकूलन शामिल
पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और खुला-स्रोत कोड प्रदान करेगा

कमियां

प्रयोज्यता की सीमा: मुख्य रूप से मध्यम लंबाई के लक्ष्य अनुक्रमों के लिए लागू, अति-लंबे अनुक्रम अभी भी चुनौतियों का सामना करते हैं
सैद्धांतिक विश्लेषण: बफर सन्निकटन त्रुटि की सैद्धांतिक सीमा विश्लेषण की कमी
तुलनात्मक प्रयोग: नवीनतम कुशल ध्यान तंत्र (जैसे रैखिक ध्यान) के साथ तुलना नहीं

प्रभाव

शैक्षणिक मूल्य: संभाव्य मॉडल के कुशल अनुमान के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: संयुक्त भविष्यवाणी की कम्प्यूटेशनल लागत को महत्वपूर्ण रूप से कम करता है, व्यावहारिक अनुप्रयोग को संभव बनाता है
स्केलेबिलिटी: विधि में अच्छी सामान्यता है, कई Transformer वेरिएंट पर लागू की जा सकती है

उपयुक्त परिदृश्य

ऐसे अनुप्रयोग जिन्हें बार-बार संयुक्त नमूनाकरण की आवश्यकता है (जैसे अनिश्चितता परिमाणीकरण)
बड़े संदर्भ के साथ अनुक्रमिक भविष्यवाणी कार्य
उच्च वास्तविक समय अनुमान आवश्यकताओं वाले परिदृश्य
बहु-मोडल डेटा की संयुक्त मॉडलिंग

संदर्भ

मुख्य संदर्भों में शामिल हैं:

Garnelo et al. (2018): तंत्रिका प्रक्रियाएं मूल पेपर
Nguyen & Grover (2022): Transformer तंत्रिका प्रक्रियाएं
Müller et al. (2022): पूर्व-फिटिंग नेटवर्क
Bruinsma et al. (2023): ऑटोरेग्रेसिव सशर्त तंत्रिका प्रक्रियाएं
Jingang et al. (2025): TabICL सारणीबद्ध आधार मॉडल

समग्र मूल्यांकन: यह सैद्धांतिक नवाचार, प्रयोगात्मक सत्यापन और इंजीनियरिंग कार्यान्वयन के सभी पहलुओं में उत्कृष्ट प्रदर्शन करने वाला एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है। यह विधि संभाव्य मॉडल में एक महत्वपूर्ण दक्षता बाधा को सफलतापूर्वक हल करती है, जिसमें व्यापक अनुप्रयोग संभावनाएं और शैक्षणिक मूल्य है।