State-Space Models for Tabular Prior-Data Fitted Networks
Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic
सारणीबद्ध पूर्व-डेटा फिटेड नेटवर्क के लिए स्टेट-स्पेस मॉडल
सारणीबद्ध डेटा के लिए आधार मॉडल में हाल की प्रगति, जैसे TabPFN, ने प्रदर्शित किया है कि पूर्व-प्रशिक्षित Transformer आर्किटेक्चर उच्च भविष्यसूचक प्रदर्शन के साथ बेयेसियन अनुमान का अनुमान लगा सकते हैं। हालांकि, Transformers अनुक्रम लंबाई के संबंध में द्विघात जटिलता से ग्रस्त हैं, जो अधिक कुशल अनुक्रम मॉडल की खोज को प्रेरित करता है। इस कार्य में, हम TabPFN में Transformers के विकल्प के रूप में Hydra, एक द्विदिशात्मक रैखिक-समय संरचित स्टेट स्पेस मॉडल (SSM) का उपयोग करने की संभावना की जांच करते हैं। एक मुख्य चुनौती SSM की इनपुट टोकन के क्रम के प्रति अंतर्निहित संवेदनशीलता में निहित है - सारणीबद्ध डेटासेट के लिए एक अवांछनीय संपत्ति जहां पंक्ति क्रम शब्दार्थ रूप से अर्थहीन है। हम जांचते हैं कि द्विदिशात्मक दृष्टिकोण दक्षता को संरक्षित करने और सममित संदर्भ एकत्रीकरण को सक्षम करने की सीमा तक कैसे कर सकता है। हमारे प्रयोग दिखाते हैं कि यह दृष्टिकोण क्रम-निर्भरता को कम करता है, मूल TabPFN मॉडल के लिए प्रतिस्पर्धी भविष्यसूचक प्रदर्शन प्राप्त करता है।
समस्या का समाधान: यह अनुसंधान सारणीबद्ध डेटा आधार मॉडल में Transformer आर्किटेक्चर की कम्प्यूटेशनल दक्षता समस्या को संबोधित करता है, विशेष रूप से इसकी O(n²) जटिलता बड़े डेटासेट पर स्केलेबिलिटी को सीमित करती है।
समस्या की महत्ता: TabPFN सारणीबद्ध डेटा के लिए एक आधार मॉडल के रूप में उत्कृष्ट प्रदर्शन प्रदर्शित करता है, मिलीसेकंड में बेयेसियन अनुमान सन्निकटन पूरा कर सकता है, लेकिन इसका Transformer-आधारित आर्किटेक्चर बड़े पैमाने पर डेटा प्रसंस्करण में मेमोरी और कम्प्यूटेशनल बाधाओं का सामना करता है।
मौजूदा विधियों की सीमाएं:
Transformer की स्व-ध्यान तंत्र में द्विघात जटिलता है
Transformer को सीधे Mamba से बदलने से इनपुट अनुक्रम क्रम के प्रति संवेदनशीलता शुरू होती है
सारणीबद्ध डेटा में पंक्तियों का क्रम शब्दार्थ रूप से अर्थहीन है, जो SSM के कारणात्मक डिजाइन के साथ संघर्ष करता है
अनुसंधान प्रेरणा: संरचित स्टेट स्पेस मॉडल (SSM) को Transformer के विकल्प के रूप में खोजना, रैखिक जटिलता की दक्षता लाभ को बनाए रखते हुए, द्विदिशात्मक प्रसंस्करण तंत्र के माध्यम से इनपुट क्रम पर निर्भरता को कम करना।
Hydra-आधारित TabPFN आर्किटेक्चर का प्रस्ताव: द्विदिशात्मक संरचित स्टेट स्पेस मॉडल Hydra को TabPFN में एकीकृत करना, सारणीबद्ध डेटा प्रसंस्करण के लिए रैखिक समय जटिलता प्राप्त करना।
पुनरावृत्त संदर्भ क्रमचय (RCP) तकनीक का परिचय: इनपुट को कई बार यादृच्छिक रूप से क्रमबद्ध करके और भविष्यसूचक परिणामों को औसत करके SSM की अनुक्रम क्रम संवेदनशीलता को और कम करना।
उल्लेखनीय स्केलेबिलिटी सुधार का कार्यान्वयन: मूल TabPFN की तुलना में, नई विधि दो परिमाण के बड़े डेटासेट को संभाल सकती है (2¹⁵ पंक्तियों से 2¹⁷ पंक्तियों तक विस्तारित)।
प्रतिस्पर्धी भविष्यसूचक प्रदर्शन बनाए रखा: OpenML CC-18 बेंचमार्क परीक्षण में, Hydra-आधारित TabPFN की सटीकता मूल मॉडल से केवल 1.1% कम है।
इनपुट: क्रमचय संख्या r, संदर्भ D, परीक्षण नमूना xtest
आउटपुट: भविष्यसूचित वर्ग मान
खाली सूची को आरंभ करें: outputs ← []
i = 1 से r तक के लिए
D की पंक्तियों को शफल करें: Dp ← shuffle(D)
xtest को Dp से जोड़ें: Din ← Dp ∪ xtest
भविष्यसूचक: outputs[i] ← PFN.predict(Din)
अंत के लिए
outputs का औसत मान लौटाएं
द्विदिशात्मकता क्रम संवेदनशीलता को हल करती है: एकदिशात्मक Mamba की तुलना में, Hydra की द्विदिशात्मक प्रसंस्करण संदर्भ जानकारी को सममित रूप से एकत्रित कर सकती है, इनपुट क्रम पर निर्भरता को कम करती है।
रैखिक जटिलता: अर्ध-वियोज्य मैट्रिक्स गुणन के माध्यम से O(n) जटिलता प्राप्त करना, Transformer की O(n²) की तुलना में महत्वपूर्ण लाभ।
RCP रणनीति: कई बार यादृच्छिक क्रमचय और परिणाम औसत के माध्यम से क्रम संवेदनशीलता को और कम करने के लिए नवीन, सारणीबद्ध डेटा विशेषताओं के लिए अनुकूलित डिजाइन।
यह पेपर सारणीबद्ध आधार मॉडल की स्केलेबिलिटी समस्या को हल करने में मूल्यवान योगदान देता है, द्विदिशात्मक SSM और पुनरावृत्त क्रमचय रणनीति को चतुराई से संयोजित करके, दक्षता और प्रदर्शन की आवश्यकताओं को सफलतापूर्वक संतुलित करता है। हालांकि सैद्धांतिक नवाचार में कमी है, लेकिन इसका व्यावहारिक मूल्य और भविष्य के अनुसंधान के लिए प्रेरणा मूल्य स्वीकृति के योग्य है।