2025-11-12T14:19:10.228100

State-Space Models for Tabular Prior-Data Fitted Networks

Koch, Wever, Raisch et al.
Recent advancements in foundation models for tabular data, such as TabPFN, demonstrated that pretrained Transformer architectures can approximate Bayesian inference with high predictive performance. However, Transformers suffer from quadratic complexity with respect to sequence length, motivating the exploration of more efficient sequence models. In this work, we investigate the potential of using Hydra, a bidirectional linear-time structured state space model (SSM), as an alternative to Transformers in TabPFN. A key challenge lies in SSM's inherent sensitivity to the order of input tokens - an undesirable property for tabular datasets where the row order is semantically meaningless. We investigate to what extent a bidirectional approach can preserve efficiency and enable symmetric context aggregation. Our experiments show that this approach reduces the order-dependence, achieving predictive performance competitive to the original TabPFN model.
academic

सारणीबद्ध पूर्व-डेटा फिटेड नेटवर्क के लिए स्टेट-स्पेस मॉडल

मूल जानकारी

  • पेपर ID: 2510.14573
  • शीर्षक: State-Space Models for Tabular Prior-Data Fitted Networks
  • लेखक: Felix Koch, Marcel Wever, Fabian Raisch, Benjamin Tischler
  • वर्गीकरण: cs.LG
  • प्रकाशन समय/सम्मेलन: Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data, Vancouver, Canada. 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.14573

सारांश

सारणीबद्ध डेटा के लिए आधार मॉडल में हाल की प्रगति, जैसे TabPFN, ने प्रदर्शित किया है कि पूर्व-प्रशिक्षित Transformer आर्किटेक्चर उच्च भविष्यसूचक प्रदर्शन के साथ बेयेसियन अनुमान का अनुमान लगा सकते हैं। हालांकि, Transformers अनुक्रम लंबाई के संबंध में द्विघात जटिलता से ग्रस्त हैं, जो अधिक कुशल अनुक्रम मॉडल की खोज को प्रेरित करता है। इस कार्य में, हम TabPFN में Transformers के विकल्प के रूप में Hydra, एक द्विदिशात्मक रैखिक-समय संरचित स्टेट स्पेस मॉडल (SSM) का उपयोग करने की संभावना की जांच करते हैं। एक मुख्य चुनौती SSM की इनपुट टोकन के क्रम के प्रति अंतर्निहित संवेदनशीलता में निहित है - सारणीबद्ध डेटासेट के लिए एक अवांछनीय संपत्ति जहां पंक्ति क्रम शब्दार्थ रूप से अर्थहीन है। हम जांचते हैं कि द्विदिशात्मक दृष्टिकोण दक्षता को संरक्षित करने और सममित संदर्भ एकत्रीकरण को सक्षम करने की सीमा तक कैसे कर सकता है। हमारे प्रयोग दिखाते हैं कि यह दृष्टिकोण क्रम-निर्भरता को कम करता है, मूल TabPFN मॉडल के लिए प्रतिस्पर्धी भविष्यसूचक प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

  1. समस्या का समाधान: यह अनुसंधान सारणीबद्ध डेटा आधार मॉडल में Transformer आर्किटेक्चर की कम्प्यूटेशनल दक्षता समस्या को संबोधित करता है, विशेष रूप से इसकी O(n²) जटिलता बड़े डेटासेट पर स्केलेबिलिटी को सीमित करती है।
  2. समस्या की महत्ता: TabPFN सारणीबद्ध डेटा के लिए एक आधार मॉडल के रूप में उत्कृष्ट प्रदर्शन प्रदर्शित करता है, मिलीसेकंड में बेयेसियन अनुमान सन्निकटन पूरा कर सकता है, लेकिन इसका Transformer-आधारित आर्किटेक्चर बड़े पैमाने पर डेटा प्रसंस्करण में मेमोरी और कम्प्यूटेशनल बाधाओं का सामना करता है।
  3. मौजूदा विधियों की सीमाएं:
    • Transformer की स्व-ध्यान तंत्र में द्विघात जटिलता है
    • Transformer को सीधे Mamba से बदलने से इनपुट अनुक्रम क्रम के प्रति संवेदनशीलता शुरू होती है
    • सारणीबद्ध डेटा में पंक्तियों का क्रम शब्दार्थ रूप से अर्थहीन है, जो SSM के कारणात्मक डिजाइन के साथ संघर्ष करता है
  4. अनुसंधान प्रेरणा: संरचित स्टेट स्पेस मॉडल (SSM) को Transformer के विकल्प के रूप में खोजना, रैखिक जटिलता की दक्षता लाभ को बनाए रखते हुए, द्विदिशात्मक प्रसंस्करण तंत्र के माध्यम से इनपुट क्रम पर निर्भरता को कम करना।

मुख्य योगदान

  1. Hydra-आधारित TabPFN आर्किटेक्चर का प्रस्ताव: द्विदिशात्मक संरचित स्टेट स्पेस मॉडल Hydra को TabPFN में एकीकृत करना, सारणीबद्ध डेटा प्रसंस्करण के लिए रैखिक समय जटिलता प्राप्त करना।
  2. पुनरावृत्त संदर्भ क्रमचय (RCP) तकनीक का परिचय: इनपुट को कई बार यादृच्छिक रूप से क्रमबद्ध करके और भविष्यसूचक परिणामों को औसत करके SSM की अनुक्रम क्रम संवेदनशीलता को और कम करना।
  3. उल्लेखनीय स्केलेबिलिटी सुधार का कार्यान्वयन: मूल TabPFN की तुलना में, नई विधि दो परिमाण के बड़े डेटासेट को संभाल सकती है (2¹⁵ पंक्तियों से 2¹⁷ पंक्तियों तक विस्तारित)।
  4. प्रतिस्पर्धी भविष्यसूचक प्रदर्शन बनाए रखा: OpenML CC-18 बेंचमार्क परीक्षण में, Hydra-आधारित TabPFN की सटीकता मूल मॉडल से केवल 1.1% कम है।

विधि विवरण

कार्य परिभाषा

यह पेपर सारणीबद्ध वर्गीकरण कार्य का अध्ययन करता है, जहां:

  • इनपुट: प्रशिक्षण और परीक्षण नमूनों वाला संपूर्ण सारणीबद्ध डेटासेट
  • आउटपुट: परीक्षण नमूनों के लिए वर्ग संभावना भविष्यसूचक
  • बाधा: एकल फॉरवर्ड पास में अनुमान पूरा करने की आवश्यकता है, ग्रेडिएंट अपडेट या फाइन-ट्यूनिंग के बिना

मॉडल आर्किटेक्चर

1. Hydra आर्किटेक्चर प्रतिस्थापन

  • मुख्य डिजाइन: Transformer एनकोडर को Hydra परत स्टैक से बदलना
  • द्विदिशात्मक प्रसंस्करण: अर्ध-वियोज्य मैट्रिक्स मिक्सर का उपयोग करके द्विदिशात्मक स्टेट स्पेस मॉडलिंग का उपयोग करना
  • परत संरचना: प्रत्येक Hydra परत में द्विदिशात्मक स्टेट स्पेस मिश्रण होता है, जिसके बाद फीड-फॉरवर्ड परिवर्तन होता है

2. एम्बेडिंग रणनीति संरक्षण

  • मूल TabPFN की डेटा एम्बेडिंग विधि को बनाए रखना
  • प्रत्येक इनपुट को विशेषता मान और वर्ग लेबल के संयोजन के रूप में प्रस्तुत करना
  • अनुमान समय पर सभी संभावित लेबल असाइनमेंट को सीमांत करके अचिह्नित डेटा को संभालना

3. पुनरावृत्त संदर्भ क्रमचय (RCP)

एल्गोरिथ्म प्रवाह निम्नलिखित है:

इनपुट: क्रमचय संख्या r, संदर्भ D, परीक्षण नमूना xtest
आउटपुट: भविष्यसूचित वर्ग मान
खाली सूची को आरंभ करें: outputs ← []
i = 1 से r तक के लिए
    D की पंक्तियों को शफल करें: Dp ← shuffle(D)
    xtest को Dp से जोड़ें: Din ← Dp ∪ xtest
    भविष्यसूचक: outputs[i] ← PFN.predict(Din)
अंत के लिए
outputs का औसत मान लौटाएं

तकनीकी नवाचार बिंदु

  1. द्विदिशात्मकता क्रम संवेदनशीलता को हल करती है: एकदिशात्मक Mamba की तुलना में, Hydra की द्विदिशात्मक प्रसंस्करण संदर्भ जानकारी को सममित रूप से एकत्रित कर सकती है, इनपुट क्रम पर निर्भरता को कम करती है।
  2. रैखिक जटिलता: अर्ध-वियोज्य मैट्रिक्स गुणन के माध्यम से O(n) जटिलता प्राप्त करना, Transformer की O(n²) की तुलना में महत्वपूर्ण लाभ।
  3. RCP रणनीति: कई बार यादृच्छिक क्रमचय और परिणाम औसत के माध्यम से क्रम संवेदनशीलता को और कम करने के लिए नवीन, सारणीबद्ध डेटा विशेषताओं के लिए अनुकूलित डिजाइन।

प्रयोगात्मक सेटअप

डेटासेट

  • मुख्य डेटासेट: OpenML CC-18 बेंचमार्क परीक्षण सूट
  • फ़िल्टरिंग शर्तें: ≤2000 पंक्तियां, ≤100 विशेषताएं, ≤10 वर्ग
  • अंतिम डेटासेट: 30 बहु-वर्गीय वर्गीकरण डेटासेट
  • डेटा विभाजन: प्रत्येक डेटासेट को 16 बार प्रशिक्षण/परीक्षण सेट में यादृच्छिक रूप से विभाजित किया गया

मूल्यांकन मेट्रिक्स

  1. सटीकता (Accuracy): वर्गीकरण सही दर
  2. AUC OvO: One-vs-One बहु-वर्गीय AUC
  3. KL विचलन: विभिन्न इनपुट क्रमचय के तहत भविष्यसूचक वितरण में अंतर को मापना, क्रम संवेदनशीलता का मूल्यांकन करना
  4. अनुमान समय: विभिन्न इनपुट आकारों के तहत कम्प्यूटेशनल समय
  5. मेमोरी उपयोग: संभाले जा सकने वाले अधिकतम डेटासेट आकार

तुलनात्मक विधियां

  • Transformer-आधारित TabPFN: मूल आधार रेखा मॉडल
  • Mamba-आधारित TabPFN: एकदिशात्मक SSM प्रतिस्थापन योजना
  • Hydra-आधारित TabPFN: इस पेपर द्वारा प्रस्तावित द्विदिशात्मक SSM योजना

कार्यान्वयन विवरण

  • प्रशिक्षण हार्डवेयर: Nvidia A40 GPU (48GB)
  • परीक्षण हार्डवेयर: NVIDIA H100 80GB
  • प्रशिक्षण समय: Transformer 48 घंटे, Mamba 52 घंटे, Hydra 134 घंटे
  • मुख्य हाइपरपैरामीटर:
    • सीखने की दर: 0.0001
    • SSM परत संख्या: 24 परतें (Transformer का 2 गुना)
    • एम्बेडिंग आयाम: 1024

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. स्केलेबिलिटी तुलना

  • Transformer सीमा: 2¹⁵ पंक्तियां (80GB GPU मेमोरी द्वारा सीमित)
  • Hydra सीमा: 2¹⁷ पंक्तियां (PyTorch 32-बिट इंडेक्स द्वारा सीमित, हार्डवेयर सीमा नहीं)
  • प्रदर्शन सुधार: संभाले जा सकने वाले डेटा आकार में 100 गुना वृद्धि

2. भविष्यसूचक प्रदर्शन तुलना

  • Hydra बनाम Transformer: सटीकता औसत अंतर -1.1%, AUC अंतर -1.1%
  • Hydra बनाम Mamba: Hydra सटीकता औसतन 3.6% अधिक
  • विचरण विश्लेषण: Hydra Mamba की तुलना में कम प्रदर्शन विचरण प्रदर्शित करता है

3. क्रम संवेदनशीलता विश्लेषण

KL विचलन द्वारा मापा गया:

  • RCP संख्या बढ़ने के साथ KL विचलन में उल्लेखनीय कमी
  • Hydra Mamba की तुलना में कम क्रम संवेदनशीलता प्रदर्शित करता है
  • RCP रणनीति असामान्य क्रमचय के प्रभाव को प्रभावी ढंग से कम करती है

विलोपन प्रयोग

RCP संख्या प्रभाव

  • सटीकता: RCP संख्या बढ़ने के साथ सुधार होता है, लेकिन सुधार परिमाण अपेक्षाकृत छोटा है
  • KL विचलन: उल्लेखनीय कमी, क्रम निर्भरता में कमी का संकेत देता है
  • कम्प्यूटेशनल लागत: अनुमान समय में r गुना रैखिक वृद्धि

आर्किटेक्चर तुलना

  • एकदिशात्मक बनाम द्विदिशात्मक: Hydra की द्विदिशात्मक तंत्र Mamba की एकदिशात्मक प्रसंस्करण से स्पष्ट रूप से बेहतर है
  • परत संख्या सेटिंग: Mamba पेपर की सिफारिश का पालन करते हुए, 2 गुना Transformer परत संख्या का उपयोग करना

प्रयोगात्मक निष्कर्ष

  1. द्विदिशात्मकता की महत्ता: द्विदिशात्मक प्रसंस्करण सारणीबद्ध डेटा की अक्रमित प्रकृति के लिए महत्वपूर्ण है
  2. दक्षता और प्रदर्शन संतुलन: प्रतिस्पर्धी प्रदर्शन बनाए रखते हुए उल्लेखनीय दक्षता सुधार प्राप्त करना
  3. RCP की प्रभावशीलता: कई क्रमचय औसत रणनीति क्रम संवेदनशीलता को प्रभावी ढंग से कम कर सकती है
  4. हार्डवेयर सीमा सफलता: बड़े पैमाने पर डेटा पर Transformer की मेमोरी सीमा को सफलतापूर्वक तोड़ना

संबंधित कार्य

सारणीबद्ध आधार मॉडल

  • TabPFN: सारणीबद्ध डेटा Transformer मॉडल का अग्रदूत
  • TabFlex: रैखिक ध्यान का उपयोग करके विस्तार योजना
  • Mambular: Mamba-आधारित सारणीबद्ध गहन शिक्षा मॉडल

स्टेट स्पेस मॉडल

  • Mamba: चयनात्मक स्टेट स्पेस मॉडल, रैखिक जटिलता प्राप्त करना
  • Hydra: द्विदिशात्मक SSM विस्तार, गैर-कारणात्मक मॉडलिंग का समर्थन करना
  • S4: संरचित स्टेट स्पेस अनुक्रम मॉडल का मूल कार्य

दक्षता अनुकूलन विधियां

  • FlashAttention: IO अनुकूलन के माध्यम से Transformer मेमोरी आवश्यकता को कम करना
  • Linear Attention: रैखिक जटिलता ध्यान तंत्र विकल्प

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. Hydra ने TabPFN की स्केलेबिलिटी समस्या को सफलतापूर्वक हल किया, प्रसंस्करण क्षमता में दो परिमाण की वृद्धि की
  2. द्विदिशात्मक SSM सारणीबद्ध डेटा की अक्रमित विशेषताओं के लिए एकदिशात्मक SSM की तुलना में अधिक उपयुक्त है
  3. RCP रणनीति SSM क्रम संवेदनशीलता को कम करने का एक प्रभावी तरीका है
  4. रैखिक जटिलता बनाए रखते हुए Transformer के साथ प्रतिस्पर्धी प्रदर्शन प्राप्त करना

सीमाएं

  1. पुनः प्रशिक्षण आवश्यकता: आर्किटेक्चर अंतर के कारण, संपूर्ण मॉडल को पुनः प्रशिक्षित करने की आवश्यकता है
  2. संदर्भ सीमा: प्रयोग अभी भी 1000 पंक्तियों तक सीमित हैं, बड़े पैमाने के परिदृश्य का पूरी तरह से पता नहीं लगाया गया है
  3. RCP ओवरहेड: कई क्रमचय r गुना अनुमान समय बढ़ाते हैं
  4. क्रम अनुकूलन: SSM के लिए इष्टतम पंक्ति क्रमचय रणनीति का गहन अध्ययन नहीं किया गया है

भविष्य की दिशाएं

  1. बड़े पैमाने पर सत्यापन: >10k पंक्तियों वाले डेटासेट पर SSM-आधारित TabPFN का परीक्षण करना
  2. इष्टतम क्रमचय: SSM के लिए इष्टतम पंक्ति क्रमचय रणनीति का अनुसंधान करना
  3. आर्किटेक्चर अनुकूलन: अधिक कुशल द्विदिशात्मक SSM आर्किटेक्चर की खोज करना
  4. सैद्धांतिक विश्लेषण: द्विदिशात्मकता के सारणीबद्ध डेटा मॉडलिंग के सैद्धांतिक आधार को गहराई से समझना

गहन मूल्यांकन

लाभ

  1. समस्या परिभाषा स्पष्ट: TabPFN की मुख्य बाधा को सटीक रूप से पहचानना और लक्षित समाधान प्रस्तावित करना
  2. तकनीकी चयन तर्कसंगत: Hydra की द्विदिशात्मक विशेषता सारणीबद्ध डेटा की अक्रमित प्रकृति से अच्छी तरह मेल खाती है
  3. प्रयोगात्मक डिजाइन पूर्ण: प्रदर्शन, दक्षता, क्रम संवेदनशीलता आदि के कई आयामों का मूल्यांकन शामिल है
  4. परिणाम प्रेरक शक्ति मजबूत: प्रदर्शन बनाए रखते हुए उल्लेखनीय स्केलेबिलिटी सुधार प्राप्त करना
  5. विधि व्यावहारिकता उच्च: RCP रणनीति सरल, प्रभावी, कार्यान्वयन और तैनाती में आसान है

कमियां

  1. नवाचार की डिग्री सीमित: मुख्य रूप से मौजूदा तकनीकों का संयोजन अनुप्रयोग, मौलिक नवाचार की कमी
  2. सैद्धांतिक विश्लेषण अपर्याप्त: द्विदिशात्मकता क्रम संवेदनशीलता समस्या को हल करने में सक्षम क्यों है, इसके बारे में गहन सैद्धांतिक व्याख्या की कमी
  3. प्रयोगात्मक पैमाना सीमित: अभी भी अपेक्षाकृत छोटे डेटासेट तक सीमित, बड़े पैमाने पर प्रसंस्करण क्षमता का पूरी तरह से प्रदर्शन नहीं किया गया है
  4. तुलना पूर्ण नहीं: अन्य रैखिक जटिलता विधियों (जैसे Linear Attention) के साथ सीधी तुलना की कमी
  5. हाइपरपैरामीटर विश्लेषण अपर्याप्त: उच्च प्रशिक्षण लागत के कारण, पर्याप्त हाइपरपैरामीटर अनुकूलन नहीं किया गया है

प्रभाव

  1. शैक्षणिक योगदान: सारणीबद्ध आधार मॉडल दक्षता अनुकूलन के लिए नई सोच और अनुभवजन्य साक्ष्य प्रदान करना
  2. व्यावहारिक मूल्य: वास्तविक अनुप्रयोगों में स्केलेबिलिटी समस्या को हल करना, उच्च व्यावहारिक मूल्य है
  3. प्रेरणा महत्व: संरचित डेटा मॉडलिंग में SSM की संभावना को प्रदर्शित करना, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है
  4. पुनरुत्पादनीयता: कोड सार्वजनिक रूप से उपलब्ध है, प्रयोगात्मक सेटअप विस्तृत है, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

  1. बड़े पैमाने पर सारणीबद्ध वर्गीकरण: विशेष रूप से बड़ी संख्या में नमूनों को संभालने की आवश्यकता वाले सारणीबद्ध वर्गीकरण कार्यों के लिए उपयुक्त
  2. वास्तविक समय अनुमान परिदृश्य: रैखिक जटिलता इसे अनुमान गति के लिए कठोर आवश्यकताओं वाले अनुप्रयोगों के लिए उपयुक्त बनाता है
  3. संसाधन-सीमित वातावरण: Transformer की तुलना में कम मेमोरी और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
  4. कम-नमूना शिक्षा: TabPFN के कम-नमूना परिदृश्यों में लाभ को बनाए रखता है

संदर्भ

मुख्य संदर्भ में शामिल हैं:

  1. Hollmann et al. (2023) - TabPFN मूल पेपर
  2. Gu & Dao (2023) - Mamba आर्किटेक्चर
  3. Hwang et al. (2024) - Hydra द्विदिशात्मक SSM
  4. Dao et al. (2022) - FlashAttention अनुकूलन तकनीक
  5. Zeng et al. (2024) - TabFlex रैखिक ध्यान विधि

यह पेपर सारणीबद्ध आधार मॉडल की स्केलेबिलिटी समस्या को हल करने में मूल्यवान योगदान देता है, द्विदिशात्मक SSM और पुनरावृत्त क्रमचय रणनीति को चतुराई से संयोजित करके, दक्षता और प्रदर्शन की आवश्यकताओं को सफलतापूर्वक संतुलित करता है। हालांकि सैद्धांतिक नवाचार में कमी है, लेकिन इसका व्यावहारिक मूल्य और भविष्य के अनुसंधान के लिए प्रेरणा मूल्य स्वीकृति के योग्य है।