2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta

Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.

academic

TabDistill: कुछ-शॉट टेबुलर वर्गीकरण के लिए ट्रांसफॉर्मर्स को न्यूरल नेट्स में आसवन करना

मूल जानकारी

पेपर ID: 2511.05704
शीर्षक: TabDistill: कुछ-शॉट टेबुलर वर्गीकरण के लिए ट्रांसफॉर्मर्स को न्यूरल नेट्स में आसवन करना
लेखक: पसान डिसानायके, संघमित्रा दत्ता (मेरीलैंड विश्वविद्यालय, कॉलेज पार्क)
वर्गीकरण: cs.LG cs.AI cs.CL
प्रकाशन समय: 7 नवंबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2511.05704

सारांश

ट्रांसफॉर्मर-आधारित मॉडल सीमित प्रशिक्षण डेटा वाले परिदृश्यों में तंत्रिका नेटवर्क और ग्रेडिएंट बूस्टेड डिसीजन ट्रीज़ (GBDTs) जैसे शास्त्रीय समकक्षों की तुलना में टेबुलर डेटा पर आशाजनक प्रदर्शन दिखाते हैं। वे अपने पूर्व-प्रशिक्षित ज्ञान का उपयोग करके नए डोमेन के अनुकूल होते हैं, केवल कुछ प्रशिक्षण उदाहरणों के साथ सराहनीय प्रदर्शन प्राप्त करते हैं, जिसे कुछ-शॉट शासन भी कहा जाता है। हालांकि, कुछ-शॉट शासन में प्रदर्शन लाभ काफी बढ़ी हुई जटिलता और पैरामीटर संख्या की कीमत पर आता है। इस व्यापार-बंद को दूर करने के लिए, हम TabDistill प्रस्तुत करते हैं, जो टेबुलर डेटा को प्रभावी ढंग से वर्गीकृत करने के लिए जटिल ट्रांसफॉर्मर-आधारित मॉडल में पूर्व-प्रशिक्षित ज्ञान को सरल तंत्रिका नेटवर्क में आसवन करने की एक नई रणनीति है। हमारी रूपरेखा दोनों दुनियाओं का सर्वश्रेष्ठ प्रदान करती है: पैरामीटर-कुशल होते हुए सीमित प्रशिक्षण डेटा के साथ अच्छा प्रदर्शन करना। आसवित तंत्रिका नेटवर्क समान प्रशिक्षण डेटा के तहत नियमित तंत्रिका नेटवर्क, XGBoost और लॉजिस्टिक प्रतिगमन जैसे शास्त्रीय आधारभूत को पार करते हैं, और कुछ मामलों में, यहां तक कि मूल ट्रांसफॉर्मर-आधारित मॉडल को भी पार करते हैं जिनसे वे आसवित किए गए थे।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान टेबुलर डेटा वर्गीकरण में एक मूल विरोधाभास को हल करता है: कुछ-शॉट परिदृश्यों में, ट्रांसफॉर्मर-आधारित मॉडल उत्कृष्ट प्रदर्शन दिखाते हैं, लेकिन विशाल पैरामीटर संख्या और उच्च कम्प्यूटेशनल जटिलता के साथ, वास्तविक अनुप्रयोगों में तैनाती कठिन है।

समस्या की महत्ता

व्यावहारिक अनुप्रयोग की आवश्यकता: वित्त, चिकित्सा, विनिर्माण जैसे उच्च-जोखिम वाले क्षेत्रों में, लेबल किए गए डेटा की कमी एक सामान्य समस्या है, जैसे दुर्लभ रोग निदान, सदी के एक बार की प्राकृतिक घटनाओं की भविष्यवाणी आदि
डेटा लेबलिंग लागत: वित्तीय अनुप्रयोगों में डेटा लेबलिंग महंगी है, व्यक्तिपरकता, गलत लेबलिंग, सहमति की कमी आदि समस्याएं हैं
तैनाती बाधाएं: व्यावहारिक अनुप्रयोगों को पैरामीटर-कुशल और स्केलेबल मॉडल की आवश्यकता है, विभिन्न बुनियादी ढांचे स्तरों के अनुकूल होने के लिए

मौजूदा विधियों की सीमाएं

पारंपरिक विधियां: XGBoost, CatBoost, LightGBM आदि पर्याप्त डेटा के साथ उत्कृष्ट प्रदर्शन करते हैं, लेकिन कुछ-शॉट परिदृश्यों में प्रदर्शन में उल्लेखनीय गिरावट आती है
ट्रांसफॉर्मर विधियां: TabPFN, TabLLM आदि कुछ-शॉट परिदृश्यों में उत्कृष्ट प्रदर्शन दिखाते हैं, लेकिन पैरामीटर संख्या लाखों या अरबों स्तर तक पहुंचती है, अनुमान लागत अधिक है
दक्षता और प्रदर्शन व्यापार-बंद: कुछ-शॉट प्रदर्शन को बनाए रखते हुए पैरामीटर दक्षता वाले समाधान की कमी है

अनुसंधान प्रेरणा

लेखक मूल प्रश्न प्रस्तुत करते हैं: "क्या हम दोनों को प्राप्त कर सकते हैं, अर्थात् पैरामीटर दक्षता बनाए रखते हुए सीमित प्रशिक्षण डेटा के साथ अच्छा प्रदर्शन करना?"

मूल योगदान

TabDistill रूपरेखा प्रस्तावित करना: ट्रांसफॉर्मर मॉडल ज्ञान को तंत्रिका नेटवर्क में आसवन करने की एक नई रणनीति, टेबुलर डेटा वर्गीकरण में पैरामीटर दक्षता प्राप्त करना
दोहरी मॉडल उदाहरण: TabPFN (~11M पैरामीटर) और BigScience T0pp (~11B पैरामीटर) के आधार पर रूपरेखा को लागू करना, लगभग 1000 पैरामीटर के MLP में आसवन करना
प्रायोगिक सत्यापन: 5 टेबुलर डेटा सेट पर सत्यापन, आसवित MLP शास्त्रीय आधारभूत को पार करते हैं, कुछ मामलों में मूल ट्रांसफॉर्मर मॉडल को भी पार करते हैं
नवीन प्रशिक्षण रणनीति: क्रमचय-आधारित प्रशिक्षण तकनीक प्रस्तुत करना, अत्यंत छोटे प्रशिक्षण सेट पर अतिफिटिंग से बचना

विधि विवरण

कार्य परिभाषा

छोटे टेबुलर डेटा सेट $D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}$ दिया गया है, जहां $N \sim 10$ , लक्ष्य पूर्व-प्रशिक्षित ट्रांसफॉर्मर मॉडल $f$ के ज्ञान का उपयोग करके सरल MLP $h_\theta(x): X \to \{0,1\}$ उत्पन्न करना है।

मॉडल आर्किटेक्चर

समग्र रूपरेखा

TabDistill में दो चरण होते हैं:

चरण 1: आधार ट्रांसफॉर्मर मॉडल को सूक्ष्म-समायोजित करना उच्च-गुणवत्ता वाले MLP उत्पन्न करने के लिए
चरण 2: वैकल्पिक MLP अतिरिक्त सूक्ष्म-समायोजन

मुख्य घटक

आधार मॉडल अपघटन:
- एनकोडर: $f_E(s): S \to Z$
- डिकोडर: $f_D(z): Z \to \{0,1\}$
MLP आर्किटेक्चर:
```
h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
```
जहां R परतों की संख्या है, L छिपी हुई परत की चौड़ाई है
रैखिक मानचित्रण:
```
m_η(z) = LayerNorm(Az + b)
```
जहां $A \in R^{dim(Θ)×dim(Z)}$ $A \in R^{d im (Θ) \times d im (Z)}$ , $η = (A,b)$ $η = (A, b)$

प्रशिक्षण प्रवाह

चरण 1 हानि फ़ंक्शन:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

जहां $θ = m_η(f_E(g(D_N)))$

तकनीकी नवाचार बिंदु

हाइपरनेटवर्क विचार: कंप्यूटर विजन क्षेत्र के अनुभव से प्रेरणा लेते हुए, ट्रांसफॉर्मर को तंत्रिका नेटवर्क वजन उत्पन्न करने वाले हाइपरनेटवर्क के रूप में उपयोग करना
क्रमचय वृद्धि: प्रत्येक प्रशिक्षण epoch में विशेषताओं के क्रम को यादृच्छिक रूप से क्रमबद्ध करना, अतिफिटिंग से बचना
पैरामीटर-कुशल सूक्ष्म-समायोजन: केवल रैखिक मानचित्रण पैरामीटर $η$ को सूक्ष्म-समायोजित करना, आधार मॉडल पैरामीटर को अपरिवर्तित रखना
दोहरी-चरण डिजाइन: पहले आसवन फिर सूक्ष्म-समायोजन, पूर्व-प्रशिक्षित ज्ञान का पूर्ण उपयोग

विशिष्ट उदाहरण

TabDistill + TabPFN

सीधे टेबुलर डेटा का उपयोग, $g(x) = x$ (पहचान रूपांतरण)
एनकोडर आउटपुट आयाम: $192N$
मानचित्रण मैट्रिक्स आयाम: $dim(Θ) × 192N$

TabDistill + T0pp

पाठ क्रमबद्धता का उपयोग: "The <column name> is <value>"
एनकोडर आउटपुट आयाम: 4096
मानचित्रण मैट्रिक्स आयाम: $dim(Θ) × 4096$

प्रायोगिक सेटअप

डेटा सेट

5 सार्वजनिक टेबुलर डेटा सेट का उपयोग:

Bank (UCI Bank Marketing): भविष्यवाणी करना कि क्या ग्राहक सावधि जमा की सदस्यता लेंगे
Blood (UCI Blood Transfusion): भविष्यवाणी करना कि क्या कोई रक्त दान करेगा
Calhousing (California Housing): भविष्यवाणी करना कि क्या आवास ब्लॉक मूल्यवान है
Heart (UCI Heart Disease): भविष्यवाणी करना कि क्या किसी को हृदय रोग है
Income (Census Income): भविष्यवाणी करना कि क्या वार्षिक आय 50K से अधिक है

मूल्यांकन मेट्रिक्स

कुछ-शॉट परिदृश्य में वर्गीकरण प्रदर्शन के लिए ROC-AUC को मुख्य मूल्यांकन मेट्रिक के रूप में उपयोग करना।

तुलना विधियां

शास्त्रीय आधारभूत: लॉजिस्टिक प्रतिगमन, XGBoost, स्वतंत्र रूप से प्रशिक्षित MLP
आधार मॉडल: TabPFN, T0pp (TabLLM)
आसवित मॉडल: TabDistill + TabPFN, TabDistill + T0pp

कार्यान्वयन विवरण

MLP आर्किटेक्चर: 4 परतें, प्रति परत 10 न्यूरॉन्स (लगभग 1000 पैरामीटर)
प्रशिक्षण सेटिंग्स: चरण 1 सूक्ष्म-समायोजन 300 epochs, चरण 2 अतिरिक्त 100 epochs
हाइपरपैरामीटर अनुकूलन: Weights & Biases का उपयोग करके ग्रिड खोज
नमूना आकार: N ∈ {4, 8, 16, 32, 64}

प्रायोगिक परिणाम

मुख्य परिणाम

Table 1 के ROC-AUC परिणामों के अनुसार:

अत्यंत कुछ-शॉट परिदृश्य (N=4)

TabDistill + TabPFN Bank डेटा सेट पर 0.72 तक पहुंचता है, सभी शास्त्रीय आधारभूत को काफी पार करता है
TabDistill + T0pp कई डेटा सेट पर उत्कृष्ट प्रदर्शन करता है, जैसे Calhousing (0.67) और Income (0.70)

प्रदर्शन प्रवृत्ति

नमूना वृद्धि के साथ प्रदर्शन सुधार: सभी विधियां N बढ़ने पर सामान्य प्रदर्शन सुधार दिखाती हैं
आधारभूत विधि अंतर: कोई एकल शास्त्रीय विधि सभी डेटा सेट पर सार्वभौमिक रूप से सर्वश्रेष्ठ नहीं है
मॉडल चयन अंतर: TabDistill + TabPFN समग्र रूप से TabDistill + T0pp से बेहतर है, लेकिन Income डेटा सेट पर विपरीत है

आधार मॉडल के साथ तुलना

Table 3 आश्चर्यजनक परिणाम दिखाता है:

कुछ मामलों में, आसवित MLP मूल ट्रांसफॉर्मर मॉडल को पार करता है
उदाहरण के लिए Bank डेटा सेट N=4 पर: TabDistill + TabPFN (0.72) > TabPFN (0.62)
यह दर्शाता है कि आसवन प्रक्रिया न केवल मॉडल को संपीड़ित करती है, बल्कि प्रदर्शन में सुधार भी कर सकती है

विलोपन प्रयोग

मॉडल जटिलता प्रभाव (Table 2)

प्रदर्शन पर विभिन्न परतों R के प्रभाव का परीक्षण
परिणाम दिखाते हैं: जटिलता एक निश्चित सीमा से अधिक होने पर प्रदर्शन में गिरावट आती है
4-परत आर्किटेक्चर अधिकांश मामलों में सर्वश्रेष्ठ प्रदर्शन करता है

विशेषता एट्रिब्यूशन विश्लेषण (Figure 3)

SHAP का उपयोग करके विशेषता महत्व का विश्लेषण:

आसवित मॉडल शास्त्रीय आधारभूत के साथ विशेषता महत्व में सामंजस्य रखते हैं
विशेषता क्रमचय के बाद भी, मॉडल सही ढंग से महत्वपूर्ण विशेषताओं की पहचान कर सकता है
यह साबित करता है कि आधार मॉडल सही ढंग से MLP वजन और विशेषता क्रम के बीच संबंध सीखता है

प्रायोगिक निष्कर्ष

आसवन प्रभाव महत्वपूर्ण: अत्यंत कुछ-शॉट परिदृश्यों में, आसवित मॉडल शास्त्रीय विधियों से स्पष्ट रूप से बेहतर है
पैरामीटर दक्षता: लाखों/अरबों पैरामीटर से हजार-स्तर के पैरामीटर तक संपीड़न, दक्षता में विशाल सुधार
ज्ञान स्थानांतरण प्रभावी: पूर्व-प्रशिक्षित ज्ञान सरल MLP में सफलतापूर्वक स्थानांतरित होता है
मजबूती अच्छी: क्रमचय वृद्धि रणनीति अतिफिटिंग को प्रभावी ढंग से रोकती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: TabDistill पैरामीटर दक्षता और कुछ-शॉट प्रदर्शन के बीच संतुलन सफलतापूर्वक प्राप्त करता है
प्रदर्शन लाभ: आसवित MLP अधिकांश मामलों में शास्त्रीय आधारभूत को पार करते हैं, कुछ परिदृश्यों में मूल ट्रांसफॉर्मर को भी पार करते हैं
व्यावहारिक मूल्य: एक व्यावहारिक रूप से तैनाती योग्य समाधान प्रदान करता है, विभिन्न बुनियादी ढांचे आवश्यकताओं को पूरा करता है

सीमाएं

लेखक निम्नलिखित कमियों को ईमानदारी से इंगित करते हैं:

बड़े नमूना प्रदर्शन: जब प्रशिक्षण नमूने बढ़ते हैं, तो प्रदर्शन सुधार सीमित होता है
सरल मानचित्रण फ़ंक्शन: वर्तमान में सरल रैखिक मानचित्रण का उपयोग, प्रदर्शन ऊपरी सीमा को सीमित कर सकता है
पूर्वाग्रह विरासत: आसवित मॉडल आधार मॉडल के पूर्वाग्रह को विरासत में ले सकते हैं
अनुप्रयोग सीमा: वर्तमान में केवल द्विआधारी वर्गीकरण कार्यों को सत्यापित किया गया है

भविष्य की दिशाएं

मानचित्रण फ़ंक्शन सुधार: प्रदर्शन में सुधार के लिए अधिक जटिल मानचित्रण फ़ंक्शन की खोज करना
अनुप्रयोग विस्तार: प्राकृतिक भाषा अनुमान, निर्देश ट्यूनिंग आदि अन्य कुछ-शॉट कार्यों तक विस्तार करना
पूर्वाग्रह शमन: दूसरे चरण MLP सूक्ष्म-समायोजन के माध्यम से आधार मॉडल पूर्वाग्रह को कम करना
बहु-कार्य सीखना: एक साथ कई टेबुलर कार्यों को संभालने की संभावना की खोज करना

गहन मूल्यांकन

शक्तियां

समस्या लक्ष्य मजबूत: वास्तविक अनुप्रयोगों में मूल विरोधाभास को सटीक रूप से पहचानता और हल करता है
विधि नवाचार: पहली बार हाइपरनेटवर्क विचार को टेबुलर डेटा आसवन में लागू करना
पूर्ण प्रायोगिक डिजाइन:
- बहु-डेटा सेट सत्यापन
- पर्याप्त आधारभूत तुलना
- विस्तृत विलोपन प्रयोग
- विशेषता एट्रिब्यूशन विश्लेषण
विश्वसनीय परिणाम: न केवल अपेक्षित लक्ष्य प्राप्त करता है, बल्कि आसवित मॉडल के मूल मॉडल को पार करने की दिलचस्प घटना भी खोजता है
उच्च व्यावहारिक मूल्य: सीधे लागू किए जा सकने वाले समाधान प्रदान करता है

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: आसवित मॉडल मूल मॉडल को पार क्यों कर सकते हैं इसके लिए सैद्धांतिक व्याख्या की कमी
सीमित डेटा सेट स्केल: केवल 5 अपेक्षाकृत छोटे डेटा सेट पर सत्यापन
एकल कार्य प्रकार: केवल द्विआधारी वर्गीकरण कार्यों पर विचार, प्रतिगमन या बहु-वर्गीकरण को शामिल नहीं
आधार मॉडल चयन: केवल दो आधार मॉडलों का परीक्षण, कवरेज सीमित
कम्प्यूटेशनल लागत विश्लेषण: प्रशिक्षण और अनुमान की वास्तविक कम्प्यूटेशनल लागत की विस्तृत तुलना नहीं

प्रभाव

शैक्षणिक योगदान:
- टेबुलर डेटा ट्रांसफॉर्मर आसवन की नई दिशा खोलता है
- कुछ-शॉट सीखने के लिए नई समस्या-समाधान सोच प्रदान करता है
- हाइपरनेटवर्क और ज्ञान आसवन दो अनुसंधान क्षेत्रों को जोड़ता है
व्यावहारिक मूल्य:
- वास्तविक तैनाती में महत्वपूर्ण समस्या को हल करता है
- संसाधन-सीमित वातावरण के लिए व्यावहार्य समाधान प्रदान करता है
- औद्योगिक परिदृश्यों में सीधे लागू किया जा सकता है
पुनरुत्पादनशीलता:
- विस्तृत कार्यान्वयन विवरण प्रदान करता है
- खुला स्रोत प्रतिबद्धता पुनरुत्पादनशीलता बढ़ाती है
- प्रायोगिक सेटअप स्पष्ट और पुनरावृत्तिमान है

लागू परिदृश्य

संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग आदि परिदृश्य
कुछ-शॉट अनुप्रयोग: चिकित्सा निदान, वित्तीय जोखिम नियंत्रण, गुणवत्ता निरीक्षण आदि डेटा-दुर्लभ क्षेत्र
वास्तविक समय अनुमान आवश्यकता: तेजी से प्रतिक्रिया की आवश्यकता वाली ऑनलाइन सेवाएं
मॉडल व्याख्या आवश्यकता: जटिल ट्रांसफॉर्मर की तुलना में, सरल MLP अधिक आसानी से व्याख्या योग्य है

संदर्भ

पेपर में समृद्ध संबंधित कार्य का हवाला दिया गया है, मुख्य रूप से:

टेबुलर डेटा शास्त्रीय विधियां: XGBoost, LightGBM, CatBoost आदि
ट्रांसफॉर्मर टेबुलर अनुप्रयोग: TabPFN, SAINT, TabLLM श्रृंखला
ज्ञान आसवन: Hinton आदि का शास्त्रीय कार्य
हाइपरनेटवर्क: कंप्यूटर विजन में संबंधित अनुप्रयोग
मेटा-लर्निंग: ट्रांसफॉर्मर संदर्भ सीखने संबंधित अनुसंधान

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो वास्तविक समस्याओं के लिए नवीन समाधान प्रस्तुत करता है, पर्याप्त प्रायोगिक सत्यापन के साथ, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है। हालांकि कुछ सीमाएं हैं, लेकिन संबंधित क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।