2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.

Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.

academic

TabImpute: पूर्व-प्रशिक्षित ट्रांसफॉर्मर के साथ सटीक और तीव्र शून्य-शॉट लापता-डेटा प्रतिरोपण

मूल जानकारी

पेपर ID: 2510.02625
शीर्षक: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
लेखक: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन समय: 2025 अक्टूबर (प्रीप्रिंट। समीक्षाधीन)
पेपर लिंक: https://arxiv.org/abs/2510.02625v2

सारांश

लापता डेटा सारणीबद्ध डेटा में एक व्यापक समस्या है। मौजूदा समाधान सरल माध्य प्रतिरोपण से लेकर जटिल जनरेटिव प्रतिकूल नेटवर्क तक विस्तृत हैं। हालांकि, वास्तविक दुनिया के डोमेन में प्रदर्शन में विशाल भिन्नता और हाइपरपैरामीटर ट्यूनिंग में समय व्यय के कारण, वर्तमान में कोई डिफ़ॉल्ट प्रतिरोपण विधि मौजूद नहीं है। TabPFN (एक अत्याधुनिक सारणीबद्ध पर्यवेक्षित शिक्षण आधार मॉडल) के आधार पर, यह पेपर TabImpute प्रस्तावित करता है, जो एक पूर्व-प्रशिक्षित ट्रांसफॉर्मर है जो अनुमान समय पर सटीक और तीव्र शून्य-शॉट प्रतिरोपण प्रदान करता है, बिना फिटिंग या हाइपरपैरामीटर ट्यूनिंग के। TabImpute को प्रशिक्षित और मूल्यांकन करने के लिए, लेखक निम्नलिखित प्रस्तुत करते हैं: (i) सारणीबद्ध सेटिंग के लिए प्रविष्टि-स्तरीय विशेषीकरण, जो पिछली TabPFN प्रतिरोपण विधि की तुलना में 100 गुना त्वरण प्राप्त करता है; (ii) वास्तविक लापता पैटर्न को जोड़ने वाली सिंथेटिक प्रशिक्षण डेटा पीढ़ी पाइपलाइन, जो परीक्षण समय के प्रदर्शन को बढ़ाती है; (iii) MissBench, 42 OpenML डेटासेट और 13 लापता पैटर्न वाली एक व्यापक प्रतिरोपण विधि मूल्यांकन बेंचमार्क। MissBench चिकित्सा, वित्त और इंजीनियरिंग जैसे डोमेन को कवर करता है, जो 11 परिपक्व प्रतिरोपण विधियों की तुलना में TabImpute के मजबूत प्रदर्शन को प्रदर्शित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

लापता डेटा सारणीबद्ध डेटा में सर्वव्यापी है, जो सांख्यिकीविद्, अर्थशास्त्री, स्वास्थ्य अधिकारी और व्यवसायों को प्रभावित करता है। उदाहरण के लिए, चिकित्सा डेटासेट में रक्तचाप माप रिकॉर्ड हो सकते हैं, या कई स्रोतों से विलीन किए गए डेटासेट केवल आंशिक विशेषताएं साझा कर सकते हैं। स्रोत की परवाह किए बिना, सांख्यिकीय या मशीन लर्निंग मॉडल का उपयोग करने से पहले, लापता डेटा को संख्यात्मक मानों में प्रतिरोपित किया जाना चाहिए।

समस्या की महत्ता

व्यापकता: लापता डेटा सभी क्षेत्रों में एक सामान्य समस्या है
आवश्यकता: अधिकांश मशीन लर्निंग एल्गोरिदम सीधे लापता मानों को संभाल नहीं सकते
जटिलता: विभिन्न लापता तंत्र के लिए विभिन्न उपचार रणनीतियों की आवश्यकता होती है

मौजूदा विधियों की सीमाएं

बड़ा प्रदर्शन विचलन: मौजूदा विधियां विभिन्न डोमेन और डेटासेट पर बहुत भिन्न प्रदर्शन करती हैं
हाइपरपैरामीटर ट्यूनिंग: समय लेने वाली हाइपरपैरामीटर समायोजन प्रक्रिया की आवश्यकता होती है
सार्वभौमिक विधि की कमी: सभी परिस्थितियों के लिए उपयुक्त कोई डिफ़ॉल्ट प्रतिरोपण विधि नहीं है
विशिष्ट परिदृश्य प्रतिबंध: प्रत्येक विधि आमतौर पर विशिष्ट सेटिंग के लिए डिज़ाइन की जाती है

अनुसंधान प्रेरणा

TabPFN की सारणीबद्ध पर्यवेक्षित शिक्षा में सफलता के आधार पर, लेखक एक ऐसा विकास करना चाहते हैं जो:

शून्य-शॉट प्रतिरोपण प्राप्त करे (कोई प्रशिक्षण या ट्यूनिंग के बिना)
कई लापता पैटर्न के तहत मजबूत प्रदर्शन करे
तीव्र और सटीक प्रतिरोपण परिणाम प्रदान करे
विभिन्न डोमेन के सारणीबद्ध डेटा पर लागू हो

मूल योगदान

TabImpute मॉडल प्रस्तावित करना: TabPFN आर्किटेक्चर पर आधारित एक पूर्व-प्रशिक्षित ट्रांसफॉर्मर, सटीक तीव्र शून्य-शॉट लापता डेटा प्रतिरोपण को लागू करता है
नवीन प्रविष्टि-स्तरीय विशेषीकरण (Entry-wise Featurization): TabPFN की स्तंभ-स्तरीय प्रतिरोपण विधि की तुलना में 100 गुना त्वरण प्राप्त करता है
व्यापक सिंथेटिक डेटा पीढ़ी पाइपलाइन: 13 वास्तविक लापता पैटर्न युक्त प्रशिक्षण डेटा पीढ़ी विधि, मॉडल सामान्यीकरण क्षमता को बढ़ाता है
MissBench बेंचमार्क का निर्माण: 42 OpenML डेटासेट और 13 लापता पैटर्न वाली एक व्यापक मूल्यांकन बेंचमार्क
TabImpute+ समूह विधि: स्वचालित भार के माध्यम से TabImpute और EWF-TabPFN को एकीकृत करके, सर्वोत्तम प्रदर्शन प्राप्त करता है

विधि विवरण

कार्य परिभाषा

लापता मानों वाली सारणीबद्ध डेटा मैट्रिक्स X दिया गया है, जहां X* पूर्ण मैट्रिक्स है, Ω लापता प्रविष्टि सूचकांक का समुच्चय है, लक्ष्य सभी लापता प्रविष्टियों के मानों की भविष्यवाणी करना है।

मॉडल आर्किटेक्चर

1. प्रविष्टि-स्तरीय विशेषीकरण (Entry-wise Featurization, EWF)

पारंपरिक विधि स्तंभ-स्तरीय प्रतिरोपण अपनाती है, जबकि यह पेपर प्रविष्टि-स्तरीय दृष्टिकोण प्रस्तावित करता है:

प्रत्येक प्रविष्टि (i,j) के लिए, विशेषता वेक्टर का निर्माण करें: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
जहां Xi,: i-वीं पंक्ति को दर्शाता है, X:,j j-वें स्तंभ को दर्शाता है, ⊕ संयोजन को दर्शाता है
लक्ष्य मान yij = X*ij है
आकार nm × (n+m) की विशेषता मैट्रिक्स बनाएं

2. आर्किटेक्चर संशोधन

TabPFN आर्किटेक्चर के आधार पर, एक मुख्य संशोधन किया गया है:

ध्यान मुखौटा हटाएं, प्रशिक्षण बिंदुओं को परीक्षण बिंदुओं पर ध्यान देने की अनुमति दें
ऐसा करने का कारण यह है कि परीक्षण समुच्चय देखे गए डेटा का उपयोग करके बनाया जाता है, कोई डेटा रिसाव समस्या नहीं है

3. सिंथेटिक प्रशिक्षण डेटा पीढ़ी

डेटा पीढ़ी: रैखिक कारक मॉडल (Linear Factor Models) का उपयोग करें

Y = UV^T

जहां U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

लापता पैटर्न: 13 लापता पैटर्न लागू करें

1 MCAR (पूरी तरह से यादृच्छिक रूप से लापता)
1 MAR (यादृच्छिक रूप से लापता)
11 MNAR (यादृच्छिक रूप से नहीं लापता)

4. बहु-पैटर्न प्रशिक्षण

प्रत्येक बैच में लापता पैटर्न के अनुपात को निर्धारित करने के लिए स्वचालित एल्गोरिदम का उपयोग करें:

प्रत्येक s ग्रेडिएंट चरण के बाद अनुपात की पुनः गणना करें
विभिन्न पैटर्न के नुकसान मानों पर softmax लागू करें
अच्छे प्रदर्शन वाले पैटर्न के वजन को अनुकूलित रूप से कम करें, खराब प्रदर्शन वाले पैटर्न के वजन को बढ़ाएं

तकनीकी नवाचार बिंदु

समानांतर प्रसंस्करण: प्रविष्टि-स्तरीय विशेषीकरण सभी लापता मानों की समानांतर भविष्यवाणी को सक्षम बनाता है, न कि क्रमिक स्तंभ प्रसंस्करण
शून्य-शॉट क्षमता: पूर्व-प्रशिक्षित मॉडल लक्ष्य डेटा पर सूक्ष्म-ट्यूनिंग के बिना सीधे उपयोग किया जा सकता है
बहु-पैटर्न अनुकूलन: स्वचालित प्रशिक्षण रणनीति के माध्यम से कई लापता पैटर्न को संभालता है
समूह रणनीति: TabImpute+ विभिन्न विधियों के लाभों को इष्टतम वजन के माध्यम से एकीकृत करता है

प्रायोगिक सेटअप

डेटासेट

MissBench बेंचमार्क में शामिल है:

42 OpenML डेटासेट
चिकित्सा, इंजीनियरिंग, शिक्षा आदि कई डोमेन को कवर करता है
डेटासेट का आकार 50×5 से 170×55 तक है
केवल संख्यात्मक विशेषताएं और मूल रूप से लापता मान रहित डेटासेट

मूल्यांकन मेट्रिक्स

प्रतिरोपण सटीकता:

प्रत्येक विधि के लिए RMSE की गणना करें: $\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}$
प्रत्येक कार्य के भीतर न्यूनतम-अधिकतम सामान्यीकरण करें
प्रतिरोपण सटीकता = 1 - सामान्यीकृत RMSE

तुलनात्मक विधियां

11 परिपक्व प्रतिरोपण विधियां:

स्तंभ माध्य प्रतिरोपण
SoftImpute
MissForest
ICE/MICE
GAIN
MIWAE
इष्टतम परिवहन विधि
K निकटतम पड़ोसी
HyperImpute
TabPFN मूल प्रतिरोपण विधि

कार्यान्वयन विवरण

प्रशिक्षण: 8 H200 GPU, लगभग एक सप्ताह
25 मिलियन सिंथेटिक तालिकाओं को संसाधित करें
सीखने की दर: 0.0001, बैच आकार: 64
स्वचालित अपडेट अंतराल: s=50 चरण

प्रायोगिक परिणाम

मुख्य परिणाम

समग्र प्रदर्शन (तालिका 1):

TabImpute+: 0.833 ± 0.213 (सर्वश्रेष्ठ)
HyperImpute: 0.766 ± 0.259
इष्टतम परिवहन: 0.765 ± 0.227
MissForest: 0.754 ± 0.248

चलने का समय (चित्र 1b):

TabImpute GPU पर सबसे कम चलने का समय है
TabPFN की तुलना में महत्वपूर्ण त्वरण प्राप्त करता है
CPU संस्करण अभी भी प्रतिस्पर्धी है

विभिन्न लापता पैटर्न के तहत प्रदर्शन

TabImpute+ लगभग सभी लापता पैटर्न के तहत सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है:

NN-MNAR: 0.880 ± 0.126
Block-MNAR: 0.908 ± 0.168
Seq-MNAR: 0.905 ± 0.094
Panel-MNAR: 0.791 ± 0.329 (अन्य विधियों से काफी बेहतर)

विलोपन प्रयोग

शून्य-शॉट विधि तुलना (तालिका 2):

TabImpute+ समग्र प्रदर्शन में सर्वश्रेष्ठ: 0.614 ± 0.468
EWF-TabPFN: 0.600 ± 0.476
TabImpute: 0.393 ± 0.487

समूह रणनीति की प्रभावशीलता दिखाता है।

उच्च लापता दर परिदृश्य

चित्र 4 दिखाता है कि MCAR पैटर्न के तहत, लापता दर बढ़ने के साथ, TabImpute+ का लाभ अधिक स्पष्ट हो जाता है, क्योंकि जनरेटिव मॉडल संदर्भ जानकारी का बेहतर उपयोग कर सकते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

TabImpute सटीक तीव्र शून्य-शॉट लापता डेटा प्रतिरोपण प्राप्त करता है
प्रविष्टि-स्तरीय विशेषीकरण दक्षता और सटीकता में काफी सुधार करता है
बहु-पैटर्न प्रशिक्षण रणनीति मॉडल की सामान्यीकरण क्षमता को बढ़ाती है
MissBench प्रतिरोपण विधि मूल्यांकन के लिए एक व्यापक बेंचमार्क प्रदान करता है

सीमाएं

स्केलेबिलिटी: प्रविष्टि-स्तरीय विशेषीकरण के कारण, ध्यान जटिलता पंक्ति आयाम पर फिर से वर्गीय है
CPU प्रदर्शन: CPU पर चलाना धीमा है, TabPFN के समान
डेटा प्रकार: वर्तमान में केवल संख्यात्मक डेटा का समर्थन करता है, श्रेणीबद्ध डेटा का नहीं
आर्किटेक्चर प्रतिबंध: TabPFN की द्विघात समय जटिलता सीमा को विरासत में मिलता है

भविष्य की दिशाएं

अधिक जटिल लापता पैटर्न और डेटा पीढ़ी प्रक्रियाओं की खोज करें
श्रेणीबद्ध डेटा का समर्थन करने के लिए विधि को बढ़ाएं
कारणात्मक अनुमान सेटिंग के लिए मूल्यांकन का विस्तार करें
बड़े डेटासेट तक विस्तार के लिए आर्किटेक्चर में सुधार करें
बहु-प्रतिरोपण के लिए विधि का उपयोग करें

गहन मूल्यांकन

लाभ

मजबूत नवाचार: प्रविष्टि-स्तरीय विशेषीकरण एक चतुर नवाचार है, जो महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है
पर्याप्त प्रयोग: MissBench अब तक प्रतिरोपण विधि मूल्यांकन का सबसे व्यापक प्रदान करता है
उच्च व्यावहारिक मूल्य: शून्य-शॉट विशेषता विधि को तैनात और उपयोग करना आसान बनाती है
ठोस सैद्धांतिक आधार: परिपक्व PFN ढांचे और बायेसियन अनुमान सिद्धांत पर आधारित

कमियां

स्केलेबिलिटी समस्या: द्विघात जटिलता बड़े पैमाने पर डेटा पर आवेदन को सीमित करती है
डेटा प्रकार प्रतिबंध: केवल संख्यात्मक डेटा का समर्थन व्यावहारिक अनुप्रयोग की सीमा को सीमित करता है
सिंथेटिक डेटा निर्भरता: पूरी तरह से सिंथेटिक डेटा प्रशिक्षण कुछ वास्तविक परिदृश्यों में प्रदर्शन को प्रभावित कर सकता है
कम्प्यूटेशनल संसाधन आवश्यकता: प्रशिक्षण को बड़ी मात्रा में GPU संसाधनों की आवश्यकता होती है

प्रभाव

शैक्षणिक योगदान: सारणीबद्ध लापता डेटा प्रतिरोपण क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: शून्य-शॉट विशेषता औद्योगिक अनुप्रयोगों में बहुत संभावनाएं रखती है
बेंचमार्क योगदान: MissBench इस क्षेत्र का एक महत्वपूर्ण मूल्यांकन मानक बन जाएगा
पुनरुत्पादनशीलता: लेखक कोड और भार को खुला स्रोत करने का वादा करते हैं

लागू परिदृश्य

मध्यम आकार की सारणीबद्ध डेटा: विशेष रूप से पंक्ति और स्तंभ संख्या उचित सीमा में डेटा के लिए उपयुक्त
बहु-डोमेन अनुप्रयोग: शून्य-शॉट विशेषता के कारण, क्रॉस-डोमेन उपयोग के लिए उपयुक्त
तीव्र प्रोटोटाइप विकास: कोई ट्यूनिंग आवश्यकता नहीं की विशेषता तीव्र सत्यापन और तैनाती के लिए उपयुक्त है
अनुसंधान और बेंचमार्क परीक्षण: MissBench नई विधियों के मूल्यांकन मानक के रूप में उपयुक्त है

संदर्भ

यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों पर आधारित है:

Hollmann et al. (2023, 2025) - TabPFN श्रृंखला कार्य
Müller et al. (2022) - पूर्व-डेटा फिटेड नेटवर्क सैद्धांतिक आधार
Jarrett et al. (2022) - HyperImpute समूह प्रतिरोपण विधि
Rubin (1976) - लापता डेटा सैद्धांतिक आधार

सारांश: TabImpute तकनीकी नवाचार, प्रायोगिक डिजाइन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान वाला एक उच्च गुणवत्ता का अनुसंधान कार्य है। स्केलेबिलिटी जैसी सीमाओं के बावजूद, इसकी शून्य-शॉट प्रतिरोपण क्षमता और उत्कृष्ट प्रदर्शन इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाते हैं।