TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic
TabImpute: पूर्व-प्रशिक्षित ट्रांसफॉर्मर के साथ सटीक और तीव्र शून्य-शॉट लापता-डेटा प्रतिरोपण
लापता डेटा सारणीबद्ध डेटा में एक व्यापक समस्या है। मौजूदा समाधान सरल माध्य प्रतिरोपण से लेकर जटिल जनरेटिव प्रतिकूल नेटवर्क तक विस्तृत हैं। हालांकि, वास्तविक दुनिया के डोमेन में प्रदर्शन में विशाल भिन्नता और हाइपरपैरामीटर ट्यूनिंग में समय व्यय के कारण, वर्तमान में कोई डिफ़ॉल्ट प्रतिरोपण विधि मौजूद नहीं है। TabPFN (एक अत्याधुनिक सारणीबद्ध पर्यवेक्षित शिक्षण आधार मॉडल) के आधार पर, यह पेपर TabImpute प्रस्तावित करता है, जो एक पूर्व-प्रशिक्षित ट्रांसफॉर्मर है जो अनुमान समय पर सटीक और तीव्र शून्य-शॉट प्रतिरोपण प्रदान करता है, बिना फिटिंग या हाइपरपैरामीटर ट्यूनिंग के। TabImpute को प्रशिक्षित और मूल्यांकन करने के लिए, लेखक निम्नलिखित प्रस्तुत करते हैं: (i) सारणीबद्ध सेटिंग के लिए प्रविष्टि-स्तरीय विशेषीकरण, जो पिछली TabPFN प्रतिरोपण विधि की तुलना में 100 गुना त्वरण प्राप्त करता है; (ii) वास्तविक लापता पैटर्न को जोड़ने वाली सिंथेटिक प्रशिक्षण डेटा पीढ़ी पाइपलाइन, जो परीक्षण समय के प्रदर्शन को बढ़ाती है; (iii) MissBench, 42 OpenML डेटासेट और 13 लापता पैटर्न वाली एक व्यापक प्रतिरोपण विधि मूल्यांकन बेंचमार्क। MissBench चिकित्सा, वित्त और इंजीनियरिंग जैसे डोमेन को कवर करता है, जो 11 परिपक्व प्रतिरोपण विधियों की तुलना में TabImpute के मजबूत प्रदर्शन को प्रदर्शित करता है।
लापता डेटा सारणीबद्ध डेटा में सर्वव्यापी है, जो सांख्यिकीविद्, अर्थशास्त्री, स्वास्थ्य अधिकारी और व्यवसायों को प्रभावित करता है। उदाहरण के लिए, चिकित्सा डेटासेट में रक्तचाप माप रिकॉर्ड हो सकते हैं, या कई स्रोतों से विलीन किए गए डेटासेट केवल आंशिक विशेषताएं साझा कर सकते हैं। स्रोत की परवाह किए बिना, सांख्यिकीय या मशीन लर्निंग मॉडल का उपयोग करने से पहले, लापता डेटा को संख्यात्मक मानों में प्रतिरोपित किया जाना चाहिए।
TabImpute मॉडल प्रस्तावित करना: TabPFN आर्किटेक्चर पर आधारित एक पूर्व-प्रशिक्षित ट्रांसफॉर्मर, सटीक तीव्र शून्य-शॉट लापता डेटा प्रतिरोपण को लागू करता है
नवीन प्रविष्टि-स्तरीय विशेषीकरण (Entry-wise Featurization): TabPFN की स्तंभ-स्तरीय प्रतिरोपण विधि की तुलना में 100 गुना त्वरण प्राप्त करता है
व्यापक सिंथेटिक डेटा पीढ़ी पाइपलाइन: 13 वास्तविक लापता पैटर्न युक्त प्रशिक्षण डेटा पीढ़ी विधि, मॉडल सामान्यीकरण क्षमता को बढ़ाता है
MissBench बेंचमार्क का निर्माण: 42 OpenML डेटासेट और 13 लापता पैटर्न वाली एक व्यापक मूल्यांकन बेंचमार्क
TabImpute+ समूह विधि: स्वचालित भार के माध्यम से TabImpute और EWF-TabPFN को एकीकृत करके, सर्वोत्तम प्रदर्शन प्राप्त करता है
लापता मानों वाली सारणीबद्ध डेटा मैट्रिक्स X दिया गया है, जहां X* पूर्ण मैट्रिक्स है, Ω लापता प्रविष्टि सूचकांक का समुच्चय है, लक्ष्य सभी लापता प्रविष्टियों के मानों की भविष्यवाणी करना है।
चित्र 4 दिखाता है कि MCAR पैटर्न के तहत, लापता दर बढ़ने के साथ, TabImpute+ का लाभ अधिक स्पष्ट हो जाता है, क्योंकि जनरेटिव मॉडल संदर्भ जानकारी का बेहतर उपयोग कर सकते हैं।
यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों पर आधारित है:
Hollmann et al. (2023, 2025) - TabPFN श्रृंखला कार्य
Müller et al. (2022) - पूर्व-डेटा फिटेड नेटवर्क सैद्धांतिक आधार
Jarrett et al. (2022) - HyperImpute समूह प्रतिरोपण विधि
Rubin (1976) - लापता डेटा सैद्धांतिक आधार
सारांश: TabImpute तकनीकी नवाचार, प्रायोगिक डिजाइन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान वाला एक उच्च गुणवत्ता का अनुसंधान कार्य है। स्केलेबिलिटी जैसी सीमाओं के बावजूद, इसकी शून्य-शॉट प्रतिरोपण क्षमता और उत्कृष्ट प्रदर्शन इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाते हैं।