TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic
TabImpute: إحالة دقيقة وسريعة للبيانات المفقودة بدون عينات باستخدام محول مُدرب مسبقاً
تعتبر البيانات المفقودة مشكلة شائعة في البيانات الجدولية. تتراوح الحلول الموجودة بين الملء البسيط بالمتوسط والشبكات العدائية التوليدية المعقدة. ومع ذلك، نظراً للاختلافات الكبيرة في الأداء عبر المجالات الحقيقية والوقت الطويل المستغرق في ضبط المعاملات الفائقة، لا توجد حالياً طريقة إحالة افتراضية. بناءً على TabPFN (نموذج أساسي حديث للتعلم الموجه على البيانات الجدولية)، تقترح هذه الورقة TabImpute، وهو محول مُدرب مسبقاً يوفر إحالة دقيقة وسريعة بدون عينات في وقت الاستدلال، دون الحاجة إلى التدريب أو ضبط المعاملات الفائقة. لتدريب وتقييم TabImpute، يقدم المؤلفون: (i) تمييز على مستوى الإدخال للإعدادات الجدولية، مما يحقق تسريعاً بمعامل 100 مقارنة بطرق إحالة TabPFN السابقة؛ (ii) خط أنابيب توليد بيانات تدريب اصطناعية يجمع بين أنماط الفقدان الواقعية، مما يحسّن الأداء في وقت الاختبار؛ (iii) MissBench، معيار تقييم شامل لطرق الإحالة يتضمن 42 مجموعة بيانات من OpenML و13 نمط فقدان. يغطي MissBench المجالات الطبية والمالية والهندسية، مما يُظهر الأداء القوي لـ TabImpute مقارنة بـ 11 طريقة إحالة ناضجة.
البيانات المفقودة موجودة في كل مكان في البيانات الجدولية، مما يؤثر على الإحصائيين والاقتصاديين والمسؤولين الصحيين والشركات. على سبيل المثال، قد تفتقد مجموعات البيانات الطبية قياسات ضغط الدم، أو قد تشترك مجموعات البيانات المدمجة من مصادر متعددة في ميزات جزئية فقط. بغض النظر عن المصدر، يجب إحالة البيانات المفقودة إلى قيم رقمية قبل استخدام النماذج الإحصائية أو التعلم الآلي.
بالنظر إلى مصفوفة بيانات جدولية X تحتوي على قيم مفقودة، حيث X* هي المصفوفة الكاملة و Ω هي مجموعة فهارس الإدخالات المفقودة، الهدف هو التنبؤ بقيم جميع الإدخالات المفقودة.
يُظهر الشكل 4 أنه مع زيادة معدل الفقدان في نمط MCAR، تصبح مزايا TabImpute+ أكثر وضوحاً، لأن النماذج التوليدية يمكنها الاستفادة بشكل أفضل من المعلومات السياقية.
تعتمد هذه الورقة بشكل أساسي على الأعمال المهمة التالية:
Hollmann et al. (2023, 2025) - سلسلة أعمال TabPFN
Müller et al. (2022) - الأساس النظري لشبكات البيانات السابقة المدرجة
Jarrett et al. (2022) - طريقة إحالة HyperImpute المجمعة
Rubin (1976) - الأساس النظري لنظرية البيانات المفقودة
الملخص: TabImpute عمل بحثي عالي الجودة يتمتع بمساهمات كبيرة من حيث الابتكار التقني وتصميم التجارب والقيمة العملية. على الرغم من وجود قيود مثل قابلية التوسع، فإن قدرتها على الإحالة بدون عينات والأداء الممتاز تجعلها تقدماً مهماً في هذا المجال.