2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic

TabImpute: إحالة دقيقة وسريعة للبيانات المفقودة بدون عينات باستخدام محول مُدرب مسبقاً

المعلومات الأساسية

  • معرّف الورقة: 2510.02625
  • العنوان: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
  • المؤلفون: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
  • التصنيف: cs.LG (التعلم الآلي)
  • وقت النشر: أكتوبر 2025 (نسخة أولية قيد المراجعة)
  • رابط الورقة: https://arxiv.org/abs/2510.02625v2

الملخص

تعتبر البيانات المفقودة مشكلة شائعة في البيانات الجدولية. تتراوح الحلول الموجودة بين الملء البسيط بالمتوسط والشبكات العدائية التوليدية المعقدة. ومع ذلك، نظراً للاختلافات الكبيرة في الأداء عبر المجالات الحقيقية والوقت الطويل المستغرق في ضبط المعاملات الفائقة، لا توجد حالياً طريقة إحالة افتراضية. بناءً على TabPFN (نموذج أساسي حديث للتعلم الموجه على البيانات الجدولية)، تقترح هذه الورقة TabImpute، وهو محول مُدرب مسبقاً يوفر إحالة دقيقة وسريعة بدون عينات في وقت الاستدلال، دون الحاجة إلى التدريب أو ضبط المعاملات الفائقة. لتدريب وتقييم TabImpute، يقدم المؤلفون: (i) تمييز على مستوى الإدخال للإعدادات الجدولية، مما يحقق تسريعاً بمعامل 100 مقارنة بطرق إحالة TabPFN السابقة؛ (ii) خط أنابيب توليد بيانات تدريب اصطناعية يجمع بين أنماط الفقدان الواقعية، مما يحسّن الأداء في وقت الاختبار؛ (iii) MissBench، معيار تقييم شامل لطرق الإحالة يتضمن 42 مجموعة بيانات من OpenML و13 نمط فقدان. يغطي MissBench المجالات الطبية والمالية والهندسية، مما يُظهر الأداء القوي لـ TabImpute مقارنة بـ 11 طريقة إحالة ناضجة.

خلفية البحث والدافع

تعريف المشكلة

البيانات المفقودة موجودة في كل مكان في البيانات الجدولية، مما يؤثر على الإحصائيين والاقتصاديين والمسؤولين الصحيين والشركات. على سبيل المثال، قد تفتقد مجموعات البيانات الطبية قياسات ضغط الدم، أو قد تشترك مجموعات البيانات المدمجة من مصادر متعددة في ميزات جزئية فقط. بغض النظر عن المصدر، يجب إحالة البيانات المفقودة إلى قيم رقمية قبل استخدام النماذج الإحصائية أو التعلم الآلي.

أهمية المشكلة

  1. الانتشار الواسع: البيانات المفقودة مشكلة شائعة في جميع المجالات
  2. الضرورة: معظم خوارزميات التعلم الآلي لا يمكنها التعامل مباشرة مع القيم المفقودة
  3. التعقيد: آليات الفقدان المختلفة تتطلب استراتيجيات معالجة مختلفة

قيود الطرق الموجودة

  1. تباين الأداء الكبير: تُظهر الطرق الموجودة اختلافات كبيرة في الأداء عبر المجالات ومجموعات البيانات المختلفة
  2. ضبط المعاملات الفائقة: يتطلب عملية ضبط معاملات فائقة تستغرق وقتاً طويلاً
  3. غياب الطريقة الشاملة: لا توجد طريقة إحالة افتراضية تنطبق على جميع السيناريوهات
  4. قيود السيناريوهات المحددة: عادة ما تكون كل طريقة مصممة لإعدادات محددة

دافع البحث

بناءً على نجاح TabPFN في التعلم الموجه على البيانات الجدولية، يسعى المؤلفون إلى تطوير نموذج يمكنه:

  1. تحقيق إحالة بدون عينات (بدون تدريب أو ضبط معاملات)
  2. إظهار أداء قوية عبر أنماط فقدان متعددة
  3. توفير نتائج إحالة سريعة ودقيقة
  4. التطبيق على البيانات الجدولية في مجالات مختلفة

المساهمات الأساسية

  1. اقتراح نموذج TabImpute: محول مُدرب مسبقاً بناءً على معمارية TabPFN، يحقق إحالة دقيقة وسريعة للبيانات المفقودة بدون عينات
  2. تمييز مبتكر على مستوى الإدخال (Entry-wise Featurization): يحقق تسريعاً بمعامل 100 مقارنة بطريقة إحالة TabPFN على مستوى الأعمدة
  3. خط أنابيب شامل لتوليد البيانات الاصطناعية: يتضمن 13 نمط فقدان واقعي لتحسين قدرة النموذج على التعميم
  4. بناء معيار MissBench: معيار تقييم شامل يتضمن 42 مجموعة بيانات من OpenML و13 نمط فقدان
  5. طريقة التجميع TabImpute+: تجمع بين TabImpute و EWF-TabPFN بأوزان تكيفية لتحقيق أفضل أداء

شرح الطريقة

تعريف المهمة

بالنظر إلى مصفوفة بيانات جدولية X تحتوي على قيم مفقودة، حيث X* هي المصفوفة الكاملة و Ω هي مجموعة فهارس الإدخالات المفقودة، الهدف هو التنبؤ بقيم جميع الإدخالات المفقودة.

معمارية النموذج

1. التمييز على مستوى الإدخال (Entry-wise Featurization, EWF)

بينما تستخدم الطرق التقليدية إحالة على مستوى الأعمدة، تقترح هذه الورقة طريقة على مستوى الإدخال:

  • لكل إدخال (i,j)، يتم بناء متجه ميزة: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
  • حيث Xi,: يمثل الصف i و X:,j يمثل العمود j و ⊕ يمثل التسلسل
  • قيمة الهدف هي yij = X*ij
  • إنشاء مصفوفة ميزات بحجم nm × (n+m)

2. تعديلات المعمارية

بناءً على معمارية TabPFN، يتم إجراء تعديل رئيسي واحد:

  • إزالة قناع الانتباه، مما يسمح لنقاط التدريب بالانتباه إلى نقاط الاختبار
  • السبب في ذلك هو أن مجموعة الاختبار يتم إنشاؤها باستخدام البيانات المرصودة بالفعل، لذا لا توجد مشكلة تسرب البيانات

3. توليد بيانات التدريب الاصطناعية

توليد البيانات: استخدام نماذج العوامل الخطية (Linear Factor Models)

Y = UV^T

حيث U ∈ R^(m×k) و V ∈ R^(n×k) و k ≪ n,m

أنماط الفقدان: تطبيق 13 نمط فقدان

  • 1 نمط MCAR (الفقدان العشوائي تماماً)
  • 1 نمط MAR (الفقدان العشوائي)
  • 11 نمط MNAR (الفقدان غير العشوائي)

4. التدريب متعدد الأنماط

استخدام خوارزمية تكيفية لتحديد نسبة أنماط الفقدان في كل دفعة:

  • إعادة حساب النسبة كل s خطوة تدرج
  • تطبيق softmax على قيم الخسارة لكل نمط
  • تقليل وزن الأنماط ذات الأداء الجيدة وزيادة وزن الأنماط ذات الأداء الضعيف بشكل تكيفي

نقاط الابتكار التقنية

  1. المعالجة المتوازية: يسمح التمييز على مستوى الإدخال بالتنبؤ المتوازي بجميع القيم المفقودة، بدلاً من المعالجة على مستوى الأعمدة
  2. القدرة على الإحالة بدون عينات: يمكن استخدام النموذج المُدرب مسبقاً مباشرة على البيانات المستهدفة دون الحاجة إلى الضبط الدقيق
  3. التكيف متعدد الأنماط: معالجة أنماط فقدان متعددة من خلال استراتيجية تدريب تكيفية
  4. استراتيجية التجميع: يجمع TabImpute+ بين مزايا الطرق المختلفة من خلال أوزان مثلى

إعداد التجارب

مجموعات البيانات

معيار MissBench يتضمن:

  • 42 مجموعة بيانات من OpenML
  • تغطي مجالات متعددة مثل الطب والهندسة والتعليم
  • أحجام مجموعات البيانات تتراوح من 50×5 إلى 170×55
  • تتضمن فقط الميزات الرقمية ومجموعات البيانات الأصلية بدون قيم مفقودة

مقاييس التقييم

دقة الإحالة:

  1. حساب RMSE لكل طريقة: 1Ω(i,j)Ω(XijtrueXijimputed)2\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}
  2. تطبيع min-max داخل كل مهمة
  3. دقة الإحالة = 1 - RMSE المُطبّع

طرق المقارنة

11 طريقة إحالة ناضجة:

  • ملء المتوسط على مستوى الأعمدة
  • SoftImpute
  • MissForest
  • ICE/MICE
  • GAIN
  • MIWAE
  • طرق النقل الأمثل
  • K-Nearest Neighbors
  • HyperImpute
  • طريقة إحالة TabPFN الأصلية

تفاصيل التنفيذ

  • التدريب: 8 وحدات معالجة رسومية H200، حوالي أسبوع واحد
  • معالجة 25 مليون جدول اصطناعي
  • معدل التعلم: 0.0001، حجم الدفعة: 64
  • فترة التحديث التكيفي: s=50 خطوة

نتائج التجارب

النتائج الرئيسية

الأداء الإجمالية (الجدول 1):

  • TabImpute+: 0.833 ± 0.213 (الأفضل)
  • HyperImpute: 0.766 ± 0.259
  • النقل الأمثل: 0.765 ± 0.227
  • MissForest: 0.754 ± 0.248

وقت التشغيل (الشكل 1b):

  • TabImpute له أقصر وقت تشغيل على وحدة معالجة رسومية
  • يحقق تسريعاً كبيراً مقارنة بـ TabPFN
  • الإصدار على وحدة المعالجة المركزية يحافظ على قدرة تنافسية

الأداء عبر أنماط الفقدان المختلفة

يحقق TabImpute+ أفضل أداء في جميع أنماط الفقدان تقريباً:

  • NN-MNAR: 0.880 ± 0.126
  • Block-MNAR: 0.908 ± 0.168
  • Seq-MNAR: 0.905 ± 0.094
  • Panel-MNAR: 0.791 ± 0.329 (تفوق كبير على الطرق الأخرى)

تجارب الاستبعاد

مقارنة طرق الإحالة بدون عينات (الجدول 2):

  • أداء TabImpute+ الشاملة الأفضل: 0.614 ± 0.468
  • EWF-TabPFN: 0.600 ± 0.476
  • TabImpute: 0.393 ± 0.487

يُظهر فعالية استراتيجية التجميع.

سيناريوهات معدل الفقدان العالي

يُظهر الشكل 4 أنه مع زيادة معدل الفقدان في نمط MCAR، تصبح مزايا TabImpute+ أكثر وضوحاً، لأن النماذج التوليدية يمكنها الاستفادة بشكل أفضل من المعلومات السياقية.

الأعمال ذات الصلة

طرق إحالة البيانات المفقودة

  1. الطرق التقليدية: ملء المتوسط والنماذج الخطية والغابات العشوائية
  2. إكمال المصفوفات: SoftImpute و USVT والطرق القائمة على الجيران
  3. التعلم العميق: GAIN (GAN) و MIWAE (VAE)
  4. الطرق المجمعة: HyperImpute

تعلم التمثيلات الجدولية

  1. TabPFN: نموذج أساسي للتعلم الموجه على البيانات الجدولية
  2. التطورات اللاحقة: TabICL و MITRA و CausalFM وغيرها
  3. الخصائص التقنية: شبكات البيانات السابقة المدرجة (PFN) والتعلم السياقي

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. يحقق TabImpute إحالة دقيقة وسريعة للبيانات المفقودة بدون عينات
  2. يحسّن التمييز على مستوى الإدخال الكفاءة والدقة بشكل كبير
  3. تعزز استراتيجية التدريب متعدد الأنماط قدرة النموذج على التعميم
  4. يوفر MissBench معياراً شاملاً لتقييم طرق الإحالة

القيود

  1. قابلية التوسع: نظراً للتمييز على مستوى الإدخال، تزداد تعقيدية الانتباه بشكل تربيعي في بُعد الصفوف
  2. الأداء على وحدة المعالجة المركزية: التشغيل على وحدة المعالجة المركزية أبطأ، مشابهاً لـ TabPFN
  3. أنواع البيانات: يدعم حالياً فقط البيانات الرقمية، لا يدعم البيانات الفئوية
  4. قيود المعمارية: يرث التعقيدية الزمنية التربيعية من TabPFN

الاتجاهات المستقبلية

  1. استكشاف أنماط فقدان أكثر تعقيداً وعمليات توليد بيانات
  2. تحسين الطريقة لدعم البيانات الفئوية
  3. توسيع التقييم إلى إعدادات الاستدلال السببي
  4. تحسين المعمارية للتوسع إلى مجموعات بيانات أكبر
  5. الاستفادة من الطريقة للإحالة المتعددة

التقييم المتعمق

المزايا

  1. الابتكار القوي: التمييز على مستوى الإدخال ابتكار ذكي يحقق تحسناً كبيراً في الأداء
  2. التجارب الشاملة: يوفر MissBench أشمل تقييم لطرق الإحالة حتى الآن
  3. القيمة العملية العالية: تسهل الخاصية بدون عينات النشر والاستخدام
  4. الأساس النظري القوي: يعتمد على إطار عمل PFN الناضج والاستدلال البايزي

أوجه القصور

  1. مشاكل قابلية التوسع: تحد التعقيدية التربيعية من التطبيق على مجموعات البيانات الكبيرة
  2. قيود أنواع البيانات: يقتصر الدعم على البيانات الرقمية فقط، مما يحد من نطاق التطبيقات العملية
  3. الاعتماد على البيانات الاصطناعية: الاعتماد الكامل على التدريب بالبيانات الاصطناعية قد يؤثر على الأداء في بعض السيناريوهات الحقيقية
  4. متطلبات الموارد الحسابية: يتطلب التدريب موارد GPU كبيرة

التأثير

  1. المساهمة الأكاديمية: توفر اتجاهاً بحثياً جديداً لمجال إحالة البيانات المفقودة الجدولية
  2. القيمة العملية: تجعل الخاصية بدون عينات لها إمكانية كبيرة في التطبيقات الصناعية
  3. مساهمة المعيار: سيصبح MissBench معياراً تقييماً مهماً في هذا المجال
  4. قابلية إعادة الإنتاج: التزم المؤلفون بفتح الكود والأوزان

السيناريوهات المناسبة

  1. البيانات الجدولية متوسطة الحجم: مناسبة بشكل خاص للبيانات التي يكون عدد الصفوف والأعمدة فيها ضمن نطاق معقول
  2. التطبيقات متعددة المجالات: بسبب الخاصية بدون عينات، مناسبة للاستخدام عبر المجالات
  3. تطوير النماذج الأولية السريعة: تناسب الخاصية بدون ضبط معاملات التحقق السريع والنشر
  4. البحث والاختبار المعياري: مناسب MissBench كمعيار تقييم للطرق الجديدة

المراجع

تعتمد هذه الورقة بشكل أساسي على الأعمال المهمة التالية:

  1. Hollmann et al. (2023, 2025) - سلسلة أعمال TabPFN
  2. Müller et al. (2022) - الأساس النظري لشبكات البيانات السابقة المدرجة
  3. Jarrett et al. (2022) - طريقة إحالة HyperImpute المجمعة
  4. Rubin (1976) - الأساس النظري لنظرية البيانات المفقودة

الملخص: TabImpute عمل بحثي عالي الجودة يتمتع بمساهمات كبيرة من حيث الابتكار التقني وتصميم التجارب والقيمة العملية. على الرغم من وجود قيود مثل قابلية التوسع، فإن قدرتها على الإحالة بدون عينات والأداء الممتاز تجعلها تقدماً مهماً في هذا المجال.