2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta
Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.
academic

TabDistill: تقطير المحولات إلى الشبكات العصبية لتصنيف الجداول في النظام القليل العينات

المعلومات الأساسية

  • معرّف الورقة: 2511.05704
  • العنوان: TabDistill: تقطير المحولات إلى الشبكات العصبية لتصنيف الجداول في النظام القليل العينات
  • المؤلفون: Pasan Dissanayake, Sanghamitra Dutta (جامعة ماريلاند، كوليج بارك)
  • التصنيف: cs.LG cs.AI cs.CL
  • تاريخ النشر: 7 نوفمبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2511.05704

الملخص

أظهرت النماذج القائمة على المحولات (Transformers) أداءً واعداً على بيانات الجداول مقارنة بنظيراتها الكلاسيكية مثل الشبكات العصبية وأشجار القرار المعززة بالتدرج (GBDTs) في السيناريوهات التي تتوفر فيها بيانات تدريب محدودة. تستخدم هذه النماذج معرفتها المسبقة المدربة للتكيف مع المجالات الجديدة، محققة أداءً جديراً بالثناء مع عدد قليل فقط من أمثلة التدريب، وهو ما يُعرّف بنظام القليل من العينات (few-shot regime). ومع ذلك، فإن تحسن الأداء في نظام القليل من العينات يأتي على حساب زيادة كبيرة في التعقيد وعدد المعاملات. لتجنب هذه المقايضة، نقدم TabDistill، وهي استراتيجية جديدة لتقطير المعرفة المسبقة المدربة في نماذج المحولات المعقدة إلى شبكات عصبية أبسط لتصنيف بيانات الجداول بفعالية. يحقق إطار عملنا أفضل ما في العالمين: كونه فعالاً من حيث المعاملات مع الأداء الجيد مع بيانات التدريب المحدودة. تتفوق الشبكات العصبية المقطرة على الخطوط الأساسية الكلاسيكية مثل الشبكات العصبية العادية و XGBoost والانحدار اللوجستي تحت بيانات تدريب متساوية، وفي بعض الحالات، حتى على نماذج المحولات الأصلية التي تم تقطيرها منها.

الخلفية البحثية والدافع

تعريف المشكلة

يسعى هذا البحث إلى حل تناقض أساسي في تصنيف بيانات الجداول: في سيناريوهات القليل من العينات، على الرغم من أن نماذج المحولات تتمتع بأداء ممتازة، إلا أنها تتمتع بعدد معاملات ضخم وتعقيد حسابي عالي، مما يجعل من الصعب نشرها في التطبيقات العملية.

أهمية المشكلة

  1. احتياجات التطبيق العملي: في المجالات عالية المخاطر مثل التمويل والطب والتصنيع، يعتبر ندرة البيانات المعنونة مشكلة شائعة، مثل تشخيص الأمراض النادرة والتنبؤ بالظواهر الطبيعية النادرة
  2. تكلفة تعنون البيانات: في التطبيقات المالية، يكون تعنون البيانات مكلفاً ويعاني من الذاتية والأخطاء والافتقار إلى الإجماع
  3. قيود النشر: تتطلب التطبيقات العملية نماذج فعالة من حيث المعاملات وقابلة للتوسع لتناسب مستويات البنية التحتية المختلفة

قيود الطرق الموجودة

  1. الطرق التقليدية: تتفوق XGBoost و CatBoost و LightGBM عندما تتوفر بيانات كافية، لكن أدائها ينخفض بشكل ملحوظ في سيناريوهات القليل من العينات
  2. طرق المحولات: تُظهر TabPFN و TabLLM أداءً ممتازاً في سيناريوهات القليل من العينات، لكن عدد معاملاتها يصل إلى ملايين أو حتى مليارات، مما يجعل تكاليف الاستدلال عالية جداً
  3. مقايضة الكفاءة والأداء: يفتقد الحل الذي يحافظ على أداء القليل من العينات مع الحفاظ على كفاءة المعاملات

الدافع البحثي

يطرح المؤلفون السؤال الأساسي: "هل يمكننا تحقيق أفضل ما في العالمين، أي الحفاظ على كفاءة المعاملات والأداء الجيدة مع بيانات التدريب المحدودة؟"

المساهمات الأساسية

  1. اقتراح إطار TabDistill: استراتيجية جديدة لتقطير معرفة نماذج المحولات إلى شبكات عصبية، مما يحقق تصنيف بيانات جداول فعال من حيث المعاملات
  2. تطبيق نموذجين: تطبيق الإطار بناءً على TabPFN (~11M معامل) و BigScience T0pp (~11B معامل)، مع تقطيرها إلى MLP بحوالي 1000 معامل
  3. التحقق التجريبي: التحقق من الإطار على 5 مجموعات بيانات جداول، حيث تتفوق MLP المقطرة على الخطوط الأساسية الكلاسيكية، وفي بعض الحالات حتى على نماذج المحولات الأصلية
  4. استراتيجية تدريب مبتكرة: إدخال تقنية تدريب قائمة على الترتيب لتجنب الإفراط في التدريب على مجموعات التدريب الصغيرة جداً

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات جداول صغيرة الحجم DN={(xn,yn),xnX,yn{0,1},n=1,...,N}D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}، حيث N10N \sim 10، الهدف هو استخدام معرفة نموذج المحول المسبق التدريب ff لإنشاء MLP بسيط hθ(x):X{0,1}h_\theta(x): X \to \{0,1\}.

معمارية النموذج

الإطار العام

يتضمن TabDistill مرحلتين:

  • المرحلة 1: ضبط نموذج المحول الأساسي لإنشاء MLP عالي الجودة
  • المرحلة 2: ضبط MLP إضافي اختياري

المكونات الأساسية

  1. تحليل النموذج الأساسي:
    • المشفر: fE(s):SZf_E(s): S \to Z
    • فك التشفير: fD(z):Z{0,1}f_D(z): Z \to \{0,1\}
  2. معمارية MLP:
    h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
    

    حيث R هو عدد الطبقات و L هو عرض الطبقة المخفية
  3. التعيين الخطي:
    m_η(z) = LayerNorm(Az + b)
    

    حيث ARdim(Θ)×dim(Z)A \in R^{dim(Θ)×dim(Z)}، η=(A,b)η = (A,b)

تدفق التدريب

دالة الخسارة للمرحلة 1:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

حيث θ=mη(fE(g(DN)))θ = m_η(f_E(g(D_N)))

نقاط الابتكار التقني

  1. فكرة الشبكات الفائقة: الاستفادة من الخبرات في مجال رؤية الحاسوب، باستخدام المحول كشبكة فائقة لإنشاء أوزان الشبكات العصبية
  2. تحسين الترتيب: ترتيب عشوائي لترتيب الميزات في كل حقبة تدريب لتجنب الإفراط في التدريب
  3. ضبط فعال من حيث المعاملات: ضبط معاملات التعيين الخطي فقط ηη، مع الحفاظ على معاملات النموذج الأساسي دون تغيير
  4. تصميم ثنائي المرحلة: تقطير أولاً ثم ضبط، للاستفادة الكاملة من المعرفة المسبقة المدربة

تطبيقات محددة

TabDistill + TabPFN

  • استخدام بيانات الجداول مباشرة، g(x)=xg(x) = x (تحويل الهوية)
  • بُعد إخراج المشفر: 192N192N
  • بُعد مصفوفة التعيين: dim(Θ)×192Ndim(Θ) × 192N

TabDistill + T0pp

  • استخدام تسلسل نصي: "The <column name> is <value>"
  • بُعد إخراج المشفر: 4096
  • بُعد مصفوفة التعيين: dim(Θ)×4096dim(Θ) × 4096

إعداد التجارب

مجموعات البيانات

استخدام 5 مجموعات بيانات جداول عامة:

  1. Bank (تسويق البنك UCI): التنبؤ بما إذا كان العميل سيشترك في الودائع الثابتة
  2. Blood (نقل الدم UCI): التنبؤ بما إذا كان الشخص سيتبرع بالدم
  3. Calhousing (الإسكان في كاليفورنيا): التنبؤ بما إذا كانت قيمة حي المنزل عالية
  4. Heart (أمراض القلب UCI): التنبؤ بما إذا كان الشخص يعاني من أمراض القلب
  5. Income (دخل التعداد): التنبؤ بما إذا كان الدخل السنوي يتجاوز 50K

مقاييس التقييم

استخدام ROC-AUC كمقياس تقييم أساسي، مع الأخذ في الاعتبار أداء التصنيف في سيناريوهات القليل من العينات.

طرق المقارنة

  1. الخطوط الأساسية الكلاسيكية: الانحدار اللوجستي و XGBoost و MLP المدرب بشكل مستقل
  2. النماذج الأساسية: TabPFN و T0pp (TabLLM)
  3. النماذج المقطرة: TabDistill + TabPFN و TabDistill + T0pp

تفاصيل التطبيق

  • معمارية MLP: 4 طبقات، 10 خلايا عصبية لكل طبقة (حوالي 1000 معامل)
  • إعدادات التدريب: ضبط المرحلة 1 لـ 300 دورة، ضبط إضافي للمرحلة 2 لـ 100 دورة
  • تحسين المعاملات الفائقة: استخدام Weights & Biases للبحث الشامل
  • نطاق العينات: N ∈ {4, 8, 16, 32, 64}

نتائج التجارب

النتائج الرئيسية

بناءً على نتائج ROC-AUC في الجدول 1:

سيناريو القليل جداً من العينات (N=4)

  • TabDistill + TabPFN يحقق 0.72 على مجموعة بيانات Bank، متفوقاً بشكل ملحوظ على جميع الخطوط الأساسية الكلاسيكية
  • TabDistill + T0pp يُظهر أداءً ممتازاً على عدة مجموعات بيانات، مثل Calhousing (0.67) و Income (0.70)

اتجاهات الأداء

  1. تحسن الأداء مع زيادة العينات: تُظهر جميع الطرق تحسناً عاماً في الأداء عند زيادة N
  2. اختلافات الطرق الأساسية: لا توجد طريقة كلاسيكية واحدة تتفوق بشكل عام على جميع مجموعات البيانات
  3. اختلافات اختيار النموذج: يتفوق TabDistill + TabPFN بشكل عام على TabDistill + T0pp، لكن العكس صحيح على مجموعة بيانات Income

المقارنة مع النماذج الأساسية

يُظهر الجدول 3 نتائج مفاجئة:

  • في بعض الحالات، تتفوق MLP المقطرة على نماذج المحول الأصلية
  • على سبيل المثال، على مجموعة بيانات Bank عند N=4: TabDistill + TabPFN (0.72) > TabPFN (0.62)
  • يشير هذا إلى أن عملية التقطير لا تضغط النموذج فقط، بل قد تحسن الأداء أيضاً

تجارب الاستئصال

تأثير تعقيد النموذج (الجدول 2)

  • اختبار تأثير عدد الطبقات R على الأداء
  • تُظهر النتائج: انخفاض الأداء بعد تجاوز حد معين من التعقيد
  • معمارية 4 طبقات تُظهر أفضل أداء في معظم الحالات

تحليل إسناد الميزات (الشكل 3)

استخدام SHAP لتحليل أهمية الميزات:

  • يحتفظ النموذج المقطر بالاتساق مع الخطوط الأساسية الكلاسيكية في أهمية الميزات
  • حتى بعد ترتيب الميزات، يظل النموذج قادراً على تحديد الميزات المهمة بشكل صحيح
  • يثبت أن النموذج الأساسي تعلم بشكل صحيح الارتباط بين أوزان MLP وترتيب الميزات

النتائج التجريبية

  1. تأثير التقطير ملحوظ: في سيناريوهات القليل جداً من العينات، يتفوق النموذج المقطر بوضوح على الطرق الكلاسيكية
  2. كفاءة المعاملات: ضغط من ملايين/مليارات المعاملات إلى معاملات من رتبة الألف، مع تحسن هائل في الكفاءة
  3. نقل المعرفة فعال: تم نقل المعرفة المسبقة المدربة بنجاح إلى MLP البسيط
  4. متانة جيدة: استراتيجية تحسين الترتيب تمنع بفعالية الإفراط في التدريب

الأعمال ذات الصلة

الخوارزميات الكلاسيكية لبيانات الجداول

  • المزايا التقليدية: هيمنت XGBoost و LightGBM و CatBoost على مجال بيانات الجداول لفترة طويلة
  • قيود القليل من العينات: ينخفض أداء النماذج الكلاسيكية المدربة من الصفر بشكل ملحوظ في سيناريوهات القليل من العينات

تطبيقات المحولات على بيانات الجداول

  • SAINT: استخدام آليات الانتباه لنمذجة التفاعلات بين الصفوف والأعمدة، مع إدخال التدريب الذاتي الإشراف
  • TabPFN: التدريب المسبق على كمية كبيرة من بيانات الجداول الاصطناعية، مع القدرة على التنبؤ بمهام جديدة دون تدريب إضافي
  • سلسلة TabLLM: تسلسل بيانات الجداول إلى نصوص، مع الاستفادة من نماذج اللغة الكبيرة للتصنيف

التعلم الفوقي والشبكات الفائقة

  • ارتباط التعلم الفوقي: تتفوق المحولات في التعلم السياقي، وهو مشابه لنموذج التعلم الفوقي
  • تطبيقات الشبكات الفائقة: توجد بالفعل أعمال في رؤية الحاسوب تستخدم المحولات لإنشاء أوزان الشبكات العصبية
  • ابتكار هذه الورقة: أول تطبيق لهذه الفكرة في مجال بيانات الجداول

تقطير المعرفة

  • التقطير التقليدي: محاذاة إخراج نموذج الطالب مع نموذج المعلم من خلال دالة الخسارة
  • الفرق في هذه الورقة: استخراج مباشر للشبكة العصبية من المحول، دون الحاجة إلى محاذاة الخسارة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. التحقق من الفعالية: نجح TabDistill في تحقيق التوازن بين كفاءة المعاملات وأداء القليل من العينات
  2. مزايا الأداء: تتفوق MLP المقطرة على الخطوط الأساسية الكلاسيكية في معظم الحالات، وحتى على نماذج المحول الأصلية في بعض السيناريوهات
  3. القيمة العملية: توفير حل قابل للنشر فعلياً يلبي احتياجات البنى التحتية المختلفة

القيود

يشير المؤلفون بصراحة إلى أوجه القصور التالية:

  1. أداء العينات الكبيرة: عندما تزداد عينات التدريب، يكون تحسن الأداء محدوداً
  2. دالة التعيين البسيطة: استخدام تعيين خطي بسيط حالياً، قد يحد من حد الأداء
  3. وراثة التحيز: قد يرث النموذج المقطر التحيزات من النموذج الأساسي
  4. نطاق التطبيق: تم التحقق حالياً فقط من مهام التصنيف الثنائي

الاتجاهات المستقبلية

  1. تحسين دالة التعيين: استكشاف دوال تعيين أكثر تعقيداً لتحسين الأداء
  2. توسيع التطبيقات: توسيع نطاق التطبيق إلى الاستدلال باللغة الطبيعية وضبط التعليمات والمهام القليلة من العينات الأخرى
  3. تخفيف التحيز: تقليل تحيزات النموذج الأساسي من خلال ضبط MLP في المرحلة الثانية
  4. التعلم متعدد المهام: استكشاف إمكانية التعامل المتزامن مع مهام جداول متعددة

التقييم المتعمق

المزايا

  1. استهداف المشكلة قوي: تحديد دقيق وحل التناقض الأساسي في التطبيقات العملية
  2. ابتكار الطريقة: أول تطبيق لفكرة الشبكات الفائقة في تقطير بيانات الجداول
  3. تصميم التجارب كامل:
    • التحقق على عدة مجموعات بيانات
    • مقارنة شاملة للخطوط الأساسية
    • تجارب استئصال مفصلة
    • تحليل إسناد الميزات
  4. النتائج مقنعة: لا تحقق الأهداف المتوقعة فحسب، بل تكتشف أيضاً الظاهرة المثيرة للاهتمام بأن النموذج المقطر يتفوق على النموذج الأصلي
  5. القيمة العملية عالية: توفير حل قابل للتطبيق المباشر

أوجه القصور

  1. نقص التحليل النظري: يفتقد التحليل النظري لسبب تفوق النموذج المقطر على النموذج الأصلي
  2. حجم مجموعات البيانات محدود: التحقق فقط على 5 مجموعات بيانات نسبياً صغيرة الحجم
  3. نوع المهام موحد: النظر فقط في مهام التصنيف الثنائي، دون تغطية الانحدار أو التصنيف متعدد الفئات
  4. اختيار النموذج الأساسي: اختبار نموذجين أساسيين فقط، مع تغطية محدودة
  5. تحليل التكلفة الحسابية: عدم مقارنة تفصيلية لتكاليف التدريب والاستدلال الفعلية

التأثير

  1. المساهمة الأكاديمية:
    • فتح اتجاه جديد لتقطير المحولات في بيانات الجداول
    • توفير طريقة تفكير جديدة للتعلم القليل من العينات
    • ربط مجالي الشبكات الفائقة وتقطير المعرفة
  2. القيمة العملية:
    • حل مشكلة مهمة في النشر الفعلي
    • توفير حل قابل للتطبيق للبيئات محدودة الموارد
    • قابل للتطبيق المباشر في السيناريوهات الصناعية
  3. إمكانية إعادة الإنتاج:
    • توفير تفاصيل تطبيق مفصلة
    • التزام بالمصدر المفتوح يعزز إمكانية إعادة الإنتاج
    • إعدادات تجريبية واضحة وقابلة للتكرار

السيناريوهات المناسبة

  1. البيئات محدودة الموارد: أجهزة الهاتف المحمول والحوسبة الطرفية وغيرها
  2. تطبيقات القليل من العينات: التشخيص الطبي والتحكم في المخاطر المالية واختبار الجودة وغيرها من المجالات التي تندر فيها البيانات
  3. احتياجات الاستدلال في الوقت الفعلي: الخدمات عبر الإنترنت التي تتطلب استجابة سريعة
  4. متطلبات قابلية تفسير النموذج: مقارنة بالمحولات المعقدة، يسهل تفسير MLP البسيطة

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، تشمل بشكل أساسي:

  • الطرق الكلاسيكية لبيانات الجداول: XGBoost و LightGBM و CatBoost وغيرها
  • تطبيقات المحولات على الجداول: سلسلة TabPFN و SAINT و TabLLM
  • تقطير المعرفة: الأعمال الكلاسيكية لـ Hinton وغيره
  • الشبكات الفائقة: التطبيقات ذات الصلة في رؤية الحاسوب
  • التعلم الفوقي: البحث ذو الصلة بالتعلم السياقي للمحولات

التقييم العام: هذه ورقة بحثية عالية الجودة، تقترح حلاً مبتكراً لمشكلة عملية، مع التحقق التجريبي الشامل والقيمة الأكاديمية والعملية المهمة. على الرغم من وجود بعض القيود، فإنها تقدم مساهمات مهمة لتطور المجالات ذات الصلة.