TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
Dissanayake, Dutta
Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.
academic
TabDistill: تقطير المحولات إلى الشبكات العصبية لتصنيف الجداول في النظام القليل العينات
أظهرت النماذج القائمة على المحولات (Transformers) أداءً واعداً على بيانات الجداول مقارنة بنظيراتها الكلاسيكية مثل الشبكات العصبية وأشجار القرار المعززة بالتدرج (GBDTs) في السيناريوهات التي تتوفر فيها بيانات تدريب محدودة. تستخدم هذه النماذج معرفتها المسبقة المدربة للتكيف مع المجالات الجديدة، محققة أداءً جديراً بالثناء مع عدد قليل فقط من أمثلة التدريب، وهو ما يُعرّف بنظام القليل من العينات (few-shot regime). ومع ذلك، فإن تحسن الأداء في نظام القليل من العينات يأتي على حساب زيادة كبيرة في التعقيد وعدد المعاملات. لتجنب هذه المقايضة، نقدم TabDistill، وهي استراتيجية جديدة لتقطير المعرفة المسبقة المدربة في نماذج المحولات المعقدة إلى شبكات عصبية أبسط لتصنيف بيانات الجداول بفعالية. يحقق إطار عملنا أفضل ما في العالمين: كونه فعالاً من حيث المعاملات مع الأداء الجيد مع بيانات التدريب المحدودة. تتفوق الشبكات العصبية المقطرة على الخطوط الأساسية الكلاسيكية مثل الشبكات العصبية العادية و XGBoost والانحدار اللوجستي تحت بيانات تدريب متساوية، وفي بعض الحالات، حتى على نماذج المحولات الأصلية التي تم تقطيرها منها.
يسعى هذا البحث إلى حل تناقض أساسي في تصنيف بيانات الجداول: في سيناريوهات القليل من العينات، على الرغم من أن نماذج المحولات تتمتع بأداء ممتازة، إلا أنها تتمتع بعدد معاملات ضخم وتعقيد حسابي عالي، مما يجعل من الصعب نشرها في التطبيقات العملية.
احتياجات التطبيق العملي: في المجالات عالية المخاطر مثل التمويل والطب والتصنيع، يعتبر ندرة البيانات المعنونة مشكلة شائعة، مثل تشخيص الأمراض النادرة والتنبؤ بالظواهر الطبيعية النادرة
تكلفة تعنون البيانات: في التطبيقات المالية، يكون تعنون البيانات مكلفاً ويعاني من الذاتية والأخطاء والافتقار إلى الإجماع
قيود النشر: تتطلب التطبيقات العملية نماذج فعالة من حيث المعاملات وقابلة للتوسع لتناسب مستويات البنية التحتية المختلفة
الطرق التقليدية: تتفوق XGBoost و CatBoost و LightGBM عندما تتوفر بيانات كافية، لكن أدائها ينخفض بشكل ملحوظ في سيناريوهات القليل من العينات
طرق المحولات: تُظهر TabPFN و TabLLM أداءً ممتازاً في سيناريوهات القليل من العينات، لكن عدد معاملاتها يصل إلى ملايين أو حتى مليارات، مما يجعل تكاليف الاستدلال عالية جداً
مقايضة الكفاءة والأداء: يفتقد الحل الذي يحافظ على أداء القليل من العينات مع الحفاظ على كفاءة المعاملات
اقتراح إطار TabDistill: استراتيجية جديدة لتقطير معرفة نماذج المحولات إلى شبكات عصبية، مما يحقق تصنيف بيانات جداول فعال من حيث المعاملات
تطبيق نموذجين: تطبيق الإطار بناءً على TabPFN (~11M معامل) و BigScience T0pp (~11B معامل)، مع تقطيرها إلى MLP بحوالي 1000 معامل
التحقق التجريبي: التحقق من الإطار على 5 مجموعات بيانات جداول، حيث تتفوق MLP المقطرة على الخطوط الأساسية الكلاسيكية، وفي بعض الحالات حتى على نماذج المحولات الأصلية
استراتيجية تدريب مبتكرة: إدخال تقنية تدريب قائمة على الترتيب لتجنب الإفراط في التدريب على مجموعات التدريب الصغيرة جداً
بالنظر إلى مجموعة بيانات جداول صغيرة الحجم DN={(xn,yn),xn∈X,yn∈{0,1},n=1,...,N}، حيث N∼10، الهدف هو استخدام معرفة نموذج المحول المسبق التدريب f لإنشاء MLP بسيط hθ(x):X→{0,1}.
تستشهد الورقة بأعمال ذات صلة غنية، تشمل بشكل أساسي:
الطرق الكلاسيكية لبيانات الجداول: XGBoost و LightGBM و CatBoost وغيرها
تطبيقات المحولات على الجداول: سلسلة TabPFN و SAINT و TabLLM
تقطير المعرفة: الأعمال الكلاسيكية لـ Hinton وغيره
الشبكات الفائقة: التطبيقات ذات الصلة في رؤية الحاسوب
التعلم الفوقي: البحث ذو الصلة بالتعلم السياقي للمحولات
التقييم العام: هذه ورقة بحثية عالية الجودة، تقترح حلاً مبتكراً لمشكلة عملية، مع التحقق التجريبي الشامل والقيمة الأكاديمية والعملية المهمة. على الرغم من وجود بعض القيود، فإنها تقدم مساهمات مهمة لتطور المجالات ذات الصلة.