2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta

Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.

academic

TabDistill: Destillation von Transformern in neuronale Netze für Few-Shot-Tabellenklassifikation

Grundinformationen

Papier-ID: 2511.05704
Titel: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
Autoren: Pasan Dissanayake, Sanghamitra Dutta (University of Maryland, College Park)
Klassifikation: cs.LG cs.AI cs.CL
Veröffentlichungsdatum: 7. November 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2511.05704

Zusammenfassung

Transformer-basierte Modelle haben bei Tabellendaten im Vergleich zu klassischen Gegenstücken wie neuronalen Netzen und Gradient Boosted Decision Trees (GBDTs) in Szenarien mit begrenzten Trainingsdaten vielversprechende Leistungen gezeigt. Sie nutzen ihr vortrainiertes Wissen, um sich an neue Domänen anzupassen und erzielen beachtliche Leistungen mit nur wenigen Trainingsbeispielen, auch Few-Shot-Regime genannt. Allerdings geht der Leistungsgewinn im Few-Shot-Regime auf Kosten einer erheblich erhöhten Komplexität und Parameteranzahl. Um diesen Kompromiss zu vermeiden, stellen wir TabDistill vor, eine neue Strategie zur Destillation des vortrainierten Wissens in komplexen Transformer-basierten Modellen in einfachere neuronale Netze zur effektiven Klassifikation von Tabellendaten. Unser Framework bietet das Beste aus beiden Welten: Parametereffizient zu sein und gleichzeitig mit begrenzten Trainingsdaten gut zu funktionieren. Die destillierten neuronalen Netze übertreffen klassische Baselines wie reguläre neuronale Netze, XGBoost und logistische Regression bei gleichen Trainingsdaten und übersteigen in einigen Fällen sogar die ursprünglichen Transformer-basierten Modelle, aus denen sie destilliert wurden.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit einem grundlegenden Widerspruch bei der Klassifikation von Tabellendaten: Im Few-Shot-Szenario zeigen Transformer-basierte Modelle zwar hervorragende Leistungen, verfügen aber über eine enorme Parameteranzahl und hohe Rechenkomplexität, was ihre praktische Bereitstellung erschwert.

Bedeutung des Problems

Praktische Anforderungen: In hochriskanten Bereichen wie Finanzen, Medizin und Fertigung ist die Knappheit annotierter Daten ein häufiges Problem, wie bei der Diagnose seltener Krankheiten oder der Vorhersage hundertjähriger Naturphänomene
Kosten der Datenannotation: In Finanzanwendungen ist die Datenannotation teuer und unterliegt Subjektivität, Annotationsfehlern und mangelndem Konsens
Bereitstellungsbeschränkungen: Praktische Anwendungen erfordern parametereffiziente und skalierbare Modelle, um sich an unterschiedliche Infrastrukturniveaus anzupassen

Einschränkungen bestehender Methoden

Traditionelle Methoden: XGBoost, CatBoost, LightGBM zeigen bei ausreichenden Daten hervorragende Leistungen, aber ihre Leistung sinkt im Few-Shot-Szenario erheblich
Transformer-Methoden: TabPFN, TabLLM und ähnliche zeigen im Few-Shot-Szenario hervorragende Leistungen, verfügen aber über Millionen bis Milliarden Parameter, was hohe Inferenzkosten verursacht
Effizienz-Leistungs-Kompromiss: Es fehlt eine Lösung, die sowohl Few-Shot-Leistung als auch Parametereffizienz bewahrt

Forschungsmotivation

Die Autoren stellen die zentrale Frage: "Können wir das Beste aus beiden Welten erreichen – Parametereffizienz bewahren und gleichzeitig mit begrenzten Trainingsdaten gut funktionieren?"

Kernbeiträge

Vorstellung des TabDistill-Frameworks: Eine neue Strategie zur Destillation von Transformer-Wissen in neuronale Netze, um parametereffiziente Tabellenklassifikation zu erreichen
Zwei Modellinstanziierungen: Framework-Implementierung basierend auf TabPFN (~11M Parameter) und BigScience T0pp (~11B Parameter), destilliert zu MLPs mit etwa 1000 Parametern
Experimentelle Validierung: Validierung auf 5 Tabellendatensätzen zeigt, dass destillierte MLPs klassische Baselines übertreffen und in einigen Fällen sogar die ursprünglichen Transformer-Modelle übertreffen
Innovative Trainingsstrategie: Einführung permutationsbasierter Trainingstechniken zur Vermeidung von Überanpassung bei extrem kleinen Trainingsmengen

Methodische Details

Aufgabendefinition

Gegeben ein kleiner Tabellendatensatz $D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}$ , wobei $N \sim 10$ , besteht das Ziel darin, das Wissen eines vortrainierten Transformer-Modells $f$ zu nutzen, um ein einfaches MLP $h_\theta(x): X \to \{0,1\}$ zu generieren.

Modellarchitektur

Gesamtframework

TabDistill besteht aus zwei Phasen:

Phase 1: Feinabstimmung des Basis-Transformer-Modells zur Generierung von hochwertigem MLP
Phase 2: Optionale zusätzliche MLP-Feinabstimmung

Kernkomponenten

Zerlegung des Basismodells:
- Encoder: $f_E(s): S \to Z$
- Decoder: $f_D(z): Z \to \{0,1\}$
MLP-Architektur:
```
h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
```
wobei R die Anzahl der Schichten und L die Breite der verborgenen Schichten ist
Lineare Abbildung:
```
m_η(z) = LayerNorm(Az + b)
```
wobei $A \in R^{dim(Θ)×dim(Z)}$ $A \in R^{d im (Θ) \times d im (Z)}$ , $η = (A,b)$ $η = (A, b)$

Trainingsablauf

Phase-1-Verlustfunktion:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

wobei $θ = m_η(f_E(g(D_N)))$

Technische Innovationen

Hypernetwork-Idee: Inspiriert von Erfahrungen in der Computervision wird der Transformer als Hypernetwork zur Generierung von Neuronennetzgewichten verwendet
Permutationserweiterung: Zufällige Permutation der Merkmalsreihenfolge in jedem Trainings-Epoch zur Vermeidung von Überanpassung
Parametereffiziente Feinabstimmung: Nur lineare Abbildungsparameter $η$ werden feinabgestimmt, während Basismodellparameter unverändert bleiben
Zweiphasen-Design: Erst destillieren, dann feinabstimmen, um vortrainiertes Wissen vollständig zu nutzen

Spezifische Instanziierungen

TabDistill + TabPFN

Direkte Verwendung von Tabellendaten, $g(x) = x$ (Identitätstransformation)
Encoder-Ausgabedimension: $192N$
Abbildungsmatrix-Dimension: $dim(Θ) × 192N$

TabDistill + T0pp

Verwendung von Textserialisierung: "The <column name> is <value>"
Encoder-Ausgabedimension: 4096
Abbildungsmatrix-Dimension: $dim(Θ) × 4096$

Experimentelle Einrichtung

Datensätze

Verwendung von 5 öffentlichen Tabellendatensätzen:

Bank (UCI Bank Marketing): Vorhersage, ob Kunden ein Termingeldkonto abschließen
Blood (UCI Blood Transfusion): Vorhersage der Blutspendebeteiligung
Calhousing (California Housing): Vorhersage des Wertes von Wohnvierteln
Heart (UCI Heart Disease): Vorhersage von Herzerkrankungen
Income (Census Income): Vorhersage, ob das Jahreseinkommen 50K übersteigt

Bewertungsmetriken

ROC-AUC wird als primäre Bewertungsmetrik verwendet, um die Klassifikationsleistung im Few-Shot-Szenario zu berücksichtigen.

Vergleichsmethoden

Klassische Baselines: Logistische Regression, XGBoost, unabhängig trainierte MLPs
Basismodelle: TabPFN, T0pp (TabLLM)
Destillierte Modelle: TabDistill + TabPFN, TabDistill + T0pp

Implementierungsdetails

MLP-Architektur: 4 Schichten, 10 Neuronen pro Schicht (~1000 Parameter)
Trainingseinstellungen: Phase 1 Feinabstimmung für 300 Epochen, Phase 2 zusätzlich 100 Epochen
Hyperparameter-Optimierung: Rastersuche mit Weights & Biases
Stichprobengröße: N ∈ {4, 8, 16, 32, 64}

Experimentelle Ergebnisse

Hauptergebnisse

Nach den ROC-AUC-Ergebnissen in Tabelle 1:

Extrem wenige Stichproben (N=4)

TabDistill + TabPFN erreicht 0,72 auf dem Bank-Datensatz und übertrifft deutlich alle klassischen Baselines
TabDistill + T0pp zeigt hervorragende Leistungen auf mehreren Datensätzen, wie Calhousing (0,67) und Income (0,70)

Leistungstrends

Leistungsverbesserung mit zunehmenden Stichproben: Alle Methoden zeigen allgemeine Leistungsverbesserungen mit zunehmendem N
Unterschiede bei Baseline-Methoden: Keine einzelne klassische Methode ist universell optimal auf allen Datensätzen
Unterschiede bei Modellauswahl: TabDistill + TabPFN ist insgesamt besser als TabDistill + T0pp, aber auf dem Income-Datensatz umgekehrt

Vergleich mit Basismodellen

Tabelle 3 zeigt überraschende Ergebnisse:

In einigen Fällen übertreffen destillierte MLPs die ursprünglichen Transformer-Modelle
Beispiel: Bank-Datensatz N=4: TabDistill + TabPFN (0,72) > TabPFN (0,62)
Dies zeigt, dass der Destillationsprozess nicht nur das Modell komprimiert, sondern möglicherweise auch die Leistung verbessert

Ablationsstudien

Einfluss der Modellkomplexität (Tabelle 2)

Test des Einflusses verschiedener Schichtenzahlen R auf die Leistung
Ergebnisse zeigen: Die Leistung sinkt, wenn die Komplexität einen bestimmten Schwellenwert überschreitet
4-Schichten-Architektur zeigt in den meisten Fällen die beste Leistung

Merkmalsattributionsanalyse (Abbildung 3)

Verwendung von SHAP zur Analyse der Merkmalswichtigkeit:

Destillierte Modelle behalten Konsistenz mit klassischen Baselines bei der Merkmalswichtigkeit
Selbst nach Merkmalspermutation identifiziert das Modell korrekt wichtige Merkmale
Beweist, dass das Basismodell die Beziehung zwischen MLP-Gewichten und Merkmalsreihenfolge korrekt gelernt hat

Experimentelle Erkenntnisse

Signifikante Destillationseffekte: Im extrem Few-Shot-Szenario sind destillierte Modelle deutlich besser als klassische Methoden
Parametereffizienz: Kompression von Millionen/Milliarden Parametern auf tausend Parameter, massive Effizienzsteigerung
Effektive Wissensübertragung: Vortrainiertes Wissen wird erfolgreich auf einfache MLPs übertragen
Gute Robustheit: Permutationserweiterungsstrategie verhindert effektiv Überanpassung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Validierung der Effektivität: TabDistill erreicht erfolgreich das Gleichgewicht zwischen Parametereffizienz und Few-Shot-Leistung
Leistungsvorteil: Destillierte MLPs übertreffen in den meisten Fällen klassische Baselines und übersteigen in einigen Szenarien sogar die ursprünglichen Transformer
Praktischer Wert: Bietet eine praktisch einsetzbare Lösung, die unterschiedliche Infrastrukturanforderungen erfüllt

Einschränkungen

Die Autoren weisen ehrlich auf folgende Mängel hin:

Leistung bei großen Stichproben: Wenn die Trainingsmuster zunehmen, ist die Leistungssteigerung begrenzt
Einfache Abbildungsfunktion: Die aktuelle Verwendung einfacher linearer Abbildungen kann die Leistungsobergrenze begrenzen
Vererbung von Verzerrungen: Destillierte Modelle können Verzerrungen des Basismodells erben
Anwendungsbereich: Derzeit nur auf binäre Klassifikationsaufgaben validiert

Zukünftige Richtungen

Verbesserung der Abbildungsfunktion: Erforschung komplexerer Abbildungsfunktionen zur Leistungssteigerung
Anwendungserweiterung: Erweiterung auf natürlichsprachliche Inferenz, Anweisungsabstimmung und andere Few-Shot-Aufgaben
Verzerrungsmilderung: Reduktion von Basismodellverzerrungen durch Phase-2-MLP-Feinabstimmung
Multi-Task-Learning: Erforschung der Möglichkeit, mehrere Tabellenaufgaben gleichzeitig zu bearbeiten

Tiefgreifende Bewertung

Stärken

Starke Problemorientierung: Genaue Identifikation und Lösung des Kernwiderspruchs in praktischen Anwendungen
Methodische Innovation: Erste Anwendung der Hypernetwork-Idee auf Tabellendata-Destillation
Vollständiges Experimentdesign:
- Validierung auf mehreren Datensätzen
- Umfassende Baseline-Vergleiche
- Detaillierte Ablationsstudien
- Merkmalsattributionsanalyse
Überzeugende Ergebnisse: Nicht nur erwartete Ziele erreicht, sondern auch interessantes Phänomen entdeckt, dass destillierte Modelle Originalmodelle übertreffen können
Hoher praktischer Wert: Bietet direkt anwendbare Lösungen

Schwächen

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum destillierte Modelle Originalmodelle übertreffen können
Begrenzte Datensatzgröße: Validierung nur auf 5 relativ kleinen Datensätzen
Einzelne Aufgabentypen: Nur binäre Klassifikation berücksichtigt, keine Regression oder Mehrklassen-Klassifikation
Begrenzte Basismodellauswahl: Nur zwei Basismodelle getestet, begrenzte Abdeckung
Unvollständige Kostenanalyse: Keine detaillierten Vergleiche der tatsächlichen Trainings- und Inferenzkosten

Auswirkungen

Akademische Beiträge:
- Eröffnet neue Richtung für Transformer-Destillation bei Tabellendaten
- Bietet neue Lösungsansätze für Few-Shot-Learning
- Verbindet zwei Forschungsbereiche: Hypernetworks und WissensDestillation
Praktischer Wert:
- Löst wichtige Probleme bei praktischer Bereitstellung
- Bietet machbare Lösungen für ressourcenbegrenzte Umgebungen
- Direkt anwendbar auf Industrieszenarien
Reproduzierbarkeit:
- Detaillierte Implementierungsdetails bereitgestellt
- Open-Source-Zusage erhöht Reproduzierbarkeit
- Klare und wiederholbare Experimenteinrichtung

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Mobile Geräte, Edge-Computing und ähnliche Szenarien
Few-Shot-Anwendungen: Medizinische Diagnose, Finanzrisikoverwaltung, Qualitätskontrolle und andere Bereiche mit Datenmangel
Echtzeit-Inferenzanforderungen: Online-Services, die schnelle Reaktionen erfordern
Anforderungen an Modellinterpretierbarkeit: Im Vergleich zu komplexen Transformern sind einfache MLPs leichter zu interpretieren

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Klassische Methoden für Tabellendaten: XGBoost, LightGBM, CatBoost usw.
Transformer-Anwendungen auf Tabellen: TabPFN, SAINT, TabLLM-Serie
WissensDestillation: Klassische Arbeiten von Hinton usw.
Hypernetworks: Verwandte Anwendungen in der Computervision
Meta-Learning: Forschung zu Transformer-In-Context-Learning

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für praktische Probleme bietet, umfassend experimentell validiert ist und sowohl akademischen als auch praktischen Wert hat. Obwohl es einige Einschränkungen gibt, trägt es wichtig zur Entwicklung verwandter Bereiche bei.