2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta
Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.
academic

TabDistill: Destillation von Transformern in neuronale Netze für Few-Shot-Tabellenklassifikation

Grundinformationen

  • Papier-ID: 2511.05704
  • Titel: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
  • Autoren: Pasan Dissanayake, Sanghamitra Dutta (University of Maryland, College Park)
  • Klassifikation: cs.LG cs.AI cs.CL
  • Veröffentlichungsdatum: 7. November 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2511.05704

Zusammenfassung

Transformer-basierte Modelle haben bei Tabellendaten im Vergleich zu klassischen Gegenstücken wie neuronalen Netzen und Gradient Boosted Decision Trees (GBDTs) in Szenarien mit begrenzten Trainingsdaten vielversprechende Leistungen gezeigt. Sie nutzen ihr vortrainiertes Wissen, um sich an neue Domänen anzupassen und erzielen beachtliche Leistungen mit nur wenigen Trainingsbeispielen, auch Few-Shot-Regime genannt. Allerdings geht der Leistungsgewinn im Few-Shot-Regime auf Kosten einer erheblich erhöhten Komplexität und Parameteranzahl. Um diesen Kompromiss zu vermeiden, stellen wir TabDistill vor, eine neue Strategie zur Destillation des vortrainierten Wissens in komplexen Transformer-basierten Modellen in einfachere neuronale Netze zur effektiven Klassifikation von Tabellendaten. Unser Framework bietet das Beste aus beiden Welten: Parametereffizient zu sein und gleichzeitig mit begrenzten Trainingsdaten gut zu funktionieren. Die destillierten neuronalen Netze übertreffen klassische Baselines wie reguläre neuronale Netze, XGBoost und logistische Regression bei gleichen Trainingsdaten und übersteigen in einigen Fällen sogar die ursprünglichen Transformer-basierten Modelle, aus denen sie destilliert wurden.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit einem grundlegenden Widerspruch bei der Klassifikation von Tabellendaten: Im Few-Shot-Szenario zeigen Transformer-basierte Modelle zwar hervorragende Leistungen, verfügen aber über eine enorme Parameteranzahl und hohe Rechenkomplexität, was ihre praktische Bereitstellung erschwert.

Bedeutung des Problems

  1. Praktische Anforderungen: In hochriskanten Bereichen wie Finanzen, Medizin und Fertigung ist die Knappheit annotierter Daten ein häufiges Problem, wie bei der Diagnose seltener Krankheiten oder der Vorhersage hundertjähriger Naturphänomene
  2. Kosten der Datenannotation: In Finanzanwendungen ist die Datenannotation teuer und unterliegt Subjektivität, Annotationsfehlern und mangelndem Konsens
  3. Bereitstellungsbeschränkungen: Praktische Anwendungen erfordern parametereffiziente und skalierbare Modelle, um sich an unterschiedliche Infrastrukturniveaus anzupassen

Einschränkungen bestehender Methoden

  1. Traditionelle Methoden: XGBoost, CatBoost, LightGBM zeigen bei ausreichenden Daten hervorragende Leistungen, aber ihre Leistung sinkt im Few-Shot-Szenario erheblich
  2. Transformer-Methoden: TabPFN, TabLLM und ähnliche zeigen im Few-Shot-Szenario hervorragende Leistungen, verfügen aber über Millionen bis Milliarden Parameter, was hohe Inferenzkosten verursacht
  3. Effizienz-Leistungs-Kompromiss: Es fehlt eine Lösung, die sowohl Few-Shot-Leistung als auch Parametereffizienz bewahrt

Forschungsmotivation

Die Autoren stellen die zentrale Frage: "Können wir das Beste aus beiden Welten erreichen – Parametereffizienz bewahren und gleichzeitig mit begrenzten Trainingsdaten gut funktionieren?"

Kernbeiträge

  1. Vorstellung des TabDistill-Frameworks: Eine neue Strategie zur Destillation von Transformer-Wissen in neuronale Netze, um parametereffiziente Tabellenklassifikation zu erreichen
  2. Zwei Modellinstanziierungen: Framework-Implementierung basierend auf TabPFN (~11M Parameter) und BigScience T0pp (~11B Parameter), destilliert zu MLPs mit etwa 1000 Parametern
  3. Experimentelle Validierung: Validierung auf 5 Tabellendatensätzen zeigt, dass destillierte MLPs klassische Baselines übertreffen und in einigen Fällen sogar die ursprünglichen Transformer-Modelle übertreffen
  4. Innovative Trainingsstrategie: Einführung permutationsbasierter Trainingstechniken zur Vermeidung von Überanpassung bei extrem kleinen Trainingsmengen

Methodische Details

Aufgabendefinition

Gegeben ein kleiner Tabellendatensatz DN={(xn,yn),xnX,yn{0,1},n=1,...,N}D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}, wobei N10N \sim 10, besteht das Ziel darin, das Wissen eines vortrainierten Transformer-Modells ff zu nutzen, um ein einfaches MLP hθ(x):X{0,1}h_\theta(x): X \to \{0,1\} zu generieren.

Modellarchitektur

Gesamtframework

TabDistill besteht aus zwei Phasen:

  • Phase 1: Feinabstimmung des Basis-Transformer-Modells zur Generierung von hochwertigem MLP
  • Phase 2: Optionale zusätzliche MLP-Feinabstimmung

Kernkomponenten

  1. Zerlegung des Basismodells:
    • Encoder: fE(s):SZf_E(s): S \to Z
    • Decoder: fD(z):Z{0,1}f_D(z): Z \to \{0,1\}
  2. MLP-Architektur:
    h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
    

    wobei R die Anzahl der Schichten und L die Breite der verborgenen Schichten ist
  3. Lineare Abbildung:
    m_η(z) = LayerNorm(Az + b)
    

    wobei ARdim(Θ)×dim(Z)A \in R^{dim(Θ)×dim(Z)}, η=(A,b)η = (A,b)

Trainingsablauf

Phase-1-Verlustfunktion:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

wobei θ=mη(fE(g(DN)))θ = m_η(f_E(g(D_N)))

Technische Innovationen

  1. Hypernetwork-Idee: Inspiriert von Erfahrungen in der Computervision wird der Transformer als Hypernetwork zur Generierung von Neuronennetzgewichten verwendet
  2. Permutationserweiterung: Zufällige Permutation der Merkmalsreihenfolge in jedem Trainings-Epoch zur Vermeidung von Überanpassung
  3. Parametereffiziente Feinabstimmung: Nur lineare Abbildungsparameter ηη werden feinabgestimmt, während Basismodellparameter unverändert bleiben
  4. Zweiphasen-Design: Erst destillieren, dann feinabstimmen, um vortrainiertes Wissen vollständig zu nutzen

Spezifische Instanziierungen

TabDistill + TabPFN

  • Direkte Verwendung von Tabellendaten, g(x)=xg(x) = x (Identitätstransformation)
  • Encoder-Ausgabedimension: 192N192N
  • Abbildungsmatrix-Dimension: dim(Θ)×192Ndim(Θ) × 192N

TabDistill + T0pp

  • Verwendung von Textserialisierung: "The <column name> is <value>"
  • Encoder-Ausgabedimension: 4096
  • Abbildungsmatrix-Dimension: dim(Θ)×4096dim(Θ) × 4096

Experimentelle Einrichtung

Datensätze

Verwendung von 5 öffentlichen Tabellendatensätzen:

  1. Bank (UCI Bank Marketing): Vorhersage, ob Kunden ein Termingeldkonto abschließen
  2. Blood (UCI Blood Transfusion): Vorhersage der Blutspendebeteiligung
  3. Calhousing (California Housing): Vorhersage des Wertes von Wohnvierteln
  4. Heart (UCI Heart Disease): Vorhersage von Herzerkrankungen
  5. Income (Census Income): Vorhersage, ob das Jahreseinkommen 50K übersteigt

Bewertungsmetriken

ROC-AUC wird als primäre Bewertungsmetrik verwendet, um die Klassifikationsleistung im Few-Shot-Szenario zu berücksichtigen.

Vergleichsmethoden

  1. Klassische Baselines: Logistische Regression, XGBoost, unabhängig trainierte MLPs
  2. Basismodelle: TabPFN, T0pp (TabLLM)
  3. Destillierte Modelle: TabDistill + TabPFN, TabDistill + T0pp

Implementierungsdetails

  • MLP-Architektur: 4 Schichten, 10 Neuronen pro Schicht (~1000 Parameter)
  • Trainingseinstellungen: Phase 1 Feinabstimmung für 300 Epochen, Phase 2 zusätzlich 100 Epochen
  • Hyperparameter-Optimierung: Rastersuche mit Weights & Biases
  • Stichprobengröße: N ∈ {4, 8, 16, 32, 64}

Experimentelle Ergebnisse

Hauptergebnisse

Nach den ROC-AUC-Ergebnissen in Tabelle 1:

Extrem wenige Stichproben (N=4)

  • TabDistill + TabPFN erreicht 0,72 auf dem Bank-Datensatz und übertrifft deutlich alle klassischen Baselines
  • TabDistill + T0pp zeigt hervorragende Leistungen auf mehreren Datensätzen, wie Calhousing (0,67) und Income (0,70)

Leistungstrends

  1. Leistungsverbesserung mit zunehmenden Stichproben: Alle Methoden zeigen allgemeine Leistungsverbesserungen mit zunehmendem N
  2. Unterschiede bei Baseline-Methoden: Keine einzelne klassische Methode ist universell optimal auf allen Datensätzen
  3. Unterschiede bei Modellauswahl: TabDistill + TabPFN ist insgesamt besser als TabDistill + T0pp, aber auf dem Income-Datensatz umgekehrt

Vergleich mit Basismodellen

Tabelle 3 zeigt überraschende Ergebnisse:

  • In einigen Fällen übertreffen destillierte MLPs die ursprünglichen Transformer-Modelle
  • Beispiel: Bank-Datensatz N=4: TabDistill + TabPFN (0,72) > TabPFN (0,62)
  • Dies zeigt, dass der Destillationsprozess nicht nur das Modell komprimiert, sondern möglicherweise auch die Leistung verbessert

Ablationsstudien

Einfluss der Modellkomplexität (Tabelle 2)

  • Test des Einflusses verschiedener Schichtenzahlen R auf die Leistung
  • Ergebnisse zeigen: Die Leistung sinkt, wenn die Komplexität einen bestimmten Schwellenwert überschreitet
  • 4-Schichten-Architektur zeigt in den meisten Fällen die beste Leistung

Merkmalsattributionsanalyse (Abbildung 3)

Verwendung von SHAP zur Analyse der Merkmalswichtigkeit:

  • Destillierte Modelle behalten Konsistenz mit klassischen Baselines bei der Merkmalswichtigkeit
  • Selbst nach Merkmalspermutation identifiziert das Modell korrekt wichtige Merkmale
  • Beweist, dass das Basismodell die Beziehung zwischen MLP-Gewichten und Merkmalsreihenfolge korrekt gelernt hat

Experimentelle Erkenntnisse

  1. Signifikante Destillationseffekte: Im extrem Few-Shot-Szenario sind destillierte Modelle deutlich besser als klassische Methoden
  2. Parametereffizienz: Kompression von Millionen/Milliarden Parametern auf tausend Parameter, massive Effizienzsteigerung
  3. Effektive Wissensübertragung: Vortrainiertes Wissen wird erfolgreich auf einfache MLPs übertragen
  4. Gute Robustheit: Permutationserweiterungsstrategie verhindert effektiv Überanpassung

Verwandte Arbeiten

Klassische Algorithmen für Tabellendaten

  • Traditionelle Vorteile: XGBoost, LightGBM, CatBoost dominieren lange Zeit das Tabellenfeld
  • Few-Shot-Einschränkungen: Von Grund auf trainierte klassische Modelle zeigen im Few-Shot-Szenario erhebliche Leistungseinbußen

Transformer-Anwendungen auf Tabellendaten

  • SAINT: Verwendet Aufmerksamkeitsmechanismen zur Modellierung von Zeilen-Spalten-Interaktionen, führt selbstüberwachtes Vortraining ein
  • TabPFN: Vortraining auf großen Mengen synthetischer Tabellendaten, ermöglicht Vorhersagen neuer Aufgaben ohne zusätzliches Training
  • TabLLM-Serie: Serialisiert Tabellendaten als Text und nutzt LLMs für Klassifikation

Meta-Learning und Hypernetworks

  • Meta-Learning-Verbindung: Transformer sind geschickt im In-Context-Learning, ähnlich dem Meta-Learning-Paradigma
  • Hypernetwork-Anwendungen: In der Computervision gibt es bereits Arbeiten zur Verwendung von Transformern zur Generierung von Neuronennetzgewichten
  • Innovation dieses Papiers: Erste Anwendung dieser Idee auf das Tabellenfeld

WissensDestillation

  • Traditionelle Destillation: Ausrichtung der Ausgaben von Schüler- und Lehrermodellen durch Verlustfunktionen
  • Unterschied dieses Papiers: Direkte Extraktion neuronaler Netze aus Transformern ohne Verlustausrichtung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Validierung der Effektivität: TabDistill erreicht erfolgreich das Gleichgewicht zwischen Parametereffizienz und Few-Shot-Leistung
  2. Leistungsvorteil: Destillierte MLPs übertreffen in den meisten Fällen klassische Baselines und übersteigen in einigen Szenarien sogar die ursprünglichen Transformer
  3. Praktischer Wert: Bietet eine praktisch einsetzbare Lösung, die unterschiedliche Infrastrukturanforderungen erfüllt

Einschränkungen

Die Autoren weisen ehrlich auf folgende Mängel hin:

  1. Leistung bei großen Stichproben: Wenn die Trainingsmuster zunehmen, ist die Leistungssteigerung begrenzt
  2. Einfache Abbildungsfunktion: Die aktuelle Verwendung einfacher linearer Abbildungen kann die Leistungsobergrenze begrenzen
  3. Vererbung von Verzerrungen: Destillierte Modelle können Verzerrungen des Basismodells erben
  4. Anwendungsbereich: Derzeit nur auf binäre Klassifikationsaufgaben validiert

Zukünftige Richtungen

  1. Verbesserung der Abbildungsfunktion: Erforschung komplexerer Abbildungsfunktionen zur Leistungssteigerung
  2. Anwendungserweiterung: Erweiterung auf natürlichsprachliche Inferenz, Anweisungsabstimmung und andere Few-Shot-Aufgaben
  3. Verzerrungsmilderung: Reduktion von Basismodellverzerrungen durch Phase-2-MLP-Feinabstimmung
  4. Multi-Task-Learning: Erforschung der Möglichkeit, mehrere Tabellenaufgaben gleichzeitig zu bearbeiten

Tiefgreifende Bewertung

Stärken

  1. Starke Problemorientierung: Genaue Identifikation und Lösung des Kernwiderspruchs in praktischen Anwendungen
  2. Methodische Innovation: Erste Anwendung der Hypernetwork-Idee auf Tabellendata-Destillation
  3. Vollständiges Experimentdesign:
    • Validierung auf mehreren Datensätzen
    • Umfassende Baseline-Vergleiche
    • Detaillierte Ablationsstudien
    • Merkmalsattributionsanalyse
  4. Überzeugende Ergebnisse: Nicht nur erwartete Ziele erreicht, sondern auch interessantes Phänomen entdeckt, dass destillierte Modelle Originalmodelle übertreffen können
  5. Hoher praktischer Wert: Bietet direkt anwendbare Lösungen

Schwächen

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum destillierte Modelle Originalmodelle übertreffen können
  2. Begrenzte Datensatzgröße: Validierung nur auf 5 relativ kleinen Datensätzen
  3. Einzelne Aufgabentypen: Nur binäre Klassifikation berücksichtigt, keine Regression oder Mehrklassen-Klassifikation
  4. Begrenzte Basismodellauswahl: Nur zwei Basismodelle getestet, begrenzte Abdeckung
  5. Unvollständige Kostenanalyse: Keine detaillierten Vergleiche der tatsächlichen Trainings- und Inferenzkosten

Auswirkungen

  1. Akademische Beiträge:
    • Eröffnet neue Richtung für Transformer-Destillation bei Tabellendaten
    • Bietet neue Lösungsansätze für Few-Shot-Learning
    • Verbindet zwei Forschungsbereiche: Hypernetworks und WissensDestillation
  2. Praktischer Wert:
    • Löst wichtige Probleme bei praktischer Bereitstellung
    • Bietet machbare Lösungen für ressourcenbegrenzte Umgebungen
    • Direkt anwendbar auf Industrieszenarien
  3. Reproduzierbarkeit:
    • Detaillierte Implementierungsdetails bereitgestellt
    • Open-Source-Zusage erhöht Reproduzierbarkeit
    • Klare und wiederholbare Experimenteinrichtung

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Mobile Geräte, Edge-Computing und ähnliche Szenarien
  2. Few-Shot-Anwendungen: Medizinische Diagnose, Finanzrisikoverwaltung, Qualitätskontrolle und andere Bereiche mit Datenmangel
  3. Echtzeit-Inferenzanforderungen: Online-Services, die schnelle Reaktionen erfordern
  4. Anforderungen an Modellinterpretierbarkeit: Im Vergleich zu komplexen Transformern sind einfache MLPs leichter zu interpretieren

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Klassische Methoden für Tabellendaten: XGBoost, LightGBM, CatBoost usw.
  • Transformer-Anwendungen auf Tabellen: TabPFN, SAINT, TabLLM-Serie
  • WissensDestillation: Klassische Arbeiten von Hinton usw.
  • Hypernetworks: Verwandte Anwendungen in der Computervision
  • Meta-Learning: Forschung zu Transformer-In-Context-Learning

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für praktische Probleme bietet, umfassend experimentell validiert ist und sowohl akademischen als auch praktischen Wert hat. Obwohl es einige Einschränkungen gibt, trägt es wichtig zur Entwicklung verwandter Bereiche bei.