2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta

Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.

academic

TabDistill: Distillazione di Transformer in Reti Neurali per la Classificazione Tabulare Few-Shot

Informazioni Fondamentali

ID Articolo: 2511.05704
Titolo: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
Autori: Pasan Dissanayake, Sanghamitra Dutta (University of Maryland, College Park)
Classificazione: cs.LG cs.AI cs.CL
Data di Pubblicazione: 7 novembre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2511.05704

Riassunto

I modelli basati su Transformer hanno dimostrato prestazioni promettenti sui dati tabulari rispetto ai loro equivalenti classici come le reti neurali e gli Alberi di Decisione Potenziati da Gradiente (GBDT) in scenari con dati di addestramento limitati. Utilizzano la loro conoscenza pre-addestrata per adattarsi a nuovi domini, ottenendo prestazioni lodevoli con solo pochi esempi di addestramento, noto anche come regime few-shot. Tuttavia, il guadagno di prestazioni nel regime few-shot avviene a scapito di una complessità significativamente aumentata e di un numero di parametri. Per evitare questo compromesso, introduciamo TabDistill, una nuova strategia per distillare la conoscenza pre-addestrata in modelli complessi basati su Transformer in reti neurali più semplici per classificare efficacemente i dati tabulari. Il nostro framework offre il meglio di entrambi i mondi: essere efficiente in termini di parametri mantenendo buone prestazioni con dati di addestramento limitati. Le reti neurali distillate superano i baseline classici come le reti neurali regolari, XGBoost e la regressione logistica con pari dati di addestramento, e in alcuni casi, persino i modelli originali basati su Transformer da cui sono stati distillati.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta una contraddizione fondamentale nella classificazione di dati tabulari: negli scenari few-shot, i modelli basati su Transformer, sebbene performanti, hanno un numero enorme di parametri e un'elevata complessità computazionale, rendendo difficile il loro dispiegamento nelle applicazioni pratiche.

Importanza del Problema

Esigenze Applicative Pratiche: In settori ad alto rischio come finanza, medicina e manifattura, la scarsità di dati annotati è un problema comune, come nella diagnosi di malattie rare o nella previsione di fenomeni naturali centenari
Costi di Annotazione dei Dati: Nelle applicazioni finanziarie l'annotazione dei dati è costosa, con problemi di soggettività, annotazioni errate e mancanza di consenso
Vincoli di Dispiegamento: Le applicazioni pratiche richiedono modelli efficienti in termini di parametri e scalabili, per adattarsi a diversi livelli di infrastruttura

Limitazioni dei Metodi Esistenti

Metodi Tradizionali: XGBoost, CatBoost, LightGBM mostrano prestazioni eccellenti con dati sufficienti, ma le prestazioni diminuiscono significativamente negli scenari few-shot
Metodi Transformer: TabPFN, TabLLM e simili mostrano prestazioni eccellenti negli scenari few-shot, ma hanno parametri che raggiungono milioni o persino miliardi, con costi di inferenza elevati
Compromesso Efficienza-Prestazioni: Manca una soluzione che mantenga le prestazioni few-shot e l'efficienza dei parametri simultaneamente

Motivazione della Ricerca

Gli autori pongono la domanda centrale: "Possiamo ottenere il meglio di entrambi i mondi, mantenendo l'efficienza dei parametri e mostrando buone prestazioni con dati di addestramento limitati?"

Contributi Principali

Proposta del Framework TabDistill: Una nuova strategia per distillare la conoscenza dai modelli Transformer in reti neurali, realizzando una classificazione tabulare efficiente in termini di parametri
Istanziazione Dual-Model: Implementazione del framework basata su TabPFN (~11M parametri) e BigScience T0pp (~11B parametri), distillati in MLP di circa 1000 parametri
Verifica Sperimentale: Validazione su 5 dataset tabulari, con MLP distillati che superano i baseline classici e in alcuni casi persino i modelli Transformer originali
Strategia di Addestramento Innovativa: Introduzione di tecniche di addestramento basate su permutazioni per evitare l'overfitting su insiemi di addestramento estremamente piccoli

Dettagli del Metodo

Definizione del Compito

Dato un piccolo dataset tabulare $D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}$ , dove $N \sim 10$ , l'obiettivo è utilizzare la conoscenza del modello Transformer pre-addestrato $f$ per generare un semplice MLP $h_\theta(x): X \to \{0,1\}$ .

Architettura del Modello

Framework Complessivo

TabDistill comprende due fasi:

Fase 1: Messa a punto del modello Transformer di base per generare MLP di qualità
Fase 2: Messa a punto aggiuntiva facoltativa dell'MLP

Componenti Principali

Decomposizione del Modello di Base:
- Encoder: $f_E(s): S \to Z$
- Decoder: $f_D(z): Z \to \{0,1\}$
Architettura MLP:
```
h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
```
dove R è il numero di strati, L è la larghezza dello strato nascosto
Mappatura Lineare:
```
m_η(z) = LayerNorm(Az + b)
```
dove $A \in R^{dim(Θ)×dim(Z)}$ $A \in R^{d im (Θ) \times d im (Z)}$ , $η = (A,b)$ $η = (A, b)$

Procedura di Addestramento

Funzione di Perdita Fase 1:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

dove $θ = m_η(f_E(g(D_N)))$

Punti di Innovazione Tecnica

Idea di Iper-Rete: Ispirato dall'esperienza della visione artificiale, utilizzando Transformer come iper-rete per generare pesi di reti neurali
Potenziamento per Permutazione: Permutazione casuale dell'ordine delle caratteristiche ad ogni epoca di addestramento per evitare l'overfitting
Messa a Punto Efficiente in Parametri: Messa a punto solo dei parametri di mappatura lineare $η$ , mantenendo i parametri del modello di base invariati
Design a Due Fasi: Distillazione seguita da messa a punto, sfruttando pienamente la conoscenza pre-addestrata

Istanziazioni Specifiche

TabDistill + TabPFN

Utilizzo diretto dei dati tabulari, $g(x) = x$ (trasformazione identità)
Dimensione di output dell'encoder: $192N$
Dimensione della matrice di mappatura: $dim(Θ) × 192N$

TabDistill + T0pp

Serializzazione testuale: "The <column name> is <value>"
Dimensione di output dell'encoder: 4096
Dimensione della matrice di mappatura: $dim(Θ) × 4096$

Configurazione Sperimentale

Dataset

Utilizzo di 5 dataset tabulari pubblici:

Bank (UCI Bank Marketing): Previsione se il cliente sottoscriverà un deposito a termine
Blood (UCI Blood Transfusion): Previsione se donerà sangue
Calhousing (California Housing): Previsione se il valore della proprietà nel quartiere è elevato
Heart (UCI Heart Disease): Previsione se il paziente ha malattie cardiache
Income (Census Income): Previsione se il reddito annuale supera 50K

Metriche di Valutazione

Utilizzo di ROC-AUC come metrica di valutazione principale, considerando le prestazioni di classificazione negli scenari few-shot.

Metodi di Confronto

Baseline Classici: Regressione logistica, XGBoost, MLP addestrato indipendentemente
Modelli di Base: TabPFN, T0pp (TabLLM)
Modelli Distillati: TabDistill + TabPFN, TabDistill + T0pp

Dettagli di Implementazione

Architettura MLP: 4 strati, 10 neuroni per strato (~1000 parametri)
Configurazione Addestramento: Messa a punto Fase 1 per 300 epoche, Fase 2 per 100 epoche aggiuntive
Ottimizzazione Iperparametri: Ricerca a griglia utilizzando Weights & Biases
Scale di Campionamento: N ∈ {4, 8, 16, 32, 64}

Risultati Sperimentali

Risultati Principali

Secondo i risultati ROC-AUC della Tabella 1:

Scenario Estremamente Few-Shot (N=4)

TabDistill + TabPFN raggiunge 0.72 sul dataset Bank, superando significativamente tutti i baseline classici
TabDistill + T0pp mostra prestazioni eccellenti su più dataset, come Calhousing (0.67) e Income (0.70)

Tendenze di Prestazione

Miglioramento delle Prestazioni con Aumento dei Campioni: Tutti i metodi mostrano miglioramenti generali delle prestazioni all'aumentare di N
Differenze nei Metodi Baseline: Nessun singolo metodo classico è universalmente ottimale su tutti i dataset
Differenze nella Scelta del Modello: TabDistill + TabPFN è generalmente superiore a TabDistill + T0pp, ma il contrario vale per il dataset Income

Confronto con Modelli di Base

La Tabella 3 mostra risultati sorprendenti:

In alcuni casi, l'MLP distillato supera il modello Transformer originale
Ad esempio, sul dataset Bank con N=4: TabDistill + TabPFN (0.72) > TabPFN (0.62)
Ciò suggerisce che il processo di distillazione non solo comprime il modello, ma può anche migliorare le prestazioni

Esperimenti di Ablazione

Impatto della Complessità del Modello (Tabella 2)

Test dell'influenza di diversi numeri di strati R sulle prestazioni
I risultati mostrano: le prestazioni diminuiscono quando la complessità supera una certa soglia
L'architettura a 4 strati mostra le migliori prestazioni nella maggior parte dei casi

Analisi dell'Attribuzione delle Caratteristiche (Figura 3)

Utilizzo di SHAP per analizzare l'importanza delle caratteristiche:

Il modello distillato mantiene coerenza con i baseline classici nell'importanza delle caratteristiche
Anche dopo la permutazione delle caratteristiche, il modello identifica correttamente le caratteristiche importanti
Ciò dimostra che il modello di base ha correttamente appreso l'associazione tra i pesi dell'MLP e l'ordine delle caratteristiche

Scoperte Sperimentali

Effetto di Distillazione Significativo: Nel regime few-shot estremo, i modelli distillati sono chiaramente superiori ai metodi classici
Efficienza dei Parametri: Compressione da milioni/miliardi di parametri a parametri di ordine migliaia, con enorme miglioramento dell'efficienza
Trasferimento di Conoscenza Efficace: La conoscenza pre-addestrata viene trasferita con successo in semplici MLP
Buona Robustezza: La strategia di potenziamento per permutazione previene efficacemente l'overfitting

Lavori Correlati

Algoritmi Classici per Dati Tabulari

Vantaggi Tradizionali: XGBoost, LightGBM, CatBoost hanno dominato a lungo il campo dei dati tabulari
Limitazioni Few-Shot: I modelli classici addestrati da zero mostrano prestazioni significativamente ridotte negli scenari few-shot

Applicazioni di Transformer ai Dati Tabulari

SAINT: Utilizza meccanismi di attenzione per modellare interazioni riga-colonna, introducendo pre-addestramento auto-supervisionato
TabPFN: Pre-addestrato su grandi quantità di dati tabulari sintetici, in grado di prevedere nuovi compiti senza addestramento aggiuntivo
Serie TabLLM: Serializza i dati tabulari in testo, sfruttando gli LLM per la classificazione

Meta-Apprendimento e Iper-Reti

Connessione Meta-Apprendimento: I Transformer eccellono nell'apprendimento in contesto, simile al paradigma meta-apprendimento
Applicazione Iper-Reti: Nella visione artificiale esistono già lavori che utilizzano Transformer per generare pesi di reti neurali
Innovazione di questo Articolo: Prima applicazione di questa idea al campo dei dati tabulari

Distillazione di Conoscenza

Distillazione Tradizionale: Allineamento dell'output del modello studente con il modello insegnante attraverso la funzione di perdita
Differenza di questo Articolo: Estrazione diretta di reti neurali da Transformer, senza necessità di allineamento della perdita

Conclusioni e Discussione

Conclusioni Principali

Validazione dell'Efficacia: TabDistill realizza con successo l'equilibrio tra efficienza dei parametri e prestazioni few-shot
Vantaggi di Prestazione: Gli MLP distillati superano nella maggior parte dei casi i baseline classici, e in alcuni scenari persino i Transformer originali
Valore Pratico: Fornisce una soluzione praticamente distribuibile che soddisfa le esigenze di diverse infrastrutture

Limitazioni

Gli autori indicano onestamente i seguenti difetti:

Prestazioni su Grandi Campioni: Quando il numero di campioni di addestramento aumenta, il miglioramento delle prestazioni è limitato
Funzione di Mappatura Semplice: L'utilizzo attuale di una semplice mappatura lineare potrebbe limitare il limite superiore delle prestazioni
Eredità di Bias: I modelli distillati potrebbero ereditare i bias dei modelli di base
Ambito di Applicazione: Attualmente validato solo su compiti di classificazione binaria

Direzioni Future

Miglioramento della Funzione di Mappatura: Esplorazione di funzioni di mappatura più complesse per migliorare le prestazioni
Estensione dell'Applicazione: Estensione a ragionamento in linguaggio naturale, messa a punto di istruzioni e altri compiti few-shot
Mitigazione del Bias: Riduzione del bias del modello di base attraverso la messa a punto dell'MLP nella seconda fase
Apprendimento Multi-Compito: Esplorazione della possibilità di gestire simultaneamente più compiti tabulari

Valutazione Approfondita

Punti di Forza

Forte Specificità del Problema: Identifica e risolve accuratamente la contraddizione fondamentale nelle applicazioni pratiche
Innovazione del Metodo: Prima applicazione dell'idea di iper-rete alla distillazione di dati tabulari
Design Sperimentale Completo:
- Validazione su più dataset
- Confronti baseline sufficienti
- Esperimenti di ablazione dettagliati
- Analisi dell'attribuzione delle caratteristiche
Risultati Convincenti: Non solo realizza gli obiettivi previsti, ma scopre anche il fenomeno interessante che i modelli distillati superano i modelli originali
Alto Valore Pratico: Fornisce una soluzione direttamente applicabile

Insufficienze

Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché i modelli distillati possono superare i modelli originali
Scala dei Dataset Limitata: Validazione su soli 5 dataset relativamente piccoli
Tipo di Compito Singolo: Considera solo compiti di classificazione binaria, senza coinvolgere regressione o multi-classificazione
Scelta del Modello di Base Limitata: Test di soli due modelli di base, copertura limitata
Analisi dei Costi Computazionali: Manca un confronto dettagliato dei costi computazionali effettivi di addestramento e inferenza

Impatto

Contributi Accademici:
- Apre una nuova direzione per la distillazione di Transformer su dati tabulari
- Fornisce una nuova prospettiva per l'apprendimento few-shot
- Connette due aree di ricerca: iper-reti e distillazione di conoscenza
Valore Pratico:
- Risolve importanti problemi nel dispiegamento pratico
- Fornisce soluzioni praticabili per ambienti con risorse limitate
- Direttamente applicabile a scenari industriali
Riproducibilità:
- Fornisce dettagli di implementazione dettagliati
- L'impegno open-source migliora la riproducibilità
- La configurazione sperimentale è chiara e ripetibile

Scenari Applicabili

Ambienti con Risorse Limitate: Dispositivi mobili, edge computing e scenari simili
Applicazioni Few-Shot: Diagnosi medica, controllo del rischio finanziario, ispezione della qualità e altri domini con dati scarsi
Esigenze di Inferenza in Tempo Reale: Servizi online che richiedono risposte rapide
Requisiti di Interpretabilità del Modello: Rispetto ai complessi Transformer, gli MLP semplici sono più facili da interpretare

Riferimenti Bibliografici

L'articolo cita lavori correlati ricchi, principalmente includenti:

Metodi classici per dati tabulari: XGBoost, LightGBM, CatBoost, ecc.
Applicazioni Transformer tabulari: TabPFN, SAINT, serie TabLLM
Distillazione di Conoscenza: Lavori classici di Hinton e altri
Iper-Reti: Applicazioni correlate nella visione artificiale
Meta-Apprendimento: Ricerca correlata sull'apprendimento in contesto di Transformer

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a problemi pratici, con verifica sperimentale sufficiente e significativo valore accademico e pratico. Sebbene presenti alcune limitazioni, ha fornito importanti contributi allo sviluppo dei campi correlati.