2025-11-11T13:04:09.550712

TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification

Dissanayake, Dutta
Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.
academic

TabDistill: Distillazione di Transformer in Reti Neurali per la Classificazione Tabulare Few-Shot

Informazioni Fondamentali

  • ID Articolo: 2511.05704
  • Titolo: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
  • Autori: Pasan Dissanayake, Sanghamitra Dutta (University of Maryland, College Park)
  • Classificazione: cs.LG cs.AI cs.CL
  • Data di Pubblicazione: 7 novembre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2511.05704

Riassunto

I modelli basati su Transformer hanno dimostrato prestazioni promettenti sui dati tabulari rispetto ai loro equivalenti classici come le reti neurali e gli Alberi di Decisione Potenziati da Gradiente (GBDT) in scenari con dati di addestramento limitati. Utilizzano la loro conoscenza pre-addestrata per adattarsi a nuovi domini, ottenendo prestazioni lodevoli con solo pochi esempi di addestramento, noto anche come regime few-shot. Tuttavia, il guadagno di prestazioni nel regime few-shot avviene a scapito di una complessità significativamente aumentata e di un numero di parametri. Per evitare questo compromesso, introduciamo TabDistill, una nuova strategia per distillare la conoscenza pre-addestrata in modelli complessi basati su Transformer in reti neurali più semplici per classificare efficacemente i dati tabulari. Il nostro framework offre il meglio di entrambi i mondi: essere efficiente in termini di parametri mantenendo buone prestazioni con dati di addestramento limitati. Le reti neurali distillate superano i baseline classici come le reti neurali regolari, XGBoost e la regressione logistica con pari dati di addestramento, e in alcuni casi, persino i modelli originali basati su Transformer da cui sono stati distillati.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta una contraddizione fondamentale nella classificazione di dati tabulari: negli scenari few-shot, i modelli basati su Transformer, sebbene performanti, hanno un numero enorme di parametri e un'elevata complessità computazionale, rendendo difficile il loro dispiegamento nelle applicazioni pratiche.

Importanza del Problema

  1. Esigenze Applicative Pratiche: In settori ad alto rischio come finanza, medicina e manifattura, la scarsità di dati annotati è un problema comune, come nella diagnosi di malattie rare o nella previsione di fenomeni naturali centenari
  2. Costi di Annotazione dei Dati: Nelle applicazioni finanziarie l'annotazione dei dati è costosa, con problemi di soggettività, annotazioni errate e mancanza di consenso
  3. Vincoli di Dispiegamento: Le applicazioni pratiche richiedono modelli efficienti in termini di parametri e scalabili, per adattarsi a diversi livelli di infrastruttura

Limitazioni dei Metodi Esistenti

  1. Metodi Tradizionali: XGBoost, CatBoost, LightGBM mostrano prestazioni eccellenti con dati sufficienti, ma le prestazioni diminuiscono significativamente negli scenari few-shot
  2. Metodi Transformer: TabPFN, TabLLM e simili mostrano prestazioni eccellenti negli scenari few-shot, ma hanno parametri che raggiungono milioni o persino miliardi, con costi di inferenza elevati
  3. Compromesso Efficienza-Prestazioni: Manca una soluzione che mantenga le prestazioni few-shot e l'efficienza dei parametri simultaneamente

Motivazione della Ricerca

Gli autori pongono la domanda centrale: "Possiamo ottenere il meglio di entrambi i mondi, mantenendo l'efficienza dei parametri e mostrando buone prestazioni con dati di addestramento limitati?"

Contributi Principali

  1. Proposta del Framework TabDistill: Una nuova strategia per distillare la conoscenza dai modelli Transformer in reti neurali, realizzando una classificazione tabulare efficiente in termini di parametri
  2. Istanziazione Dual-Model: Implementazione del framework basata su TabPFN (~11M parametri) e BigScience T0pp (~11B parametri), distillati in MLP di circa 1000 parametri
  3. Verifica Sperimentale: Validazione su 5 dataset tabulari, con MLP distillati che superano i baseline classici e in alcuni casi persino i modelli Transformer originali
  4. Strategia di Addestramento Innovativa: Introduzione di tecniche di addestramento basate su permutazioni per evitare l'overfitting su insiemi di addestramento estremamente piccoli

Dettagli del Metodo

Definizione del Compito

Dato un piccolo dataset tabulare DN={(xn,yn),xnX,yn{0,1},n=1,...,N}D_N = \{(x_n, y_n), x_n \in X, y_n \in \{0,1\}, n=1,...,N\}, dove N10N \sim 10, l'obiettivo è utilizzare la conoscenza del modello Transformer pre-addestrato ff per generare un semplice MLP hθ(x):X{0,1}h_\theta(x): X \to \{0,1\}.

Architettura del Modello

Framework Complessivo

TabDistill comprende due fasi:

  • Fase 1: Messa a punto del modello Transformer di base per generare MLP di qualità
  • Fase 2: Messa a punto aggiuntiva facoltativa dell'MLP

Componenti Principali

  1. Decomposizione del Modello di Base:
    • Encoder: fE(s):SZf_E(s): S \to Z
    • Decoder: fD(z):Z{0,1}f_D(z): Z \to \{0,1\}
  2. Architettura MLP:
    h_θ(x) = ReLU(W_R ReLU(···ReLU(W_2 ReLU(W_1 x + b_1) + b_2)···) + b_R)
    

    dove R è il numero di strati, L è la larghezza dello strato nascosto
  3. Mappatura Lineare:
    m_η(z) = LayerNorm(Az + b)
    

    dove ARdim(Θ)×dim(Z)A \in R^{dim(Θ)×dim(Z)}, η=(A,b)η = (A,b)

Procedura di Addestramento

Funzione di Perdita Fase 1:

L(η; D_N) = Σ[y_n log(σ(h_θ(x_n))[[1]]) + (1-y_n) log(σ(h_θ(x_n))[[0]])]

dove θ=mη(fE(g(DN)))θ = m_η(f_E(g(D_N)))

Punti di Innovazione Tecnica

  1. Idea di Iper-Rete: Ispirato dall'esperienza della visione artificiale, utilizzando Transformer come iper-rete per generare pesi di reti neurali
  2. Potenziamento per Permutazione: Permutazione casuale dell'ordine delle caratteristiche ad ogni epoca di addestramento per evitare l'overfitting
  3. Messa a Punto Efficiente in Parametri: Messa a punto solo dei parametri di mappatura lineare ηη, mantenendo i parametri del modello di base invariati
  4. Design a Due Fasi: Distillazione seguita da messa a punto, sfruttando pienamente la conoscenza pre-addestrata

Istanziazioni Specifiche

TabDistill + TabPFN

  • Utilizzo diretto dei dati tabulari, g(x)=xg(x) = x (trasformazione identità)
  • Dimensione di output dell'encoder: 192N192N
  • Dimensione della matrice di mappatura: dim(Θ)×192Ndim(Θ) × 192N

TabDistill + T0pp

  • Serializzazione testuale: "The <column name> is <value>"
  • Dimensione di output dell'encoder: 4096
  • Dimensione della matrice di mappatura: dim(Θ)×4096dim(Θ) × 4096

Configurazione Sperimentale

Dataset

Utilizzo di 5 dataset tabulari pubblici:

  1. Bank (UCI Bank Marketing): Previsione se il cliente sottoscriverà un deposito a termine
  2. Blood (UCI Blood Transfusion): Previsione se donerà sangue
  3. Calhousing (California Housing): Previsione se il valore della proprietà nel quartiere è elevato
  4. Heart (UCI Heart Disease): Previsione se il paziente ha malattie cardiache
  5. Income (Census Income): Previsione se il reddito annuale supera 50K

Metriche di Valutazione

Utilizzo di ROC-AUC come metrica di valutazione principale, considerando le prestazioni di classificazione negli scenari few-shot.

Metodi di Confronto

  1. Baseline Classici: Regressione logistica, XGBoost, MLP addestrato indipendentemente
  2. Modelli di Base: TabPFN, T0pp (TabLLM)
  3. Modelli Distillati: TabDistill + TabPFN, TabDistill + T0pp

Dettagli di Implementazione

  • Architettura MLP: 4 strati, 10 neuroni per strato (~1000 parametri)
  • Configurazione Addestramento: Messa a punto Fase 1 per 300 epoche, Fase 2 per 100 epoche aggiuntive
  • Ottimizzazione Iperparametri: Ricerca a griglia utilizzando Weights & Biases
  • Scale di Campionamento: N ∈ {4, 8, 16, 32, 64}

Risultati Sperimentali

Risultati Principali

Secondo i risultati ROC-AUC della Tabella 1:

Scenario Estremamente Few-Shot (N=4)

  • TabDistill + TabPFN raggiunge 0.72 sul dataset Bank, superando significativamente tutti i baseline classici
  • TabDistill + T0pp mostra prestazioni eccellenti su più dataset, come Calhousing (0.67) e Income (0.70)

Tendenze di Prestazione

  1. Miglioramento delle Prestazioni con Aumento dei Campioni: Tutti i metodi mostrano miglioramenti generali delle prestazioni all'aumentare di N
  2. Differenze nei Metodi Baseline: Nessun singolo metodo classico è universalmente ottimale su tutti i dataset
  3. Differenze nella Scelta del Modello: TabDistill + TabPFN è generalmente superiore a TabDistill + T0pp, ma il contrario vale per il dataset Income

Confronto con Modelli di Base

La Tabella 3 mostra risultati sorprendenti:

  • In alcuni casi, l'MLP distillato supera il modello Transformer originale
  • Ad esempio, sul dataset Bank con N=4: TabDistill + TabPFN (0.72) > TabPFN (0.62)
  • Ciò suggerisce che il processo di distillazione non solo comprime il modello, ma può anche migliorare le prestazioni

Esperimenti di Ablazione

Impatto della Complessità del Modello (Tabella 2)

  • Test dell'influenza di diversi numeri di strati R sulle prestazioni
  • I risultati mostrano: le prestazioni diminuiscono quando la complessità supera una certa soglia
  • L'architettura a 4 strati mostra le migliori prestazioni nella maggior parte dei casi

Analisi dell'Attribuzione delle Caratteristiche (Figura 3)

Utilizzo di SHAP per analizzare l'importanza delle caratteristiche:

  • Il modello distillato mantiene coerenza con i baseline classici nell'importanza delle caratteristiche
  • Anche dopo la permutazione delle caratteristiche, il modello identifica correttamente le caratteristiche importanti
  • Ciò dimostra che il modello di base ha correttamente appreso l'associazione tra i pesi dell'MLP e l'ordine delle caratteristiche

Scoperte Sperimentali

  1. Effetto di Distillazione Significativo: Nel regime few-shot estremo, i modelli distillati sono chiaramente superiori ai metodi classici
  2. Efficienza dei Parametri: Compressione da milioni/miliardi di parametri a parametri di ordine migliaia, con enorme miglioramento dell'efficienza
  3. Trasferimento di Conoscenza Efficace: La conoscenza pre-addestrata viene trasferita con successo in semplici MLP
  4. Buona Robustezza: La strategia di potenziamento per permutazione previene efficacemente l'overfitting

Lavori Correlati

Algoritmi Classici per Dati Tabulari

  • Vantaggi Tradizionali: XGBoost, LightGBM, CatBoost hanno dominato a lungo il campo dei dati tabulari
  • Limitazioni Few-Shot: I modelli classici addestrati da zero mostrano prestazioni significativamente ridotte negli scenari few-shot

Applicazioni di Transformer ai Dati Tabulari

  • SAINT: Utilizza meccanismi di attenzione per modellare interazioni riga-colonna, introducendo pre-addestramento auto-supervisionato
  • TabPFN: Pre-addestrato su grandi quantità di dati tabulari sintetici, in grado di prevedere nuovi compiti senza addestramento aggiuntivo
  • Serie TabLLM: Serializza i dati tabulari in testo, sfruttando gli LLM per la classificazione

Meta-Apprendimento e Iper-Reti

  • Connessione Meta-Apprendimento: I Transformer eccellono nell'apprendimento in contesto, simile al paradigma meta-apprendimento
  • Applicazione Iper-Reti: Nella visione artificiale esistono già lavori che utilizzano Transformer per generare pesi di reti neurali
  • Innovazione di questo Articolo: Prima applicazione di questa idea al campo dei dati tabulari

Distillazione di Conoscenza

  • Distillazione Tradizionale: Allineamento dell'output del modello studente con il modello insegnante attraverso la funzione di perdita
  • Differenza di questo Articolo: Estrazione diretta di reti neurali da Transformer, senza necessità di allineamento della perdita

Conclusioni e Discussione

Conclusioni Principali

  1. Validazione dell'Efficacia: TabDistill realizza con successo l'equilibrio tra efficienza dei parametri e prestazioni few-shot
  2. Vantaggi di Prestazione: Gli MLP distillati superano nella maggior parte dei casi i baseline classici, e in alcuni scenari persino i Transformer originali
  3. Valore Pratico: Fornisce una soluzione praticamente distribuibile che soddisfa le esigenze di diverse infrastrutture

Limitazioni

Gli autori indicano onestamente i seguenti difetti:

  1. Prestazioni su Grandi Campioni: Quando il numero di campioni di addestramento aumenta, il miglioramento delle prestazioni è limitato
  2. Funzione di Mappatura Semplice: L'utilizzo attuale di una semplice mappatura lineare potrebbe limitare il limite superiore delle prestazioni
  3. Eredità di Bias: I modelli distillati potrebbero ereditare i bias dei modelli di base
  4. Ambito di Applicazione: Attualmente validato solo su compiti di classificazione binaria

Direzioni Future

  1. Miglioramento della Funzione di Mappatura: Esplorazione di funzioni di mappatura più complesse per migliorare le prestazioni
  2. Estensione dell'Applicazione: Estensione a ragionamento in linguaggio naturale, messa a punto di istruzioni e altri compiti few-shot
  3. Mitigazione del Bias: Riduzione del bias del modello di base attraverso la messa a punto dell'MLP nella seconda fase
  4. Apprendimento Multi-Compito: Esplorazione della possibilità di gestire simultaneamente più compiti tabulari

Valutazione Approfondita

Punti di Forza

  1. Forte Specificità del Problema: Identifica e risolve accuratamente la contraddizione fondamentale nelle applicazioni pratiche
  2. Innovazione del Metodo: Prima applicazione dell'idea di iper-rete alla distillazione di dati tabulari
  3. Design Sperimentale Completo:
    • Validazione su più dataset
    • Confronti baseline sufficienti
    • Esperimenti di ablazione dettagliati
    • Analisi dell'attribuzione delle caratteristiche
  4. Risultati Convincenti: Non solo realizza gli obiettivi previsti, ma scopre anche il fenomeno interessante che i modelli distillati superano i modelli originali
  5. Alto Valore Pratico: Fornisce una soluzione direttamente applicabile

Insufficienze

  1. Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché i modelli distillati possono superare i modelli originali
  2. Scala dei Dataset Limitata: Validazione su soli 5 dataset relativamente piccoli
  3. Tipo di Compito Singolo: Considera solo compiti di classificazione binaria, senza coinvolgere regressione o multi-classificazione
  4. Scelta del Modello di Base Limitata: Test di soli due modelli di base, copertura limitata
  5. Analisi dei Costi Computazionali: Manca un confronto dettagliato dei costi computazionali effettivi di addestramento e inferenza

Impatto

  1. Contributi Accademici:
    • Apre una nuova direzione per la distillazione di Transformer su dati tabulari
    • Fornisce una nuova prospettiva per l'apprendimento few-shot
    • Connette due aree di ricerca: iper-reti e distillazione di conoscenza
  2. Valore Pratico:
    • Risolve importanti problemi nel dispiegamento pratico
    • Fornisce soluzioni praticabili per ambienti con risorse limitate
    • Direttamente applicabile a scenari industriali
  3. Riproducibilità:
    • Fornisce dettagli di implementazione dettagliati
    • L'impegno open-source migliora la riproducibilità
    • La configurazione sperimentale è chiara e ripetibile

Scenari Applicabili

  1. Ambienti con Risorse Limitate: Dispositivi mobili, edge computing e scenari simili
  2. Applicazioni Few-Shot: Diagnosi medica, controllo del rischio finanziario, ispezione della qualità e altri domini con dati scarsi
  3. Esigenze di Inferenza in Tempo Reale: Servizi online che richiedono risposte rapide
  4. Requisiti di Interpretabilità del Modello: Rispetto ai complessi Transformer, gli MLP semplici sono più facili da interpretare

Riferimenti Bibliografici

L'articolo cita lavori correlati ricchi, principalmente includenti:

  • Metodi classici per dati tabulari: XGBoost, LightGBM, CatBoost, ecc.
  • Applicazioni Transformer tabulari: TabPFN, SAINT, serie TabLLM
  • Distillazione di Conoscenza: Lavori classici di Hinton e altri
  • Iper-Reti: Applicazioni correlate nella visione artificiale
  • Meta-Apprendimento: Ricerca correlata sull'apprendimento in contesto di Transformer

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a problemi pratici, con verifica sperimentale sufficiente e significativo valore accademico e pratico. Sebbene presenti alcune limitazioni, ha fornito importanti contributi allo sviluppo dei campi correlati.