2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.

Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.

academic

TabImpute: Imputazione Accurata e Veloce di Dati Mancanti Zero-Shot con un Transformer Pre-Addestrato

Informazioni Fondamentali

ID Articolo: 2510.02625
Titolo: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Autori: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: Ottobre 2025 (Preprint. In Revisione)
Link Articolo: https://arxiv.org/abs/2510.02625v2

Riassunto

I dati mancanti rappresentano un problema diffuso nei dati tabulari. Le soluzioni esistenti spaziano dal semplice riempimento della media alle reti generative avversariali complesse. Tuttavia, a causa delle enormi variazioni di prestazioni nei domini del mondo reale e della sintonizzazione dispendiosa degli iperparametri, attualmente non esiste un metodo di imputazione predefinito. Basandosi su TabPFN (un modello fondamentale recente per l'apprendimento supervisionato su dati tabulari), questo articolo propone TabImpute, un Transformer pre-addestrato che fornisce imputazione accurata e veloce zero-shot al momento dell'inferenza, senza necessità di adattamento o sintonizzazione degli iperparametri. Per addestrare e valutare TabImpute, gli autori introducono: (i) caratterizzazione a livello di voce per impostazioni tabulari, che realizza un'accelerazione di 100 volte rispetto ai precedenti metodi di imputazione TabPFN; (ii) una pipeline di generazione di dati di addestramento sintetici che incorpora modelli di mancanza realistici, migliorando le prestazioni al momento del test; (iii) MissBench, un benchmark completo per la valutazione dei metodi di imputazione contenente 42 dataset OpenML e 13 modelli di mancanza. MissBench copre i settori medico, finanziario e ingegneristico, dimostrando le prestazioni robuste di TabImpute rispetto a 11 metodi di imputazione consolidati.

Contesto di Ricerca e Motivazione

Definizione del Problema

I dati mancanti sono onnipresenti nei dati tabulari, interessando statistici, economisti, funzionari sanitari e imprese. Ad esempio, i dataset medici potrebbero mancare di registrazioni di misurazioni della pressione arteriosa, oppure i dataset uniti da più fonti potrebbero condividere solo caratteristiche parziali. Indipendentemente dalla fonte, i dati mancanti devono essere imputati a valori numerici prima dell'utilizzo di modelli statistici o di apprendimento automatico.

Importanza del Problema

Ubiquità: I dati mancanti sono un problema comune in tutti i settori
Necessità: La maggior parte degli algoritmi di apprendimento automatico non può gestire direttamente i valori mancanti
Complessità: Diversi meccanismi di mancanza richiedono strategie di trattamento diverse

Limitazioni dei Metodi Esistenti

Variazione di prestazioni: I metodi esistenti mostrano enormi variazioni di prestazioni su diversi domini e dataset
Sintonizzazione degli iperparametri: Richiede un processo di regolazione degli iperparametri dispendioso in termini di tempo
Mancanza di metodo universale: Non esiste un metodo di imputazione predefinito applicabile a tutti gli scenari
Limitazioni specifiche dello scenario: Ogni metodo è generalmente progettato per impostazioni specifiche

Motivazione della Ricerca

Basandosi sul successo di TabPFN nell'apprendimento supervisionato su dati tabulari, gli autori desiderano sviluppare un metodo che possa:

Realizzare imputazione zero-shot (senza addestramento o sintonizzazione)
Mostrare prestazioni robuste su molteplici modelli di mancanza
Fornire risultati di imputazione veloci e accurati
Essere applicabile a dati tabulari di diversi domini

Contributi Fondamentali

Proposta del modello TabImpute: Un Transformer pre-addestrato basato sull'architettura TabPFN che realizza imputazione accurata e veloce di dati mancanti zero-shot
Caratterizzazione innovativa a livello di voce (Entry-wise Featurization): Realizza un'accelerazione di 100 volte rispetto al metodo di imputazione a livello di colonna di TabPFN
Pipeline completa di generazione di dati sintetici: Metodo di generazione di dati di addestramento contenente 13 modelli di mancanza realistici, migliorando la capacità di generalizzazione del modello
Costruzione del benchmark MissBench: Un benchmark di valutazione completo contenente 42 dataset OpenML e 13 modelli di mancanza
Metodo di insieme TabImpute+: Integra TabImpute e EWF-TabPFN con pesi adattivi per raggiungere prestazioni ottimali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato una matrice di dati tabulari X con valori mancanti, dove X* è la matrice completa e Ω è l'insieme degli indici delle voci mancanti, l'obiettivo è prevedere i valori di tutte le voci mancanti.

Architettura del Modello

1. Caratterizzazione a Livello di Voce (Entry-wise Featurization, EWF)

I metodi tradizionali adottano l'imputazione a livello di colonna, mentre questo articolo propone un approccio a livello di voce:

Per ogni voce (i,j), costruire un vettore di caratteristiche: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
Dove Xi,: rappresenta la riga i, X:,j rappresenta la colonna j, e ⊕ rappresenta la concatenazione
Il valore target è yij = X*ij
Creare una matrice di caratteristiche di dimensione nm × (n+m)

2. Modifiche all'Architettura

Basandosi sull'architettura TabPFN, viene apportata una modifica fondamentale:

Rimuovere la maschera di attenzione, consentendo ai punti di addestramento di prestare attenzione ai punti di test
La ragione è che l'insieme di test viene creato utilizzando dati già osservati, quindi non esiste un problema di perdita di dati

3. Generazione di Dati di Addestramento Sintetici

Generazione di dati: Utilizzo di modelli fattoriali lineari (Linear Factor Models)

Y = UV^T

Dove U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Modelli di mancanza: Implementazione di 13 modelli di mancanza

1 MCAR (Missing Completely At Random)
1 MAR (Missing At Random)
11 MNAR (Missing Not At Random)

4. Addestramento Multi-Modello

Utilizzo di un algoritmo adattivo per determinare la proporzione di modelli di mancanza in ogni batch:

Ricalcolare la proporzione ogni s passi di gradiente
Applicare softmax ai valori di perdita di ciascun modello
Ridurre adattivamente il peso dei modelli con buone prestazioni e aumentare il peso dei modelli con prestazioni scarse

Punti di Innovazione Tecnica

Elaborazione parallela: La caratterizzazione a livello di voce consente la previsione parallela di tutti i valori mancanti, anziché l'elaborazione colonna per colonna
Capacità zero-shot: Il modello pre-addestrato può essere utilizzato direttamente senza fine-tuning sui dati target
Adattamento multi-modello: Gestire molteplici modelli di mancanza attraverso una strategia di addestramento adattiva
Strategia di insieme: TabImpute+ integra i vantaggi di diversi metodi attraverso pesi ottimali

Impostazione Sperimentale

Dataset

Benchmark MissBench contiene:

42 dataset OpenML
Copertura di molteplici domini inclusi medicina, ingegneria, istruzione
Dimensioni dei dataset da 50×5 a 170×55
Contiene solo caratteristiche numeriche e dataset originariamente senza valori mancanti

Metriche di Valutazione

Accuratezza dell'imputazione:

Calcolare l'RMSE per ogni metodo: $\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}$
Normalizzazione min-max all'interno di ogni compito
Accuratezza dell'imputazione = 1 - RMSE normalizzato

Metodi di Confronto

11 metodi di imputazione consolidati:

Imputazione della media della colonna
SoftImpute
MissForest
ICE/MICE
GAIN
MIWAE
Metodi di trasporto ottimale
K-vicini più prossimi
HyperImpute
Metodo di imputazione originale TabPFN

Dettagli di Implementazione

Addestramento: 8 GPU H200, circa una settimana
Elaborazione di 25 milioni di tabelle sintetiche
Tasso di apprendimento: 0.0001, dimensione del batch: 64
Intervallo di aggiornamento adattivo: s=50 passi

Risultati Sperimentali

Risultati Principali

Prestazioni complessive (Tabella 1):

TabImpute+: 0.833 ± 0.213 (migliore)
HyperImpute: 0.766 ± 0.259
Trasporto ottimale: 0.765 ± 0.227
MissForest: 0.754 ± 0.248

Tempo di esecuzione (Figura 1b):

TabImpute ha il tempo di esecuzione più breve su GPU
Realizza un'accelerazione significativa rispetto a TabPFN
La versione CPU mantiene comunque competitività

Prestazioni su Diversi Modelli di Mancanza

TabImpute+ raggiunge le migliori prestazioni su quasi tutti i modelli di mancanza:

NN-MNAR: 0.880 ± 0.126
Block-MNAR: 0.908 ± 0.168
Seq-MNAR: 0.905 ± 0.094
Panel-MNAR: 0.791 ± 0.329 (significativamente superiore ad altri metodi)

Esperimenti di Ablazione

Confronto di metodi zero-shot (Tabella 2):

TabImpute+ prestazioni complessive migliori: 0.614 ± 0.468
EWF-TabPFN: 0.600 ± 0.476
TabImpute: 0.393 ± 0.487

Dimostra l'efficacia della strategia di insieme.

Scenari ad Alta Percentuale di Mancanza

La Figura 4 mostra che nel modello MCAR, con l'aumentare della percentuale di mancanza, il vantaggio di TabImpute+ diventa più evidente, poiché i modelli generativi possono utilizzare meglio le informazioni di contesto.

Lavori Correlati

Metodi di Imputazione di Dati Mancanti

Metodi tradizionali: Riempimento della media, modelli lineari, foreste casuali
Completamento di matrici: SoftImpute, USVT, metodi di vicinato
Apprendimento profondo: GAIN (GAN), MIWAE (VAE)
Metodi di insieme: HyperImpute

Apprendimento di Rappresentazioni Tabulari

TabPFN: Modello fondamentale per l'apprendimento supervisionato su dati tabulari
Sviluppi successivi: TabICL, MITRA, CausalFM, ecc.
Caratteristiche tecniche: Reti adattate ai dati precedenti (PFN), apprendimento in contesto

Conclusioni e Discussione

Conclusioni Principali

TabImpute realizza imputazione accurata e veloce di dati mancanti zero-shot
La caratterizzazione a livello di voce migliora significativamente l'efficienza e l'accuratezza
La strategia di addestramento multi-modello migliora la capacità di generalizzazione del modello
MissBench fornisce un benchmark completo per la valutazione dei metodi di imputazione

Limitazioni

Scalabilità: A causa della caratterizzazione a livello di voce, la complessità dell'attenzione si eleva al quadrato nuovamente nella dimensione delle righe
Prestazioni CPU: L'esecuzione su CPU è più lenta, simile a TabPFN
Tipi di dati: Attualmente supporta solo dati numerici, non supporta dati categorici
Limitazioni architetturali: Eredita la limitazione della complessità temporale quadratica di TabPFN

Direzioni Future

Esplorare modelli di mancanza più complessi e processi di generazione di dati
Migliorare il metodo per supportare dati categorici
Estendere la valutazione a impostazioni di inferenza causale
Migliorare l'architettura per scalare a dataset più grandi
Utilizzare il metodo per imputazione multipla

Valutazione Approfondita

Punti di Forza

Forte innovazione: La caratterizzazione a livello di voce è un'innovazione ingegnosa che realizza un miglioramento significativo delle prestazioni
Esperimenti completi: MissBench fornisce la valutazione più completa dei metodi di imputazione fino ad oggi
Alto valore pratico: La caratteristica zero-shot rende il metodo facile da distribuire e utilizzare
Fondamento teorico solido: Basato su framework PFN consolidato e teoria dell'inferenza bayesiana

Insufficienze

Problemi di scalabilità: La complessità quadratica limita l'applicazione su dati su larga scala
Limitazioni dei tipi di dati: Il supporto solo per dati numerici limita l'ambito di applicazione pratica
Dipendenza dai dati sintetici: L'affidamento completo su dati sintetici per l'addestramento potrebbe influenzare le prestazioni in alcuni scenari reali
Requisiti di risorse computazionali: L'addestramento richiede risorse GPU significative

Impatto

Contributo accademico: Fornisce una nuova direzione di ricerca per il campo dell'imputazione di dati mancanti tabulari
Valore pratico: La caratteristica zero-shot ha grande potenziale nelle applicazioni industriali
Contributo al benchmark: MissBench diventerà uno standard di valutazione importante nel settore
Riproducibilità: Gli autori si impegnano a rendere open-source il codice e i pesi

Scenari Applicabili

Dati tabulari di piccola e media scala: Particolarmente adatto per dati con numero di righe e colonne in intervalli ragionevoli
Applicazioni multi-dominio: A causa della caratteristica zero-shot, adatto all'uso tra domini
Sviluppo rapido di prototipi: La caratteristica senza sintonizzazione è adatta per verifica e distribuzione rapide
Ricerca e test di benchmark: MissBench è adatto come standard di valutazione per nuovi metodi

Riferimenti Bibliografici

Questo articolo si basa principalmente sui seguenti lavori importanti:

Hollmann et al. (2023, 2025) - Serie di lavori TabPFN
Müller et al. (2022) - Fondamenti teorici delle reti adattate ai dati precedenti
Jarrett et al. (2022) - Metodo di imputazione di insieme HyperImpute
Rubin (1976) - Fondamenti teorici dei dati mancanti

Riepilogo: TabImpute è un lavoro di ricerca di alta qualità con contributi significativi in innovazione tecnica, progettazione sperimentale e valore pratico. Nonostante le limitazioni come la scalabilità, la sua capacità di imputazione zero-shot e le prestazioni eccellenti lo rendono un progresso importante nel settore.