TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic
TabImpute: Imputazione Accurata e Veloce di Dati Mancanti Zero-Shot con un Transformer Pre-Addestrato
I dati mancanti rappresentano un problema diffuso nei dati tabulari. Le soluzioni esistenti spaziano dal semplice riempimento della media alle reti generative avversariali complesse. Tuttavia, a causa delle enormi variazioni di prestazioni nei domini del mondo reale e della sintonizzazione dispendiosa degli iperparametri, attualmente non esiste un metodo di imputazione predefinito. Basandosi su TabPFN (un modello fondamentale recente per l'apprendimento supervisionato su dati tabulari), questo articolo propone TabImpute, un Transformer pre-addestrato che fornisce imputazione accurata e veloce zero-shot al momento dell'inferenza, senza necessità di adattamento o sintonizzazione degli iperparametri. Per addestrare e valutare TabImpute, gli autori introducono: (i) caratterizzazione a livello di voce per impostazioni tabulari, che realizza un'accelerazione di 100 volte rispetto ai precedenti metodi di imputazione TabPFN; (ii) una pipeline di generazione di dati di addestramento sintetici che incorpora modelli di mancanza realistici, migliorando le prestazioni al momento del test; (iii) MissBench, un benchmark completo per la valutazione dei metodi di imputazione contenente 42 dataset OpenML e 13 modelli di mancanza. MissBench copre i settori medico, finanziario e ingegneristico, dimostrando le prestazioni robuste di TabImpute rispetto a 11 metodi di imputazione consolidati.
I dati mancanti sono onnipresenti nei dati tabulari, interessando statistici, economisti, funzionari sanitari e imprese. Ad esempio, i dataset medici potrebbero mancare di registrazioni di misurazioni della pressione arteriosa, oppure i dataset uniti da più fonti potrebbero condividere solo caratteristiche parziali. Indipendentemente dalla fonte, i dati mancanti devono essere imputati a valori numerici prima dell'utilizzo di modelli statistici o di apprendimento automatico.
Proposta del modello TabImpute: Un Transformer pre-addestrato basato sull'architettura TabPFN che realizza imputazione accurata e veloce di dati mancanti zero-shot
Caratterizzazione innovativa a livello di voce (Entry-wise Featurization): Realizza un'accelerazione di 100 volte rispetto al metodo di imputazione a livello di colonna di TabPFN
Pipeline completa di generazione di dati sintetici: Metodo di generazione di dati di addestramento contenente 13 modelli di mancanza realistici, migliorando la capacità di generalizzazione del modello
Costruzione del benchmark MissBench: Un benchmark di valutazione completo contenente 42 dataset OpenML e 13 modelli di mancanza
Metodo di insieme TabImpute+: Integra TabImpute e EWF-TabPFN con pesi adattivi per raggiungere prestazioni ottimali
Dato una matrice di dati tabulari X con valori mancanti, dove X* è la matrice completa e Ω è l'insieme degli indici delle voci mancanti, l'obiettivo è prevedere i valori di tutte le voci mancanti.
Elaborazione parallela: La caratterizzazione a livello di voce consente la previsione parallela di tutti i valori mancanti, anziché l'elaborazione colonna per colonna
Capacità zero-shot: Il modello pre-addestrato può essere utilizzato direttamente senza fine-tuning sui dati target
Adattamento multi-modello: Gestire molteplici modelli di mancanza attraverso una strategia di addestramento adattiva
Strategia di insieme: TabImpute+ integra i vantaggi di diversi metodi attraverso pesi ottimali
La Figura 4 mostra che nel modello MCAR, con l'aumentare della percentuale di mancanza, il vantaggio di TabImpute+ diventa più evidente, poiché i modelli generativi possono utilizzare meglio le informazioni di contesto.
Scalabilità: A causa della caratterizzazione a livello di voce, la complessità dell'attenzione si eleva al quadrato nuovamente nella dimensione delle righe
Prestazioni CPU: L'esecuzione su CPU è più lenta, simile a TabPFN
Tipi di dati: Attualmente supporta solo dati numerici, non supporta dati categorici
Limitazioni architetturali: Eredita la limitazione della complessità temporale quadratica di TabPFN
Problemi di scalabilità: La complessità quadratica limita l'applicazione su dati su larga scala
Limitazioni dei tipi di dati: Il supporto solo per dati numerici limita l'ambito di applicazione pratica
Dipendenza dai dati sintetici: L'affidamento completo su dati sintetici per l'addestramento potrebbe influenzare le prestazioni in alcuni scenari reali
Requisiti di risorse computazionali: L'addestramento richiede risorse GPU significative
Questo articolo si basa principalmente sui seguenti lavori importanti:
Hollmann et al. (2023, 2025) - Serie di lavori TabPFN
Müller et al. (2022) - Fondamenti teorici delle reti adattate ai dati precedenti
Jarrett et al. (2022) - Metodo di imputazione di insieme HyperImpute
Rubin (1976) - Fondamenti teorici dei dati mancanti
Riepilogo: TabImpute è un lavoro di ricerca di alta qualità con contributi significativi in innovazione tecnica, progettazione sperimentale e valore pratico. Nonostante le limitazioni come la scalabilità, la sua capacità di imputazione zero-shot e le prestazioni eccellenti lo rendono un progresso importante nel settore.