2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic

TabImpute: Imputazione Accurata e Veloce di Dati Mancanti Zero-Shot con un Transformer Pre-Addestrato

Informazioni Fondamentali

  • ID Articolo: 2510.02625
  • Titolo: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
  • Autori: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: Ottobre 2025 (Preprint. In Revisione)
  • Link Articolo: https://arxiv.org/abs/2510.02625v2

Riassunto

I dati mancanti rappresentano un problema diffuso nei dati tabulari. Le soluzioni esistenti spaziano dal semplice riempimento della media alle reti generative avversariali complesse. Tuttavia, a causa delle enormi variazioni di prestazioni nei domini del mondo reale e della sintonizzazione dispendiosa degli iperparametri, attualmente non esiste un metodo di imputazione predefinito. Basandosi su TabPFN (un modello fondamentale recente per l'apprendimento supervisionato su dati tabulari), questo articolo propone TabImpute, un Transformer pre-addestrato che fornisce imputazione accurata e veloce zero-shot al momento dell'inferenza, senza necessità di adattamento o sintonizzazione degli iperparametri. Per addestrare e valutare TabImpute, gli autori introducono: (i) caratterizzazione a livello di voce per impostazioni tabulari, che realizza un'accelerazione di 100 volte rispetto ai precedenti metodi di imputazione TabPFN; (ii) una pipeline di generazione di dati di addestramento sintetici che incorpora modelli di mancanza realistici, migliorando le prestazioni al momento del test; (iii) MissBench, un benchmark completo per la valutazione dei metodi di imputazione contenente 42 dataset OpenML e 13 modelli di mancanza. MissBench copre i settori medico, finanziario e ingegneristico, dimostrando le prestazioni robuste di TabImpute rispetto a 11 metodi di imputazione consolidati.

Contesto di Ricerca e Motivazione

Definizione del Problema

I dati mancanti sono onnipresenti nei dati tabulari, interessando statistici, economisti, funzionari sanitari e imprese. Ad esempio, i dataset medici potrebbero mancare di registrazioni di misurazioni della pressione arteriosa, oppure i dataset uniti da più fonti potrebbero condividere solo caratteristiche parziali. Indipendentemente dalla fonte, i dati mancanti devono essere imputati a valori numerici prima dell'utilizzo di modelli statistici o di apprendimento automatico.

Importanza del Problema

  1. Ubiquità: I dati mancanti sono un problema comune in tutti i settori
  2. Necessità: La maggior parte degli algoritmi di apprendimento automatico non può gestire direttamente i valori mancanti
  3. Complessità: Diversi meccanismi di mancanza richiedono strategie di trattamento diverse

Limitazioni dei Metodi Esistenti

  1. Variazione di prestazioni: I metodi esistenti mostrano enormi variazioni di prestazioni su diversi domini e dataset
  2. Sintonizzazione degli iperparametri: Richiede un processo di regolazione degli iperparametri dispendioso in termini di tempo
  3. Mancanza di metodo universale: Non esiste un metodo di imputazione predefinito applicabile a tutti gli scenari
  4. Limitazioni specifiche dello scenario: Ogni metodo è generalmente progettato per impostazioni specifiche

Motivazione della Ricerca

Basandosi sul successo di TabPFN nell'apprendimento supervisionato su dati tabulari, gli autori desiderano sviluppare un metodo che possa:

  1. Realizzare imputazione zero-shot (senza addestramento o sintonizzazione)
  2. Mostrare prestazioni robuste su molteplici modelli di mancanza
  3. Fornire risultati di imputazione veloci e accurati
  4. Essere applicabile a dati tabulari di diversi domini

Contributi Fondamentali

  1. Proposta del modello TabImpute: Un Transformer pre-addestrato basato sull'architettura TabPFN che realizza imputazione accurata e veloce di dati mancanti zero-shot
  2. Caratterizzazione innovativa a livello di voce (Entry-wise Featurization): Realizza un'accelerazione di 100 volte rispetto al metodo di imputazione a livello di colonna di TabPFN
  3. Pipeline completa di generazione di dati sintetici: Metodo di generazione di dati di addestramento contenente 13 modelli di mancanza realistici, migliorando la capacità di generalizzazione del modello
  4. Costruzione del benchmark MissBench: Un benchmark di valutazione completo contenente 42 dataset OpenML e 13 modelli di mancanza
  5. Metodo di insieme TabImpute+: Integra TabImpute e EWF-TabPFN con pesi adattivi per raggiungere prestazioni ottimali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato una matrice di dati tabulari X con valori mancanti, dove X* è la matrice completa e Ω è l'insieme degli indici delle voci mancanti, l'obiettivo è prevedere i valori di tutte le voci mancanti.

Architettura del Modello

1. Caratterizzazione a Livello di Voce (Entry-wise Featurization, EWF)

I metodi tradizionali adottano l'imputazione a livello di colonna, mentre questo articolo propone un approccio a livello di voce:

  • Per ogni voce (i,j), costruire un vettore di caratteristiche: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
  • Dove Xi,: rappresenta la riga i, X:,j rappresenta la colonna j, e ⊕ rappresenta la concatenazione
  • Il valore target è yij = X*ij
  • Creare una matrice di caratteristiche di dimensione nm × (n+m)

2. Modifiche all'Architettura

Basandosi sull'architettura TabPFN, viene apportata una modifica fondamentale:

  • Rimuovere la maschera di attenzione, consentendo ai punti di addestramento di prestare attenzione ai punti di test
  • La ragione è che l'insieme di test viene creato utilizzando dati già osservati, quindi non esiste un problema di perdita di dati

3. Generazione di Dati di Addestramento Sintetici

Generazione di dati: Utilizzo di modelli fattoriali lineari (Linear Factor Models)

Y = UV^T

Dove U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Modelli di mancanza: Implementazione di 13 modelli di mancanza

  • 1 MCAR (Missing Completely At Random)
  • 1 MAR (Missing At Random)
  • 11 MNAR (Missing Not At Random)

4. Addestramento Multi-Modello

Utilizzo di un algoritmo adattivo per determinare la proporzione di modelli di mancanza in ogni batch:

  • Ricalcolare la proporzione ogni s passi di gradiente
  • Applicare softmax ai valori di perdita di ciascun modello
  • Ridurre adattivamente il peso dei modelli con buone prestazioni e aumentare il peso dei modelli con prestazioni scarse

Punti di Innovazione Tecnica

  1. Elaborazione parallela: La caratterizzazione a livello di voce consente la previsione parallela di tutti i valori mancanti, anziché l'elaborazione colonna per colonna
  2. Capacità zero-shot: Il modello pre-addestrato può essere utilizzato direttamente senza fine-tuning sui dati target
  3. Adattamento multi-modello: Gestire molteplici modelli di mancanza attraverso una strategia di addestramento adattiva
  4. Strategia di insieme: TabImpute+ integra i vantaggi di diversi metodi attraverso pesi ottimali

Impostazione Sperimentale

Dataset

Benchmark MissBench contiene:

  • 42 dataset OpenML
  • Copertura di molteplici domini inclusi medicina, ingegneria, istruzione
  • Dimensioni dei dataset da 50×5 a 170×55
  • Contiene solo caratteristiche numeriche e dataset originariamente senza valori mancanti

Metriche di Valutazione

Accuratezza dell'imputazione:

  1. Calcolare l'RMSE per ogni metodo: 1Ω(i,j)Ω(XijtrueXijimputed)2\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}
  2. Normalizzazione min-max all'interno di ogni compito
  3. Accuratezza dell'imputazione = 1 - RMSE normalizzato

Metodi di Confronto

11 metodi di imputazione consolidati:

  • Imputazione della media della colonna
  • SoftImpute
  • MissForest
  • ICE/MICE
  • GAIN
  • MIWAE
  • Metodi di trasporto ottimale
  • K-vicini più prossimi
  • HyperImpute
  • Metodo di imputazione originale TabPFN

Dettagli di Implementazione

  • Addestramento: 8 GPU H200, circa una settimana
  • Elaborazione di 25 milioni di tabelle sintetiche
  • Tasso di apprendimento: 0.0001, dimensione del batch: 64
  • Intervallo di aggiornamento adattivo: s=50 passi

Risultati Sperimentali

Risultati Principali

Prestazioni complessive (Tabella 1):

  • TabImpute+: 0.833 ± 0.213 (migliore)
  • HyperImpute: 0.766 ± 0.259
  • Trasporto ottimale: 0.765 ± 0.227
  • MissForest: 0.754 ± 0.248

Tempo di esecuzione (Figura 1b):

  • TabImpute ha il tempo di esecuzione più breve su GPU
  • Realizza un'accelerazione significativa rispetto a TabPFN
  • La versione CPU mantiene comunque competitività

Prestazioni su Diversi Modelli di Mancanza

TabImpute+ raggiunge le migliori prestazioni su quasi tutti i modelli di mancanza:

  • NN-MNAR: 0.880 ± 0.126
  • Block-MNAR: 0.908 ± 0.168
  • Seq-MNAR: 0.905 ± 0.094
  • Panel-MNAR: 0.791 ± 0.329 (significativamente superiore ad altri metodi)

Esperimenti di Ablazione

Confronto di metodi zero-shot (Tabella 2):

  • TabImpute+ prestazioni complessive migliori: 0.614 ± 0.468
  • EWF-TabPFN: 0.600 ± 0.476
  • TabImpute: 0.393 ± 0.487

Dimostra l'efficacia della strategia di insieme.

Scenari ad Alta Percentuale di Mancanza

La Figura 4 mostra che nel modello MCAR, con l'aumentare della percentuale di mancanza, il vantaggio di TabImpute+ diventa più evidente, poiché i modelli generativi possono utilizzare meglio le informazioni di contesto.

Lavori Correlati

Metodi di Imputazione di Dati Mancanti

  1. Metodi tradizionali: Riempimento della media, modelli lineari, foreste casuali
  2. Completamento di matrici: SoftImpute, USVT, metodi di vicinato
  3. Apprendimento profondo: GAIN (GAN), MIWAE (VAE)
  4. Metodi di insieme: HyperImpute

Apprendimento di Rappresentazioni Tabulari

  1. TabPFN: Modello fondamentale per l'apprendimento supervisionato su dati tabulari
  2. Sviluppi successivi: TabICL, MITRA, CausalFM, ecc.
  3. Caratteristiche tecniche: Reti adattate ai dati precedenti (PFN), apprendimento in contesto

Conclusioni e Discussione

Conclusioni Principali

  1. TabImpute realizza imputazione accurata e veloce di dati mancanti zero-shot
  2. La caratterizzazione a livello di voce migliora significativamente l'efficienza e l'accuratezza
  3. La strategia di addestramento multi-modello migliora la capacità di generalizzazione del modello
  4. MissBench fornisce un benchmark completo per la valutazione dei metodi di imputazione

Limitazioni

  1. Scalabilità: A causa della caratterizzazione a livello di voce, la complessità dell'attenzione si eleva al quadrato nuovamente nella dimensione delle righe
  2. Prestazioni CPU: L'esecuzione su CPU è più lenta, simile a TabPFN
  3. Tipi di dati: Attualmente supporta solo dati numerici, non supporta dati categorici
  4. Limitazioni architetturali: Eredita la limitazione della complessità temporale quadratica di TabPFN

Direzioni Future

  1. Esplorare modelli di mancanza più complessi e processi di generazione di dati
  2. Migliorare il metodo per supportare dati categorici
  3. Estendere la valutazione a impostazioni di inferenza causale
  4. Migliorare l'architettura per scalare a dataset più grandi
  5. Utilizzare il metodo per imputazione multipla

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione: La caratterizzazione a livello di voce è un'innovazione ingegnosa che realizza un miglioramento significativo delle prestazioni
  2. Esperimenti completi: MissBench fornisce la valutazione più completa dei metodi di imputazione fino ad oggi
  3. Alto valore pratico: La caratteristica zero-shot rende il metodo facile da distribuire e utilizzare
  4. Fondamento teorico solido: Basato su framework PFN consolidato e teoria dell'inferenza bayesiana

Insufficienze

  1. Problemi di scalabilità: La complessità quadratica limita l'applicazione su dati su larga scala
  2. Limitazioni dei tipi di dati: Il supporto solo per dati numerici limita l'ambito di applicazione pratica
  3. Dipendenza dai dati sintetici: L'affidamento completo su dati sintetici per l'addestramento potrebbe influenzare le prestazioni in alcuni scenari reali
  4. Requisiti di risorse computazionali: L'addestramento richiede risorse GPU significative

Impatto

  1. Contributo accademico: Fornisce una nuova direzione di ricerca per il campo dell'imputazione di dati mancanti tabulari
  2. Valore pratico: La caratteristica zero-shot ha grande potenziale nelle applicazioni industriali
  3. Contributo al benchmark: MissBench diventerà uno standard di valutazione importante nel settore
  4. Riproducibilità: Gli autori si impegnano a rendere open-source il codice e i pesi

Scenari Applicabili

  1. Dati tabulari di piccola e media scala: Particolarmente adatto per dati con numero di righe e colonne in intervalli ragionevoli
  2. Applicazioni multi-dominio: A causa della caratteristica zero-shot, adatto all'uso tra domini
  3. Sviluppo rapido di prototipi: La caratteristica senza sintonizzazione è adatta per verifica e distribuzione rapide
  4. Ricerca e test di benchmark: MissBench è adatto come standard di valutazione per nuovi metodi

Riferimenti Bibliografici

Questo articolo si basa principalmente sui seguenti lavori importanti:

  1. Hollmann et al. (2023, 2025) - Serie di lavori TabPFN
  2. Müller et al. (2022) - Fondamenti teorici delle reti adattate ai dati precedenti
  3. Jarrett et al. (2022) - Metodo di imputazione di insieme HyperImpute
  4. Rubin (1976) - Fondamenti teorici dei dati mancanti

Riepilogo: TabImpute è un lavoro di ricerca di alta qualità con contributi significativi in innovazione tecnica, progettazione sperimentale e valore pratico. Nonostante le limitazioni come la scalabilità, la sua capacità di imputazione zero-shot e le prestazioni eccellenti lo rendono un progresso importante nel settore.