TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic
TabImpute : Imputation de Données Manquantes Précise et Rapide en Zéro-Shot avec un Transformateur Pré-entraîné
Les données manquantes constituent un problème universel dans les données tabulaires. Les solutions existantes varient de simples imputations par la moyenne à des réseaux antagonistes génératifs complexes. Cependant, en raison des variations de performance considérables dans les domaines du monde réel et de l'ajustement chronophage des hyperparamètres, il n'existe actuellement pas de méthode d'imputation par défaut. En s'appuyant sur TabPFN (un modèle fondamental récent pour l'apprentissage supervisé sur données tabulaires), cet article propose TabImpute, un Transformateur pré-entraîné capable de fournir une imputation précise et rapide en zéro-shot au moment de l'inférence, sans ajustement ni optimisation des hyperparamètres. Pour entraîner et évaluer TabImpute, les auteurs introduisent : (i) une caractérisation au niveau des entrées adaptée aux paramètres tabulaires, réalisant une accélération 100 fois supérieure par rapport aux méthodes d'imputation TabPFN précédentes ; (ii) un pipeline de génération de données d'entraînement synthétiques intégrant des modèles de manque réalistes, améliorant les performances au moment du test ; (iii) MissBench, un benchmark d'évaluation complet des méthodes d'imputation comprenant 42 ensembles de données OpenML et 13 modèles de manque. MissBench couvre les domaines médical, financier et ingénierie, démontrant les performances robustes de TabImpute par rapport à 11 méthodes d'imputation établies.
Les données manquantes sont omniprésentes dans les données tabulaires, affectant les statisticiens, les économistes, les responsables de la santé et les entreprises. Par exemple, un ensemble de données médicales peut manquer d'enregistrements de mesures de pression artérielle, ou un ensemble de données fusionné à partir de plusieurs sources peut ne partager que des caractéristiques partielles. Quelle que soit la source, les données manquantes doivent être imputées en valeurs numériques avant d'utiliser des modèles statistiques ou d'apprentissage automatique.
Variation de performance importante : Les méthodes existantes présentent des variations de performance considérables selon les domaines et les ensembles de données
Ajustement des hyperparamètres : Nécessite un processus d'ajustement des hyperparamètres chronophage
Absence de méthode universelle : Aucune méthode d'imputation par défaut ne s'applique à tous les scénarios
Restrictions spécifiques au contexte : Chaque méthode est généralement conçue pour des paramètres spécifiques
En s'appuyant sur le succès de TabPFN dans l'apprentissage supervisé sur données tabulaires, les auteurs souhaitent développer une méthode capable de :
Réaliser une imputation en zéro-shot (sans entraînement ni ajustement)
Démontrer une robustesse face à plusieurs modèles de manque
Fournir des résultats d'imputation rapides et précis
S'appliquer aux données tabulaires de différents domaines
Proposition du modèle TabImpute : Un Transformateur pré-entraîné basé sur l'architecture TabPFN, réalisant une imputation précise et rapide de données manquantes en zéro-shot
Caractérisation innovante au niveau des entrées (Entry-wise Featurization) : Réalisant une accélération 100 fois supérieure par rapport à la méthode d'imputation au niveau des colonnes de TabPFN
Pipeline complet de génération de données synthétiques : Incluant 13 modèles de manque réalistes pour la génération de données d'entraînement, améliorant la capacité de généralisation du modèle
Construction du benchmark MissBench : Un benchmark d'évaluation complet comprenant 42 ensembles de données OpenML et 13 modèles de manque
Méthode d'ensemble TabImpute+ : Intégrant TabImpute et EWF-TabPFN avec des poids adaptatifs, atteignant les meilleures performances
Étant donné une matrice de données tabulaires X avec des valeurs manquantes, où X* est la matrice complète et Ω est l'ensemble des indices des entrées manquantes, l'objectif est de prédire les valeurs de toutes les entrées manquantes.
Traitement Parallélisé : La caractérisation au niveau des entrées permet la prédiction parallèle de toutes les valeurs manquantes, plutôt qu'un traitement colonne par colonne
Capacité en Zéro-Shot : Le modèle pré-entraîné peut être utilisé directement sans affinage sur les données cibles
Adaptation Multi-Modèles : Traitement de plusieurs modèles de manque via une stratégie d'entraînement adaptative
Stratégie d'Ensemble : TabImpute+ intègre les avantages de différentes méthodes par pondération optimale
La Figure 4 montre que dans le modèle MCAR, l'avantage de TabImpute+ devient plus prononcé à mesure que le taux de manque augmente, car les modèles génératifs peuvent mieux exploiter les informations contextuelles.
Problèmes de Scalabilité : La complexité quadratique limite l'application sur des données à grande échelle
Limitations des Types de Données : Le support limité aux données numériques restreint la portée des applications pratiques
Dépendance aux Données Synthétiques : La dépendance complète aux données synthétiques pour l'entraînement peut affecter les performances dans certains scénarios réels
Exigences en Ressources Informatiques : L'entraînement nécessite des ressources GPU considérables
Données Tabulaires de Petite à Moyenne Échelle : Particulièrement adaptée aux données avec un nombre de lignes et de colonnes dans une plage raisonnable
Applications Multi-Domaines : Adaptée à une utilisation inter-domaines en raison de la caractéristique en zéro-shot
Développement Rapide de Prototypes : La caractéristique sans ajustement est adaptée à la validation et au déploiement rapides
Recherche et Tests de Référence : MissBench est adapté comme norme d'évaluation pour les nouvelles méthodes
Cet article s'appuie principalement sur les travaux importants suivants :
Hollmann et al. (2023, 2025) - Série de travaux TabPFN
Müller et al. (2022) - Fondements théoriques des Réseaux de Données Pré-ajustées
Jarrett et al. (2022) - Méthode d'imputation d'ensemble HyperImpute
Rubin (1976) - Fondements théoriques des données manquantes
Résumé : TabImpute est un travail de recherche de haute qualité avec des contributions significatives en innovation technique, conception expérimentale et valeur pratique. Malgré certaines limitations telles que la scalabilité, sa capacité d'imputation en zéro-shot et ses performances exceptionnelles en font une avancée importante dans le domaine.