2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.

Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.

academic

TabImpute : Imputation de Données Manquantes Précise et Rapide en Zéro-Shot avec un Transformateur Pré-entraîné

Informations Fondamentales

ID de l'article : 2510.02625
Titre : TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Auteurs : Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
Classification : cs.LG (Apprentissage Automatique)
Date de Publication : Octobre 2025 (Préimpression. En Révision)
Lien de l'article : https://arxiv.org/abs/2510.02625v2

Résumé

Les données manquantes constituent un problème universel dans les données tabulaires. Les solutions existantes varient de simples imputations par la moyenne à des réseaux antagonistes génératifs complexes. Cependant, en raison des variations de performance considérables dans les domaines du monde réel et de l'ajustement chronophage des hyperparamètres, il n'existe actuellement pas de méthode d'imputation par défaut. En s'appuyant sur TabPFN (un modèle fondamental récent pour l'apprentissage supervisé sur données tabulaires), cet article propose TabImpute, un Transformateur pré-entraîné capable de fournir une imputation précise et rapide en zéro-shot au moment de l'inférence, sans ajustement ni optimisation des hyperparamètres. Pour entraîner et évaluer TabImpute, les auteurs introduisent : (i) une caractérisation au niveau des entrées adaptée aux paramètres tabulaires, réalisant une accélération 100 fois supérieure par rapport aux méthodes d'imputation TabPFN précédentes ; (ii) un pipeline de génération de données d'entraînement synthétiques intégrant des modèles de manque réalistes, améliorant les performances au moment du test ; (iii) MissBench, un benchmark d'évaluation complet des méthodes d'imputation comprenant 42 ensembles de données OpenML et 13 modèles de manque. MissBench couvre les domaines médical, financier et ingénierie, démontrant les performances robustes de TabImpute par rapport à 11 méthodes d'imputation établies.

Contexte et Motivation de la Recherche

Définition du Problème

Les données manquantes sont omniprésentes dans les données tabulaires, affectant les statisticiens, les économistes, les responsables de la santé et les entreprises. Par exemple, un ensemble de données médicales peut manquer d'enregistrements de mesures de pression artérielle, ou un ensemble de données fusionné à partir de plusieurs sources peut ne partager que des caractéristiques partielles. Quelle que soit la source, les données manquantes doivent être imputées en valeurs numériques avant d'utiliser des modèles statistiques ou d'apprentissage automatique.

Importance du Problème

Universalité : Les données manquantes sont un problème courant dans tous les domaines
Nécessité : La plupart des algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes
Complexité : Différents mécanismes de manque nécessitent différentes stratégies de traitement

Limitations des Méthodes Existantes

Variation de performance importante : Les méthodes existantes présentent des variations de performance considérables selon les domaines et les ensembles de données
Ajustement des hyperparamètres : Nécessite un processus d'ajustement des hyperparamètres chronophage
Absence de méthode universelle : Aucune méthode d'imputation par défaut ne s'applique à tous les scénarios
Restrictions spécifiques au contexte : Chaque méthode est généralement conçue pour des paramètres spécifiques

Motivation de la Recherche

En s'appuyant sur le succès de TabPFN dans l'apprentissage supervisé sur données tabulaires, les auteurs souhaitent développer une méthode capable de :

Réaliser une imputation en zéro-shot (sans entraînement ni ajustement)
Démontrer une robustesse face à plusieurs modèles de manque
Fournir des résultats d'imputation rapides et précis
S'appliquer aux données tabulaires de différents domaines

Contributions Principales

Proposition du modèle TabImpute : Un Transformateur pré-entraîné basé sur l'architecture TabPFN, réalisant une imputation précise et rapide de données manquantes en zéro-shot
Caractérisation innovante au niveau des entrées (Entry-wise Featurization) : Réalisant une accélération 100 fois supérieure par rapport à la méthode d'imputation au niveau des colonnes de TabPFN
Pipeline complet de génération de données synthétiques : Incluant 13 modèles de manque réalistes pour la génération de données d'entraînement, améliorant la capacité de généralisation du modèle
Construction du benchmark MissBench : Un benchmark d'évaluation complet comprenant 42 ensembles de données OpenML et 13 modèles de manque
Méthode d'ensemble TabImpute+ : Intégrant TabImpute et EWF-TabPFN avec des poids adaptatifs, atteignant les meilleures performances

Détails de la Méthode

Définition de la Tâche

Étant donné une matrice de données tabulaires X avec des valeurs manquantes, où X* est la matrice complète et Ω est l'ensemble des indices des entrées manquantes, l'objectif est de prédire les valeurs de toutes les entrées manquantes.

Architecture du Modèle

1. Caractérisation au Niveau des Entrées (Entry-wise Featurization, EWF)

Tandis que les méthodes traditionnelles adoptent une imputation au niveau des colonnes, cet article propose une approche au niveau des entrées :

Pour chaque entrée (i,j), construire un vecteur de caractéristiques : (i ⊕ j ⊕ Xi,: ⊕ X:,j)
Où Xi,: représente la i-ème ligne, X:,j représente la j-ème colonne, et ⊕ représente la concaténation
La valeur cible est yij = X*ij
Créer une matrice de caractéristiques de taille nm × (n+m)

2. Modifications Architecturales

Basées sur l'architecture TabPFN, une modification clé est apportée :

Suppression du masque d'attention, permettant aux points d'entraînement d'accéder aux points de test
La raison en est que l'ensemble de test est créé à partir de données déjà observées, sans risque de fuite de données

3. Génération de Données d'Entraînement Synthétiques

Génération de données : Utilisation de modèles de facteurs linéaires (Linear Factor Models)

Y = UV^T

Où U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Modèles de manque : Implémentation de 13 modèles de manque

1 modèle MCAR (Manquant Complètement Au Hasard)
1 modèle MAR (Manquant Au Hasard)
11 modèles MNAR (Manquant Non Au Hasard)

4. Entraînement Multi-Modèles

Utilisation d'un algorithme adaptatif pour déterminer la proportion de modèles de manque dans chaque lot :

Recalcul de la proportion tous les s pas de gradient
Application d'une softmax aux valeurs de perte de chaque modèle
Réduction adaptative du poids des modèles performants, augmentation du poids des modèles moins performants

Points d'Innovation Technique

Traitement Parallélisé : La caractérisation au niveau des entrées permet la prédiction parallèle de toutes les valeurs manquantes, plutôt qu'un traitement colonne par colonne
Capacité en Zéro-Shot : Le modèle pré-entraîné peut être utilisé directement sans affinage sur les données cibles
Adaptation Multi-Modèles : Traitement de plusieurs modèles de manque via une stratégie d'entraînement adaptative
Stratégie d'Ensemble : TabImpute+ intègre les avantages de différentes méthodes par pondération optimale

Configuration Expérimentale

Ensembles de Données

Le benchmark MissBench comprend :

42 ensembles de données OpenML
Couvrant les domaines médical, ingénierie, éducation et autres
Tailles d'ensembles de données variant de 50×5 à 170×55
Incluant uniquement les caractéristiques numériques et les ensembles de données originalement sans valeurs manquantes

Métriques d'Évaluation

Précision d'imputation :

Calcul du RMSE pour chaque méthode : $\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}$
Normalisation min-max au sein de chaque tâche
Précision d'imputation = 1 - RMSE normalisé

Méthodes de Comparaison

11 méthodes d'imputation établies :

Imputation par la moyenne des colonnes
SoftImpute
MissForest
ICE/MICE
GAIN
MIWAE
Méthodes de transport optimal
K-plus proches voisins
HyperImpute
Méthode d'imputation TabPFN originale

Détails d'Implémentation

Entraînement : 8 GPU H200, environ une semaine
Traitement de 25 millions de tableaux synthétiques
Taux d'apprentissage : 0.0001, taille de lot : 64
Intervalle de mise à jour adaptative : s=50 pas

Résultats Expérimentaux

Résultats Principaux

Performance Globale (Tableau 1) :

TabImpute+ : 0.833 ± 0.213 (meilleur)
HyperImpute : 0.766 ± 0.259
Transport optimal : 0.765 ± 0.227
MissForest : 0.754 ± 0.248

Temps d'Exécution (Figure 1b) :

TabImpute présente le temps d'exécution le plus court sur GPU
Accélération significative par rapport à TabPFN
La version CPU reste compétitive

Performance selon Différents Modèles de Manque

TabImpute+ atteint les meilleures performances dans presque tous les modèles de manque :

NN-MNAR : 0.880 ± 0.126
Block-MNAR : 0.908 ± 0.168
Seq-MNAR : 0.905 ± 0.094
Panel-MNAR : 0.791 ± 0.329 (supériorité significative par rapport aux autres méthodes)

Études d'Ablation

Comparaison des méthodes en zéro-shot (Tableau 2) :

TabImpute+ performance globale optimale : 0.614 ± 0.468
EWF-TabPFN : 0.600 ± 0.476
TabImpute : 0.393 ± 0.487

Démontrant l'efficacité de la stratégie d'ensemble.

Scénarios de Taux de Manque Élevé

La Figure 4 montre que dans le modèle MCAR, l'avantage de TabImpute+ devient plus prononcé à mesure que le taux de manque augmente, car les modèles génératifs peuvent mieux exploiter les informations contextuelles.

Travaux Connexes

Méthodes d'Imputation de Données Manquantes

Méthodes Traditionnelles : Imputation par la moyenne, modèles linéaires, forêts aléatoires
Complétion de Matrices : SoftImpute, USVT, méthodes de voisinage
Apprentissage Profond : GAIN (GAN), MIWAE (VAE)
Méthodes d'Ensemble : HyperImpute

Apprentissage de Représentations Tabulaires

TabPFN : Modèle fondamental pour l'apprentissage supervisé sur données tabulaires
Développements Ultérieurs : TabICL, MITRA, CausalFM, etc.
Caractéristiques Techniques : Réseaux de Données Pré-ajustées (PFN), apprentissage contextuel

Conclusions et Discussion

Conclusions Principales

TabImpute réalise une imputation précise et rapide de données manquantes en zéro-shot
La caractérisation au niveau des entrées améliore significativement l'efficacité et la précision
La stratégie d'entraînement multi-modèles renforce la capacité de généralisation du modèle
MissBench fournit un benchmark complet pour l'évaluation des méthodes d'imputation

Limitations

Scalabilité : En raison de la caractérisation au niveau des entrées, la complexité d'attention est à nouveau quadratique dans la dimension des lignes
Performance CPU : Exécution plus lente sur CPU, similaire à TabPFN
Types de Données : Actuellement limité aux données numériques, ne supporte pas les données catégoriques
Limitations Architecturales : Hérite de la limitation de complexité temporelle quadratique de TabPFN

Directions Futures

Explorer des modèles de manque plus complexes et des processus de génération de données
Améliorer la méthode pour supporter les données catégoriques
Étendre l'évaluation aux paramètres d'inférence causale
Améliorer l'architecture pour s'adapter à des ensembles de données plus volumineux
Exploiter la méthode pour l'imputation multiple

Évaluation Approfondie

Points Forts

Innovation Forte : La caractérisation au niveau des entrées est une innovation ingénieuse, réalisant une amélioration significative des performances
Expérimentation Complète : MissBench fournit l'évaluation la plus complète à ce jour des méthodes d'imputation
Valeur Pratique Élevée : La caractéristique en zéro-shot rend la méthode facile à déployer et à utiliser
Fondations Théoriques Solides : Basée sur le cadre PFN établi et la théorie de l'inférence bayésienne

Insuffisances

Problèmes de Scalabilité : La complexité quadratique limite l'application sur des données à grande échelle
Limitations des Types de Données : Le support limité aux données numériques restreint la portée des applications pratiques
Dépendance aux Données Synthétiques : La dépendance complète aux données synthétiques pour l'entraînement peut affecter les performances dans certains scénarios réels
Exigences en Ressources Informatiques : L'entraînement nécessite des ressources GPU considérables

Impact

Contribution Académique : Fournit une nouvelle direction de recherche pour le domaine de l'imputation de données manquantes tabulaires
Valeur Pratique : La caractéristique en zéro-shot présente un grand potentiel pour les applications industrielles
Contribution du Benchmark : MissBench deviendra une norme d'évaluation importante dans le domaine
Reproductibilité : Les auteurs s'engagent à publier le code et les poids

Scénarios d'Application

Données Tabulaires de Petite à Moyenne Échelle : Particulièrement adaptée aux données avec un nombre de lignes et de colonnes dans une plage raisonnable
Applications Multi-Domaines : Adaptée à une utilisation inter-domaines en raison de la caractéristique en zéro-shot
Développement Rapide de Prototypes : La caractéristique sans ajustement est adaptée à la validation et au déploiement rapides
Recherche et Tests de Référence : MissBench est adapté comme norme d'évaluation pour les nouvelles méthodes

Références

Cet article s'appuie principalement sur les travaux importants suivants :

Hollmann et al. (2023, 2025) - Série de travaux TabPFN
Müller et al. (2022) - Fondements théoriques des Réseaux de Données Pré-ajustées
Jarrett et al. (2022) - Méthode d'imputation d'ensemble HyperImpute
Rubin (1976) - Fondements théoriques des données manquantes

Résumé : TabImpute est un travail de recherche de haute qualité avec des contributions significatives en innovation technique, conception expérimentale et valeur pratique. Malgré certaines limitations telles que la scalabilité, sa capacité d'imputation en zéro-shot et ses performances exceptionnelles en font une avancée importante dans le domaine.