2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic

TabImpute : Imputation de Données Manquantes Précise et Rapide en Zéro-Shot avec un Transformateur Pré-entraîné

Informations Fondamentales

  • ID de l'article : 2510.02625
  • Titre : TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
  • Auteurs : Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de Publication : Octobre 2025 (Préimpression. En Révision)
  • Lien de l'article : https://arxiv.org/abs/2510.02625v2

Résumé

Les données manquantes constituent un problème universel dans les données tabulaires. Les solutions existantes varient de simples imputations par la moyenne à des réseaux antagonistes génératifs complexes. Cependant, en raison des variations de performance considérables dans les domaines du monde réel et de l'ajustement chronophage des hyperparamètres, il n'existe actuellement pas de méthode d'imputation par défaut. En s'appuyant sur TabPFN (un modèle fondamental récent pour l'apprentissage supervisé sur données tabulaires), cet article propose TabImpute, un Transformateur pré-entraîné capable de fournir une imputation précise et rapide en zéro-shot au moment de l'inférence, sans ajustement ni optimisation des hyperparamètres. Pour entraîner et évaluer TabImpute, les auteurs introduisent : (i) une caractérisation au niveau des entrées adaptée aux paramètres tabulaires, réalisant une accélération 100 fois supérieure par rapport aux méthodes d'imputation TabPFN précédentes ; (ii) un pipeline de génération de données d'entraînement synthétiques intégrant des modèles de manque réalistes, améliorant les performances au moment du test ; (iii) MissBench, un benchmark d'évaluation complet des méthodes d'imputation comprenant 42 ensembles de données OpenML et 13 modèles de manque. MissBench couvre les domaines médical, financier et ingénierie, démontrant les performances robustes de TabImpute par rapport à 11 méthodes d'imputation établies.

Contexte et Motivation de la Recherche

Définition du Problème

Les données manquantes sont omniprésentes dans les données tabulaires, affectant les statisticiens, les économistes, les responsables de la santé et les entreprises. Par exemple, un ensemble de données médicales peut manquer d'enregistrements de mesures de pression artérielle, ou un ensemble de données fusionné à partir de plusieurs sources peut ne partager que des caractéristiques partielles. Quelle que soit la source, les données manquantes doivent être imputées en valeurs numériques avant d'utiliser des modèles statistiques ou d'apprentissage automatique.

Importance du Problème

  1. Universalité : Les données manquantes sont un problème courant dans tous les domaines
  2. Nécessité : La plupart des algorithmes d'apprentissage automatique ne peuvent pas traiter directement les valeurs manquantes
  3. Complexité : Différents mécanismes de manque nécessitent différentes stratégies de traitement

Limitations des Méthodes Existantes

  1. Variation de performance importante : Les méthodes existantes présentent des variations de performance considérables selon les domaines et les ensembles de données
  2. Ajustement des hyperparamètres : Nécessite un processus d'ajustement des hyperparamètres chronophage
  3. Absence de méthode universelle : Aucune méthode d'imputation par défaut ne s'applique à tous les scénarios
  4. Restrictions spécifiques au contexte : Chaque méthode est généralement conçue pour des paramètres spécifiques

Motivation de la Recherche

En s'appuyant sur le succès de TabPFN dans l'apprentissage supervisé sur données tabulaires, les auteurs souhaitent développer une méthode capable de :

  1. Réaliser une imputation en zéro-shot (sans entraînement ni ajustement)
  2. Démontrer une robustesse face à plusieurs modèles de manque
  3. Fournir des résultats d'imputation rapides et précis
  4. S'appliquer aux données tabulaires de différents domaines

Contributions Principales

  1. Proposition du modèle TabImpute : Un Transformateur pré-entraîné basé sur l'architecture TabPFN, réalisant une imputation précise et rapide de données manquantes en zéro-shot
  2. Caractérisation innovante au niveau des entrées (Entry-wise Featurization) : Réalisant une accélération 100 fois supérieure par rapport à la méthode d'imputation au niveau des colonnes de TabPFN
  3. Pipeline complet de génération de données synthétiques : Incluant 13 modèles de manque réalistes pour la génération de données d'entraînement, améliorant la capacité de généralisation du modèle
  4. Construction du benchmark MissBench : Un benchmark d'évaluation complet comprenant 42 ensembles de données OpenML et 13 modèles de manque
  5. Méthode d'ensemble TabImpute+ : Intégrant TabImpute et EWF-TabPFN avec des poids adaptatifs, atteignant les meilleures performances

Détails de la Méthode

Définition de la Tâche

Étant donné une matrice de données tabulaires X avec des valeurs manquantes, où X* est la matrice complète et Ω est l'ensemble des indices des entrées manquantes, l'objectif est de prédire les valeurs de toutes les entrées manquantes.

Architecture du Modèle

1. Caractérisation au Niveau des Entrées (Entry-wise Featurization, EWF)

Tandis que les méthodes traditionnelles adoptent une imputation au niveau des colonnes, cet article propose une approche au niveau des entrées :

  • Pour chaque entrée (i,j), construire un vecteur de caractéristiques : (i ⊕ j ⊕ Xi,: ⊕ X:,j)
  • Où Xi,: représente la i-ème ligne, X:,j représente la j-ème colonne, et ⊕ représente la concaténation
  • La valeur cible est yij = X*ij
  • Créer une matrice de caractéristiques de taille nm × (n+m)

2. Modifications Architecturales

Basées sur l'architecture TabPFN, une modification clé est apportée :

  • Suppression du masque d'attention, permettant aux points d'entraînement d'accéder aux points de test
  • La raison en est que l'ensemble de test est créé à partir de données déjà observées, sans risque de fuite de données

3. Génération de Données d'Entraînement Synthétiques

Génération de données : Utilisation de modèles de facteurs linéaires (Linear Factor Models)

Y = UV^T

Où U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Modèles de manque : Implémentation de 13 modèles de manque

  • 1 modèle MCAR (Manquant Complètement Au Hasard)
  • 1 modèle MAR (Manquant Au Hasard)
  • 11 modèles MNAR (Manquant Non Au Hasard)

4. Entraînement Multi-Modèles

Utilisation d'un algorithme adaptatif pour déterminer la proportion de modèles de manque dans chaque lot :

  • Recalcul de la proportion tous les s pas de gradient
  • Application d'une softmax aux valeurs de perte de chaque modèle
  • Réduction adaptative du poids des modèles performants, augmentation du poids des modèles moins performants

Points d'Innovation Technique

  1. Traitement Parallélisé : La caractérisation au niveau des entrées permet la prédiction parallèle de toutes les valeurs manquantes, plutôt qu'un traitement colonne par colonne
  2. Capacité en Zéro-Shot : Le modèle pré-entraîné peut être utilisé directement sans affinage sur les données cibles
  3. Adaptation Multi-Modèles : Traitement de plusieurs modèles de manque via une stratégie d'entraînement adaptative
  4. Stratégie d'Ensemble : TabImpute+ intègre les avantages de différentes méthodes par pondération optimale

Configuration Expérimentale

Ensembles de Données

Le benchmark MissBench comprend :

  • 42 ensembles de données OpenML
  • Couvrant les domaines médical, ingénierie, éducation et autres
  • Tailles d'ensembles de données variant de 50×5 à 170×55
  • Incluant uniquement les caractéristiques numériques et les ensembles de données originalement sans valeurs manquantes

Métriques d'Évaluation

Précision d'imputation :

  1. Calcul du RMSE pour chaque méthode : 1Ω(i,j)Ω(XijtrueXijimputed)2\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}
  2. Normalisation min-max au sein de chaque tâche
  3. Précision d'imputation = 1 - RMSE normalisé

Méthodes de Comparaison

11 méthodes d'imputation établies :

  • Imputation par la moyenne des colonnes
  • SoftImpute
  • MissForest
  • ICE/MICE
  • GAIN
  • MIWAE
  • Méthodes de transport optimal
  • K-plus proches voisins
  • HyperImpute
  • Méthode d'imputation TabPFN originale

Détails d'Implémentation

  • Entraînement : 8 GPU H200, environ une semaine
  • Traitement de 25 millions de tableaux synthétiques
  • Taux d'apprentissage : 0.0001, taille de lot : 64
  • Intervalle de mise à jour adaptative : s=50 pas

Résultats Expérimentaux

Résultats Principaux

Performance Globale (Tableau 1) :

  • TabImpute+ : 0.833 ± 0.213 (meilleur)
  • HyperImpute : 0.766 ± 0.259
  • Transport optimal : 0.765 ± 0.227
  • MissForest : 0.754 ± 0.248

Temps d'Exécution (Figure 1b) :

  • TabImpute présente le temps d'exécution le plus court sur GPU
  • Accélération significative par rapport à TabPFN
  • La version CPU reste compétitive

Performance selon Différents Modèles de Manque

TabImpute+ atteint les meilleures performances dans presque tous les modèles de manque :

  • NN-MNAR : 0.880 ± 0.126
  • Block-MNAR : 0.908 ± 0.168
  • Seq-MNAR : 0.905 ± 0.094
  • Panel-MNAR : 0.791 ± 0.329 (supériorité significative par rapport aux autres méthodes)

Études d'Ablation

Comparaison des méthodes en zéro-shot (Tableau 2) :

  • TabImpute+ performance globale optimale : 0.614 ± 0.468
  • EWF-TabPFN : 0.600 ± 0.476
  • TabImpute : 0.393 ± 0.487

Démontrant l'efficacité de la stratégie d'ensemble.

Scénarios de Taux de Manque Élevé

La Figure 4 montre que dans le modèle MCAR, l'avantage de TabImpute+ devient plus prononcé à mesure que le taux de manque augmente, car les modèles génératifs peuvent mieux exploiter les informations contextuelles.

Travaux Connexes

Méthodes d'Imputation de Données Manquantes

  1. Méthodes Traditionnelles : Imputation par la moyenne, modèles linéaires, forêts aléatoires
  2. Complétion de Matrices : SoftImpute, USVT, méthodes de voisinage
  3. Apprentissage Profond : GAIN (GAN), MIWAE (VAE)
  4. Méthodes d'Ensemble : HyperImpute

Apprentissage de Représentations Tabulaires

  1. TabPFN : Modèle fondamental pour l'apprentissage supervisé sur données tabulaires
  2. Développements Ultérieurs : TabICL, MITRA, CausalFM, etc.
  3. Caractéristiques Techniques : Réseaux de Données Pré-ajustées (PFN), apprentissage contextuel

Conclusions et Discussion

Conclusions Principales

  1. TabImpute réalise une imputation précise et rapide de données manquantes en zéro-shot
  2. La caractérisation au niveau des entrées améliore significativement l'efficacité et la précision
  3. La stratégie d'entraînement multi-modèles renforce la capacité de généralisation du modèle
  4. MissBench fournit un benchmark complet pour l'évaluation des méthodes d'imputation

Limitations

  1. Scalabilité : En raison de la caractérisation au niveau des entrées, la complexité d'attention est à nouveau quadratique dans la dimension des lignes
  2. Performance CPU : Exécution plus lente sur CPU, similaire à TabPFN
  3. Types de Données : Actuellement limité aux données numériques, ne supporte pas les données catégoriques
  4. Limitations Architecturales : Hérite de la limitation de complexité temporelle quadratique de TabPFN

Directions Futures

  1. Explorer des modèles de manque plus complexes et des processus de génération de données
  2. Améliorer la méthode pour supporter les données catégoriques
  3. Étendre l'évaluation aux paramètres d'inférence causale
  4. Améliorer l'architecture pour s'adapter à des ensembles de données plus volumineux
  5. Exploiter la méthode pour l'imputation multiple

Évaluation Approfondie

Points Forts

  1. Innovation Forte : La caractérisation au niveau des entrées est une innovation ingénieuse, réalisant une amélioration significative des performances
  2. Expérimentation Complète : MissBench fournit l'évaluation la plus complète à ce jour des méthodes d'imputation
  3. Valeur Pratique Élevée : La caractéristique en zéro-shot rend la méthode facile à déployer et à utiliser
  4. Fondations Théoriques Solides : Basée sur le cadre PFN établi et la théorie de l'inférence bayésienne

Insuffisances

  1. Problèmes de Scalabilité : La complexité quadratique limite l'application sur des données à grande échelle
  2. Limitations des Types de Données : Le support limité aux données numériques restreint la portée des applications pratiques
  3. Dépendance aux Données Synthétiques : La dépendance complète aux données synthétiques pour l'entraînement peut affecter les performances dans certains scénarios réels
  4. Exigences en Ressources Informatiques : L'entraînement nécessite des ressources GPU considérables

Impact

  1. Contribution Académique : Fournit une nouvelle direction de recherche pour le domaine de l'imputation de données manquantes tabulaires
  2. Valeur Pratique : La caractéristique en zéro-shot présente un grand potentiel pour les applications industrielles
  3. Contribution du Benchmark : MissBench deviendra une norme d'évaluation importante dans le domaine
  4. Reproductibilité : Les auteurs s'engagent à publier le code et les poids

Scénarios d'Application

  1. Données Tabulaires de Petite à Moyenne Échelle : Particulièrement adaptée aux données avec un nombre de lignes et de colonnes dans une plage raisonnable
  2. Applications Multi-Domaines : Adaptée à une utilisation inter-domaines en raison de la caractéristique en zéro-shot
  3. Développement Rapide de Prototypes : La caractéristique sans ajustement est adaptée à la validation et au déploiement rapides
  4. Recherche et Tests de Référence : MissBench est adapté comme norme d'évaluation pour les nouvelles méthodes

Références

Cet article s'appuie principalement sur les travaux importants suivants :

  1. Hollmann et al. (2023, 2025) - Série de travaux TabPFN
  2. Müller et al. (2022) - Fondements théoriques des Réseaux de Données Pré-ajustées
  3. Jarrett et al. (2022) - Méthode d'imputation d'ensemble HyperImpute
  4. Rubin (1976) - Fondements théoriques des données manquantes

Résumé : TabImpute est un travail de recherche de haute qualité avec des contributions significatives en innovation technique, conception expérimentale et valeur pratique. Malgré certaines limitations telles que la scalabilité, sa capacité d'imputation en zéro-shot et ses performances exceptionnelles en font une avancée importante dans le domaine.