TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic
TabImpute: Genaue und schnelle Zero-Shot-Imputation fehlender Daten mit einem vortrainierten Transformer
Fehlende Daten sind ein weit verbreitetes Problem in Tabellendaten. Bestehende Lösungen reichen von einfacher Mittelwertimputation bis zu komplexen generativen adversarialen Netzwerken. Aufgrund großer Leistungsunterschiede in realen Anwendungsdomänen und zeitaufwändiger Hyperparameter-Optimierung existiert jedoch derzeit keine standardmäßige Imputationsmethode. Basierend auf TabPFN (einem modernen Basis-Modell für tabellarisches überwachtes Lernen) schlagen die Autoren TabImpute vor – einen vortrainierten Transformer, der zur Inferenzzeit genaue und schnelle Zero-Shot-Imputation ohne Anpassung oder Hyperparameter-Optimierung ermöglicht. Zur Schulung und Evaluierung von TabImpute führen die Autoren ein: (i) eine eintragsweise Featurisierung für tabellarische Einstellungen, die eine 100-fache Beschleunigung gegenüber früheren TabPFN-Imputationsmethoden erreicht; (ii) eine Synthese-Datengenerierungs-Pipeline, die realistische Fehlmuster kombiniert und die Testleistung verbessert; (iii) MissBench, eine umfassende Bewertungs-Benchmark mit 42 OpenML-Datensätzen und 13 Fehlmustern. MissBench umfasst Bereiche wie Medizin, Finanzen und Ingenieurwesen und zeigt die robuste Leistung von TabImpute im Vergleich zu 11 etablierten Imputationsmethoden.
Fehlende Daten sind in Tabellendaten allgegenwärtig und beeinflussen Statistiker, Ökonomen, Gesundheitsbeamte und Unternehmen. Beispielsweise können medizinische Datensätze fehlende Blutdruckmessungen aufweisen, oder aus mehreren Quellen zusammengeführte Datensätze können nur teilweise gemeinsame Merkmale aufweisen. Unabhängig von der Quelle müssen fehlende Daten vor der Verwendung statistischer oder maschineller Lernmodelle in numerische Werte imputiert werden.
Vorschlag des TabImpute-Modells: Ein auf der TabPFN-Architektur basierender vortrainierter Transformer, der genaue und schnelle Zero-Shot-Imputation fehlender Daten ermöglicht
Innovative eintragsweise Featurisierung (Entry-wise Featurization): Erreicht eine 100-fache Beschleunigung gegenüber der spaltenweisen Imputationsmethode von TabPFN
Umfassende Synthese-Datengenerierungs-Pipeline: Trainings-Datengenerierungsmethode mit 13 realistischen Fehlmustern zur Verbesserung der Modellverallgemeinerung
Konstruktion der MissBench-Benchmark: Umfassende Evaluierungs-Benchmark mit 42 OpenML-Datensätzen und 13 Fehlmustern
TabImpute+-Ensemble-Methode: Erreicht optimale Leistung durch adaptive Gewichtung von TabImpute und EWF-TabPFN
Gegeben ist eine Tabellendatenmatrix X mit fehlenden Werten, wobei X* die vollständige Matrix ist und Ω die Indexmenge der fehlenden Einträge darstellt. Das Ziel besteht darin, die Werte aller fehlenden Einträge vorherzusagen.
Parallelisierte Verarbeitung: Die eintragsweise Featurisierung ermöglicht die parallele Vorhersage aller fehlenden Werte statt spaltenweise Verarbeitung
Zero-Shot-Fähigkeit: Das vortrainierte Modell kann direkt ohne Feinabstimmung auf Zieldaten verwendet werden
Multi-Muster-Anpassung: Behandlung verschiedener Fehlmuster durch adaptive Trainings-Strategie
Ensemble-Strategie: TabImpute+ kombiniert die Vorteile verschiedener Methoden durch optimale Gewichtung
Abbildung 4 zeigt, dass bei MCAR-Mustern der Vorteil von TabImpute+ mit zunehmender Fehlquote deutlicher wird, da generative Modelle Kontextinformationen besser nutzen können.
Skalierungsprobleme: Die quadratische Komplexität begrenzt die Anwendung auf großen Datensätzen
Einschränkungen bei Datentypen: Die Unterstützung nur numerischer Daten begrenzt den praktischen Anwendungsbereich
Abhängigkeit von synthetischen Daten: Die vollständige Abhängigkeit von synthetischen Daten für das Training kann die Leistung in bestimmten realen Szenarien beeinflussen
Anforderungen an Rechenressourcen: Das Training erfordert erhebliche GPU-Ressourcen
Zusammenfassung: TabImpute ist eine hochwertige Forschungsarbeit mit signifikanten Beiträgen in technischer Innovation, experimentellem Design und praktischem Wert. Trotz Einschränkungen wie Skalierungsproblemen machen die Zero-Shot-Imputationsfähigkeit und die überlegene Leistung sie zu einem wichtigen Fortschritt in diesem Bereich.