2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.

Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.

academic

TabImpute: Genaue und schnelle Zero-Shot-Imputation fehlender Daten mit einem vortrainierten Transformer

Grundinformationen

Paper-ID: 2510.02625
Titel: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Autoren: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
Klassifizierung: cs.LG (Machine Learning)
Veröffentlichungsdatum: Oktober 2025 (Preprint. Zur Überprüfung eingereicht)
Paper-Link: https://arxiv.org/abs/2510.02625v2

Zusammenfassung

Fehlende Daten sind ein weit verbreitetes Problem in Tabellendaten. Bestehende Lösungen reichen von einfacher Mittelwertimputation bis zu komplexen generativen adversarialen Netzwerken. Aufgrund großer Leistungsunterschiede in realen Anwendungsdomänen und zeitaufwändiger Hyperparameter-Optimierung existiert jedoch derzeit keine standardmäßige Imputationsmethode. Basierend auf TabPFN (einem modernen Basis-Modell für tabellarisches überwachtes Lernen) schlagen die Autoren TabImpute vor – einen vortrainierten Transformer, der zur Inferenzzeit genaue und schnelle Zero-Shot-Imputation ohne Anpassung oder Hyperparameter-Optimierung ermöglicht. Zur Schulung und Evaluierung von TabImpute führen die Autoren ein: (i) eine eintragsweise Featurisierung für tabellarische Einstellungen, die eine 100-fache Beschleunigung gegenüber früheren TabPFN-Imputationsmethoden erreicht; (ii) eine Synthese-Datengenerierungs-Pipeline, die realistische Fehlmuster kombiniert und die Testleistung verbessert; (iii) MissBench, eine umfassende Bewertungs-Benchmark mit 42 OpenML-Datensätzen und 13 Fehlmustern. MissBench umfasst Bereiche wie Medizin, Finanzen und Ingenieurwesen und zeigt die robuste Leistung von TabImpute im Vergleich zu 11 etablierten Imputationsmethoden.

Forschungshintergrund und Motivation

Problemdefinition

Fehlende Daten sind in Tabellendaten allgegenwärtig und beeinflussen Statistiker, Ökonomen, Gesundheitsbeamte und Unternehmen. Beispielsweise können medizinische Datensätze fehlende Blutdruckmessungen aufweisen, oder aus mehreren Quellen zusammengeführte Datensätze können nur teilweise gemeinsame Merkmale aufweisen. Unabhängig von der Quelle müssen fehlende Daten vor der Verwendung statistischer oder maschineller Lernmodelle in numerische Werte imputiert werden.

Bedeutung des Problems

Universalität: Fehlende Daten sind ein häufiges Problem in allen Bereichen
Notwendigkeit: Die meisten Algorithmen des maschinellen Lernens können fehlende Werte nicht direkt verarbeiten
Komplexität: Verschiedene Fehlmechanismen erfordern unterschiedliche Behandlungsstrategien

Einschränkungen bestehender Methoden

Große Leistungsunterschiede: Bestehende Methoden zeigen große Leistungsschwankungen über verschiedene Domänen und Datensätze hinweg
Hyperparameter-Optimierung: Erfordert zeitaufwändige Hyperparameter-Anpassungsprozesse
Mangel an universeller Methode: Es gibt keine standardmäßige Imputationsmethode, die für alle Szenarien geeignet ist
Szenariospezifische Einschränkungen: Jede Methode ist typischerweise für spezifische Einstellungen konzipiert

Forschungsmotivation

Basierend auf dem Erfolg von TabPFN beim tabellarischen überwachten Lernen möchten die Autoren ein Modell entwickeln, das:

Zero-Shot-Imputation ermöglicht (ohne Training oder Optimierung)
Bei verschiedenen Fehlmustern robust funktioniert
Schnelle und genaue Imputationsergebnisse liefert
Auf Tabellendaten verschiedener Domänen anwendbar ist

Kernbeiträge

Vorschlag des TabImpute-Modells: Ein auf der TabPFN-Architektur basierender vortrainierter Transformer, der genaue und schnelle Zero-Shot-Imputation fehlender Daten ermöglicht
Innovative eintragsweise Featurisierung (Entry-wise Featurization): Erreicht eine 100-fache Beschleunigung gegenüber der spaltenweisen Imputationsmethode von TabPFN
Umfassende Synthese-Datengenerierungs-Pipeline: Trainings-Datengenerierungsmethode mit 13 realistischen Fehlmustern zur Verbesserung der Modellverallgemeinerung
Konstruktion der MissBench-Benchmark: Umfassende Evaluierungs-Benchmark mit 42 OpenML-Datensätzen und 13 Fehlmustern
TabImpute+-Ensemble-Methode: Erreicht optimale Leistung durch adaptive Gewichtung von TabImpute und EWF-TabPFN

Methodische Details

Aufgabendefinition

Gegeben ist eine Tabellendatenmatrix X mit fehlenden Werten, wobei X* die vollständige Matrix ist und Ω die Indexmenge der fehlenden Einträge darstellt. Das Ziel besteht darin, die Werte aller fehlenden Einträge vorherzusagen.

Modellarchitektur

1. Eintragsweise Featurisierung (Entry-wise Featurization, EWF)

Während traditionelle Methoden spaltenweise Imputation verwenden, schlagen die Autoren einen eintragsweisen Ansatz vor:

Für jeden Eintrag (i,j) wird ein Merkmalsvektor konstruiert: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
Wobei Xi,: die i-te Zeile darstellt, X:,j die j-te Spalte darstellt und ⊕ Verkettung bedeutet
Der Zielwert ist yij = X*ij
Erstellt eine Merkmalsmatrix der Größe nm × (n+m)

2. Architekturmodifikationen

Basierend auf der TabPFN-Architektur wird eine Schlüsselmodifikation vorgenommen:

Entfernung der Aufmerksamkeitsmaske, um Trainingspunkten zu ermöglichen, Testpunkte zu beachten
Der Grund dafür ist, dass der Testsatz mit beobachteten Daten erstellt wird, sodass keine Datenlecks auftreten

3. Synthese-Datengenerierung

Datengenerierung: Verwendung linearer Faktormodelle

Y = UV^T

wobei U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Fehlmuster: Implementierung von 13 Fehlmustern

1 MCAR (Missing Completely At Random)
1 MAR (Missing At Random)
11 MNAR (Missing Not At Random)

4. Multi-Muster-Training

Verwendung eines adaptiven Algorithmus zur Bestimmung des Verhältnisses der Fehlmuster in jedem Batch:

Neuberechnung des Verhältnisses alle s Gradientenschritte
Anwendung von Softmax auf die Verlustwerte verschiedener Muster
Adaptive Reduzierung der Gewichte gut funktionierender Muster und Erhöhung der Gewichte schlecht funktionierender Muster

Technische Innovationen

Parallelisierte Verarbeitung: Die eintragsweise Featurisierung ermöglicht die parallele Vorhersage aller fehlenden Werte statt spaltenweise Verarbeitung
Zero-Shot-Fähigkeit: Das vortrainierte Modell kann direkt ohne Feinabstimmung auf Zieldaten verwendet werden
Multi-Muster-Anpassung: Behandlung verschiedener Fehlmuster durch adaptive Trainings-Strategie
Ensemble-Strategie: TabImpute+ kombiniert die Vorteile verschiedener Methoden durch optimale Gewichtung

Experimentelle Einrichtung

Datensätze

MissBench-Benchmark umfasst:

42 OpenML-Datensätze
Abdeckung mehrerer Domänen wie Medizin, Ingenieurwesen, Bildung
Datensatzgrößen von 50×5 bis 170×55
Nur Datensätze mit numerischen Merkmalen und ursprünglich ohne fehlende Werte

Bewertungsmetriken

Imputationsgenauigkeit:

Berechnung des RMSE für jede Methode: $\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}$
Min-Max-Normalisierung innerhalb jeder Aufgabe
Imputationsgenauigkeit = 1 - normalisierter RMSE

Vergleichsmethoden

11 etablierte Imputationsmethoden:

Spalten-Mittelwert-Imputation
SoftImpute
MissForest
ICE/MICE
GAIN
MIWAE
Optimale Transportmethoden
K-Nearest-Neighbors
HyperImpute
Ursprüngliche TabPFN-Imputationsmethode

Implementierungsdetails

Training: 8 H200 GPUs, etwa eine Woche
Verarbeitung von 25 Millionen synthetischen Tabellen
Lernrate: 0,0001, Batch-Größe: 64
Adaptive Aktualisierungsintervall: s=50 Schritte

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistung (Tabelle 1):

TabImpute+: 0,833 ± 0,213 (beste)
HyperImpute: 0,766 ± 0,259
Optimaler Transport: 0,765 ± 0,227
MissForest: 0,754 ± 0,248

Laufzeit (Abbildung 1b):

TabImpute hat die kürzeste Laufzeit auf GPU
Erreicht signifikante Beschleunigung gegenüber TabPFN
CPU-Version behält Wettbewerbsfähigkeit

Leistung bei verschiedenen Fehlmustern

TabImpute+ erreicht beste Leistung bei fast allen Fehlmustern:

NN-MNAR: 0,880 ± 0,126
Block-MNAR: 0,908 ± 0,168
Seq-MNAR: 0,905 ± 0,094
Panel-MNAR: 0,791 ± 0,329 (signifikant besser als andere Methoden)

Ablationsstudien

Vergleich von Zero-Shot-Methoden (Tabelle 2):

TabImpute+ beste Gesamtleistung: 0,614 ± 0,468
EWF-TabPFN: 0,600 ± 0,476
TabImpute: 0,393 ± 0,487

Zeigt die Effektivität der Ensemble-Strategie.

Szenarios mit hoher Fehlquote

Abbildung 4 zeigt, dass bei MCAR-Mustern der Vorteil von TabImpute+ mit zunehmender Fehlquote deutlicher wird, da generative Modelle Kontextinformationen besser nutzen können.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

TabImpute ermöglicht genaue und schnelle Zero-Shot-Imputation fehlender Daten
Die eintragsweise Featurisierung verbessert Effizienz und Genauigkeit erheblich
Die Multi-Muster-Trainings-Strategie verbessert die Modellverallgemeinerung
MissBench bietet eine umfassende Benchmark zur Evaluierung von Imputationsmethoden

Einschränkungen

Skalierbarkeit: Aufgrund der eintragsweisen Featurisierung ist die Aufmerksamkeitskomplexität in der Zeilendimension erneut quadratisch
CPU-Leistung: Läuft auf CPU langsamer, ähnlich wie TabPFN
Datentypen: Unterstützt derzeit nur numerische Daten, keine kategorialen Daten
Architektur-Einschränkungen: Erbt die quadratische Zeitkomplexität von TabPFN

Zukünftige Richtungen

Erforschung komplexerer Fehlmuster und Datengenerierungsprozesse
Erweiterung der Methode zur Unterstützung kategorialer Daten
Erweiterung der Evaluierung auf kausale Inferenz-Einstellungen
Verbesserung der Architektur zur Skalierung auf größere Datensätze
Nutzung der Methode für mehrfache Imputation

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Die eintragsweise Featurisierung ist eine geschickte Innovation, die signifikante Leistungsverbesserungen erreicht
Umfassende Experimente: MissBench bietet die bisher umfassendste Evaluierung von Imputationsmethoden
Hoher praktischer Wert: Die Zero-Shot-Eigenschaft macht die Methode leicht zu implementieren und zu verwenden
Solide theoretische Grundlagen: Basiert auf dem etablierten PFN-Framework und der Bayesschen Inferenztheorie

Mängel

Skalierungsprobleme: Die quadratische Komplexität begrenzt die Anwendung auf großen Datensätzen
Einschränkungen bei Datentypen: Die Unterstützung nur numerischer Daten begrenzt den praktischen Anwendungsbereich
Abhängigkeit von synthetischen Daten: Die vollständige Abhängigkeit von synthetischen Daten für das Training kann die Leistung in bestimmten realen Szenarien beeinflussen
Anforderungen an Rechenressourcen: Das Training erfordert erhebliche GPU-Ressourcen

Auswirkungen

Akademischer Beitrag: Bietet eine neue Forschungsrichtung für die Imputation fehlender Daten in Tabellen
Praktischer Wert: Die Zero-Shot-Eigenschaft hat großes Potenzial für industrielle Anwendungen
Beitrag zur Benchmark: MissBench wird zum wichtigen Evaluierungsstandard in diesem Bereich
Reproduzierbarkeit: Die Autoren verpflichten sich zur Veröffentlichung von Code und Gewichten

Anwendungsszenarien

Mittlere bis kleine Tabellendaten: Besonders geeignet für Daten mit angemessener Anzahl von Zeilen und Spalten
Multi-Domain-Anwendungen: Aufgrund der Zero-Shot-Eigenschaft geeignet für domänenübergreifende Verwendung
Schnelle Prototypentwicklung: Die Eigenschaft ohne Parameteroptimierung ist geeignet für schnelle Validierung und Bereitstellung
Forschung und Benchmark-Tests: MissBench ist geeignet als Evaluierungsstandard für neue Methoden

Literaturverzeichnis

Diese Arbeit basiert hauptsächlich auf folgenden wichtigen Arbeiten:

Hollmann et al. (2023, 2025) - TabPFN-Serie
Müller et al. (2022) - Theoretische Grundlagen von Prior-Data Fitted Networks
Jarrett et al. (2022) - HyperImpute Ensemble-Imputationsmethode
Rubin (1976) - Theoretische Grundlagen fehlender Daten

Zusammenfassung: TabImpute ist eine hochwertige Forschungsarbeit mit signifikanten Beiträgen in technischer Innovation, experimentellem Design und praktischem Wert. Trotz Einschränkungen wie Skalierungsproblemen machen die Zero-Shot-Imputationsfähigkeit und die überlegene Leistung sie zu einem wichtigen Fortschritt in diesem Bereich.