2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic

TabImpute: Genaue und schnelle Zero-Shot-Imputation fehlender Daten mit einem vortrainierten Transformer

Grundinformationen

  • Paper-ID: 2510.02625
  • Titel: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
  • Autoren: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
  • Klassifizierung: cs.LG (Machine Learning)
  • Veröffentlichungsdatum: Oktober 2025 (Preprint. Zur Überprüfung eingereicht)
  • Paper-Link: https://arxiv.org/abs/2510.02625v2

Zusammenfassung

Fehlende Daten sind ein weit verbreitetes Problem in Tabellendaten. Bestehende Lösungen reichen von einfacher Mittelwertimputation bis zu komplexen generativen adversarialen Netzwerken. Aufgrund großer Leistungsunterschiede in realen Anwendungsdomänen und zeitaufwändiger Hyperparameter-Optimierung existiert jedoch derzeit keine standardmäßige Imputationsmethode. Basierend auf TabPFN (einem modernen Basis-Modell für tabellarisches überwachtes Lernen) schlagen die Autoren TabImpute vor – einen vortrainierten Transformer, der zur Inferenzzeit genaue und schnelle Zero-Shot-Imputation ohne Anpassung oder Hyperparameter-Optimierung ermöglicht. Zur Schulung und Evaluierung von TabImpute führen die Autoren ein: (i) eine eintragsweise Featurisierung für tabellarische Einstellungen, die eine 100-fache Beschleunigung gegenüber früheren TabPFN-Imputationsmethoden erreicht; (ii) eine Synthese-Datengenerierungs-Pipeline, die realistische Fehlmuster kombiniert und die Testleistung verbessert; (iii) MissBench, eine umfassende Bewertungs-Benchmark mit 42 OpenML-Datensätzen und 13 Fehlmustern. MissBench umfasst Bereiche wie Medizin, Finanzen und Ingenieurwesen und zeigt die robuste Leistung von TabImpute im Vergleich zu 11 etablierten Imputationsmethoden.

Forschungshintergrund und Motivation

Problemdefinition

Fehlende Daten sind in Tabellendaten allgegenwärtig und beeinflussen Statistiker, Ökonomen, Gesundheitsbeamte und Unternehmen. Beispielsweise können medizinische Datensätze fehlende Blutdruckmessungen aufweisen, oder aus mehreren Quellen zusammengeführte Datensätze können nur teilweise gemeinsame Merkmale aufweisen. Unabhängig von der Quelle müssen fehlende Daten vor der Verwendung statistischer oder maschineller Lernmodelle in numerische Werte imputiert werden.

Bedeutung des Problems

  1. Universalität: Fehlende Daten sind ein häufiges Problem in allen Bereichen
  2. Notwendigkeit: Die meisten Algorithmen des maschinellen Lernens können fehlende Werte nicht direkt verarbeiten
  3. Komplexität: Verschiedene Fehlmechanismen erfordern unterschiedliche Behandlungsstrategien

Einschränkungen bestehender Methoden

  1. Große Leistungsunterschiede: Bestehende Methoden zeigen große Leistungsschwankungen über verschiedene Domänen und Datensätze hinweg
  2. Hyperparameter-Optimierung: Erfordert zeitaufwändige Hyperparameter-Anpassungsprozesse
  3. Mangel an universeller Methode: Es gibt keine standardmäßige Imputationsmethode, die für alle Szenarien geeignet ist
  4. Szenariospezifische Einschränkungen: Jede Methode ist typischerweise für spezifische Einstellungen konzipiert

Forschungsmotivation

Basierend auf dem Erfolg von TabPFN beim tabellarischen überwachten Lernen möchten die Autoren ein Modell entwickeln, das:

  1. Zero-Shot-Imputation ermöglicht (ohne Training oder Optimierung)
  2. Bei verschiedenen Fehlmustern robust funktioniert
  3. Schnelle und genaue Imputationsergebnisse liefert
  4. Auf Tabellendaten verschiedener Domänen anwendbar ist

Kernbeiträge

  1. Vorschlag des TabImpute-Modells: Ein auf der TabPFN-Architektur basierender vortrainierter Transformer, der genaue und schnelle Zero-Shot-Imputation fehlender Daten ermöglicht
  2. Innovative eintragsweise Featurisierung (Entry-wise Featurization): Erreicht eine 100-fache Beschleunigung gegenüber der spaltenweisen Imputationsmethode von TabPFN
  3. Umfassende Synthese-Datengenerierungs-Pipeline: Trainings-Datengenerierungsmethode mit 13 realistischen Fehlmustern zur Verbesserung der Modellverallgemeinerung
  4. Konstruktion der MissBench-Benchmark: Umfassende Evaluierungs-Benchmark mit 42 OpenML-Datensätzen und 13 Fehlmustern
  5. TabImpute+-Ensemble-Methode: Erreicht optimale Leistung durch adaptive Gewichtung von TabImpute und EWF-TabPFN

Methodische Details

Aufgabendefinition

Gegeben ist eine Tabellendatenmatrix X mit fehlenden Werten, wobei X* die vollständige Matrix ist und Ω die Indexmenge der fehlenden Einträge darstellt. Das Ziel besteht darin, die Werte aller fehlenden Einträge vorherzusagen.

Modellarchitektur

1. Eintragsweise Featurisierung (Entry-wise Featurization, EWF)

Während traditionelle Methoden spaltenweise Imputation verwenden, schlagen die Autoren einen eintragsweisen Ansatz vor:

  • Für jeden Eintrag (i,j) wird ein Merkmalsvektor konstruiert: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
  • Wobei Xi,: die i-te Zeile darstellt, X:,j die j-te Spalte darstellt und ⊕ Verkettung bedeutet
  • Der Zielwert ist yij = X*ij
  • Erstellt eine Merkmalsmatrix der Größe nm × (n+m)

2. Architekturmodifikationen

Basierend auf der TabPFN-Architektur wird eine Schlüsselmodifikation vorgenommen:

  • Entfernung der Aufmerksamkeitsmaske, um Trainingspunkten zu ermöglichen, Testpunkte zu beachten
  • Der Grund dafür ist, dass der Testsatz mit beobachteten Daten erstellt wird, sodass keine Datenlecks auftreten

3. Synthese-Datengenerierung

Datengenerierung: Verwendung linearer Faktormodelle

Y = UV^T

wobei U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Fehlmuster: Implementierung von 13 Fehlmustern

  • 1 MCAR (Missing Completely At Random)
  • 1 MAR (Missing At Random)
  • 11 MNAR (Missing Not At Random)

4. Multi-Muster-Training

Verwendung eines adaptiven Algorithmus zur Bestimmung des Verhältnisses der Fehlmuster in jedem Batch:

  • Neuberechnung des Verhältnisses alle s Gradientenschritte
  • Anwendung von Softmax auf die Verlustwerte verschiedener Muster
  • Adaptive Reduzierung der Gewichte gut funktionierender Muster und Erhöhung der Gewichte schlecht funktionierender Muster

Technische Innovationen

  1. Parallelisierte Verarbeitung: Die eintragsweise Featurisierung ermöglicht die parallele Vorhersage aller fehlenden Werte statt spaltenweise Verarbeitung
  2. Zero-Shot-Fähigkeit: Das vortrainierte Modell kann direkt ohne Feinabstimmung auf Zieldaten verwendet werden
  3. Multi-Muster-Anpassung: Behandlung verschiedener Fehlmuster durch adaptive Trainings-Strategie
  4. Ensemble-Strategie: TabImpute+ kombiniert die Vorteile verschiedener Methoden durch optimale Gewichtung

Experimentelle Einrichtung

Datensätze

MissBench-Benchmark umfasst:

  • 42 OpenML-Datensätze
  • Abdeckung mehrerer Domänen wie Medizin, Ingenieurwesen, Bildung
  • Datensatzgrößen von 50×5 bis 170×55
  • Nur Datensätze mit numerischen Merkmalen und ursprünglich ohne fehlende Werte

Bewertungsmetriken

Imputationsgenauigkeit:

  1. Berechnung des RMSE für jede Methode: 1Ω(i,j)Ω(XijtrueXijimputed)2\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}
  2. Min-Max-Normalisierung innerhalb jeder Aufgabe
  3. Imputationsgenauigkeit = 1 - normalisierter RMSE

Vergleichsmethoden

11 etablierte Imputationsmethoden:

  • Spalten-Mittelwert-Imputation
  • SoftImpute
  • MissForest
  • ICE/MICE
  • GAIN
  • MIWAE
  • Optimale Transportmethoden
  • K-Nearest-Neighbors
  • HyperImpute
  • Ursprüngliche TabPFN-Imputationsmethode

Implementierungsdetails

  • Training: 8 H200 GPUs, etwa eine Woche
  • Verarbeitung von 25 Millionen synthetischen Tabellen
  • Lernrate: 0,0001, Batch-Größe: 64
  • Adaptive Aktualisierungsintervall: s=50 Schritte

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistung (Tabelle 1):

  • TabImpute+: 0,833 ± 0,213 (beste)
  • HyperImpute: 0,766 ± 0,259
  • Optimaler Transport: 0,765 ± 0,227
  • MissForest: 0,754 ± 0,248

Laufzeit (Abbildung 1b):

  • TabImpute hat die kürzeste Laufzeit auf GPU
  • Erreicht signifikante Beschleunigung gegenüber TabPFN
  • CPU-Version behält Wettbewerbsfähigkeit

Leistung bei verschiedenen Fehlmustern

TabImpute+ erreicht beste Leistung bei fast allen Fehlmustern:

  • NN-MNAR: 0,880 ± 0,126
  • Block-MNAR: 0,908 ± 0,168
  • Seq-MNAR: 0,905 ± 0,094
  • Panel-MNAR: 0,791 ± 0,329 (signifikant besser als andere Methoden)

Ablationsstudien

Vergleich von Zero-Shot-Methoden (Tabelle 2):

  • TabImpute+ beste Gesamtleistung: 0,614 ± 0,468
  • EWF-TabPFN: 0,600 ± 0,476
  • TabImpute: 0,393 ± 0,487

Zeigt die Effektivität der Ensemble-Strategie.

Szenarios mit hoher Fehlquote

Abbildung 4 zeigt, dass bei MCAR-Mustern der Vorteil von TabImpute+ mit zunehmender Fehlquote deutlicher wird, da generative Modelle Kontextinformationen besser nutzen können.

Verwandte Arbeiten

Methoden zur Imputation fehlender Daten

  1. Traditionelle Methoden: Mittelwertimputation, lineare Modelle, zufällige Wälder
  2. Matrixvervollständigung: SoftImpute, USVT, Nachbarschaftsmethoden
  3. Tiefes Lernen: GAIN (GAN), MIWAE (VAE)
  4. Ensemble-Methoden: HyperImpute

Tabellarische Repräsentationslernens

  1. TabPFN: Basis-Modell für tabellarisches überwachtes Lernen
  2. Nachfolgende Entwicklungen: TabICL, MITRA, CausalFM usw.
  3. Technische Merkmale: Prior-Data Fitted Networks (PFN), kontextabhängiges Lernen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. TabImpute ermöglicht genaue und schnelle Zero-Shot-Imputation fehlender Daten
  2. Die eintragsweise Featurisierung verbessert Effizienz und Genauigkeit erheblich
  3. Die Multi-Muster-Trainings-Strategie verbessert die Modellverallgemeinerung
  4. MissBench bietet eine umfassende Benchmark zur Evaluierung von Imputationsmethoden

Einschränkungen

  1. Skalierbarkeit: Aufgrund der eintragsweisen Featurisierung ist die Aufmerksamkeitskomplexität in der Zeilendimension erneut quadratisch
  2. CPU-Leistung: Läuft auf CPU langsamer, ähnlich wie TabPFN
  3. Datentypen: Unterstützt derzeit nur numerische Daten, keine kategorialen Daten
  4. Architektur-Einschränkungen: Erbt die quadratische Zeitkomplexität von TabPFN

Zukünftige Richtungen

  1. Erforschung komplexerer Fehlmuster und Datengenerierungsprozesse
  2. Erweiterung der Methode zur Unterstützung kategorialer Daten
  3. Erweiterung der Evaluierung auf kausale Inferenz-Einstellungen
  4. Verbesserung der Architektur zur Skalierung auf größere Datensätze
  5. Nutzung der Methode für mehrfache Imputation

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Die eintragsweise Featurisierung ist eine geschickte Innovation, die signifikante Leistungsverbesserungen erreicht
  2. Umfassende Experimente: MissBench bietet die bisher umfassendste Evaluierung von Imputationsmethoden
  3. Hoher praktischer Wert: Die Zero-Shot-Eigenschaft macht die Methode leicht zu implementieren und zu verwenden
  4. Solide theoretische Grundlagen: Basiert auf dem etablierten PFN-Framework und der Bayesschen Inferenztheorie

Mängel

  1. Skalierungsprobleme: Die quadratische Komplexität begrenzt die Anwendung auf großen Datensätzen
  2. Einschränkungen bei Datentypen: Die Unterstützung nur numerischer Daten begrenzt den praktischen Anwendungsbereich
  3. Abhängigkeit von synthetischen Daten: Die vollständige Abhängigkeit von synthetischen Daten für das Training kann die Leistung in bestimmten realen Szenarien beeinflussen
  4. Anforderungen an Rechenressourcen: Das Training erfordert erhebliche GPU-Ressourcen

Auswirkungen

  1. Akademischer Beitrag: Bietet eine neue Forschungsrichtung für die Imputation fehlender Daten in Tabellen
  2. Praktischer Wert: Die Zero-Shot-Eigenschaft hat großes Potenzial für industrielle Anwendungen
  3. Beitrag zur Benchmark: MissBench wird zum wichtigen Evaluierungsstandard in diesem Bereich
  4. Reproduzierbarkeit: Die Autoren verpflichten sich zur Veröffentlichung von Code und Gewichten

Anwendungsszenarien

  1. Mittlere bis kleine Tabellendaten: Besonders geeignet für Daten mit angemessener Anzahl von Zeilen und Spalten
  2. Multi-Domain-Anwendungen: Aufgrund der Zero-Shot-Eigenschaft geeignet für domänenübergreifende Verwendung
  3. Schnelle Prototypentwicklung: Die Eigenschaft ohne Parameteroptimierung ist geeignet für schnelle Validierung und Bereitstellung
  4. Forschung und Benchmark-Tests: MissBench ist geeignet als Evaluierungsstandard für neue Methoden

Literaturverzeichnis

Diese Arbeit basiert hauptsächlich auf folgenden wichtigen Arbeiten:

  1. Hollmann et al. (2023, 2025) - TabPFN-Serie
  2. Müller et al. (2022) - Theoretische Grundlagen von Prior-Data Fitted Networks
  3. Jarrett et al. (2022) - HyperImpute Ensemble-Imputationsmethode
  4. Rubin (1976) - Theoretische Grundlagen fehlender Daten

Zusammenfassung: TabImpute ist eine hochwertige Forschungsarbeit mit signifikanten Beiträgen in technischer Innovation, experimentellem Design und praktischem Wert. Trotz Einschränkungen wie Skalierungsproblemen machen die Zero-Shot-Imputationsfähigkeit und die überlegene Leistung sie zu einem wichtigen Fortschritt in diesem Bereich.