TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic
TabImpute: Imputación Precisa y Rápida de Datos Faltantes de Cero Disparos con un Transformador Preentrenado
Los datos faltantes son un problema generalizado en datos tabulares. Las soluciones existentes van desde imputación simple por media hasta redes generativas adversariales complejas. Sin embargo, debido a las grandes variaciones de rendimiento en dominios del mundo real y al costoso ajuste de hiperparámetros, actualmente no existe un método de imputación predeterminado. Basándose en TabPFN (un modelo fundamental reciente para aprendizaje supervisado en tablas), este artículo propone TabImpute, un Transformador preentrenado que proporciona imputación precisa y rápida de cero disparos en tiempo de inferencia, sin necesidad de ajuste ni optimización de hiperparámetros. Para entrenar y evaluar TabImpute, los autores introducen: (i) caracterización a nivel de entrada para configuraciones tabulares, logrando una aceleración de 100 veces en comparación con métodos anteriores de imputación de TabPFN; (ii) un pipeline de generación de datos de entrenamiento sintético que incorpora patrones de falta realistas, mejorando el rendimiento en tiempo de prueba; (iii) MissBench, un benchmark integral para evaluar métodos de imputación que contiene 42 conjuntos de datos de OpenML y 13 patrones de falta. MissBench abarca dominios médicos, financieros e ingenieriles, demostrando el rendimiento robusto de TabImpute en comparación con 11 métodos de imputación establecidos.
Los datos faltantes son omnipresentes en datos tabulares, afectando a estadísticos, economistas, funcionarios de salud y empresas. Por ejemplo, los conjuntos de datos médicos pueden carecer de registros de mediciones de presión arterial, o los conjuntos de datos fusionados de múltiples fuentes pueden compartir solo características parciales. Independientemente de la fuente, los datos faltantes deben imputarse a valores numéricos antes de usar modelos estadísticos o de aprendizaje automático.
Propuesta del Modelo TabImpute: Un Transformador preentrenado basado en la arquitectura de TabPFN que logra imputación precisa y rápida de datos faltantes de cero disparos
Caracterización Innovadora a Nivel de Entrada (Entry-wise Featurization): Logra una aceleración de 100 veces en comparación con el método de imputación a nivel de columna de TabPFN
Pipeline Integral de Generación de Datos Sintéticos: Incluye método de generación de datos de entrenamiento con 13 patrones de falta realistas, mejorando la capacidad de generalización del modelo
Construcción del Benchmark MissBench: Un benchmark integral de evaluación que contiene 42 conjuntos de datos de OpenML y 13 patrones de falta
Método de Conjunto TabImpute+: Logra el mejor rendimiento mediante integración adaptativa de TabImpute y EWF-TabPFN
Dado una matriz de datos tabular X con valores faltantes, donde X* es la matriz completa y Ω es el conjunto de índices de entradas faltantes, el objetivo es predecir los valores de todas las entradas faltantes.
Procesamiento Paralelo: La caracterización a nivel de entrada permite predicción paralela de todos los valores faltantes, en lugar de procesamiento columna por columna
Capacidad de Cero Disparos: El modelo preentrenado puede usarse directamente sin ajuste fino en datos objetivo
Adaptación Multipatrón: Maneja múltiples patrones de falta mediante estrategia de entrenamiento adaptativo
Estrategia de Conjunto: TabImpute+ integra las ventajas de diferentes métodos mediante pesos óptimos
La Figura 4 muestra que bajo el patrón MCAR, la ventaja de TabImpute+ se vuelve más evidente a medida que aumenta la tasa de falta, ya que los modelos generativos pueden aprovechar mejor la información contextual.
Problemas de Escalabilidad: La complejidad cuadrática limita la aplicación en datos a gran escala
Restricciones de Tipos de Datos: Solo soportar datos numéricos limita el rango de aplicaciones prácticas
Dependencia de Datos Sintéticos: La dependencia completa del entrenamiento con datos sintéticos puede afectar el rendimiento en ciertos escenarios reales
Requisitos de Recursos Computacionales: El entrenamiento requiere recursos GPU significativos
Este artículo se basa principalmente en los siguientes trabajos importantes:
Hollmann et al. (2023, 2025) - Serie de trabajos TabPFN
Müller et al. (2022) - Fundamento teórico de Prior-data Fitted Networks
Jarrett et al. (2022) - Método de imputación de conjunto HyperImpute
Rubin (1976) - Fundamento teórico de datos faltantes
Resumen: TabImpute es un trabajo de investigación de alta calidad con contribuciones significativas en innovación técnica, diseño experimental y valor práctico. Aunque tiene limitaciones como escalabilidad, su capacidad de imputación de cero disparos y rendimiento superior lo convierten en un progreso importante en el campo.