2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.
Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.
academic

TabImpute: Imputación Precisa y Rápida de Datos Faltantes de Cero Disparos con un Transformador Preentrenado

Información Básica

  • ID del Artículo: 2510.02625
  • Título: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
  • Autores: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: Octubre de 2025 (Preimpresión. En Revisión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.02625v2

Resumen

Los datos faltantes son un problema generalizado en datos tabulares. Las soluciones existentes van desde imputación simple por media hasta redes generativas adversariales complejas. Sin embargo, debido a las grandes variaciones de rendimiento en dominios del mundo real y al costoso ajuste de hiperparámetros, actualmente no existe un método de imputación predeterminado. Basándose en TabPFN (un modelo fundamental reciente para aprendizaje supervisado en tablas), este artículo propone TabImpute, un Transformador preentrenado que proporciona imputación precisa y rápida de cero disparos en tiempo de inferencia, sin necesidad de ajuste ni optimización de hiperparámetros. Para entrenar y evaluar TabImpute, los autores introducen: (i) caracterización a nivel de entrada para configuraciones tabulares, logrando una aceleración de 100 veces en comparación con métodos anteriores de imputación de TabPFN; (ii) un pipeline de generación de datos de entrenamiento sintético que incorpora patrones de falta realistas, mejorando el rendimiento en tiempo de prueba; (iii) MissBench, un benchmark integral para evaluar métodos de imputación que contiene 42 conjuntos de datos de OpenML y 13 patrones de falta. MissBench abarca dominios médicos, financieros e ingenieriles, demostrando el rendimiento robusto de TabImpute en comparación con 11 métodos de imputación establecidos.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los datos faltantes son omnipresentes en datos tabulares, afectando a estadísticos, economistas, funcionarios de salud y empresas. Por ejemplo, los conjuntos de datos médicos pueden carecer de registros de mediciones de presión arterial, o los conjuntos de datos fusionados de múltiples fuentes pueden compartir solo características parciales. Independientemente de la fuente, los datos faltantes deben imputarse a valores numéricos antes de usar modelos estadísticos o de aprendizaje automático.

Importancia del Problema

  1. Universalidad: Los datos faltantes son un problema común en todos los campos
  2. Necesidad: La mayoría de los algoritmos de aprendizaje automático no pueden manejar directamente valores faltantes
  3. Complejidad: Diferentes mecanismos de falta requieren diferentes estrategias de tratamiento

Limitaciones de Métodos Existentes

  1. Gran variación de rendimiento: Los métodos existentes muestran variaciones significativas en diferentes dominios y conjuntos de datos
  2. Ajuste de hiperparámetros: Requiere un proceso costoso de ajuste de hiperparámetros
  3. Falta de método universal: No existe un método de imputación predeterminado aplicable a todos los escenarios
  4. Restricciones específicas del escenario: Cada método generalmente está diseñado para configuraciones específicas

Motivación de la Investigación

Basándose en el éxito de TabPFN en aprendizaje supervisado tabular, los autores desean desarrollar un método que pueda:

  1. Lograr imputación de cero disparos (sin entrenamiento ni ajuste)
  2. Mostrar rendimiento robusto bajo múltiples patrones de falta
  3. Proporcionar resultados de imputación rápidos y precisos
  4. Ser aplicable a datos tabulares de diferentes dominios

Contribuciones Principales

  1. Propuesta del Modelo TabImpute: Un Transformador preentrenado basado en la arquitectura de TabPFN que logra imputación precisa y rápida de datos faltantes de cero disparos
  2. Caracterización Innovadora a Nivel de Entrada (Entry-wise Featurization): Logra una aceleración de 100 veces en comparación con el método de imputación a nivel de columna de TabPFN
  3. Pipeline Integral de Generación de Datos Sintéticos: Incluye método de generación de datos de entrenamiento con 13 patrones de falta realistas, mejorando la capacidad de generalización del modelo
  4. Construcción del Benchmark MissBench: Un benchmark integral de evaluación que contiene 42 conjuntos de datos de OpenML y 13 patrones de falta
  5. Método de Conjunto TabImpute+: Logra el mejor rendimiento mediante integración adaptativa de TabImpute y EWF-TabPFN

Explicación Detallada del Método

Definición de la Tarea

Dado una matriz de datos tabular X con valores faltantes, donde X* es la matriz completa y Ω es el conjunto de índices de entradas faltantes, el objetivo es predecir los valores de todas las entradas faltantes.

Arquitectura del Modelo

1. Caracterización a Nivel de Entrada (Entry-wise Featurization, EWF)

Mientras que los métodos tradicionales adoptan imputación a nivel de columna, este artículo propone un enfoque a nivel de entrada:

  • Para cada entrada (i,j), se construye un vector de características: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
  • Donde Xi,: representa la fila i, X:,j representa la columna j, y ⊕ denota concatenación
  • El valor objetivo es yij = X*ij
  • Se crea una matriz de características de tamaño nm × (n+m)

2. Modificaciones de Arquitectura

Basándose en la arquitectura de TabPFN, se realiza una modificación clave:

  • Se elimina la máscara de atención, permitiendo que los puntos de entrenamiento atiendan a los puntos de prueba
  • La razón es que el conjunto de prueba se crea utilizando datos ya observados, sin problema de fuga de datos

3. Generación de Datos de Entrenamiento Sintético

Generación de Datos: Utiliza modelos de factores lineales (Linear Factor Models)

Y = UV^T

Donde U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Patrones de Falta: Implementa 13 patrones de falta

  • 1 patrón MCAR (Falta Completamente Al Azar)
  • 1 patrón MAR (Falta Al Azar)
  • 11 patrones MNAR (Falta No Al Azar)

4. Entrenamiento Multipatrón

Utiliza un algoritmo adaptativo para determinar la proporción de patrones de falta en cada lote:

  • Recalcula la proporción cada s pasos de gradiente
  • Aplica softmax a los valores de pérdida de cada patrón
  • Reduce adaptativamente el peso de patrones con buen rendimiento e incrementa el peso de patrones con mal rendimiento

Puntos Técnicos Innovadores

  1. Procesamiento Paralelo: La caracterización a nivel de entrada permite predicción paralela de todos los valores faltantes, en lugar de procesamiento columna por columna
  2. Capacidad de Cero Disparos: El modelo preentrenado puede usarse directamente sin ajuste fino en datos objetivo
  3. Adaptación Multipatrón: Maneja múltiples patrones de falta mediante estrategia de entrenamiento adaptativo
  4. Estrategia de Conjunto: TabImpute+ integra las ventajas de diferentes métodos mediante pesos óptimos

Configuración Experimental

Conjuntos de Datos

Benchmark MissBench contiene:

  • 42 conjuntos de datos de OpenML
  • Abarca múltiples dominios incluyendo medicina, ingeniería, educación, etc.
  • Tamaños de conjuntos de datos que van desde 50×5 hasta 170×55
  • Incluye solo conjuntos de datos con características numéricas y sin valores faltantes originales

Métricas de Evaluación

Precisión de Imputación:

  1. Calcula RMSE para cada método: 1Ω(i,j)Ω(XijtrueXijimputed)2\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}
  2. Normalización mín-máx dentro de cada tarea
  3. Precisión de imputación = 1 - RMSE normalizado

Métodos de Comparación

11 métodos de imputación establecidos:

  • Imputación por media de columna
  • SoftImpute
  • MissForest
  • ICE/MICE
  • GAIN
  • MIWAE
  • Métodos de transporte óptimo
  • K vecinos más cercanos
  • HyperImpute
  • Método de imputación original de TabPFN

Detalles de Implementación

  • Entrenamiento: 8 GPUs H200, aproximadamente una semana
  • Procesamiento de 25 millones de tablas sintéticas
  • Tasa de aprendizaje: 0.0001, tamaño de lote: 64
  • Intervalo de actualización adaptativo: s=50 pasos

Resultados Experimentales

Resultados Principales

Rendimiento General (Tabla 1):

  • TabImpute+: 0.833 ± 0.213 (mejor)
  • HyperImpute: 0.766 ± 0.259
  • Transporte óptimo: 0.765 ± 0.227
  • MissForest: 0.754 ± 0.248

Tiempo de Ejecución (Figura 1b):

  • TabImpute tiene el tiempo de ejecución más corto en GPU
  • Logra aceleración significativa en comparación con TabPFN
  • La versión CPU mantiene competitividad

Rendimiento Bajo Diferentes Patrones de Falta

TabImpute+ logra el mejor rendimiento en casi todos los patrones de falta:

  • NN-MNAR: 0.880 ± 0.126
  • Block-MNAR: 0.908 ± 0.168
  • Seq-MNAR: 0.905 ± 0.094
  • Panel-MNAR: 0.791 ± 0.329 (significativamente superior a otros métodos)

Experimentos de Ablación

Comparación de Métodos de Cero Disparos (Tabla 2):

  • TabImpute+ rendimiento integral mejor: 0.614 ± 0.468
  • EWF-TabPFN: 0.600 ± 0.476
  • TabImpute: 0.393 ± 0.487

Demuestra la efectividad de la estrategia de conjunto.

Escenarios de Alta Tasa de Falta

La Figura 4 muestra que bajo el patrón MCAR, la ventaja de TabImpute+ se vuelve más evidente a medida que aumenta la tasa de falta, ya que los modelos generativos pueden aprovechar mejor la información contextual.

Trabajo Relacionado

Métodos de Imputación de Datos Faltantes

  1. Métodos Tradicionales: Imputación por media, modelos lineales, bosques aleatorios
  2. Complementación de Matrices: SoftImpute, USVT, métodos de vecinos cercanos
  3. Aprendizaje Profundo: GAIN (GAN), MIWAE (VAE)
  4. Métodos de Conjunto: HyperImpute

Aprendizaje de Representaciones Tabulares

  1. TabPFN: Modelo fundamental para aprendizaje supervisado tabular
  2. Desarrollos Posteriores: TabICL, MITRA, CausalFM, etc.
  3. Características Técnicas: Redes ajustadas con datos previos (PFN), aprendizaje en contexto

Conclusiones y Discusión

Conclusiones Principales

  1. TabImpute logra imputación precisa y rápida de datos faltantes de cero disparos
  2. La caracterización a nivel de entrada mejora significativamente la eficiencia y precisión
  3. La estrategia de entrenamiento multipatrón mejora la capacidad de generalización del modelo
  4. MissBench proporciona un benchmark integral para la evaluación de métodos de imputación

Limitaciones

  1. Escalabilidad: Debido a la caracterización a nivel de entrada, la complejidad de atención se eleva al cuadrado nuevamente en la dimensión de filas
  2. Rendimiento en CPU: Ejecución más lenta en CPU, similar a TabPFN
  3. Tipos de Datos: Actualmente solo soporta datos numéricos, no soporta datos categóricos
  4. Restricciones de Arquitectura: Hereda la limitación de complejidad de tiempo cuadrático de TabPFN

Direcciones Futuras

  1. Explorar patrones de falta más complejos y procesos de generación de datos
  2. Mejorar el método para soportar datos categóricos
  3. Extender la evaluación a configuraciones de inferencia causal
  4. Mejorar la arquitectura para escalar a conjuntos de datos más grandes
  5. Utilizar el método para imputación múltiple

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: La caracterización a nivel de entrada es una innovación ingeniosa que logra mejoras significativas de rendimiento
  2. Experimentación Exhaustiva: MissBench proporciona la evaluación más integral de métodos de imputación hasta la fecha
  3. Alto Valor Práctico: La característica de cero disparos hace que el método sea fácil de desplegar y usar
  4. Fundamento Teórico Sólido: Basado en el marco PFN maduro y teoría de inferencia bayesiana

Deficiencias

  1. Problemas de Escalabilidad: La complejidad cuadrática limita la aplicación en datos a gran escala
  2. Restricciones de Tipos de Datos: Solo soportar datos numéricos limita el rango de aplicaciones prácticas
  3. Dependencia de Datos Sintéticos: La dependencia completa del entrenamiento con datos sintéticos puede afectar el rendimiento en ciertos escenarios reales
  4. Requisitos de Recursos Computacionales: El entrenamiento requiere recursos GPU significativos

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para el campo de imputación de datos faltantes tabulares
  2. Valor Práctico: La característica de cero disparos tiene gran potencial en aplicaciones industriales
  3. Contribución de Benchmark: MissBench se convertirá en un estándar de evaluación importante en el campo
  4. Reproducibilidad: Los autores se comprometen a liberar código y pesos

Escenarios Aplicables

  1. Datos Tabulares de Escala Mediana: Particularmente adecuado para datos con número de filas y columnas en rango razonable
  2. Aplicaciones Multidominio: Debido a la característica de cero disparos, es adecuado para uso entre dominios
  3. Desarrollo Rápido de Prototipos: La característica sin ajuste es adecuada para verificación rápida y despliegue
  4. Investigación y Pruebas de Benchmark: MissBench es adecuado como estándar de evaluación para nuevos métodos

Referencias

Este artículo se basa principalmente en los siguientes trabajos importantes:

  1. Hollmann et al. (2023, 2025) - Serie de trabajos TabPFN
  2. Müller et al. (2022) - Fundamento teórico de Prior-data Fitted Networks
  3. Jarrett et al. (2022) - Método de imputación de conjunto HyperImpute
  4. Rubin (1976) - Fundamento teórico de datos faltantes

Resumen: TabImpute es un trabajo de investigación de alta calidad con contribuciones significativas en innovación técnica, diseño experimental y valor práctico. Aunque tiene limitaciones como escalabilidad, su capacidad de imputación de cero disparos y rendimiento superior lo convierten en un progreso importante en el campo.