2025-11-15T15:43:11.510797

TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer

Feitelberg, Saha, Choi et al.

Missing data is a pervasive problem in tabular settings. Existing solutions range from simple averaging to complex generative adversarial networks. However, due to huge variance in performance across real-world domains and time-consuming hyperparameter tuning, no default imputation method exists. Building on TabPFN, a recent tabular foundation model for supervised learning, we propose TabImpute, a pre-trained transformer that delivers accurate and fast zero-shot imputations requiring no fitting or hyperparameter tuning at inference-time. To train and evaluate TabImpute, we introduce (i) an entry-wise featurization for tabular settings, which enables a $100\times$ speedup over the previous TabPFN imputation method, (ii) a synthetic training data generation pipeline incorporating realistic missingness patterns, which boosts test-time performance, and (iii) MissBench, a comprehensive benchmark for evaluation of imputation methods with $42$ OpenML datasets and $13$ missingness patterns. MissBench spans domains such as medicine, finance, and engineering, showcasing TabImpute's robust performance compared to $11$ established imputation methods.

academic

TabImpute: Imputación Precisa y Rápida de Datos Faltantes de Cero Disparos con un Transformador Preentrenado

Información Básica

ID del Artículo: 2510.02625
Título: TabImpute: Accurate and Fast Zero-Shot Missing-Data Imputation with a Pre-Trained Transformer
Autores: Jacob Feitelberg, Dwaipayan Saha, Kyuseong Choi, Zaid Ahmad, Anish Agarwal, Raaz Dwivedi
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: Octubre de 2025 (Preimpresión. En Revisión)
Enlace del Artículo: https://arxiv.org/abs/2510.02625v2

Resumen

Los datos faltantes son un problema generalizado en datos tabulares. Las soluciones existentes van desde imputación simple por media hasta redes generativas adversariales complejas. Sin embargo, debido a las grandes variaciones de rendimiento en dominios del mundo real y al costoso ajuste de hiperparámetros, actualmente no existe un método de imputación predeterminado. Basándose en TabPFN (un modelo fundamental reciente para aprendizaje supervisado en tablas), este artículo propone TabImpute, un Transformador preentrenado que proporciona imputación precisa y rápida de cero disparos en tiempo de inferencia, sin necesidad de ajuste ni optimización de hiperparámetros. Para entrenar y evaluar TabImpute, los autores introducen: (i) caracterización a nivel de entrada para configuraciones tabulares, logrando una aceleración de 100 veces en comparación con métodos anteriores de imputación de TabPFN; (ii) un pipeline de generación de datos de entrenamiento sintético que incorpora patrones de falta realistas, mejorando el rendimiento en tiempo de prueba; (iii) MissBench, un benchmark integral para evaluar métodos de imputación que contiene 42 conjuntos de datos de OpenML y 13 patrones de falta. MissBench abarca dominios médicos, financieros e ingenieriles, demostrando el rendimiento robusto de TabImpute en comparación con 11 métodos de imputación establecidos.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los datos faltantes son omnipresentes en datos tabulares, afectando a estadísticos, economistas, funcionarios de salud y empresas. Por ejemplo, los conjuntos de datos médicos pueden carecer de registros de mediciones de presión arterial, o los conjuntos de datos fusionados de múltiples fuentes pueden compartir solo características parciales. Independientemente de la fuente, los datos faltantes deben imputarse a valores numéricos antes de usar modelos estadísticos o de aprendizaje automático.

Importancia del Problema

Universalidad: Los datos faltantes son un problema común en todos los campos
Necesidad: La mayoría de los algoritmos de aprendizaje automático no pueden manejar directamente valores faltantes
Complejidad: Diferentes mecanismos de falta requieren diferentes estrategias de tratamiento

Limitaciones de Métodos Existentes

Gran variación de rendimiento: Los métodos existentes muestran variaciones significativas en diferentes dominios y conjuntos de datos
Ajuste de hiperparámetros: Requiere un proceso costoso de ajuste de hiperparámetros
Falta de método universal: No existe un método de imputación predeterminado aplicable a todos los escenarios
Restricciones específicas del escenario: Cada método generalmente está diseñado para configuraciones específicas

Motivación de la Investigación

Basándose en el éxito de TabPFN en aprendizaje supervisado tabular, los autores desean desarrollar un método que pueda:

Lograr imputación de cero disparos (sin entrenamiento ni ajuste)
Mostrar rendimiento robusto bajo múltiples patrones de falta
Proporcionar resultados de imputación rápidos y precisos
Ser aplicable a datos tabulares de diferentes dominios

Contribuciones Principales

Propuesta del Modelo TabImpute: Un Transformador preentrenado basado en la arquitectura de TabPFN que logra imputación precisa y rápida de datos faltantes de cero disparos
Caracterización Innovadora a Nivel de Entrada (Entry-wise Featurization): Logra una aceleración de 100 veces en comparación con el método de imputación a nivel de columna de TabPFN
Pipeline Integral de Generación de Datos Sintéticos: Incluye método de generación de datos de entrenamiento con 13 patrones de falta realistas, mejorando la capacidad de generalización del modelo
Construcción del Benchmark MissBench: Un benchmark integral de evaluación que contiene 42 conjuntos de datos de OpenML y 13 patrones de falta
Método de Conjunto TabImpute+: Logra el mejor rendimiento mediante integración adaptativa de TabImpute y EWF-TabPFN

Explicación Detallada del Método

Definición de la Tarea

Dado una matriz de datos tabular X con valores faltantes, donde X* es la matriz completa y Ω es el conjunto de índices de entradas faltantes, el objetivo es predecir los valores de todas las entradas faltantes.

Arquitectura del Modelo

1. Caracterización a Nivel de Entrada (Entry-wise Featurization, EWF)

Mientras que los métodos tradicionales adoptan imputación a nivel de columna, este artículo propone un enfoque a nivel de entrada:

Para cada entrada (i,j), se construye un vector de características: (i ⊕ j ⊕ Xi,: ⊕ X:,j)
Donde Xi,: representa la fila i, X:,j representa la columna j, y ⊕ denota concatenación
El valor objetivo es yij = X*ij
Se crea una matriz de características de tamaño nm × (n+m)

2. Modificaciones de Arquitectura

Basándose en la arquitectura de TabPFN, se realiza una modificación clave:

Se elimina la máscara de atención, permitiendo que los puntos de entrenamiento atiendan a los puntos de prueba
La razón es que el conjunto de prueba se crea utilizando datos ya observados, sin problema de fuga de datos

3. Generación de Datos de Entrenamiento Sintético

Generación de Datos: Utiliza modelos de factores lineales (Linear Factor Models)

Y = UV^T

Donde U ∈ R^(m×k), V ∈ R^(n×k), k ≪ n,m

Patrones de Falta: Implementa 13 patrones de falta

1 patrón MCAR (Falta Completamente Al Azar)
1 patrón MAR (Falta Al Azar)
11 patrones MNAR (Falta No Al Azar)

4. Entrenamiento Multipatrón

Utiliza un algoritmo adaptativo para determinar la proporción de patrones de falta en cada lote:

Recalcula la proporción cada s pasos de gradiente
Aplica softmax a los valores de pérdida de cada patrón
Reduce adaptativamente el peso de patrones con buen rendimiento e incrementa el peso de patrones con mal rendimiento

Puntos Técnicos Innovadores

Procesamiento Paralelo: La caracterización a nivel de entrada permite predicción paralela de todos los valores faltantes, en lugar de procesamiento columna por columna
Capacidad de Cero Disparos: El modelo preentrenado puede usarse directamente sin ajuste fino en datos objetivo
Adaptación Multipatrón: Maneja múltiples patrones de falta mediante estrategia de entrenamiento adaptativo
Estrategia de Conjunto: TabImpute+ integra las ventajas de diferentes métodos mediante pesos óptimos

Configuración Experimental

Conjuntos de Datos

Benchmark MissBench contiene:

42 conjuntos de datos de OpenML
Abarca múltiples dominios incluyendo medicina, ingeniería, educación, etc.
Tamaños de conjuntos de datos que van desde 50×5 hasta 170×55
Incluye solo conjuntos de datos con características numéricas y sin valores faltantes originales

Métricas de Evaluación

Precisión de Imputación:

Calcula RMSE para cada método: $\sqrt{\frac{1}{|\Omega|}\sum_{(i,j)\in\Omega}(X^{true}_{ij} - X^{imputed}_{ij})^2}$
Normalización mín-máx dentro de cada tarea
Precisión de imputación = 1 - RMSE normalizado

Métodos de Comparación

11 métodos de imputación establecidos:

Imputación por media de columna
SoftImpute
MissForest
ICE/MICE
GAIN
MIWAE
Métodos de transporte óptimo
K vecinos más cercanos
HyperImpute
Método de imputación original de TabPFN

Detalles de Implementación

Entrenamiento: 8 GPUs H200, aproximadamente una semana
Procesamiento de 25 millones de tablas sintéticas
Tasa de aprendizaje: 0.0001, tamaño de lote: 64
Intervalo de actualización adaptativo: s=50 pasos

Resultados Experimentales

Resultados Principales

Rendimiento General (Tabla 1):

TabImpute+: 0.833 ± 0.213 (mejor)
HyperImpute: 0.766 ± 0.259
Transporte óptimo: 0.765 ± 0.227
MissForest: 0.754 ± 0.248

Tiempo de Ejecución (Figura 1b):

TabImpute tiene el tiempo de ejecución más corto en GPU
Logra aceleración significativa en comparación con TabPFN
La versión CPU mantiene competitividad

Rendimiento Bajo Diferentes Patrones de Falta

TabImpute+ logra el mejor rendimiento en casi todos los patrones de falta:

NN-MNAR: 0.880 ± 0.126
Block-MNAR: 0.908 ± 0.168
Seq-MNAR: 0.905 ± 0.094
Panel-MNAR: 0.791 ± 0.329 (significativamente superior a otros métodos)

Experimentos de Ablación

Comparación de Métodos de Cero Disparos (Tabla 2):

TabImpute+ rendimiento integral mejor: 0.614 ± 0.468
EWF-TabPFN: 0.600 ± 0.476
TabImpute: 0.393 ± 0.487

Demuestra la efectividad de la estrategia de conjunto.

Escenarios de Alta Tasa de Falta

La Figura 4 muestra que bajo el patrón MCAR, la ventaja de TabImpute+ se vuelve más evidente a medida que aumenta la tasa de falta, ya que los modelos generativos pueden aprovechar mejor la información contextual.

Trabajo Relacionado

Métodos de Imputación de Datos Faltantes

Métodos Tradicionales: Imputación por media, modelos lineales, bosques aleatorios
Complementación de Matrices: SoftImpute, USVT, métodos de vecinos cercanos
Aprendizaje Profundo: GAIN (GAN), MIWAE (VAE)
Métodos de Conjunto: HyperImpute

Aprendizaje de Representaciones Tabulares

TabPFN: Modelo fundamental para aprendizaje supervisado tabular
Desarrollos Posteriores: TabICL, MITRA, CausalFM, etc.
Características Técnicas: Redes ajustadas con datos previos (PFN), aprendizaje en contexto

Conclusiones y Discusión

Conclusiones Principales

TabImpute logra imputación precisa y rápida de datos faltantes de cero disparos
La caracterización a nivel de entrada mejora significativamente la eficiencia y precisión
La estrategia de entrenamiento multipatrón mejora la capacidad de generalización del modelo
MissBench proporciona un benchmark integral para la evaluación de métodos de imputación

Limitaciones

Escalabilidad: Debido a la caracterización a nivel de entrada, la complejidad de atención se eleva al cuadrado nuevamente en la dimensión de filas
Rendimiento en CPU: Ejecución más lenta en CPU, similar a TabPFN
Tipos de Datos: Actualmente solo soporta datos numéricos, no soporta datos categóricos
Restricciones de Arquitectura: Hereda la limitación de complejidad de tiempo cuadrático de TabPFN

Direcciones Futuras

Explorar patrones de falta más complejos y procesos de generación de datos
Mejorar el método para soportar datos categóricos
Extender la evaluación a configuraciones de inferencia causal
Mejorar la arquitectura para escalar a conjuntos de datos más grandes
Utilizar el método para imputación múltiple

Evaluación Profunda

Fortalezas

Innovación Fuerte: La caracterización a nivel de entrada es una innovación ingeniosa que logra mejoras significativas de rendimiento
Experimentación Exhaustiva: MissBench proporciona la evaluación más integral de métodos de imputación hasta la fecha
Alto Valor Práctico: La característica de cero disparos hace que el método sea fácil de desplegar y usar
Fundamento Teórico Sólido: Basado en el marco PFN maduro y teoría de inferencia bayesiana

Deficiencias

Problemas de Escalabilidad: La complejidad cuadrática limita la aplicación en datos a gran escala
Restricciones de Tipos de Datos: Solo soportar datos numéricos limita el rango de aplicaciones prácticas
Dependencia de Datos Sintéticos: La dependencia completa del entrenamiento con datos sintéticos puede afectar el rendimiento en ciertos escenarios reales
Requisitos de Recursos Computacionales: El entrenamiento requiere recursos GPU significativos

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para el campo de imputación de datos faltantes tabulares
Valor Práctico: La característica de cero disparos tiene gran potencial en aplicaciones industriales
Contribución de Benchmark: MissBench se convertirá en un estándar de evaluación importante en el campo
Reproducibilidad: Los autores se comprometen a liberar código y pesos

Escenarios Aplicables

Datos Tabulares de Escala Mediana: Particularmente adecuado para datos con número de filas y columnas en rango razonable
Aplicaciones Multidominio: Debido a la característica de cero disparos, es adecuado para uso entre dominios
Desarrollo Rápido de Prototipos: La característica sin ajuste es adecuada para verificación rápida y despliegue
Investigación y Pruebas de Benchmark: MissBench es adecuado como estándar de evaluación para nuevos métodos

Referencias

Este artículo se basa principalmente en los siguientes trabajos importantes:

Hollmann et al. (2023, 2025) - Serie de trabajos TabPFN
Müller et al. (2022) - Fundamento teórico de Prior-data Fitted Networks
Jarrett et al. (2022) - Método de imputación de conjunto HyperImpute
Rubin (1976) - Fundamento teórico de datos faltantes

Resumen: TabImpute es un trabajo de investigación de alta calidad con contribuciones significativas en innovación técnica, diseño experimental y valor práctico. Aunque tiene limitaciones como escalabilidad, su capacidad de imputación de cero disparos y rendimiento superior lo convierten en un progreso importante en el campo.