In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.
- ID del Artículo: 2510.14890
- Título: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
- Autores: Andrew Welbaum, Wanli Qiao (George Mason University)
- Clasificación: stat.ME stat.ML
- Fecha de Publicación: 17 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.14890
En modelos de mezcla de regresiones lineales, los coeficientes de regresión se consideran como vectores aleatorios que pueden seguir distribuciones continuas o discretas. Este artículo propone dos algoritmos de Maximización de Esperanza (EM) para estimar esta distribución previa. El primer algoritmo resuelve una versión kernelizada del estimador de máxima verosimilitud no paramétrico (NPMLE), que no solo recupera distribuciones previas continuas, sino que también estima con precisión el número de componentes cuando la previa es discreta. El segundo algoritmo tiene como objetivo aproximar el NPMLE para distribuciones previas con densidad. Combinado con un paso de postprocesamiento, también funciona bien con distribuciones previas discretas. Se estudian las propiedades de convergencia de ambos algoritmos y se demuestra su efectividad mediante simulaciones y aplicaciones en conjuntos de datos reales.
El modelo de mezcla de regresiones lineales extiende la regresión lineal multivariada, permitiendo que el vector de coeficientes tenga una distribución previa continua o discreta. Este modelo tiene amplia aplicación cuando la variable de respuesta y las covariables pueden tener relaciones lineales personalizadas o agrupadas, incluyendo segmentación de mercado, investigación médica, investigación educativa, así como diversas investigaciones industriales y económicas.
Considérese n observaciones independientes (x1,y1),…,(xn,yn)∈Rd×R, generadas por el siguiente modelo:
yi=xiTβi+σzi
donde β1,…,βn∼iidG∗, z1,…,zn∼iidN(0,1), σ>0 es conocido, y G∗ es una distribución de probabilidad desconocida en Rd.
- Limitaciones de Métodos Existentes: Los algoritmos EM tradicionales requieren conocer previamente el número de componentes K, mientras que los métodos basados en NPMLE (como Jiang and Guntuboyina 2025), aunque teóricamente consistentes, a menudo no pueden detectar con precisión el número real de componentes en la práctica
- Necesidades Prácticas: Se requieren métodos que puedan manejar tanto distribuciones continuas como detectar automáticamente el número de componentes en distribuciones discretas
- Aplicaciones de Agrupamiento: Cuando G∗ es discreta, es necesario agrupar las observaciones basándose en los resultados estimados
- Propuesta del Algoritmo EM-NPMLE: Para distribuciones previas con densidad, converge al NPMLE
- Propuesta del Algoritmo EM-NPKMLE: Mediante optimización restringida con estimación de densidad kernelizada, puede detectar automáticamente el número de componentes en distribuciones discretas
- Garantías Teóricas: Se demuestran las propiedades de convergencia de ambos algoritmos
- Estrategia de Postprocesamiento: Se proponen métodos de postprocesamiento mean shift y SCMS para estructuras especiales
- Verificación Práctica: Se valida la efectividad del método en simulaciones y datos reales
Dados los datos observados {(xi,yi)}i=1n, el objetivo es estimar la distribución previa desconocida G∗, y por lo tanto:
- Realizar estimación no paramétrica para distribuciones continuas
- Determinar automáticamente el número de componentes para distribuciones discretas y estimar parámetros
- Realizar agrupamiento basado en resultados estimados
Escenario Aplicable: G∗ posee una función de densidad g∗
Flujo del Algoritmo:
- Paso E: Calcular la densidad posterior
fi(t+1)(β)=∫Rdϕσ(yi−xiTβ)g(t)(β)dβϕσ(yi−xiTβ)g(t)(β)
- Paso M: Actualizar la estimación de densidad
g(t+1)=n1∑i=1nfi(t+1)
Propiedades Teóricas:
- Teorema 2.1: Bajo condiciones apropiadas, G(t) converge débilmente a un NPMLE único G^
Idea Central: Restringir la optimización al conjunto de estimaciones de densidad kernelizada Gkde:
Gkde={nhd1∑ℓ=1nv(h2∥⋅−β~ℓ∥2):β~1,…,β~n∈Rd}
Estructura del Algoritmo: Algoritmo EM de doble bucle
- Bucle Externo: Iteraciones EM que actualizan la distribución
- Bucle Interno: Ascenso por gradiente que optimiza parámetros de estimación de densidad kernelizada
Fórmulas de Actualización Clave:
νℓ(r+1)=ξ(νℓ(r);β(t),x,y)=C(νℓ(r),β(t),x,y)A(νℓ(r);β(t),x,y)
donde A y C se determinan mediante cálculos de gradiente.
- Tamaño de Paso Adaptativo: El ascenso por gradiente utiliza un tamaño de paso adaptativo 1/C(νℓ(r),β(t),x,y), sin necesidad de ajuste manual de parámetros
- Selección de Ancho de Banda: Estrategia de selección de ancho de banda basada en el principio de máximo suavizado, evitando modas espurias
- Flexibilidad de Postprocesamiento: Se diseñan métodos de postprocesamiento correspondientes para diferentes estructuras previas
Simulación 1: Distribución discreta de tres componentes
- Componentes: y=3−x, y=1+1.5x, y=−1+0.5x
- Pesos: (0.3, 0.3, 0.4)
- Ruido: σ=0.5
- Tamaño de muestra: 500 a 10,000
Simulación 2: Distribución continua
- Distribución uniforme en dos círculos concéntricos: 21×Uniform{B(1)}+21×Uniform{B(2)}
- Índice Rand Ajustado (ARI): Calidad del agrupamiento
- Precisión de Detección de Componentes: Proporción de identificación correcta del número real de componentes
- Distancia de Wasserstein-2: Calidad de la estimación de distribución
- Sesgo y Desviación Estándar: Precisión de estimación de parámetros
- Método CGM: Método de gradiente condicional de Jiang and Guntuboyina (2025)
- EM-NPMLE + Mean Shift: Versión con postprocesamiento
- Método Oracle: Límite teórico con distribución verdadera conocida
- Función kernel: Kernel gaussiano
- Ancho de banda: Seleccionado basado en el principio de máximo suavizado
- Inicialización: Distribución uniforme o salida de EM-NPMLE
- Criterio de convergencia: Distancia L2 menor que umbral preestablecido
Resultados de Simulación 1 (tamaño de muestra 10,000):
- EM-NPKMLE: ARI=0.651, tasa de detección de componentes=99.5%, distancia W-2=0.288
- EM-NPMLE+Mean Shift: ARI=0.662, tasa de detección de componentes=100%, distancia W-2=0.265
- CGM: ARI=0.596, tasa de detección de componentes=0%, número promedio de componentes=7.57
Hallazgos Clave:
- Tanto EM-NPKMLE como EM-NPMLE+Mean Shift pueden estimar consistentemente el número real de componentes
- El método CGM sistemáticamente sobrestima el número de componentes
- Con el aumento del tamaño de muestra, todas las estimaciones tienden hacia el valor verdadero
Para estimación de coeficientes de tres componentes (n=10,000):
- Componente 1: Valor verdadero (3,-1), estimado (-0.112, 0.004)±(0.011, 0.010)
- Componente 2: Valor verdadero (1,1.5), estimado (-0.115, 0.013)±(0.018, 0.012)
- Componente 3: Valor verdadero (-1,0.5), estimado (0.113, 0.027)±(0.013, 0.010)
GEM-NPKMLE (bucle interno único) en comparación con EM-NPKMLE completo:
- Tiempo: 15.4 minutos vs 115.9 minutos (n=5000)
- Rendimiento: Esencialmente equivalente (en muestras grandes)
Datos CO2-GDP:
- Se detectan 2 componentes principales, con pesos 0.484 y 0.358
- Coeficientes: (0.022, 0.179) y (-0.070, 0.343)
- Consistente con los componentes principales del método CGM
Datos de Percepción de Tono Musical:
- Se detectan 2 componentes, consistente con predicciones teóricas musicales
- Los componentes corresponden a predicciones teóricas de y=x e y=2
- Trabajos Clásicos: Kiefer and Wolfowitz (1956) describieron por primera vez el NPMLE para modelos de mezcla
- Avances Recientes: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025), entre otros
- EM Moderno: Formalizado por Dempster et al. (1977)
- Regresión de Mezcla: Extendido a regresión lineal agrupada por DeSarbo and Cron (1988)
- Estimación del Número de Componentes: Los métodos tradicionales se basan en criterios de información como AIC, BIC
- Sin Necesidad de Prefijar Número de Componentes: En comparación con algoritmos EM tradicionales
- Detección Precisa de Componentes: En comparación con métodos NPMLE existentes
- Marco Unificado: Maneja simultáneamente distribuciones continuas y discretas
- Algoritmo EM-NPKMLE puede detectar automáticamente el número real de componentes en distribuciones discretas, evitando el problema de sobrestimación de métodos tradicionales
- Garantías de Convergencia: Ambos algoritmos poseen garantías teóricas de convergencia
- Fuerte Practicidad: Muestran buen desempeño tanto en simulaciones como en datos reales
- Eficiencia Computacional: La variante GEM proporciona un buen equilibrio entre eficiencia y precisión
- Selección de Ancho de Banda: Requiere estrategia apropiada de selección de ancho de banda; el método actual puede no ser óptimo
- Óptimos Locales: El ascenso por gradiente puede quedar atrapado en óptimos locales
- Desafíos en Altas Dimensiones: El desempeño en casos de alta dimensionalidad requiere investigación adicional
- Determinación de Distribución: En la práctica es difícil determinar previamente si la distribución es continua o discreta
- Ancho de Banda Adaptativo: Desarrollar ancho de banda adaptativo para diferentes iteraciones o dimensiones
- Análisis Teórico: Investigación profunda de propiedades teóricas de EM-NPKMLE
- Extensión de Aplicaciones: Generalización a modelos de mezcla general
- Optimización Computacional: Mejora adicional de la eficiencia computacional del algoritmo
- Innovación Metodológica Fuerte: El NPMLE restringido con estimación de densidad kernelizada es un enfoque novedoso
- Alto Valor Práctico: Resuelve el problema práctico de detección automática del número de componentes
- Fundamento Teórico Sólido: Proporciona pruebas de convergencia
- Experimentación Completa: Incluye verificación mediante simulaciones y datos reales
- Escritura Clara: Descripción detallada de algoritmos, derivaciones matemáticas rigurosas
- Dependencia del Ancho de Banda: El desempeño del algoritmo es relativamente sensible a la selección del ancho de banda
- Complejidad Computacional: La estructura de doble bucle tiene costo computacional relativamente alto
- Extensibilidad en Altas Dimensiones: Falta investigación sistemática en casos de alta dimensionalidad
- Comparaciones Limitadas: Principalmente comparación con método CGM, falta de más baselines
- Contribución Teórica: Proporciona nuevas perspectivas para estimación no paramétrica de regresión de mezcla
- Valor Práctico: Tiene aplicación directa en agrupamiento y estimación de distribuciones
- Reproducibilidad: Descripción detallada de algoritmos, fácil de reproducir
- Extensibilidad: El marco puede extenderse a otros modelos de mezcla
- Segmentación de Mercado: Análisis de patrones de comportamiento de diferentes grupos de consumidores
- Investigación Médica: Análisis de respuesta al tratamiento en subgrupos de pacientes
- Investigación Económica: Análisis de patrones de crecimiento económico en diferentes trayectorias de desarrollo
- Aprendizaje Automático: Regresión agrupada y aprendizaje semi-supervisado
- Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
- Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
- Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
- Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.
Evaluación General: Este es un artículo de alta calidad en metodología estadística que propone algoritmos EM innovadores para resolver problemas importantes en mezcla de regresiones lineales. El método posee fundamentos teóricos sólidos y buen desempeño práctico, proporcionando herramientas valiosas para campos relacionados. Aunque existen algunas limitaciones, sus contribuciones son significativas y posee buen valor académico y de aplicación.