2025-11-22T01:28:15.129039

EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions

Welbaum, Qiao

In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.

academic

Enfoques EM para Estimación No Paramétrica de Mezclas de Regresiones Lineales

Información Básica

ID del Artículo: 2510.14890
Título: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
Autores: Andrew Welbaum, Wanli Qiao (George Mason University)
Clasificación: stat.ME stat.ML
Fecha de Publicación: 17 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14890

Resumen

En modelos de mezcla de regresiones lineales, los coeficientes de regresión se consideran como vectores aleatorios que pueden seguir distribuciones continuas o discretas. Este artículo propone dos algoritmos de Maximización de Esperanza (EM) para estimar esta distribución previa. El primer algoritmo resuelve una versión kernelizada del estimador de máxima verosimilitud no paramétrico (NPMLE), que no solo recupera distribuciones previas continuas, sino que también estima con precisión el número de componentes cuando la previa es discreta. El segundo algoritmo tiene como objetivo aproximar el NPMLE para distribuciones previas con densidad. Combinado con un paso de postprocesamiento, también funciona bien con distribuciones previas discretas. Se estudian las propiedades de convergencia de ambos algoritmos y se demuestra su efectividad mediante simulaciones y aplicaciones en conjuntos de datos reales.

Antecedentes y Motivación de la Investigación

Definición del Problema

El modelo de mezcla de regresiones lineales extiende la regresión lineal multivariada, permitiendo que el vector de coeficientes tenga una distribución previa continua o discreta. Este modelo tiene amplia aplicación cuando la variable de respuesta y las covariables pueden tener relaciones lineales personalizadas o agrupadas, incluyendo segmentación de mercado, investigación médica, investigación educativa, así como diversas investigaciones industriales y económicas.

Configuración del Modelo

Considérese n observaciones independientes $(x_1, y_1), \ldots, (x_n, y_n) \in \mathbb{R}^d \times \mathbb{R}$ , generadas por el siguiente modelo: $y_i = x_i^T \beta_i + \sigma z_i$ donde $\beta_1, \ldots, \beta_n \stackrel{iid}{\sim} G^*$ , $z_1, \ldots, z_n \stackrel{iid}{\sim} N(0,1)$ , $\sigma > 0$ es conocido, y $G^*$ es una distribución de probabilidad desconocida en $\mathbb{R}^d$ .

Motivación de la Investigación

Limitaciones de Métodos Existentes: Los algoritmos EM tradicionales requieren conocer previamente el número de componentes K, mientras que los métodos basados en NPMLE (como Jiang and Guntuboyina 2025), aunque teóricamente consistentes, a menudo no pueden detectar con precisión el número real de componentes en la práctica
Necesidades Prácticas: Se requieren métodos que puedan manejar tanto distribuciones continuas como detectar automáticamente el número de componentes en distribuciones discretas
Aplicaciones de Agrupamiento: Cuando $G^*$ es discreta, es necesario agrupar las observaciones basándose en los resultados estimados

Contribuciones Principales

Propuesta del Algoritmo EM-NPMLE: Para distribuciones previas con densidad, converge al NPMLE
Propuesta del Algoritmo EM-NPKMLE: Mediante optimización restringida con estimación de densidad kernelizada, puede detectar automáticamente el número de componentes en distribuciones discretas
Garantías Teóricas: Se demuestran las propiedades de convergencia de ambos algoritmos
Estrategia de Postprocesamiento: Se proponen métodos de postprocesamiento mean shift y SCMS para estructuras especiales
Verificación Práctica: Se valida la efectividad del método en simulaciones y datos reales

Explicación Detallada de Métodos

Definición de la Tarea

Dados los datos observados $\{(x_i, y_i)\}_{i=1}^n$ , el objetivo es estimar la distribución previa desconocida $G^*$ , y por lo tanto:

Realizar estimación no paramétrica para distribuciones continuas
Determinar automáticamente el número de componentes para distribuciones discretas y estimar parámetros
Realizar agrupamiento basado en resultados estimados

Algoritmo EM-NPMLE (Método 1)

Escenario Aplicable: $G^*$ posee una función de densidad $g^*$

Flujo del Algoritmo:

Paso E: Calcular la densidad posterior $f_i^{(t+1)}(\beta) = \frac{\phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)}{\int_{\mathbb{R}^d} \phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)d\beta}$
Paso M: Actualizar la estimación de densidad $g^{(t+1)} = \frac{1}{n}\sum_{i=1}^n f_i^{(t+1)}$

Propiedades Teóricas:

Teorema 2.1: Bajo condiciones apropiadas, $G^{(t)}$ converge débilmente a un NPMLE único $\hat{G}$

Algoritmo EM-NPKMLE (Método 2)

Idea Central: Restringir la optimización al conjunto de estimaciones de densidad kernelizada $\mathcal{G}_{kde}$ : $\mathcal{G}_{kde} = \left\{\frac{1}{nh^d}\sum_{\ell=1}^n v\left(\frac{\|\cdot - \tilde{\beta}_\ell\|^2}{h^2}\right) : \tilde{\beta}_1, \ldots, \tilde{\beta}_n \in \mathbb{R}^d\right\}$

Estructura del Algoritmo: Algoritmo EM de doble bucle

Bucle Externo: Iteraciones EM que actualizan la distribución
Bucle Interno: Ascenso por gradiente que optimiza parámetros de estimación de densidad kernelizada

Fórmulas de Actualización Clave: $\nu_\ell^{(r+1)} = \xi(\nu_\ell^{(r)}; \beta^{(t)}, x, y) = \frac{A(\nu_\ell^{(r)}; \beta^{(t)}, x, y)}{C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)}$

donde $A$ y $C$ se determinan mediante cálculos de gradiente.

Puntos de Innovación Técnica

Tamaño de Paso Adaptativo: El ascenso por gradiente utiliza un tamaño de paso adaptativo $1/C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)$ , sin necesidad de ajuste manual de parámetros
Selección de Ancho de Banda: Estrategia de selección de ancho de banda basada en el principio de máximo suavizado, evitando modas espurias
Flexibilidad de Postprocesamiento: Se diseñan métodos de postprocesamiento correspondientes para diferentes estructuras previas

Configuración Experimental

Datos de Simulación

Simulación 1: Distribución discreta de tres componentes

Componentes: $y = 3-x$ , $y = 1+1.5x$ , $y = -1+0.5x$
Pesos: (0.3, 0.3, 0.4)
Ruido: $\sigma = 0.5$
Tamaño de muestra: 500 a 10,000

Simulación 2: Distribución continua

Distribución uniforme en dos círculos concéntricos: $\frac{1}{2} \times \text{Uniform}\{B(1)\} + \frac{1}{2} \times \text{Uniform}\{B(2)\}$

Indicadores de Evaluación

Índice Rand Ajustado (ARI): Calidad del agrupamiento
Precisión de Detección de Componentes: Proporción de identificación correcta del número real de componentes
Distancia de Wasserstein-2: Calidad de la estimación de distribución
Sesgo y Desviación Estándar: Precisión de estimación de parámetros

Métodos de Comparación

Método CGM: Método de gradiente condicional de Jiang and Guntuboyina (2025)
EM-NPMLE + Mean Shift: Versión con postprocesamiento
Método Oracle: Límite teórico con distribución verdadera conocida

Detalles de Implementación

Función kernel: Kernel gaussiano
Ancho de banda: Seleccionado basado en el principio de máximo suavizado
Inicialización: Distribución uniforme o salida de EM-NPMLE
Criterio de convergencia: Distancia $L_2$ menor que umbral preestablecido

Resultados Experimentales

Resultados Principales

Resultados de Simulación 1 (tamaño de muestra 10,000):

EM-NPKMLE: ARI=0.651, tasa de detección de componentes=99.5%, distancia W-2=0.288
EM-NPMLE+Mean Shift: ARI=0.662, tasa de detección de componentes=100%, distancia W-2=0.265
CGM: ARI=0.596, tasa de detección de componentes=0%, número promedio de componentes=7.57

Hallazgos Clave:

Tanto EM-NPKMLE como EM-NPMLE+Mean Shift pueden estimar consistentemente el número real de componentes
El método CGM sistemáticamente sobrestima el número de componentes
Con el aumento del tamaño de muestra, todas las estimaciones tienden hacia el valor verdadero

Precisión de Estimación de Parámetros

Para estimación de coeficientes de tres componentes (n=10,000):

Componente 1: Valor verdadero (3,-1), estimado (-0.112, 0.004)±(0.011, 0.010)
Componente 2: Valor verdadero (1,1.5), estimado (-0.115, 0.013)±(0.018, 0.012)
Componente 3: Valor verdadero (-1,0.5), estimado (0.113, 0.027)±(0.013, 0.010)

Comparación de Eficiencia Computacional

GEM-NPKMLE (bucle interno único) en comparación con EM-NPKMLE completo:

Tiempo: 15.4 minutos vs 115.9 minutos (n=5000)
Rendimiento: Esencialmente equivalente (en muestras grandes)

Aplicación en Datos Reales

Datos CO2-GDP:

Se detectan 2 componentes principales, con pesos 0.484 y 0.358
Coeficientes: (0.022, 0.179) y (-0.070, 0.343)
Consistente con los componentes principales del método CGM

Datos de Percepción de Tono Musical:

Se detectan 2 componentes, consistente con predicciones teóricas musicales
Los componentes corresponden a predicciones teóricas de $y=x$ e $y=2$

Trabajo Relacionado

Investigación Relacionada con NPMLE

Trabajos Clásicos: Kiefer and Wolfowitz (1956) describieron por primera vez el NPMLE para modelos de mezcla
Avances Recientes: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025), entre otros

Desarrollo del Algoritmo EM

EM Moderno: Formalizado por Dempster et al. (1977)
Regresión de Mezcla: Extendido a regresión lineal agrupada por DeSarbo and Cron (1988)
Estimación del Número de Componentes: Los métodos tradicionales se basan en criterios de información como AIC, BIC

Ventajas de Este Artículo

Sin Necesidad de Prefijar Número de Componentes: En comparación con algoritmos EM tradicionales
Detección Precisa de Componentes: En comparación con métodos NPMLE existentes
Marco Unificado: Maneja simultáneamente distribuciones continuas y discretas

Conclusiones y Discusión

Conclusiones Principales

Algoritmo EM-NPKMLE puede detectar automáticamente el número real de componentes en distribuciones discretas, evitando el problema de sobrestimación de métodos tradicionales
Garantías de Convergencia: Ambos algoritmos poseen garantías teóricas de convergencia
Fuerte Practicidad: Muestran buen desempeño tanto en simulaciones como en datos reales
Eficiencia Computacional: La variante GEM proporciona un buen equilibrio entre eficiencia y precisión

Limitaciones

Selección de Ancho de Banda: Requiere estrategia apropiada de selección de ancho de banda; el método actual puede no ser óptimo
Óptimos Locales: El ascenso por gradiente puede quedar atrapado en óptimos locales
Desafíos en Altas Dimensiones: El desempeño en casos de alta dimensionalidad requiere investigación adicional
Determinación de Distribución: En la práctica es difícil determinar previamente si la distribución es continua o discreta

Direcciones Futuras

Ancho de Banda Adaptativo: Desarrollar ancho de banda adaptativo para diferentes iteraciones o dimensiones
Análisis Teórico: Investigación profunda de propiedades teóricas de EM-NPKMLE
Extensión de Aplicaciones: Generalización a modelos de mezcla general
Optimización Computacional: Mejora adicional de la eficiencia computacional del algoritmo

Evaluación Profunda

Fortalezas

Innovación Metodológica Fuerte: El NPMLE restringido con estimación de densidad kernelizada es un enfoque novedoso
Alto Valor Práctico: Resuelve el problema práctico de detección automática del número de componentes
Fundamento Teórico Sólido: Proporciona pruebas de convergencia
Experimentación Completa: Incluye verificación mediante simulaciones y datos reales
Escritura Clara: Descripción detallada de algoritmos, derivaciones matemáticas rigurosas

Deficiencias

Dependencia del Ancho de Banda: El desempeño del algoritmo es relativamente sensible a la selección del ancho de banda
Complejidad Computacional: La estructura de doble bucle tiene costo computacional relativamente alto
Extensibilidad en Altas Dimensiones: Falta investigación sistemática en casos de alta dimensionalidad
Comparaciones Limitadas: Principalmente comparación con método CGM, falta de más baselines

Impacto

Contribución Teórica: Proporciona nuevas perspectivas para estimación no paramétrica de regresión de mezcla
Valor Práctico: Tiene aplicación directa en agrupamiento y estimación de distribuciones
Reproducibilidad: Descripción detallada de algoritmos, fácil de reproducir
Extensibilidad: El marco puede extenderse a otros modelos de mezcla

Escenarios Aplicables

Segmentación de Mercado: Análisis de patrones de comportamiento de diferentes grupos de consumidores
Investigación Médica: Análisis de respuesta al tratamiento en subgrupos de pacientes
Investigación Económica: Análisis de patrones de crecimiento económico en diferentes trayectorias de desarrollo
Aprendizaje Automático: Regresión agrupada y aprendizaje semi-supervisado

Referencias

Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.

Evaluación General: Este es un artículo de alta calidad en metodología estadística que propone algoritmos EM innovadores para resolver problemas importantes en mezcla de regresiones lineales. El método posee fundamentos teóricos sólidos y buen desempeño práctico, proporcionando herramientas valiosas para campos relacionados. Aunque existen algunas limitaciones, sus contribuciones son significativas y posee buen valor académico y de aplicación.