2025-11-22T01:28:15.129039

EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions

Welbaum, Qiao
In a mixture of linear regression model, the regression coefficients are treated as random vectors that may follow either a continuous or discrete distribution. We propose two Expectation-Maximization (EM) algorithms to estimate this prior distribution. The first algorithm solves a kernelized version of the nonparametric maximum likelihood estimation (NPMLE). This method not only recovers continuous prior distributions but also accurately estimates the number of clusters when the prior is discrete. The second algorithm, designed to approximate the NPMLE, targets prior distributions with a density. It also performs well for discrete priors when combined with a post-processing step. We study the convergence properties of both algorithms and demonstrate their effectiveness through simulations and applications to real datasets.
academic

Enfoques EM para Estimación No Paramétrica de Mezclas de Regresiones Lineales

Información Básica

  • ID del Artículo: 2510.14890
  • Título: EM Approaches to Nonparametric Estimation for Mixture of Linear Regressions
  • Autores: Andrew Welbaum, Wanli Qiao (George Mason University)
  • Clasificación: stat.ME stat.ML
  • Fecha de Publicación: 17 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14890

Resumen

En modelos de mezcla de regresiones lineales, los coeficientes de regresión se consideran como vectores aleatorios que pueden seguir distribuciones continuas o discretas. Este artículo propone dos algoritmos de Maximización de Esperanza (EM) para estimar esta distribución previa. El primer algoritmo resuelve una versión kernelizada del estimador de máxima verosimilitud no paramétrico (NPMLE), que no solo recupera distribuciones previas continuas, sino que también estima con precisión el número de componentes cuando la previa es discreta. El segundo algoritmo tiene como objetivo aproximar el NPMLE para distribuciones previas con densidad. Combinado con un paso de postprocesamiento, también funciona bien con distribuciones previas discretas. Se estudian las propiedades de convergencia de ambos algoritmos y se demuestra su efectividad mediante simulaciones y aplicaciones en conjuntos de datos reales.

Antecedentes y Motivación de la Investigación

Definición del Problema

El modelo de mezcla de regresiones lineales extiende la regresión lineal multivariada, permitiendo que el vector de coeficientes tenga una distribución previa continua o discreta. Este modelo tiene amplia aplicación cuando la variable de respuesta y las covariables pueden tener relaciones lineales personalizadas o agrupadas, incluyendo segmentación de mercado, investigación médica, investigación educativa, así como diversas investigaciones industriales y económicas.

Configuración del Modelo

Considérese n observaciones independientes (x1,y1),,(xn,yn)Rd×R(x_1, y_1), \ldots, (x_n, y_n) \in \mathbb{R}^d \times \mathbb{R}, generadas por el siguiente modelo: yi=xiTβi+σziy_i = x_i^T \beta_i + \sigma z_i donde β1,,βniidG\beta_1, \ldots, \beta_n \stackrel{iid}{\sim} G^*, z1,,zniidN(0,1)z_1, \ldots, z_n \stackrel{iid}{\sim} N(0,1), σ>0\sigma > 0 es conocido, y GG^* es una distribución de probabilidad desconocida en Rd\mathbb{R}^d.

Motivación de la Investigación

  1. Limitaciones de Métodos Existentes: Los algoritmos EM tradicionales requieren conocer previamente el número de componentes K, mientras que los métodos basados en NPMLE (como Jiang and Guntuboyina 2025), aunque teóricamente consistentes, a menudo no pueden detectar con precisión el número real de componentes en la práctica
  2. Necesidades Prácticas: Se requieren métodos que puedan manejar tanto distribuciones continuas como detectar automáticamente el número de componentes en distribuciones discretas
  3. Aplicaciones de Agrupamiento: Cuando GG^* es discreta, es necesario agrupar las observaciones basándose en los resultados estimados

Contribuciones Principales

  1. Propuesta del Algoritmo EM-NPMLE: Para distribuciones previas con densidad, converge al NPMLE
  2. Propuesta del Algoritmo EM-NPKMLE: Mediante optimización restringida con estimación de densidad kernelizada, puede detectar automáticamente el número de componentes en distribuciones discretas
  3. Garantías Teóricas: Se demuestran las propiedades de convergencia de ambos algoritmos
  4. Estrategia de Postprocesamiento: Se proponen métodos de postprocesamiento mean shift y SCMS para estructuras especiales
  5. Verificación Práctica: Se valida la efectividad del método en simulaciones y datos reales

Explicación Detallada de Métodos

Definición de la Tarea

Dados los datos observados {(xi,yi)}i=1n\{(x_i, y_i)\}_{i=1}^n, el objetivo es estimar la distribución previa desconocida GG^*, y por lo tanto:

  1. Realizar estimación no paramétrica para distribuciones continuas
  2. Determinar automáticamente el número de componentes para distribuciones discretas y estimar parámetros
  3. Realizar agrupamiento basado en resultados estimados

Algoritmo EM-NPMLE (Método 1)

Escenario Aplicable: GG^* posee una función de densidad gg^*

Flujo del Algoritmo:

  1. Paso E: Calcular la densidad posterior fi(t+1)(β)=ϕσ(yixiTβ)g(t)(β)Rdϕσ(yixiTβ)g(t)(β)dβf_i^{(t+1)}(\beta) = \frac{\phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)}{\int_{\mathbb{R}^d} \phi_\sigma(y_i - x_i^T\beta)g^{(t)}(\beta)d\beta}
  2. Paso M: Actualizar la estimación de densidad g(t+1)=1ni=1nfi(t+1)g^{(t+1)} = \frac{1}{n}\sum_{i=1}^n f_i^{(t+1)}

Propiedades Teóricas:

  • Teorema 2.1: Bajo condiciones apropiadas, G(t)G^{(t)} converge débilmente a un NPMLE único G^\hat{G}

Algoritmo EM-NPKMLE (Método 2)

Idea Central: Restringir la optimización al conjunto de estimaciones de densidad kernelizada Gkde\mathcal{G}_{kde}: Gkde={1nhd=1nv(β~2h2):β~1,,β~nRd}\mathcal{G}_{kde} = \left\{\frac{1}{nh^d}\sum_{\ell=1}^n v\left(\frac{\|\cdot - \tilde{\beta}_\ell\|^2}{h^2}\right) : \tilde{\beta}_1, \ldots, \tilde{\beta}_n \in \mathbb{R}^d\right\}

Estructura del Algoritmo: Algoritmo EM de doble bucle

  • Bucle Externo: Iteraciones EM que actualizan la distribución
  • Bucle Interno: Ascenso por gradiente que optimiza parámetros de estimación de densidad kernelizada

Fórmulas de Actualización Clave: ν(r+1)=ξ(ν(r);β(t),x,y)=A(ν(r);β(t),x,y)C(ν(r),β(t),x,y)\nu_\ell^{(r+1)} = \xi(\nu_\ell^{(r)}; \beta^{(t)}, x, y) = \frac{A(\nu_\ell^{(r)}; \beta^{(t)}, x, y)}{C(\nu_\ell^{(r)}, \beta^{(t)}, x, y)}

donde AA y CC se determinan mediante cálculos de gradiente.

Puntos de Innovación Técnica

  1. Tamaño de Paso Adaptativo: El ascenso por gradiente utiliza un tamaño de paso adaptativo 1/C(ν(r),β(t),x,y)1/C(\nu_\ell^{(r)}, \beta^{(t)}, x, y), sin necesidad de ajuste manual de parámetros
  2. Selección de Ancho de Banda: Estrategia de selección de ancho de banda basada en el principio de máximo suavizado, evitando modas espurias
  3. Flexibilidad de Postprocesamiento: Se diseñan métodos de postprocesamiento correspondientes para diferentes estructuras previas

Configuración Experimental

Datos de Simulación

Simulación 1: Distribución discreta de tres componentes

  • Componentes: y=3xy = 3-x, y=1+1.5xy = 1+1.5x, y=1+0.5xy = -1+0.5x
  • Pesos: (0.3, 0.3, 0.4)
  • Ruido: σ=0.5\sigma = 0.5
  • Tamaño de muestra: 500 a 10,000

Simulación 2: Distribución continua

  • Distribución uniforme en dos círculos concéntricos: 12×Uniform{B(1)}+12×Uniform{B(2)}\frac{1}{2} \times \text{Uniform}\{B(1)\} + \frac{1}{2} \times \text{Uniform}\{B(2)\}

Indicadores de Evaluación

  1. Índice Rand Ajustado (ARI): Calidad del agrupamiento
  2. Precisión de Detección de Componentes: Proporción de identificación correcta del número real de componentes
  3. Distancia de Wasserstein-2: Calidad de la estimación de distribución
  4. Sesgo y Desviación Estándar: Precisión de estimación de parámetros

Métodos de Comparación

  1. Método CGM: Método de gradiente condicional de Jiang and Guntuboyina (2025)
  2. EM-NPMLE + Mean Shift: Versión con postprocesamiento
  3. Método Oracle: Límite teórico con distribución verdadera conocida

Detalles de Implementación

  • Función kernel: Kernel gaussiano
  • Ancho de banda: Seleccionado basado en el principio de máximo suavizado
  • Inicialización: Distribución uniforme o salida de EM-NPMLE
  • Criterio de convergencia: Distancia L2L_2 menor que umbral preestablecido

Resultados Experimentales

Resultados Principales

Resultados de Simulación 1 (tamaño de muestra 10,000):

  • EM-NPKMLE: ARI=0.651, tasa de detección de componentes=99.5%, distancia W-2=0.288
  • EM-NPMLE+Mean Shift: ARI=0.662, tasa de detección de componentes=100%, distancia W-2=0.265
  • CGM: ARI=0.596, tasa de detección de componentes=0%, número promedio de componentes=7.57

Hallazgos Clave:

  1. Tanto EM-NPKMLE como EM-NPMLE+Mean Shift pueden estimar consistentemente el número real de componentes
  2. El método CGM sistemáticamente sobrestima el número de componentes
  3. Con el aumento del tamaño de muestra, todas las estimaciones tienden hacia el valor verdadero

Precisión de Estimación de Parámetros

Para estimación de coeficientes de tres componentes (n=10,000):

  • Componente 1: Valor verdadero (3,-1), estimado (-0.112, 0.004)±(0.011, 0.010)
  • Componente 2: Valor verdadero (1,1.5), estimado (-0.115, 0.013)±(0.018, 0.012)
  • Componente 3: Valor verdadero (-1,0.5), estimado (0.113, 0.027)±(0.013, 0.010)

Comparación de Eficiencia Computacional

GEM-NPKMLE (bucle interno único) en comparación con EM-NPKMLE completo:

  • Tiempo: 15.4 minutos vs 115.9 minutos (n=5000)
  • Rendimiento: Esencialmente equivalente (en muestras grandes)

Aplicación en Datos Reales

Datos CO2-GDP:

  • Se detectan 2 componentes principales, con pesos 0.484 y 0.358
  • Coeficientes: (0.022, 0.179) y (-0.070, 0.343)
  • Consistente con los componentes principales del método CGM

Datos de Percepción de Tono Musical:

  • Se detectan 2 componentes, consistente con predicciones teóricas musicales
  • Los componentes corresponden a predicciones teóricas de y=xy=x e y=2y=2

Trabajo Relacionado

Investigación Relacionada con NPMLE

  • Trabajos Clásicos: Kiefer and Wolfowitz (1956) describieron por primera vez el NPMLE para modelos de mezcla
  • Avances Recientes: Jiang and Zhang (2009), Koenker and Mizera (2014), Jiang and Guntuboyina (2025), entre otros

Desarrollo del Algoritmo EM

  • EM Moderno: Formalizado por Dempster et al. (1977)
  • Regresión de Mezcla: Extendido a regresión lineal agrupada por DeSarbo and Cron (1988)
  • Estimación del Número de Componentes: Los métodos tradicionales se basan en criterios de información como AIC, BIC

Ventajas de Este Artículo

  1. Sin Necesidad de Prefijar Número de Componentes: En comparación con algoritmos EM tradicionales
  2. Detección Precisa de Componentes: En comparación con métodos NPMLE existentes
  3. Marco Unificado: Maneja simultáneamente distribuciones continuas y discretas

Conclusiones y Discusión

Conclusiones Principales

  1. Algoritmo EM-NPKMLE puede detectar automáticamente el número real de componentes en distribuciones discretas, evitando el problema de sobrestimación de métodos tradicionales
  2. Garantías de Convergencia: Ambos algoritmos poseen garantías teóricas de convergencia
  3. Fuerte Practicidad: Muestran buen desempeño tanto en simulaciones como en datos reales
  4. Eficiencia Computacional: La variante GEM proporciona un buen equilibrio entre eficiencia y precisión

Limitaciones

  1. Selección de Ancho de Banda: Requiere estrategia apropiada de selección de ancho de banda; el método actual puede no ser óptimo
  2. Óptimos Locales: El ascenso por gradiente puede quedar atrapado en óptimos locales
  3. Desafíos en Altas Dimensiones: El desempeño en casos de alta dimensionalidad requiere investigación adicional
  4. Determinación de Distribución: En la práctica es difícil determinar previamente si la distribución es continua o discreta

Direcciones Futuras

  1. Ancho de Banda Adaptativo: Desarrollar ancho de banda adaptativo para diferentes iteraciones o dimensiones
  2. Análisis Teórico: Investigación profunda de propiedades teóricas de EM-NPKMLE
  3. Extensión de Aplicaciones: Generalización a modelos de mezcla general
  4. Optimización Computacional: Mejora adicional de la eficiencia computacional del algoritmo

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica Fuerte: El NPMLE restringido con estimación de densidad kernelizada es un enfoque novedoso
  2. Alto Valor Práctico: Resuelve el problema práctico de detección automática del número de componentes
  3. Fundamento Teórico Sólido: Proporciona pruebas de convergencia
  4. Experimentación Completa: Incluye verificación mediante simulaciones y datos reales
  5. Escritura Clara: Descripción detallada de algoritmos, derivaciones matemáticas rigurosas

Deficiencias

  1. Dependencia del Ancho de Banda: El desempeño del algoritmo es relativamente sensible a la selección del ancho de banda
  2. Complejidad Computacional: La estructura de doble bucle tiene costo computacional relativamente alto
  3. Extensibilidad en Altas Dimensiones: Falta investigación sistemática en casos de alta dimensionalidad
  4. Comparaciones Limitadas: Principalmente comparación con método CGM, falta de más baselines

Impacto

  1. Contribución Teórica: Proporciona nuevas perspectivas para estimación no paramétrica de regresión de mezcla
  2. Valor Práctico: Tiene aplicación directa en agrupamiento y estimación de distribuciones
  3. Reproducibilidad: Descripción detallada de algoritmos, fácil de reproducir
  4. Extensibilidad: El marco puede extenderse a otros modelos de mezcla

Escenarios Aplicables

  1. Segmentación de Mercado: Análisis de patrones de comportamiento de diferentes grupos de consumidores
  2. Investigación Médica: Análisis de respuesta al tratamiento en subgrupos de pacientes
  3. Investigación Económica: Análisis de patrones de crecimiento económico en diferentes trayectorias de desarrollo
  4. Aprendizaje Automático: Regresión agrupada y aprendizaje semi-supervisado

Referencias

  1. Jiang, H. and Guntuboyina, A. (2025). A nonparametric maximum likelihood approach to mixture of regression.
  2. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.
  3. Kiefer, J. and Wolfowitz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many incidental parameters.
  4. Leisch, F. (2004). FlexMix: A general framework for finite mixture models and latent class regression in R.

Evaluación General: Este es un artículo de alta calidad en metodología estadística que propone algoritmos EM innovadores para resolver problemas importantes en mezcla de regresiones lineales. El método posee fundamentos teóricos sólidos y buen desempeño práctico, proporcionando herramientas valiosas para campos relacionados. Aunque existen algunas limitaciones, sus contribuciones son significativas y posee buen valor académico y de aplicación.