Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models
Lember, Kangro, Kuljus
We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
academic
Consistencia fuerte del estimador de parámetros de pseudo-verosimilitud para modelos de mezcla gaussiana univariada
Este artículo propone un nuevo método para estimar los parámetros de modelos de mezcla gaussiana univariada. El método se basa en un estimador de densidad no paramétrico f^n (típicamente un estimador de núcleo). Para cada conjunto dado de parámetros de componentes de mezcla gaussiana, se encuentran los pesos de mezcla óptimos minimizando la distancia L2 entre f^n y la densidad de mezcla gaussiana. Luego, los pesos obtenidos se sustituyen junto con la densidad en la función de verosimilitud, formando la llamada función de pseudo-verosimilitud. El estimador de parámetros final es el valor de parámetro que maximiza la función de pseudo-verosimilitud y sus pesos correspondientes. Las ventajas de la pseudo-verosimilitud sobre la verosimilitud completa son: 1) sus parámetros son solo la media y la varianza, siendo los pesos de mezcla también funciones de la media y la varianza; 2) a diferencia de la función de verosimilitud, siempre está acotada. Por lo tanto, el maximizador de la función de pseudo-verosimilitud —el estimador de pseudo-verosimilitud— siempre existe. Este artículo demuestra la consistencia fuerte del estimador de pseudo-verosimilitud.
Problema de verosimilitud no acotada en modelos de mezcla gaussiana: La función de verosimilitud de los modelos de mezcla gaussiana es no acotada, un problema bien conocido. Cuando las varianzas de ciertos componentes tienden a cero, la función de verosimilitud puede tender a infinito.
Limitaciones de las soluciones existentes:
Restricción del espacio de parámetros
Uso de métodos de criba
Estimación de máxima verosimilitud penalizada
Métodos bayesianos
Verosimilitud de perfil, entre otros
Estos métodos típicamente requieren imponer restricciones o términos de penalización sobre la varianza.
Motivación de la investigación:
Proporcionar un método que no requiera restricciones sobre los parámetros
Mantener similitud con la estimación de máxima verosimilitud estándar
Garantizar la existencia y consistencia del estimador
Propuesta del método de pseudo-verosimilitud: Un nuevo método de estimación de parámetros que determina los pesos de mezcla mediante minimización de distancia L2 y luego construye la función de pseudo-verosimilitud.
Demostración de consistencia fuerte: Bajo el supuesto de muestras i.i.d., se demuestra la consistencia fuerte del estimador de pseudo-verosimilitud: θ^na.s.θ∗ y vn(θ^n)a.s.w∗.
Sin restricciones de parámetros: El método no requiere imponer límites inferiores sobre la varianza u otras condiciones de restricción.
Marco teórico: Se establece un marco teórico completo para manejar casos de media no acotada, varianza que desaparece o no acotada.
Segundo paso: estimar parámetros de componentes usando método de verosimilitud
Esta combinación asegura la acotación de la función objetivo
Unicidad de los pesos: Aunque los pesos vn(θ) pueden no ser únicos, la densidad vn(θ)g(θ,⋅) es única (Lema 2.1).
Tratamiento del espacio de parámetros: Se maneja la no identificabilidad de parámetros (como la invariancia de permutación) mediante el concepto de clases de equivalencia.
Proposición 3.1: Se demuestra que existen constantes 0<u<U<∞ y N<∞ tales que para n suficientemente grande, existe al menos un componente i(n) que satisface:
∣μi(n)n∣<N,u≤σi(n)n≤U
Esto asegura que θ^n finalmente pertenece al espacio de parámetros acotado Θo(u,U,N).
Parámetros no acotados: Se requiere manejar casos donde la media tiende a infinito, la varianza tiende a cero o infinito.
Aleatoriedad de los pesos: Los pesos vn(θ) dependen del f^n aleatorio, por lo que la ley fuerte de los grandes números estándar no se puede aplicar directamente.
Convergencia uniforme: Se requiere establecer convergencia uniforme en todo el espacio de parámetros, no solo convergencia puntual.