Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models
Lember, Kangro, Kuljus
We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
academic
Cohérence forte de l'estimateur de paramètre par pseudo-vraisemblance pour les modèles de mélange gaussien univariés
Cet article propose une nouvelle méthode pour estimer les paramètres des modèles de mélange gaussien univariés. La méthode repose sur un estimateur de densité non paramétrique f^n (généralement un estimateur à noyau). Pour chaque ensemble donné de paramètres des composantes du mélange gaussien, les poids de mélange optimaux sont trouvés en minimisant la distance L2 entre f^n et la densité du mélange gaussien. Les poids obtenus sont ensuite substitués avec la densité dans la fonction de vraisemblance, formant la soi-disant fonction de pseudo-vraisemblance. L'estimateur de paramètre final est la valeur des paramètres et les poids correspondants qui maximisent la fonction de pseudo-vraisemblance. Les avantages de la pseudo-vraisemblance par rapport à la vraisemblance complète sont: 1) ses paramètres ne sont que la moyenne et la variance, les poids de mélange étant également des fonctions de la moyenne et de la variance; 2) contrairement à la fonction de vraisemblance, elle est toujours bornée. Par conséquent, le maximiseur de la fonction de pseudo-vraisemblance — l'estimateur de pseudo-vraisemblance — existe toujours. Cet article démontre la cohérence forte de l'estimateur de pseudo-vraisemblance.
Problème de vraisemblance non bornée des modèles de mélange gaussien: La fonction de vraisemblance des modèles de mélange gaussien est non bornée, ce qui est un problème bien connu. Lorsque les variances de certaines composantes tendent vers zéro, la fonction de vraisemblance peut tendre vers l'infini.
Limitations des solutions existantes:
Restriction de l'espace des paramètres
Utilisation de méthodes de crible
Estimation du maximum de vraisemblance pénalisée
Méthodes bayésiennes
Vraisemblance de profil, etc.
Ces méthodes imposent généralement des restrictions ou des termes de pénalité sur les variances.
Motivation de la recherche:
Fournir une méthode qui ne nécessite aucune restriction sur les paramètres
Maintenir la similarité avec l'estimation du maximum de vraisemblance standard
Assurer l'existence et la cohérence de l'estimateur
Proposition de la méthode de pseudo-vraisemblance: Une nouvelle méthode d'estimation de paramètres qui détermine les poids de mélange par minimisation de la distance L2, puis construit la fonction de pseudo-vraisemblance.
Preuve de cohérence forte: Sous l'hypothèse d'échantillons i.i.d., la cohérence forte de l'estimateur de pseudo-vraisemblance est démontrée: θ^na.s.θ∗ et vn(θ^n)a.s.w∗.
Absence de restrictions de paramètres: La méthode ne nécessite pas d'imposer une limite inférieure sur les variances ou d'autres contraintes.
Cadre théorique: Établissement d'un cadre théorique complet pour traiter les cas de moyennes non bornées, de variances disparaissantes ou non bornées.
Première étape: estimation des poids par distance L2
Deuxième étape: estimation des paramètres des composantes par méthode de vraisemblance
Cette combinaison assure la bornitude de la fonction objectif
Unicité des poids: Bien que les poids vn(θ) puissent ne pas être uniques, la densité vn(θ)g(θ,⋅) est unique (Lemme 2.1).
Traitement de l'espace des paramètres: Gestion de l'inidentifiabilité des paramètres (comme l'invariance par permutation) par le concept de classes d'équivalence.
Proposition 3.1: Preuve de l'existence de constantes 0<u<U<∞ et N<∞ telles que pour n suffisamment grand, au moins une composante i(n) satisfait:
∣μi(n)n∣<N,u≤σi(n)n≤U
Cela assure que θ^n appartient finalement à un espace des paramètres borné Θo(u,U,N).
Paramètres non bornés: Nécessité de traiter les cas où la moyenne tend vers l'infini, la variance tend vers zéro ou l'infini.
Caractère aléatoire des poids: Les poids vn(θ) dépendent du f^n aléatoire, la loi forte des grands nombres standard ne peut pas être appliquée directement.
Convergence uniforme: Nécessité d'établir la convergence uniforme sur tout l'espace des paramètres, et non seulement la convergence ponctuelle.