Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models
Lember, Kangro, Kuljus
We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
academic
Starke Konsistenz des Pseudo-Likelihood-Parameterschätzers für univariate Gaußsche Mischungsmodelle
In diesem Artikel wird eine neue Methode zur Schätzung der Parameter univariater Gaußscher Mischungsmodelle vorgestellt. Die Methode basiert auf einem nichtparametrischen Dichteschätzer f^n (typischerweise ein Kernschätzer). Für jeden gegebenen Satz von Gaußschen Mischungskomponentenparametern werden die optimalen Mischungsgewichte durch Minimierung der L2-Distanz zwischen f^n und der Gaußschen Mischdichte ermittelt. Die erhaltenen Gewichte werden dann zusammen mit der Dichte in die Likelihood-Funktion eingesetzt, um die sogenannte Pseudo-Likelihood-Funktion zu bilden. Der endgültige Parameterschätzer ist der Parameterwert, der die Pseudo-Likelihood-Funktion maximiert, zusammen mit den entsprechenden Gewichten. Die Vorteile der Pseudo-Likelihood gegenüber der vollständigen Likelihood sind: 1) ihre Parameter sind nur Mittelwert und Varianz, und die Mischungsgewichte sind auch Funktionen von Mittelwert und Varianz; 2) im Gegensatz zur Likelihood-Funktion ist sie immer beschränkt. Daher existiert der Maximierer der Pseudo-Likelihood-Funktion – der Pseudo-Likelihood-Schätzer – immer. In diesem Artikel wird die starke Konsistenz des Pseudo-Likelihood-Schätzers nachgewiesen.
Problem der unbeschränkten Likelihood bei Gaußschen Mischungsmodellen: Die Likelihood-Funktion von Gaußschen Mischungsmodellen ist unbeschränkt, was ein bekanntes Problem darstellt. Wenn die Varianzen einiger Komponenten gegen Null gehen, kann die Likelihood-Funktion gegen Unendlich divergieren.
Einschränkungen bestehender Lösungsansätze:
Einschränkung des Parameterraums
Verwendung von Siebmethoden
Penalisierte Maximum-Likelihood-Schätzung
Bayesianische Methoden
Profillikelihoods usw.
Diese Methoden erfordern typischerweise Beschränkungen oder Strafterme für die Varianzen.
Forschungsmotivation:
Bereitstellung einer Methode, die keine Beschränkungen der Parameter erfordert
Beibehaltung der Ähnlichkeit mit der Standard-Maximum-Likelihood-Schätzung
Sicherung der Existenz und Konsistenz des Schätzers
Einführung der Pseudo-Likelihood-Methode: Eine neue Parameterschätzmethode, die Mischungsgewichte durch L2-Distanzminimierung bestimmt und dann die Pseudo-Likelihood-Funktion konstruiert.
Beweis der starken Konsistenz: Unter der Annahme von i.i.d.-Stichproben wird die starke Konsistenz des Pseudo-Likelihood-Schätzers nachgewiesen: θ^na.s.θ∗ und vn(θ^n)a.s.w∗.
Keine Parameterbeschränkungen: Die Methode erfordert keine Untergrenzenbeschränkungen für die Varianzen oder andere Einschränkungen.
Theoretischer Rahmen: Etablierung eines vollständigen theoretischen Rahmens zur Behandlung von unbeschränkten Mittelwerten, verschwindenden oder unbeschränkten Varianzen.
Zweite Stufe: Komponentenparameterschätzung mit Likelihood-Methode
Diese Kombination sichert die Beschränktheit der Zielfunktion
Eindeutigkeit der Gewichte: Obwohl die Gewichte vn(θ) möglicherweise nicht eindeutig sind, ist die Dichte vn(θ)g(θ,⋅) eindeutig (Lemma 2.1).
Behandlung des Parameterraums: Behandlung der Nichtidentifizierbarkeit von Parametern durch das Konzept von Äquivalenzklassen (z.B. Permutationsinvarianz).
Proposition 3.1: Beweis der Existenz von Konstanten 0<u<U<∞ und N<∞, so dass für hinreichend großes n mindestens eine Komponente i(n) erfüllt:
∣μi(n)n∣<N,u≤σi(n)n≤U
Dies sichert, dass θ^n letztendlich zum beschränkten Parameterraum Θo(u,U,N) gehört.
Unbeschränkte Parameter: Notwendigkeit der Behandlung von Fällen, in denen Mittelwerte gegen Unendlich und Varianzen gegen Null oder Unendlich gehen.
Zufälligkeit der Gewichte: Die Gewichte vn(θ) hängen vom zufälligen f^n ab; das Standard-Gesetz der großen Zahlen kann nicht direkt angewendet werden.
Gleichmäßige Konvergenz: Notwendigkeit der Etablierung gleichmäßiger Konvergenz über den gesamten Parameterraum, nicht nur punktweise Konvergenz.