Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models
Lember, Kangro, Kuljus
We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.
academic
Consistenza forte dello stimatore di pseudo-verosimiglianza per modelli di miscela gaussiana univariata
Questo articolo propone un nuovo metodo per stimare i parametri di modelli di miscela gaussiana univariata. Il metodo si basa su uno stimatore di densità non parametrico f^n (tipicamente uno stimatore kernel). Per ogni insieme dato di parametri delle componenti di miscela gaussiana, i pesi di miscela ottimali vengono trovati minimizzando la distanza L2 tra f^n e la densità di miscela gaussiana. I pesi ottenuti vengono quindi inseriti insieme alla densità nella funzione di verosimiglianza, formando la cosiddetta funzione di pseudo-verosimiglianza. Lo stimatore di parametri finale è il valore dei parametri e i pesi corrispondenti che massimizzano la funzione di pseudo-verosimiglianza. I vantaggi della pseudo-verosimiglianza rispetto alla verosimiglianza completa sono: 1) i suoi parametri sono solo media e varianza, con i pesi di miscela che sono funzioni di media e varianza; 2) a differenza della funzione di verosimiglianza, è sempre limitata. Pertanto, il massimizzatore della funzione di pseudo-verosimiglianza—lo stimatore di pseudo-verosimiglianza—esiste sempre. L'articolo dimostra la consistenza forte dello stimatore di pseudo-verosimiglianza.
Problema dell'illimitatezza della verosimiglianza nei modelli di miscela gaussiana: La funzione di verosimiglianza dei modelli di miscela gaussiana è illimitata, un problema ben noto. Quando le varianze di alcune componenti tendono a zero, la funzione di verosimiglianza può tendere all'infinito.
Limitazioni delle soluzioni esistenti:
Restrizione dello spazio dei parametri
Utilizzo di metodi di setaccio
Stima di massima verosimiglianza penalizzata
Metodi bayesiani
Verosimiglianza profilata, ecc.
Questi metodi tipicamente richiedono l'imposizione di restrizioni o termini di penalità sulla varianza.
Motivazione della ricerca:
Fornire un metodo che non richieda restrizioni sui parametri
Mantenere somiglianza con la stima di massima verosimiglianza standard
Garantire l'esistenza e la consistenza dello stimatore
Proposta del metodo di pseudo-verosimiglianza: Un nuovo metodo di stima dei parametri che determina i pesi di miscela attraverso minimizzazione della distanza L2, quindi costruisce la funzione di pseudo-verosimiglianza.
Dimostrazione della consistenza forte: Sotto l'ipotesi di campioni i.i.d., si dimostra la consistenza forte dello stimatore di pseudo-verosimiglianza: θ^na.s.θ∗ e vn(θ^n)a.s.w∗.
Assenza di restrizioni parametriche: Il metodo non richiede l'imposizione di limiti inferiori sulla varianza o altre condizioni di vincolo.
Quadro teorico: Stabilisce un quadro teorico completo per affrontare casi di media illimitata, varianza che scompare o illimitata.
Secondo passo: stima dei parametri delle componenti mediante metodo di verosimiglianza
Questa combinazione assicura la limitatezza della funzione obiettivo
Unicità dei pesi: Sebbene i pesi vn(θ) possano non essere unici, la densità vn(θ)g(θ,⋅) è unica (Lemma 2.1).
Trattamento dello spazio dei parametri: Gestisce l'inidentificabilità dei parametri (come l'invarianza per permutazione) attraverso il concetto di classi di equivalenza.
Proposizione 3.1: Dimostra che esistono costanti 0<u<U<∞ e N<∞ tali che per n sufficientemente grande, almeno una componente i(n) soddisfa:
∣μi(n)n∣<N,u≤σi(n)n≤U
Ciò assicura che θ^n appartiene infine a uno spazio dei parametri limitato Θo(u,U,N).