2025-11-10T02:47:56.247933

Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models

Lember, Kangro, Kuljus

We consider a new method for estimating the parameters of univariate Gaussian mixture models. The method relies on a nonparametric density estimator $\hat{f}_n$ (typically a kernel estimator). For every set of Gaussian mixture components, $\hat{f}_n$ is used to find the best set of mixture weights. That set is obtained by minimizing the $L_2$ distance between $\hat{f}_n$ and the Gaussian mixture density with the given component parameters. The densities together with the obtained weights are then plugged in to the likelihood function, resulting in the so-called pseudo-likelihood function. The final parameter estimators are the parameter values that maximize the pseudo-likelihood function together with the corresponding weights. The advantages of the pseudo-likelihood over the full likelihood are: 1) its arguments are the means and variances only, mixture weights are also functions of the means and variances; 2) unlike the likelihood function, it is always bounded above. Thus, the maximizer of the pseudo-likelihood function -- referred to as the pseudo-likelihood estimator -- always exists. In this article, we prove that the pseudo-likelihood estimator is strongly consistent.

academic

Cohérence forte de l'estimateur de paramètre par pseudo-vraisemblance pour les modèles de mélange gaussien univariés

Informations de base

ID de l'article: 2510.14482
Titre: Strong consistency of pseudo-likelihood parameter estimator for univariate Gaussian mixture models
Auteurs: Jüri Lember, Raul Kangro, Kristi Kuljus (Faculté de mathématiques et statistique, Université de Tartu, Estonie)
Classification: math.ST stat.TH
Date de publication: 16 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.14482

Résumé

Cet article propose une nouvelle méthode pour estimer les paramètres des modèles de mélange gaussien univariés. La méthode repose sur un estimateur de densité non paramétrique $\hat{f}_n$ (généralement un estimateur à noyau). Pour chaque ensemble donné de paramètres des composantes du mélange gaussien, les poids de mélange optimaux sont trouvés en minimisant la distance $L_2$ entre $\hat{f}_n$ et la densité du mélange gaussien. Les poids obtenus sont ensuite substitués avec la densité dans la fonction de vraisemblance, formant la soi-disant fonction de pseudo-vraisemblance. L'estimateur de paramètre final est la valeur des paramètres et les poids correspondants qui maximisent la fonction de pseudo-vraisemblance. Les avantages de la pseudo-vraisemblance par rapport à la vraisemblance complète sont: 1) ses paramètres ne sont que la moyenne et la variance, les poids de mélange étant également des fonctions de la moyenne et de la variance; 2) contrairement à la fonction de vraisemblance, elle est toujours bornée. Par conséquent, le maximiseur de la fonction de pseudo-vraisemblance — l'estimateur de pseudo-vraisemblance — existe toujours. Cet article démontre la cohérence forte de l'estimateur de pseudo-vraisemblance.

Contexte de recherche et motivation

Contexte du problème

Problème de vraisemblance non bornée des modèles de mélange gaussien: La fonction de vraisemblance des modèles de mélange gaussien est non bornée, ce qui est un problème bien connu. Lorsque les variances de certaines composantes tendent vers zéro, la fonction de vraisemblance peut tendre vers l'infini.
Limitations des solutions existantes:
- Restriction de l'espace des paramètres
- Utilisation de méthodes de crible
- Estimation du maximum de vraisemblance pénalisée
- Méthodes bayésiennes
- Vraisemblance de profil, etc.
Ces méthodes imposent généralement des restrictions ou des termes de pénalité sur les variances.
Motivation de la recherche:
- Fournir une méthode qui ne nécessite aucune restriction sur les paramètres
- Maintenir la similarité avec l'estimation du maximum de vraisemblance standard
- Assurer l'existence et la cohérence de l'estimateur

Importance

Les modèles de mélange gaussien sont largement appliqués en statistique et apprentissage automatique
Le problème de vraisemblance non bornée entrave l'application du MLE standard
Il est nécessaire d'avoir une méthode d'estimation théoriquement fiable et pratiquement viable

Contributions principales

Proposition de la méthode de pseudo-vraisemblance: Une nouvelle méthode d'estimation de paramètres qui détermine les poids de mélange par minimisation de la distance $L_2$ , puis construit la fonction de pseudo-vraisemblance.
Preuve de cohérence forte: Sous l'hypothèse d'échantillons i.i.d., la cohérence forte de l'estimateur de pseudo-vraisemblance est démontrée: $\hat{\theta}_n \xrightarrow{a.s.} \theta^*$ et $v_n(\hat{\theta}_n) \xrightarrow{a.s.} w^*$ .
Absence de restrictions de paramètres: La méthode ne nécessite pas d'imposer une limite inférieure sur les variances ou d'autres contraintes.
Cadre théorique: Établissement d'un cadre théorique complet pour traiter les cas de moyennes non bornées, de variances disparaissantes ou non bornées.

Détails de la méthode

Définition de la tâche

Étant donné des observations i.i.d. $Y_1, \ldots, Y_n$ provenant d'une distribution de mélange gaussien univarié à $k$ composantes, l'objectif est d'estimer:

Les paramètres des composantes: $\theta_i = (\mu_i, \sigma_i)$ , $i = 1, \ldots, k$
Les poids de mélange: $w_i > 0$ , $\sum_{i=1}^k w_i = 1$

La densité réelle est: $f(\cdot) = \sum_{i=1}^k w_i^* g(\theta_i^*, \cdot)$

Architecture du modèle

Première étape: Estimation des poids

Pour un ensemble donné de paramètres $\theta = (\theta_1, \ldots, \theta_k)$ , les poids sont déterminés en minimisant la distance $L_2$ :

$v_n(\theta) := \arg \inf_{w \in S_k} \|\hat{f}_n(\cdot) - \sum_{i=1}^k w_i g(\theta_i, \cdot)\|$

où $S_k$ est le simplexe $(k-1)$ -dimensionnel, et $\hat{f}_n$ est l'estimateur de densité non paramétrique.

Deuxième étape: Construction de la pseudo-vraisemblance

Les poids obtenus sont substitués dans la fonction de vraisemblance:

$L_n(\theta) := \prod_{t=1}^n \left( \sum_{i=1}^k v_{n,i}(\theta) g(\theta_i, Y_t) \right)$

Fonction de log-pseudo-vraisemblance: $\ell_n(\theta) := \frac{1}{n} \sum_{t=1}^n \ln\left( v_n(\theta)g(\theta, Y_t) \right)$

Troisième étape: Estimation des paramètres

L'estimateur de pseudo-vraisemblance est défini comme: $\hat{\theta}_n \text{ satisfait } \ell_n(\hat{\theta}_n) \geq \sup_{\theta \in \Theta_o} \ell_n(\theta) - \epsilon_n$

où $\epsilon_n \searrow 0$ .

Points d'innovation technique

Stratégie d'estimation en deux étapes:
- Première étape: estimation des poids par distance $L_2$
- Deuxième étape: estimation des paramètres des composantes par méthode de vraisemblance
- Cette combinaison assure la bornitude de la fonction objectif
Unicité des poids: Bien que les poids $v_n(\theta)$ puissent ne pas être uniques, la densité $v_n(\theta)g(\theta, \cdot)$ est unique (Lemme 2.1).
Traitement de l'espace des paramètres: Gestion de l'inidentifiabilité des paramètres (comme l'invariance par permutation) par le concept de classes d'équivalence.

Paramètres non bornés: Nécessité de traiter les cas où la moyenne tend vers l'infini, la variance tend vers zéro ou l'infini.
Caractère aléatoire des poids: Les poids $v_n(\theta)$ dépendent du $\hat{f}_n$ aléatoire, la loi forte des grands nombres standard ne peut pas être appliquée directement.
Convergence uniforme: Nécessité d'établir la convergence uniforme sur tout l'espace des paramètres, et non seulement la convergence ponctuelle.

Travaux connexes

Comparaison avec les méthodes existantes

MLE avec restriction de variance:
- Chen (2017): Hypothèse que toutes les variances des composantes sont égales
- Tanaka & Takemura (2006): Exigence que l'écart-type ait une limite inférieure $\exp[-n^d]$
- Tanaka (2009): Imposition d'une pénalité sur le rapport des variances
Estimation basée sur la distance:
- Estimation complète du modèle de mélange basée uniquement sur la minimisation de distance
- Cet article utilise la méthode de distance uniquement pour les poids, et la méthode de vraisemblance pour les paramètres des composantes
Vraisemblance doublement lissée:
- Seo & Lindsay (2010, 2013): Lissage à la fois de la mesure empirique et de la distribution spécifiée
- Complexité computationnelle élevée, nécessite une estimation de Monte-Carlo

Avantages de cet article

Garanties théoriques: Fourniture d'une preuve de cohérence forte
Efficacité computationnelle: Peut être résolu avec des outils d'optimisation standard
Absence de restrictions de paramètres: Pas besoin d'imposer de contraintes sur les variances
Préservation des propriétés de vraisemblance: Aussi proche que possible des propriétés du MLE standard

Discussion sur l'extensibilité

Au-delà du cas i.i.d.

L'article discute de l'applicabilité de la méthode dans des cadres plus généraux:

Modèles de Markov cachés: Lorsque $X_1, X_2, \ldots$ est un processus stationnaire ergodique, $Y_t|X_t = i \sim N(\theta_i)$
Modèles généraux à variables latentes: Tant que les conditions d'ergodicité sont satisfaites

Applications pratiques

Débruitage de signal (généralisation de la méthode DUDE)
Estimation des paramètres d'émission des modèles de Markov cachés
Modèles généraux à variables latentes

Conclusions et discussion

Conclusions principales

L'estimateur de pseudo-vraisemblance converge fortement vers les paramètres réels sous des conditions modérées
La méthode évite le problème de non-bornitude du MLE traditionnel
Pas besoin d'imposer des restrictions artificielles sur les paramètres

Limitations

Exigences de l'estimateur à noyau: Nécessité que $\hat{f}_n \xrightarrow{a.s.} f$ et $\|\hat{f}_n\|_\infty$ soit borné
Sélection de la bande passante: La bande passante de l'estimateur à noyau doit tendre vers zéro suffisamment lentement
Complexité computationnelle: Pour un $k$ général, le problème d'optimisation des poids n'a pas de solution en forme fermée

Directions futures

Établissement de la normalité asymptotique
Généralisation au cas multivarié
Cohérence sous des structures de dépendance plus générales
Étude des propriétés en échantillon fini

Évaluation approfondie

Avantages

Rigueur théorique: Fourniture d'une preuve complète de cohérence forte, traitant diverses difficultés techniques
Innovation méthodologique: Combinaison ingénieuse de la méthode de distance et de la méthode de vraisemblance, résolvant un problème classique
Valeur pratique: Méthode computationnellement viable, sans nécessité de contraintes de paramètres
Clarté de la rédaction: Structure d'article rationnelle, raisonnement de preuve clair

Insuffisances

Conditions d'hypothèse: Exigences relativement fortes concernant la convergence de l'estimateur à noyau
Efficacité computationnelle: Le problème d'optimisation des poids peut être computationnellement complexe
Propriétés en échantillon fini: Manque d'analyse des propriétés en échantillon fini
Vérification expérimentale: L'article est principalement une analyse théorique, manquant d'expériences numériques

Impact

Contribution académique: Fourniture d'un nouveau cadre théorique pour l'estimation des modèles de mélange gaussien
Valeur pratique: Résolution d'un problème important dans les applications réelles
Signification méthodologique: Démonstration de l'efficacité de la combinaison de différentes fonctions critères

Scénarios d'application

Estimation des paramètres des modèles de mélange gaussien, particulièrement pour les cas avec de nombreuses composantes
Scénarios d'application nécessitant d'éviter les contraintes de paramètres
Estimation des paramètres d'émission des modèles de Markov cachés
Estimation de densité dans le traitement du signal et la reconnaissance de formes

Références

L'article cite 21 références importantes couvrant:

Théorie classique des modèles de mélange (Teicher, 1963)
Théorie de cohérence du MLE (Chen, 2017; van der Vaart, 2000)
Théorie de l'estimation à noyau (Silverman, 1978)
Méthodes d'estimation basées sur la distance (Cutler & Cordero-Brana, 1996)
Méthodes de pseudo-vraisemblance connexes (Kangro et al., 2025)

Ces références fournissent une base solide pour le développement théorique de cet article.