MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic
Vitesse de convergence du MLE vers la projection informationnelle de la famille exponentielle : Critère pour la dimension du modèle et la taille de l'échantillon -- version complète des preuves --
Titre : Vitesse de convergence du MLE vers la projection informationnelle de la famille exponentielle : Critère pour la dimension du modèle et la taille de l'échantillon -- version complète des preuves --
Auteur : Yo Sheena (Département de science des données, Université de Shiga, Professeur visitant à l'Institut de recherche en statistique mathématique)
Classification : math.ST stat.TH
Date de publication : Mai 2021 (prépublication arXiv)
Cet article étudie le problème de la distribution la plus proche de la distribution réelle dans un modèle de distribution paramétrique lorsque la distribution réelle se situe en dehors du modèle. En utilisant la divergence de Kullback-Leibler (K-L) pour mesurer la distance entre les distributions, la distribution la plus proche est appelée « projection informationnelle ». Le risque d'estimation de l'estimateur du maximum de vraisemblance (MLE) est défini comme l'espérance de la divergence K-L entre la projection informationnelle et la distribution prédictive avec le MLE inséré. Cet article dérive l'expansion asymptotique du risque jusqu'à l'ordre n−2 et étudie les conditions suffisantes du risque pour que le taux d'erreur bayésien entre la distribution réelle et la projection informationnelle soit inférieur à une valeur spécifiée. En combinant ces résultats, un « critère p−n » est proposé pour déterminer si le MLE est suffisamment proche de la projection informationnelle pour un modèle et un échantillon donnés. En particulier, le critère pour les modèles de famille exponentielle est relativement simple et peut être appliqué à des modèles complexes sans forme explicite de la constante de normalisation. Ce critère peut servir de solution aux problèmes de taille d'échantillon ou d'acceptation de modèle.
Étant donné un ensemble de données, il est nécessaire de supposer une distribution de probabilité inconnue comme générateur d'échantillons indépendants et identiquement distribués (i.i.d.). Si un modèle de distribution paramétrique est adopté pour « expliquer » les données, la première tâche consiste à trouver la distribution « optimale » dans le modèle. Puisque la distribution réelle se situe généralement en dehors du modèle, « optimale » signifie la distribution la plus « proche » de la distribution réelle.
Trois problèmes importants existent dans le processus d'approximation de distributions :
Méthode de construction systématique des modèles de distribution
Méthode d'évaluation du degré de proximité entre l'estimateur et la distribution optimale
Méthode d'évaluation du degré de proximité entre la distribution optimale et la distribution réelle
Les recherches existantes se concentrent principalement sur la proximité entre la distribution prédictive et la distribution réelle, plutôt que sur la proximité avec la distribution optimale.
Cet article se concentre sur le deuxième problème, établissant un critère pour déterminer si le MLE est suffisamment proche de la distribution optimale. En séparant les deuxième et troisième problèmes, le modèle est fixé et l'expansion asymptotique du risque par rapport à la taille d'échantillon n est dérivée.
Contribution théorique : Dérivation de l'expansion asymptotique du risque d'estimation du MLE jusqu'à l'ordre n−2 pour les modèles de distribution généraux, avec preuves mathématiques complètes
Spécialisation pour la famille exponentielle : Fourniture d'expressions de risque simplifiées et d'un critère p−n pratique pour les modèles de famille exponentielle
Critère pratique : Proposition du critère p−n pour déterminer si la taille d'échantillon est suffisante ou si la dimension du modèle est appropriée
Cadre algorithmique : Fourniture d'algorithmes de calcul pour les modèles de famille exponentielle complexes sans nécessiter la constante de normalisation explicite
Vérification empirique : Validation du critère p−n sur deux ensembles de données réelles
Liens théoriques : Établissement des relations avec les critères informationnels (AIC/TIC)
Étant donné un modèle de distribution paramétrique M={g(x;θ)∣θ∈Θ}, où g(x;θ) est une fonction de densité de probabilité par rapport à une mesure de référence dμ. La fonction de densité de la distribution réelle est g(x). L'objectif est :
Trouver la projection informationnelle g(x;θ∗) dans le modèle
Évaluer la distance entre la distribution prédictive g(x;θ^) correspondant au MLE θ^ et la projection informationnelle
Établir un critère pour déterminer si le MLE est suffisamment proche de la projection informationnelle
La projection informationnelle g(x;θ∗) est définie comme :
θ∗=argminθ∈ΘD[g(x)∣g(x;θ)]
où D[g1∣g2]=∫g1(x)log(g1(x)/g2(x))dμ est la divergence K-L.
Théorème 1 : Le risque d'estimation du MLE par rapport à la divergence K-L est :
R[g(x;θ∗)∣g(x;θ^)]=(2n)−1tr(G~−1GG~−1G∗)+n−2[termes du second ordre complexes]+O(n−3)
où :
Gij∗(θ∗) : Matrice d'information de Fisher
G~ij(θ∗) : Espérance négative de la matrice hessienne
Gij(θ∗) : Matrice de variance-covariance sous la distribution réelle
Corollaire 1 : Pour les modèles de famille exponentielle g(x;θ)=exp(∑i=1pθiξi(x)−Ψ(θ)) :
R[g(x;θ∗)∣g(x;θ^)]=2n1tr(G~−1G)+24n21[fonction des cumulants d’ordre trois et quatre]+O(n−3)
Propriété clé : G∗=G~=Ψ¨(θ∗) (matrice des dérivées secondes)
Cet article cite 28 références importantes, couvrant la géométrie informationnelle, la théorie de la famille exponentielle, la statistique asymptotique et d'autres domaines, fournissant une base théorique solide pour la recherche. Les références clés incluent la monographie de géométrie informationnelle d'Amari, la recherche sur la convergence de la famille exponentielle de Barron & Sheu, ainsi que les références classiques de la théorie de l'apprentissage statistique.