2025-11-14T18:28:13.480518

MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--

Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic

Vitesse de convergence du MLE vers la projection informationnelle de la famille exponentielle : Critère pour la dimension du modèle et la taille de l'échantillon -- version complète des preuves --

Informations de base

  • ID de l'article : 2105.08947
  • Titre : Vitesse de convergence du MLE vers la projection informationnelle de la famille exponentielle : Critère pour la dimension du modèle et la taille de l'échantillon -- version complète des preuves --
  • Auteur : Yo Sheena (Département de science des données, Université de Shiga, Professeur visitant à l'Institut de recherche en statistique mathématique)
  • Classification : math.ST stat.TH
  • Date de publication : Mai 2021 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2105.08947

Résumé

Cet article étudie le problème de la distribution la plus proche de la distribution réelle dans un modèle de distribution paramétrique lorsque la distribution réelle se situe en dehors du modèle. En utilisant la divergence de Kullback-Leibler (K-L) pour mesurer la distance entre les distributions, la distribution la plus proche est appelée « projection informationnelle ». Le risque d'estimation de l'estimateur du maximum de vraisemblance (MLE) est défini comme l'espérance de la divergence K-L entre la projection informationnelle et la distribution prédictive avec le MLE inséré. Cet article dérive l'expansion asymptotique du risque jusqu'à l'ordre n2n^{-2} et étudie les conditions suffisantes du risque pour que le taux d'erreur bayésien entre la distribution réelle et la projection informationnelle soit inférieur à une valeur spécifiée. En combinant ces résultats, un « critère pnp-n » est proposé pour déterminer si le MLE est suffisamment proche de la projection informationnelle pour un modèle et un échantillon donnés. En particulier, le critère pour les modèles de famille exponentielle est relativement simple et peut être appliqué à des modèles complexes sans forme explicite de la constante de normalisation. Ce critère peut servir de solution aux problèmes de taille d'échantillon ou d'acceptation de modèle.

Contexte et motivation de la recherche

Problème fondamental

Étant donné un ensemble de données, il est nécessaire de supposer une distribution de probabilité inconnue comme générateur d'échantillons indépendants et identiquement distribués (i.i.d.). Si un modèle de distribution paramétrique est adopté pour « expliquer » les données, la première tâche consiste à trouver la distribution « optimale » dans le modèle. Puisque la distribution réelle se situe généralement en dehors du modèle, « optimale » signifie la distribution la plus « proche » de la distribution réelle.

Importance du problème

L'approximation réussie de distributions a des applications très larges :

  1. Régression ou analyse discriminante basées sur les distributions conditionnelles
  2. Imputation multiple utilisant les distributions conditionnelles ou inconditionnelles
  3. Détection des anomalies basée sur les régions de contour de probabilité
  4. Incarnation de la célèbre équation de C.R. Rao : « Connaissance incertaine » + « Connaissance du degré d'incertitude » = « Connaissance utilisable »

Limitations des méthodes existantes

Trois problèmes importants existent dans le processus d'approximation de distributions :

  1. Méthode de construction systématique des modèles de distribution
  2. Méthode d'évaluation du degré de proximité entre l'estimateur et la distribution optimale
  3. Méthode d'évaluation du degré de proximité entre la distribution optimale et la distribution réelle

Les recherches existantes se concentrent principalement sur la proximité entre la distribution prédictive et la distribution réelle, plutôt que sur la proximité avec la distribution optimale.

Motivation de la recherche

Cet article se concentre sur le deuxième problème, établissant un critère pour déterminer si le MLE est suffisamment proche de la distribution optimale. En séparant les deuxième et troisième problèmes, le modèle est fixé et l'expansion asymptotique du risque par rapport à la taille d'échantillon n est dérivée.

Contributions principales

  1. Contribution théorique : Dérivation de l'expansion asymptotique du risque d'estimation du MLE jusqu'à l'ordre n2n^{-2} pour les modèles de distribution généraux, avec preuves mathématiques complètes
  2. Spécialisation pour la famille exponentielle : Fourniture d'expressions de risque simplifiées et d'un critère pnp-n pratique pour les modèles de famille exponentielle
  3. Critère pratique : Proposition du critère pnp-n pour déterminer si la taille d'échantillon est suffisante ou si la dimension du modèle est appropriée
  4. Cadre algorithmique : Fourniture d'algorithmes de calcul pour les modèles de famille exponentielle complexes sans nécessiter la constante de normalisation explicite
  5. Vérification empirique : Validation du critère pnp-n sur deux ensembles de données réelles
  6. Liens théoriques : Établissement des relations avec les critères informationnels (AIC/TIC)

Détails de la méthode

Définition de la tâche

Étant donné un modèle de distribution paramétrique M={g(x;θ)θΘ}M = \{g(x; \theta) | \theta \in \Theta\}, où g(x;θ)g(x; \theta) est une fonction de densité de probabilité par rapport à une mesure de référence dμd\mu. La fonction de densité de la distribution réelle est g(x)g(x). L'objectif est :

  • Trouver la projection informationnelle g(x;θ)g(x; \theta^*) dans le modèle
  • Évaluer la distance entre la distribution prédictive g(x;θ^)g(x; \hat{\theta}) correspondant au MLE θ^\hat{\theta} et la projection informationnelle
  • Établir un critère pour déterminer si le MLE est suffisamment proche de la projection informationnelle

Cadre fondamental

Définition de la projection informationnelle

La projection informationnelle g(x;θ)g(x; \theta^*) est définie comme : θ=argminθΘD[g(x)g(x;θ)]\theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)]D[g1g2]=g1(x)log(g1(x)/g2(x))dμD[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu est la divergence K-L.

Définition du risque d'estimation

Le risque d'estimation est défini comme : R[g(x;θ)g(x;θ^)]=E[D[g(x;θ)g(x;θ^)]]R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]]

Résultats théoriques

Expansion asymptotique pour les modèles généraux

Théorème 1 : Le risque d'estimation du MLE par rapport à la divergence K-L est : R[g(x;θ)g(x;θ^)]=(2n)1tr(G~1GG~1G)+n2[termes du second ordre complexes]+O(n3)R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{termes du second ordre complexes}] + O(n^{-3})

où :

  • Gij(θ)G^*_{ij}(\theta^*) : Matrice d'information de Fisher
  • G~ij(θ)\tilde{G}_{ij}(\theta^*) : Espérance négative de la matrice hessienne
  • Gij(θ)G_{ij}(\theta^*) : Matrice de variance-covariance sous la distribution réelle

Résultats simplifiés pour la famille exponentielle

Corollaire 1 : Pour les modèles de famille exponentielle g(x;θ)=exp(i=1pθiξi(x)Ψ(θ))g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta)) : R[g(x;θ)g(x;θ^)]=12ntr(G~1G)+124n2[fonction des cumulants d’ordre trois et quatre]+O(n3)R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{fonction des cumulants d'ordre trois et quatre}] + O(n^{-3})

Propriété clé : G=G~=Ψ¨(θ)G^* = \tilde{G} = \ddot{\Psi}(\theta^*) (matrice des dérivées secondes)

Critère pnp-n

Critère pour les modèles généraux

C12ntr(G~^1G^G~^1G^)C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*)

Critère pour la famille exponentielle

C12ntr(Σ^(Ψ¨(θ^))1)+124n2[termes du second ordre estimeˊs]C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{termes du second ordre estimés}]

Σ^\hat{\Sigma} est la matrice de covariance empirique des termes ξi\xi_i.

Définition du seuil

Le seuil CC est défini par la relation entre le taux d'erreur bayésien et la divergence K-L :

  • Si D[g1g2]δD[g_1 | g_2] \leq \delta, alors le taux d'erreur Er[g1g2]1/2δ/8\text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8}
  • Pour un seuil de taux d'erreur 1/2α1/2 - \alpha, on a approximativement Cα=8α2C_\alpha = 8\alpha^2

Configuration expérimentale

Ensembles de données

  1. Ensemble de données sur la qualité du vin rouge :
    • Source : Bibliothèque d'apprentissage automatique UCI
    • Taille de l'échantillon : 1599 (données de vin rouge)
    • Variables : 11 substances chimiques (variables continues) + indicateur de qualité (entiers 3-8)
    • Modèle : Modèle de famille exponentielle de dimension 47 (après sélection par corrélation)
  2. Ensemble de données sur les ormeaux :
    • Source : Bibliothèque d'apprentissage automatique UCI
    • Taille de l'échantillon : 4177
    • Variables : Sexe (3 catégories) + nombre d'anneaux (entiers 1-29)
    • Modèle : Distribution multinomiale de dimension 62 (63 catégories)

Conception expérimentale

  • Données de vin rouge : Division aléatoire en deux moitiés, une moitié pour la construction du modèle, une moitié pour l'estimation des paramètres
  • Données d'ormeaux : Application directe de la formule du critère pnp-n pour la distribution multinomiale
  • Utilisation de la méthode MCMC pour traiter le problème de la constante de normalisation dans les modèles de famille exponentielle complexes

Résultats expérimentaux

Résultats sur l'ensemble de données de vin rouge

  • Modèle de dimension 47 (n=799n=799) :
    • Terme du premier ordre : 2.95e-02
    • Terme du second ordre : -1.30e-04
    • Risque d'estimation total : 2.93e-02
    • Correspondant à α0.06\alpha \approx 0.06, taux d'erreur bayésien > 0.44
  • Modèle simplifié de dimension 37 :
    • Risque d'estimation total : 1.62e-02 < 0.02 (seuil pour α=0.05\alpha=0.05)
    • Satisfait les exigences du critère pnp-n
  • Performance de classification : Précision du classificateur génératif 58%, arbre de décision 63%, mais le modèle génératif a moins de surapprentissage

Résultats sur l'ensemble de données d'ormeaux

  • p=62p=62, n=4177n=4177, M^=36128.33M̂=36128.33
  • Risque du premier ordre : 0.0074, risque du second ordre : 1.73e-04
  • Risque total : 0.0076 < 0.02 (pour α=0.05\alpha=0.05)
  • Satisfait le critère pnp-n
  • Mais pour α=0.01\alpha=0.01, il faut n38847n \geq 38847, l'échantillon réel est insuffisant

Découvertes clés

  1. La contribution du terme du second ordre au risque total est très faible, l'approximation du premier ordre est généralement suffisante
  2. Le critère pnp-n peut guider efficacement la sélection du modèle et la détermination de la taille d'échantillon
  3. Les modèles complexes peuvent être implémentés par la méthode MCMC sans nécessiter la constante de normalisation explicite

Travaux connexes

Théorie de la famille exponentielle

  • Portnoy, Stone, Barron & Sheu ont étudié la convergence des séquences de famille exponentielle
  • Wainwright & Jordan ont étudié la sélection des fonctions de base dans les modèles graphiques
  • Efron & Tibshirani ont étudié la construction de familles exponentielles mixtes

Géométrie informationnelle

  • La théorie de la géométrie informationnelle d'Amari & Nagaoka fournit la base géométrique de cet article
  • Le concept de projection informationnelle de Csiszár
  • Cadre théorique de la divergence α\alpha

Sélection de modèle

  • Relations avec les critères informationnels AIC/TIC
  • La méthode de cet article sépare le risque d'estimation et le risque d'approximation

Conclusion et discussion

Conclusions principales

  1. Établissement d'une théorie asymptotique précise du risque d'estimation du MLE, en particulier sous forme simplifiée pour la famille exponentielle
  2. Proposition du critère pnp-n pratique, applicable à la détermination de la taille d'échantillon et aux problèmes d'acceptation de modèle
  3. Fourniture d'un cadre algorithmique pour traiter les modèles de famille exponentielle complexes
  4. Établissement des liens théoriques avec les critères informationnels

Limitations

  1. Les hypothèses théoriques exigent des conditions de régularité appropriées
  2. Le calcul des termes du second ordre est complexe, l'approximation du premier ordre est souvent utilisée dans les applications pratiques
  3. La définition du seuil est basée sur des relations approximatives, ce qui peut ne pas être suffisamment précis
  4. Pour les modèles non-exponentiels, la forme du critère est relativement complexe

Directions futures

  1. Extension à des familles de divergence plus générales
  2. Étude des propriétés en échantillon fini
  3. Développement d'algorithmes de calcul plus efficaces
  4. Application aux modèles statistiques modernes tels que l'apprentissage profond

Évaluation approfondie

Avantages

  1. Rigueur théorique : Fourniture de preuves mathématiques complètes, analyse théorique approfondie
  2. Valeur pratique : Le critère pnp-n peut être directement appliqué aux problèmes pratiques
  3. Innovation méthodologique : L'idée de séparer le risque d'estimation et le risque d'approximation est novatrice
  4. Faisabilité computationnelle : Fourniture d'un schéma d'implémentation MCMC pour les modèles complexes
  5. Applicabilité large : Applicable à diverses familles exponentielles

Insuffisances

  1. Complexité computationnelle : Le calcul des termes du second ordre est coûteux, limitant les applications pratiques
  2. Conditions d'hypothèse : Nécessite des hypothèses de régularité relativement fortes
  3. Expériences limitées : Validation sur seulement deux ensembles de données
  4. Approximation du seuil : La relation approximative entre le taux d'erreur bayésien et la divergence K-L peut ne pas être suffisamment précise

Impact

  1. Contribution théorique : Fourniture de nouveaux outils d'analyse pour la théorie de l'apprentissage statistique
  2. Orientation pratique : Fourniture d'un critère quantitatif pour la sélection de modèle
  3. Méthodologie : Établissement d'un nouveau cadre de décomposition du risque
  4. Extensibilité : Pose les fondations théoriques pour les recherches ultérieures

Scénarios applicables

  1. Planification de la taille d'échantillon pour les modèles de famille exponentielle
  2. Sélection de modèle pour les modèles statistiques complexes
  3. Contrôle de la complexité du modèle en apprentissage automatique
  4. Orientation pour la sélection de priori en statistique bayésienne

Références bibliographiques

Cet article cite 28 références importantes, couvrant la géométrie informationnelle, la théorie de la famille exponentielle, la statistique asymptotique et d'autres domaines, fournissant une base théorique solide pour la recherche. Les références clés incluent la monographie de géométrie informationnelle d'Amari, la recherche sur la convergence de la famille exponentielle de Barron & Sheu, ainsi que les références classiques de la théorie de l'apprentissage statistique.