2025-11-14T18:28:13.480518

MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--

Sheena

For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.

academic

Vitesse de convergence du MLE vers la projection informationnelle de la famille exponentielle : Critère pour la dimension du modèle et la taille de l'échantillon -- version complète des preuves --

Informations de base

ID de l'article : 2105.08947
Titre : Vitesse de convergence du MLE vers la projection informationnelle de la famille exponentielle : Critère pour la dimension du modèle et la taille de l'échantillon -- version complète des preuves --
Auteur : Yo Sheena (Département de science des données, Université de Shiga, Professeur visitant à l'Institut de recherche en statistique mathématique)
Classification : math.ST stat.TH
Date de publication : Mai 2021 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2105.08947

Résumé

Cet article étudie le problème de la distribution la plus proche de la distribution réelle dans un modèle de distribution paramétrique lorsque la distribution réelle se situe en dehors du modèle. En utilisant la divergence de Kullback-Leibler (K-L) pour mesurer la distance entre les distributions, la distribution la plus proche est appelée « projection informationnelle ». Le risque d'estimation de l'estimateur du maximum de vraisemblance (MLE) est défini comme l'espérance de la divergence K-L entre la projection informationnelle et la distribution prédictive avec le MLE inséré. Cet article dérive l'expansion asymptotique du risque jusqu'à l'ordre $n^{-2}$ et étudie les conditions suffisantes du risque pour que le taux d'erreur bayésien entre la distribution réelle et la projection informationnelle soit inférieur à une valeur spécifiée. En combinant ces résultats, un « critère $p-n$ » est proposé pour déterminer si le MLE est suffisamment proche de la projection informationnelle pour un modèle et un échantillon donnés. En particulier, le critère pour les modèles de famille exponentielle est relativement simple et peut être appliqué à des modèles complexes sans forme explicite de la constante de normalisation. Ce critère peut servir de solution aux problèmes de taille d'échantillon ou d'acceptation de modèle.

Contexte et motivation de la recherche

Problème fondamental

Étant donné un ensemble de données, il est nécessaire de supposer une distribution de probabilité inconnue comme générateur d'échantillons indépendants et identiquement distribués (i.i.d.). Si un modèle de distribution paramétrique est adopté pour « expliquer » les données, la première tâche consiste à trouver la distribution « optimale » dans le modèle. Puisque la distribution réelle se situe généralement en dehors du modèle, « optimale » signifie la distribution la plus « proche » de la distribution réelle.

Importance du problème

L'approximation réussie de distributions a des applications très larges :

Régression ou analyse discriminante basées sur les distributions conditionnelles
Imputation multiple utilisant les distributions conditionnelles ou inconditionnelles
Détection des anomalies basée sur les régions de contour de probabilité
Incarnation de la célèbre équation de C.R. Rao : « Connaissance incertaine » + « Connaissance du degré d'incertitude » = « Connaissance utilisable »

Limitations des méthodes existantes

Trois problèmes importants existent dans le processus d'approximation de distributions :

Méthode de construction systématique des modèles de distribution
Méthode d'évaluation du degré de proximité entre l'estimateur et la distribution optimale
Méthode d'évaluation du degré de proximité entre la distribution optimale et la distribution réelle

Les recherches existantes se concentrent principalement sur la proximité entre la distribution prédictive et la distribution réelle, plutôt que sur la proximité avec la distribution optimale.

Motivation de la recherche

Cet article se concentre sur le deuxième problème, établissant un critère pour déterminer si le MLE est suffisamment proche de la distribution optimale. En séparant les deuxième et troisième problèmes, le modèle est fixé et l'expansion asymptotique du risque par rapport à la taille d'échantillon n est dérivée.

Contributions principales

Contribution théorique : Dérivation de l'expansion asymptotique du risque d'estimation du MLE jusqu'à l'ordre $n^{-2}$ pour les modèles de distribution généraux, avec preuves mathématiques complètes
Spécialisation pour la famille exponentielle : Fourniture d'expressions de risque simplifiées et d'un critère $p-n$ pratique pour les modèles de famille exponentielle
Critère pratique : Proposition du critère $p-n$ pour déterminer si la taille d'échantillon est suffisante ou si la dimension du modèle est appropriée
Cadre algorithmique : Fourniture d'algorithmes de calcul pour les modèles de famille exponentielle complexes sans nécessiter la constante de normalisation explicite
Vérification empirique : Validation du critère $p-n$ sur deux ensembles de données réelles
Liens théoriques : Établissement des relations avec les critères informationnels (AIC/TIC)

Détails de la méthode

Définition de la tâche

Étant donné un modèle de distribution paramétrique $M = \{g(x; \theta) | \theta \in \Theta\}$ , où $g(x; \theta)$ est une fonction de densité de probabilité par rapport à une mesure de référence $d\mu$ . La fonction de densité de la distribution réelle est $g(x)$ . L'objectif est :

Trouver la projection informationnelle $g(x; \theta^*)$ dans le modèle
Évaluer la distance entre la distribution prédictive $g(x; \hat{\theta})$ correspondant au MLE $\hat{\theta}$ et la projection informationnelle
Établir un critère pour déterminer si le MLE est suffisamment proche de la projection informationnelle

Cadre fondamental

Définition de la projection informationnelle

La projection informationnelle $g(x; \theta^*)$ est définie comme : $\theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)]$ où $D[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu$ est la divergence K-L.

Définition du risque d'estimation

Le risque d'estimation est défini comme : $R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]]$

Résultats théoriques

Expansion asymptotique pour les modèles généraux

Théorème 1 : Le risque d'estimation du MLE par rapport à la divergence K-L est : $R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{termes du second ordre complexes}] + O(n^{-3})$

où :

$G^*_{ij}(\theta^*)$ : Matrice d'information de Fisher
$\tilde{G}_{ij}(\theta^*)$ : Espérance négative de la matrice hessienne
$G_{ij}(\theta^*)$ : Matrice de variance-covariance sous la distribution réelle

Résultats simplifiés pour la famille exponentielle

Corollaire 1 : Pour les modèles de famille exponentielle $g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta))$ : $R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{fonction des cumulants d'ordre trois et quatre}] + O(n^{-3})$

Propriété clé : $G^* = \tilde{G} = \ddot{\Psi}(\theta^*)$ (matrice des dérivées secondes)

Critère $p-n$

Critère pour les modèles généraux

$C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*)$

Critère pour la famille exponentielle

$C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{termes du second ordre estimés}]$

où $\hat{\Sigma}$ est la matrice de covariance empirique des termes $\xi_i$ .

Définition du seuil

Le seuil $C$ est défini par la relation entre le taux d'erreur bayésien et la divergence K-L :

Si $D[g_1 | g_2] \leq \delta$ , alors le taux d'erreur $\text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8}$
Pour un seuil de taux d'erreur $1/2 - \alpha$ , on a approximativement $C_\alpha = 8\alpha^2$

Configuration expérimentale

Ensembles de données

Ensemble de données sur la qualité du vin rouge :
- Source : Bibliothèque d'apprentissage automatique UCI
- Taille de l'échantillon : 1599 (données de vin rouge)
- Variables : 11 substances chimiques (variables continues) + indicateur de qualité (entiers 3-8)
- Modèle : Modèle de famille exponentielle de dimension 47 (après sélection par corrélation)
Ensemble de données sur les ormeaux :
- Source : Bibliothèque d'apprentissage automatique UCI
- Taille de l'échantillon : 4177
- Variables : Sexe (3 catégories) + nombre d'anneaux (entiers 1-29)
- Modèle : Distribution multinomiale de dimension 62 (63 catégories)

Conception expérimentale

Données de vin rouge : Division aléatoire en deux moitiés, une moitié pour la construction du modèle, une moitié pour l'estimation des paramètres
Données d'ormeaux : Application directe de la formule du critère $p-n$ pour la distribution multinomiale
Utilisation de la méthode MCMC pour traiter le problème de la constante de normalisation dans les modèles de famille exponentielle complexes

Résultats expérimentaux

Résultats sur l'ensemble de données de vin rouge

Modèle de dimension 47 ( $n=799$ $n = 799$ ) :
- Terme du premier ordre : 2.95e-02
- Terme du second ordre : -1.30e-04
- Risque d'estimation total : 2.93e-02
- Correspondant à $\alpha \approx 0.06$ , taux d'erreur bayésien > 0.44
Modèle simplifié de dimension 37 :
- Risque d'estimation total : 1.62e-02 < 0.02 (seuil pour $\alpha=0.05$ )
- Satisfait les exigences du critère $p-n$
Performance de classification : Précision du classificateur génératif 58%, arbre de décision 63%, mais le modèle génératif a moins de surapprentissage

Résultats sur l'ensemble de données d'ormeaux

$p=62$ , $n=4177$ , $M̂=36128.33$
Risque du premier ordre : 0.0074, risque du second ordre : 1.73e-04
Risque total : 0.0076 < 0.02 (pour $\alpha=0.05$ )
Satisfait le critère $p-n$
Mais pour $\alpha=0.01$ , il faut $n \geq 38847$ , l'échantillon réel est insuffisant

Découvertes clés

La contribution du terme du second ordre au risque total est très faible, l'approximation du premier ordre est généralement suffisante
Le critère $p-n$ peut guider efficacement la sélection du modèle et la détermination de la taille d'échantillon
Les modèles complexes peuvent être implémentés par la méthode MCMC sans nécessiter la constante de normalisation explicite

Travaux connexes

Théorie de la famille exponentielle

Portnoy, Stone, Barron & Sheu ont étudié la convergence des séquences de famille exponentielle
Wainwright & Jordan ont étudié la sélection des fonctions de base dans les modèles graphiques
Efron & Tibshirani ont étudié la construction de familles exponentielles mixtes

Géométrie informationnelle

La théorie de la géométrie informationnelle d'Amari & Nagaoka fournit la base géométrique de cet article
Le concept de projection informationnelle de Csiszár
Cadre théorique de la divergence $\alpha$

Sélection de modèle

Relations avec les critères informationnels AIC/TIC
La méthode de cet article sépare le risque d'estimation et le risque d'approximation

Conclusion et discussion

Conclusions principales

Établissement d'une théorie asymptotique précise du risque d'estimation du MLE, en particulier sous forme simplifiée pour la famille exponentielle
Proposition du critère $p-n$ pratique, applicable à la détermination de la taille d'échantillon et aux problèmes d'acceptation de modèle
Fourniture d'un cadre algorithmique pour traiter les modèles de famille exponentielle complexes
Établissement des liens théoriques avec les critères informationnels

Limitations

Les hypothèses théoriques exigent des conditions de régularité appropriées
Le calcul des termes du second ordre est complexe, l'approximation du premier ordre est souvent utilisée dans les applications pratiques
La définition du seuil est basée sur des relations approximatives, ce qui peut ne pas être suffisamment précis
Pour les modèles non-exponentiels, la forme du critère est relativement complexe

Directions futures

Extension à des familles de divergence plus générales
Étude des propriétés en échantillon fini
Développement d'algorithmes de calcul plus efficaces
Application aux modèles statistiques modernes tels que l'apprentissage profond

Évaluation approfondie

Avantages

Rigueur théorique : Fourniture de preuves mathématiques complètes, analyse théorique approfondie
Valeur pratique : Le critère $p-n$ peut être directement appliqué aux problèmes pratiques
Innovation méthodologique : L'idée de séparer le risque d'estimation et le risque d'approximation est novatrice
Faisabilité computationnelle : Fourniture d'un schéma d'implémentation MCMC pour les modèles complexes
Applicabilité large : Applicable à diverses familles exponentielles

Insuffisances

Complexité computationnelle : Le calcul des termes du second ordre est coûteux, limitant les applications pratiques
Conditions d'hypothèse : Nécessite des hypothèses de régularité relativement fortes
Expériences limitées : Validation sur seulement deux ensembles de données
Approximation du seuil : La relation approximative entre le taux d'erreur bayésien et la divergence K-L peut ne pas être suffisamment précise

Impact

Contribution théorique : Fourniture de nouveaux outils d'analyse pour la théorie de l'apprentissage statistique
Orientation pratique : Fourniture d'un critère quantitatif pour la sélection de modèle
Méthodologie : Établissement d'un nouveau cadre de décomposition du risque
Extensibilité : Pose les fondations théoriques pour les recherches ultérieures

Scénarios applicables

Planification de la taille d'échantillon pour les modèles de famille exponentielle
Sélection de modèle pour les modèles statistiques complexes
Contrôle de la complexité du modèle en apprentissage automatique
Orientation pour la sélection de priori en statistique bayésienne

Références bibliographiques

Cet article cite 28 références importantes, couvrant la géométrie informationnelle, la théorie de la famille exponentielle, la statistique asymptotique et d'autres domaines, fournissant une base théorique solide pour la recherche. Les références clés incluent la monographie de géométrie informationnelle d'Amari, la recherche sur la convergence de la famille exponentielle de Barron & Sheu, ainsi que les références classiques de la théorie de l'apprentissage statistique.