MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic
Velocità di convergenza della MLE alla proiezione informativa della famiglia esponenziale: Criterio per la dimensione del modello e la dimensione del campione -- versione con prova completa--
Titolo: Velocità di convergenza della MLE alla proiezione informativa della famiglia esponenziale: Criterio per la dimensione del modello e la dimensione del campione -- versione con prova completa--
Autore: Yo Sheena (Facoltà di Data Science, Università di Shiga; Professore Visitatore, Istituto di Ricerca Matematica Statistica)
Classificazione: math.ST stat.TH
Data di Pubblicazione: Maggio 2021 (preprint arXiv)
Questo articolo studia il problema della distribuzione più vicina alla distribuzione vera all'interno di un modello parametrico quando la distribuzione vera si trova al di fuori del modello. Utilizzando la divergenza di Kullback-Leibler (K-L) per misurare la distanza tra distribuzioni, la distribuzione più vicina è denominata "proiezione informativa". Il rischio di stima dello stimatore di massima verosimiglianza (MLE) è definito come l'aspettativa della divergenza K-L tra la proiezione informativa e la distribuzione predittiva con MLE inserito. L'articolo deriva l'espansione asintotica del rischio fino all'ordine n−2 e studia le condizioni sufficienti per il rischio affinché il tasso di errore bayesiano tra la distribuzione vera e la proiezione informativa sia inferiore a un valore specificato. Combinando questi risultati, viene proposto il "criterio p−n" per determinare se la MLE è sufficientemente vicina alla proiezione informativa per un dato modello e campione. In particolare, il criterio per i modelli della famiglia esponenziale è relativamente semplice e può essere applicato a modelli complessi senza forma esplicita della costante di normalizzazione. Questo criterio può servire come soluzione al problema dell'accettazione della dimensione del campione o del modello.
Dato un insieme di dati, è necessario assumere una distribuzione di probabilità sconosciuta come generatore di campioni indipendenti e identicamente distribuiti (i.i.d.). Se si adotta un modello di distribuzione parametrica per "spiegare" i dati, il compito principale è trovare la distribuzione "migliore" all'interno del modello. Poiché la distribuzione vera si trova tipicamente al di fuori del modello, "migliore" significa la distribuzione più "vicina" alla distribuzione vera.
Nel processo di approssimazione della distribuzione esistono tre problemi importanti:
Metodo di costruzione sistematica di modelli di distribuzione
Metodo per valutare il grado di vicinanza dello stimatore alla distribuzione migliore
Metodo per valutare il grado di vicinanza della distribuzione migliore alla distribuzione vera
La ricerca esistente si concentra principalmente sulla vicinanza della distribuzione predittiva alla distribuzione vera, piuttosto che alla distribuzione migliore.
Questo articolo si concentra sul secondo problema, stabilendo un criterio per determinare se la MLE è sufficientemente vicina alla distribuzione migliore. Separando il secondo e il terzo problema, fissa il modello e deriva l'espansione asintotica del rischio rispetto alla dimensione del campione n.
Contributo Teorico: Derivazione dell'espansione asintotica del rischio di stima della MLE fino all'ordine n−2 per modelli di distribuzione generale, con prova matematica completa
Specializzazione della Famiglia Esponenziale: Fornitura di espressioni semplificate del rischio e criterio pratico p−n per modelli della famiglia esponenziale
Criterio Pratico: Proposizione del criterio p−n per determinare se la dimensione del campione è sufficiente o se la dimensione del modello è appropriata
Quadro Algoritmico: Fornitura di algoritmi computazionali per modelli complessi della famiglia esponenziale senza richiedere la costante di normalizzazione esplicita
Verifica Empirica: Validazione dell'efficacia del criterio p−n su due insiemi di dati reali
Collegamento Teorico: Stabilimento della relazione con i criteri informativi (AIC/TIC)
Dato un modello di distribuzione parametrica M={g(x;θ)∣θ∈Θ}, dove g(x;θ) è una funzione di densità di probabilità rispetto a una misura di riferimento dμ. La funzione di densità della distribuzione vera è g(x). L'obiettivo è:
Trovare la proiezione informativa nel modello g(x;θ∗)
Valutare la distanza tra la distribuzione predittiva g(x;θ^) corrispondente alla MLE θ^ e la proiezione informativa
Stabilire un criterio per determinare se la MLE è sufficientemente vicina alla proiezione informativa
Teorema 1: Il rischio di stima della MLE rispetto alla divergenza K-L è:
R[g(x;θ∗)∣g(x;θ^)]=(2n)−1tr(G~−1GG~−1G∗)+n−2[termine di secondo ordine complesso]+O(n−3)
dove:
Gij∗(θ∗): matrice di informazione di Fisher
G~ij(θ∗): aspettativa negativa della matrice Hessiana
Gij(θ∗): matrice di varianza-covarianza sotto la distribuzione vera
Corollario 1: Per modelli della famiglia esponenziale g(x;θ)=exp(∑i=1pθiξi(x)−Ψ(θ)):
R[g(x;θ∗)∣g(x;θ^)]=2n1tr(G~−1G)+24n21[funzione di cumulanti di terzo e quarto ordine]+O(n−3)
Proprietà chiave: G∗=G~=Ψ¨(θ∗) (matrice delle derivate seconde)
Complessità Computazionale: Il calcolo del termine di secondo ordine è oneroso, limitando l'applicazione pratica
Condizioni di Ipotesi: Richiede ipotesi di regolarità relativamente forti
Esperimenti Limitati: Validazione su soli due insiemi di dati
Approssimazione della Soglia: L'approssimazione della relazione tra tasso di errore bayesiano e divergenza K-L potrebbe non essere sufficientemente accurata
Questo articolo cita 28 importanti riferimenti, coprendo geometria informativa, teoria della famiglia esponenziale, statistica asintotica e altri campi, fornendo una base teorica solida per la ricerca. I riferimenti chiave includono il trattato sulla geometria informativa di Amari, la ricerca sulla convergenza della famiglia esponenziale di Barron & Sheu, e la letteratura classica sulla teoria dell'apprendimento statistico.