2025-11-14T18:28:13.480518

MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--

Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic

Velocità di convergenza della MLE alla proiezione informativa della famiglia esponenziale: Criterio per la dimensione del modello e la dimensione del campione -- versione con prova completa--

Informazioni Fondamentali

  • ID Articolo: 2105.08947
  • Titolo: Velocità di convergenza della MLE alla proiezione informativa della famiglia esponenziale: Criterio per la dimensione del modello e la dimensione del campione -- versione con prova completa--
  • Autore: Yo Sheena (Facoltà di Data Science, Università di Shiga; Professore Visitatore, Istituto di Ricerca Matematica Statistica)
  • Classificazione: math.ST stat.TH
  • Data di Pubblicazione: Maggio 2021 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2105.08947

Riassunto

Questo articolo studia il problema della distribuzione più vicina alla distribuzione vera all'interno di un modello parametrico quando la distribuzione vera si trova al di fuori del modello. Utilizzando la divergenza di Kullback-Leibler (K-L) per misurare la distanza tra distribuzioni, la distribuzione più vicina è denominata "proiezione informativa". Il rischio di stima dello stimatore di massima verosimiglianza (MLE) è definito come l'aspettativa della divergenza K-L tra la proiezione informativa e la distribuzione predittiva con MLE inserito. L'articolo deriva l'espansione asintotica del rischio fino all'ordine n2n^{-2} e studia le condizioni sufficienti per il rischio affinché il tasso di errore bayesiano tra la distribuzione vera e la proiezione informativa sia inferiore a un valore specificato. Combinando questi risultati, viene proposto il "criterio pnp-n" per determinare se la MLE è sufficientemente vicina alla proiezione informativa per un dato modello e campione. In particolare, il criterio per i modelli della famiglia esponenziale è relativamente semplice e può essere applicato a modelli complessi senza forma esplicita della costante di normalizzazione. Questo criterio può servire come soluzione al problema dell'accettazione della dimensione del campione o del modello.

Contesto di Ricerca e Motivazione

Problema Centrale

Dato un insieme di dati, è necessario assumere una distribuzione di probabilità sconosciuta come generatore di campioni indipendenti e identicamente distribuiti (i.i.d.). Se si adotta un modello di distribuzione parametrica per "spiegare" i dati, il compito principale è trovare la distribuzione "migliore" all'interno del modello. Poiché la distribuzione vera si trova tipicamente al di fuori del modello, "migliore" significa la distribuzione più "vicina" alla distribuzione vera.

Importanza del Problema

L'approssimazione di distribuzione di successo ha applicazioni diffuse:

  1. Analisi di regressione o discriminante basata su distribuzioni condizionali
  2. Imputazione multipla utilizzando distribuzioni condizionali o non condizionali
  3. Rilevamento di anomalie basato su regioni di contorno di probabilità
  4. Incarnazione della famosa equazione di C.R. Rao: "conoscenza incerta" + "conoscenza del grado di incertezza" = "conoscenza disponibile"

Limitazioni dei Metodi Esistenti

Nel processo di approssimazione della distribuzione esistono tre problemi importanti:

  1. Metodo di costruzione sistematica di modelli di distribuzione
  2. Metodo per valutare il grado di vicinanza dello stimatore alla distribuzione migliore
  3. Metodo per valutare il grado di vicinanza della distribuzione migliore alla distribuzione vera

La ricerca esistente si concentra principalmente sulla vicinanza della distribuzione predittiva alla distribuzione vera, piuttosto che alla distribuzione migliore.

Motivazione della Ricerca

Questo articolo si concentra sul secondo problema, stabilendo un criterio per determinare se la MLE è sufficientemente vicina alla distribuzione migliore. Separando il secondo e il terzo problema, fissa il modello e deriva l'espansione asintotica del rischio rispetto alla dimensione del campione n.

Contributi Principali

  1. Contributo Teorico: Derivazione dell'espansione asintotica del rischio di stima della MLE fino all'ordine n2n^{-2} per modelli di distribuzione generale, con prova matematica completa
  2. Specializzazione della Famiglia Esponenziale: Fornitura di espressioni semplificate del rischio e criterio pratico pnp-n per modelli della famiglia esponenziale
  3. Criterio Pratico: Proposizione del criterio pnp-n per determinare se la dimensione del campione è sufficiente o se la dimensione del modello è appropriata
  4. Quadro Algoritmico: Fornitura di algoritmi computazionali per modelli complessi della famiglia esponenziale senza richiedere la costante di normalizzazione esplicita
  5. Verifica Empirica: Validazione dell'efficacia del criterio pnp-n su due insiemi di dati reali
  6. Collegamento Teorico: Stabilimento della relazione con i criteri informativi (AIC/TIC)

Dettagli del Metodo

Definizione del Compito

Dato un modello di distribuzione parametrica M={g(x;θ)θΘ}M = \{g(x; \theta) | \theta \in \Theta\}, dove g(x;θ)g(x; \theta) è una funzione di densità di probabilità rispetto a una misura di riferimento dμd\mu. La funzione di densità della distribuzione vera è g(x)g(x). L'obiettivo è:

  • Trovare la proiezione informativa nel modello g(x;θ)g(x; \theta^*)
  • Valutare la distanza tra la distribuzione predittiva g(x;θ^)g(x; \hat{\theta}) corrispondente alla MLE θ^\hat{\theta} e la proiezione informativa
  • Stabilire un criterio per determinare se la MLE è sufficientemente vicina alla proiezione informativa

Quadro Centrale

Definizione della Proiezione Informativa

La proiezione informativa g(x;θ)g(x; \theta^*) è definita come: θ=argminθΘD[g(x)g(x;θ)]\theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)] dove D[g1g2]=g1(x)log(g1(x)/g2(x))dμD[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu è la divergenza K-L.

Definizione del Rischio di Stima

Il rischio di stima è definito come: R[g(x;θ)g(x;θ^)]=E[D[g(x;θ)g(x;θ^)]]R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]]

Risultati Teorici

Espansione Asintotica per Modelli Generali

Teorema 1: Il rischio di stima della MLE rispetto alla divergenza K-L è: R[g(x;θ)g(x;θ^)]=(2n)1tr(G~1GG~1G)+n2[termine di secondo ordine complesso]+O(n3)R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{termine di secondo ordine complesso}] + O(n^{-3})

dove:

  • Gij(θ)G^*_{ij}(\theta^*): matrice di informazione di Fisher
  • G~ij(θ)\tilde{G}_{ij}(\theta^*): aspettativa negativa della matrice Hessiana
  • Gij(θ)G_{ij}(\theta^*): matrice di varianza-covarianza sotto la distribuzione vera

Risultati Semplificati per la Famiglia Esponenziale

Corollario 1: Per modelli della famiglia esponenziale g(x;θ)=exp(i=1pθiξi(x)Ψ(θ))g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta)): R[g(x;θ)g(x;θ^)]=12ntr(G~1G)+124n2[funzione di cumulanti di terzo e quarto ordine]+O(n3)R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{funzione di cumulanti di terzo e quarto ordine}] + O(n^{-3})

Proprietà chiave: G=G~=Ψ¨(θ)G^* = \tilde{G} = \ddot{\Psi}(\theta^*) (matrice delle derivate seconde)

Criterio pnp-n

Criterio per Modelli Generali

C12ntr(G~^1G^G~^1G^)C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*)

Criterio per la Famiglia Esponenziale

C12ntr(Σ^(Ψ¨(θ^))1)+124n2[termine di secondo ordine stimato]C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{termine di secondo ordine stimato}]

dove Σ^\hat{\Sigma} è la matrice di covarianza campionaria dei termini ξi\xi_i.

Impostazione della Soglia

La soglia CC è impostata attraverso la relazione tra il tasso di errore bayesiano e la divergenza K-L:

  • Se D[g1g2]δD[g_1 | g_2] \leq \delta, allora il tasso di errore Er[g1g2]1/2δ/8\text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8}
  • Per una soglia di tasso di errore 1/2α1/2 - \alpha, approssimativamente Cα=8α2C_\alpha = 8\alpha^2

Configurazione Sperimentale

Insiemi di Dati

  1. Dataset Qualità Vino Rosso:
    • Fonte: Libreria di Machine Learning UCI
    • Dimensione del campione: 1599 (dati vino rosso)
    • Variabili: 11 sostanze chimiche (variabili continue) + indicatore di qualità (intero 3-8)
    • Modello: modello della famiglia esponenziale a 47 dimensioni (dopo screening di correlazione)
  2. Dataset Abalone:
    • Fonte: Libreria di Machine Learning UCI
    • Dimensione del campione: 4177
    • Variabili: sesso (3 classi) + numero di anelli (intero 1-29)
    • Modello: distribuzione multinomiale a 62 dimensioni (63 categorie)

Progettazione Sperimentale

  • Dati vino rosso: divisione casuale in due metà, una metà per la costruzione del modello, una metà per la stima dei parametri
  • Dati abalone: applicazione diretta della formula del criterio pnp-n per la distribuzione multinomiale
  • Utilizzo del metodo MCMC per affrontare il problema della costante di normalizzazione nei modelli complessi della famiglia esponenziale

Risultati Sperimentali

Risultati Dataset Vino Rosso

  • Modello a 47 dimensioni (n=799n=799):
    • Termine di primo ordine: 2.95e-02
    • Termine di secondo ordine: -1.30e-04
    • Rischio di stima totale: 2.93e-02
    • Corrispondente a α0.06\alpha \approx 0.06, tasso di errore bayesiano > 0.44
  • Modello semplificato a 37 dimensioni:
    • Rischio di stima totale: 1.62e-02 < 0.02 (soglia per α=0.05\alpha=0.05)
    • Soddisfa i requisiti del criterio pnp-n
  • Prestazioni di Classificazione: accuratezza del classificatore generativo 58%, albero decisionale 63%, ma il modello generativo ha meno overfitting

Risultati Dataset Abalone

  • p=62p=62, n=4177n=4177, M^=36128.33M̂=36128.33
  • Rischio di primo ordine: 0.0074, rischio di secondo ordine: 1.73e-04
  • Rischio totale: 0.0076 < 0.02 (per α=0.05\alpha=0.05)
  • Soddisfa il criterio pnp-n
  • Ma per α=0.01\alpha=0.01 è necessario n38847n \geq 38847, il campione effettivo è insufficiente

Risultati Chiave

  1. Il termine di secondo ordine contribuisce poco al rischio totale, l'approssimazione di primo ordine è solitamente sufficiente
  2. Il criterio pnp-n può guidare efficacemente la selezione del modello e la determinazione della dimensione del campione
  3. I modelli complessi possono essere implementati tramite il metodo MCMC senza richiedere la costante di normalizzazione esplicita

Lavori Correlati

Teoria della Famiglia Esponenziale

  • Portnoy, Stone, Barron & Sheu hanno studiato la convergenza di sequenze della famiglia esponenziale
  • Wainwright & Jordan hanno studiato la selezione delle funzioni base nei modelli grafici
  • Efron & Tibshirani hanno studiato la costruzione di famiglie esponenziali miste

Geometria Informativa

  • La teoria della geometria informativa di Amari & Nagaoka fornisce la base geometrica per questo articolo
  • Il concetto di proiezione informativa di Csiszár
  • Quadro teorico della divergenza α\alpha

Selezione del Modello

  • Relazione con i criteri informativi AIC/TIC
  • Questo metodo separa il rischio di stima dal rischio di approssimazione

Conclusioni e Discussione

Conclusioni Principali

  1. Stabilimento della teoria asintotica precisa del rischio di stima della MLE, in particolare forma semplificata per la famiglia esponenziale
  2. Proposizione del criterio pratico pnp-n per la determinazione della dimensione del campione e il problema dell'accettazione del modello
  3. Fornitura di un quadro algoritmico per affrontare modelli complessi della famiglia esponenziale
  4. Stabilimento del collegamento teorico con i criteri informativi

Limitazioni

  1. Le ipotesi teoriche richiedono condizioni di regolarità appropriate
  2. Il calcolo del termine di secondo ordine è complesso, nella pratica si utilizza comunemente l'approssimazione di primo ordine
  3. L'impostazione della soglia si basa su relazioni approssimate, potrebbe non essere sufficientemente precisa
  4. Per modelli non della famiglia esponenziale, la forma del criterio è più complessa

Direzioni Future

  1. Estensione a famiglie di divergenza più generali
  2. Studio delle proprietà con campioni finiti
  3. Sviluppo di algoritmi computazionali più efficienti
  4. Applicazione a modelli statistici moderni come l'apprendimento profondo

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornitura di prova matematica completa, analisi teorica approfondita
  2. Valore Pratico: Il criterio pnp-n può essere direttamente applicato a problemi reali
  3. Innovazione Metodologica: L'idea di separare il rischio di stima dal rischio di approssimazione è innovativa
  4. Fattibilità Computazionale: Fornitura di schema di implementazione MCMC per modelli complessi
  5. Applicabilità Ampia: Applicabile a vari modelli della famiglia esponenziale

Insufficienze

  1. Complessità Computazionale: Il calcolo del termine di secondo ordine è oneroso, limitando l'applicazione pratica
  2. Condizioni di Ipotesi: Richiede ipotesi di regolarità relativamente forti
  3. Esperimenti Limitati: Validazione su soli due insiemi di dati
  4. Approssimazione della Soglia: L'approssimazione della relazione tra tasso di errore bayesiano e divergenza K-L potrebbe non essere sufficientemente accurata

Impatto

  1. Contributo Teorico: Fornitura di nuovi strumenti di analisi per la teoria dell'apprendimento statistico
  2. Guida Pratica: Fornitura di criterio quantitativo per la selezione del modello
  3. Metodologia: Stabilimento di nuovo quadro di decomposizione del rischio
  4. Estensibilità: Posa delle fondamenta teoriche per ricerche successive

Scenari Applicabili

  1. Pianificazione della dimensione del campione per modelli della famiglia esponenziale
  2. Selezione del modello per modelli statistici complessi
  3. Controllo della complessità del modello nell'apprendimento automatico
  4. Guida alla selezione della distribuzione a priori nella statistica bayesiana

Bibliografia

Questo articolo cita 28 importanti riferimenti, coprendo geometria informativa, teoria della famiglia esponenziale, statistica asintotica e altri campi, fornendo una base teorica solida per la ricerca. I riferimenti chiave includono il trattato sulla geometria informativa di Amari, la ricerca sulla convergenza della famiglia esponenziale di Barron & Sheu, e la letteratura classica sulla teoria dell'apprendimento statistico.