2025-11-14T18:28:13.480518

MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--

Sheena

For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.

academic

Velocità di convergenza della MLE alla proiezione informativa della famiglia esponenziale: Criterio per la dimensione del modello e la dimensione del campione -- versione con prova completa--

Informazioni Fondamentali

ID Articolo: 2105.08947
Titolo: Velocità di convergenza della MLE alla proiezione informativa della famiglia esponenziale: Criterio per la dimensione del modello e la dimensione del campione -- versione con prova completa--
Autore: Yo Sheena (Facoltà di Data Science, Università di Shiga; Professore Visitatore, Istituto di Ricerca Matematica Statistica)
Classificazione: math.ST stat.TH
Data di Pubblicazione: Maggio 2021 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2105.08947

Riassunto

Questo articolo studia il problema della distribuzione più vicina alla distribuzione vera all'interno di un modello parametrico quando la distribuzione vera si trova al di fuori del modello. Utilizzando la divergenza di Kullback-Leibler (K-L) per misurare la distanza tra distribuzioni, la distribuzione più vicina è denominata "proiezione informativa". Il rischio di stima dello stimatore di massima verosimiglianza (MLE) è definito come l'aspettativa della divergenza K-L tra la proiezione informativa e la distribuzione predittiva con MLE inserito. L'articolo deriva l'espansione asintotica del rischio fino all'ordine $n^{-2}$ e studia le condizioni sufficienti per il rischio affinché il tasso di errore bayesiano tra la distribuzione vera e la proiezione informativa sia inferiore a un valore specificato. Combinando questi risultati, viene proposto il "criterio $p-n$ " per determinare se la MLE è sufficientemente vicina alla proiezione informativa per un dato modello e campione. In particolare, il criterio per i modelli della famiglia esponenziale è relativamente semplice e può essere applicato a modelli complessi senza forma esplicita della costante di normalizzazione. Questo criterio può servire come soluzione al problema dell'accettazione della dimensione del campione o del modello.

Contesto di Ricerca e Motivazione

Problema Centrale

Dato un insieme di dati, è necessario assumere una distribuzione di probabilità sconosciuta come generatore di campioni indipendenti e identicamente distribuiti (i.i.d.). Se si adotta un modello di distribuzione parametrica per "spiegare" i dati, il compito principale è trovare la distribuzione "migliore" all'interno del modello. Poiché la distribuzione vera si trova tipicamente al di fuori del modello, "migliore" significa la distribuzione più "vicina" alla distribuzione vera.

Importanza del Problema

L'approssimazione di distribuzione di successo ha applicazioni diffuse:

Analisi di regressione o discriminante basata su distribuzioni condizionali
Imputazione multipla utilizzando distribuzioni condizionali o non condizionali
Rilevamento di anomalie basato su regioni di contorno di probabilità
Incarnazione della famosa equazione di C.R. Rao: "conoscenza incerta" + "conoscenza del grado di incertezza" = "conoscenza disponibile"

Limitazioni dei Metodi Esistenti

Nel processo di approssimazione della distribuzione esistono tre problemi importanti:

Metodo di costruzione sistematica di modelli di distribuzione
Metodo per valutare il grado di vicinanza dello stimatore alla distribuzione migliore
Metodo per valutare il grado di vicinanza della distribuzione migliore alla distribuzione vera

La ricerca esistente si concentra principalmente sulla vicinanza della distribuzione predittiva alla distribuzione vera, piuttosto che alla distribuzione migliore.

Motivazione della Ricerca

Questo articolo si concentra sul secondo problema, stabilendo un criterio per determinare se la MLE è sufficientemente vicina alla distribuzione migliore. Separando il secondo e il terzo problema, fissa il modello e deriva l'espansione asintotica del rischio rispetto alla dimensione del campione n.

Contributi Principali

Contributo Teorico: Derivazione dell'espansione asintotica del rischio di stima della MLE fino all'ordine $n^{-2}$ per modelli di distribuzione generale, con prova matematica completa
Specializzazione della Famiglia Esponenziale: Fornitura di espressioni semplificate del rischio e criterio pratico $p-n$ per modelli della famiglia esponenziale
Criterio Pratico: Proposizione del criterio $p-n$ per determinare se la dimensione del campione è sufficiente o se la dimensione del modello è appropriata
Quadro Algoritmico: Fornitura di algoritmi computazionali per modelli complessi della famiglia esponenziale senza richiedere la costante di normalizzazione esplicita
Verifica Empirica: Validazione dell'efficacia del criterio $p-n$ su due insiemi di dati reali
Collegamento Teorico: Stabilimento della relazione con i criteri informativi (AIC/TIC)

Dettagli del Metodo

Definizione del Compito

Dato un modello di distribuzione parametrica $M = \{g(x; \theta) | \theta \in \Theta\}$ , dove $g(x; \theta)$ è una funzione di densità di probabilità rispetto a una misura di riferimento $d\mu$ . La funzione di densità della distribuzione vera è $g(x)$ . L'obiettivo è:

Trovare la proiezione informativa nel modello $g(x; \theta^*)$
Valutare la distanza tra la distribuzione predittiva $g(x; \hat{\theta})$ corrispondente alla MLE $\hat{\theta}$ e la proiezione informativa
Stabilire un criterio per determinare se la MLE è sufficientemente vicina alla proiezione informativa

Quadro Centrale

Definizione della Proiezione Informativa

La proiezione informativa $g(x; \theta^*)$ è definita come: $\theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)]$ dove $D[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu$ è la divergenza K-L.

Definizione del Rischio di Stima

Il rischio di stima è definito come: $R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]]$

Risultati Teorici

Espansione Asintotica per Modelli Generali

Teorema 1: Il rischio di stima della MLE rispetto alla divergenza K-L è: $R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{termine di secondo ordine complesso}] + O(n^{-3})$

dove:

$G^*_{ij}(\theta^*)$ : matrice di informazione di Fisher
$\tilde{G}_{ij}(\theta^*)$ : aspettativa negativa della matrice Hessiana
$G_{ij}(\theta^*)$ : matrice di varianza-covarianza sotto la distribuzione vera

Risultati Semplificati per la Famiglia Esponenziale

Corollario 1: Per modelli della famiglia esponenziale $g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta))$ : $R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{funzione di cumulanti di terzo e quarto ordine}] + O(n^{-3})$

Proprietà chiave: $G^* = \tilde{G} = \ddot{\Psi}(\theta^*)$ (matrice delle derivate seconde)

Criterio $p-n$

Criterio per Modelli Generali

$C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*)$

Criterio per la Famiglia Esponenziale

$C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{termine di secondo ordine stimato}]$

dove $\hat{\Sigma}$ è la matrice di covarianza campionaria dei termini $\xi_i$ .

Impostazione della Soglia

La soglia $C$ è impostata attraverso la relazione tra il tasso di errore bayesiano e la divergenza K-L:

Se $D[g_1 | g_2] \leq \delta$ , allora il tasso di errore $\text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8}$
Per una soglia di tasso di errore $1/2 - \alpha$ , approssimativamente $C_\alpha = 8\alpha^2$

Configurazione Sperimentale

Insiemi di Dati

Dataset Qualità Vino Rosso:
- Fonte: Libreria di Machine Learning UCI
- Dimensione del campione: 1599 (dati vino rosso)
- Variabili: 11 sostanze chimiche (variabili continue) + indicatore di qualità (intero 3-8)
- Modello: modello della famiglia esponenziale a 47 dimensioni (dopo screening di correlazione)
Dataset Abalone:
- Fonte: Libreria di Machine Learning UCI
- Dimensione del campione: 4177
- Variabili: sesso (3 classi) + numero di anelli (intero 1-29)
- Modello: distribuzione multinomiale a 62 dimensioni (63 categorie)

Progettazione Sperimentale

Dati vino rosso: divisione casuale in due metà, una metà per la costruzione del modello, una metà per la stima dei parametri
Dati abalone: applicazione diretta della formula del criterio $p-n$ per la distribuzione multinomiale
Utilizzo del metodo MCMC per affrontare il problema della costante di normalizzazione nei modelli complessi della famiglia esponenziale

Risultati Sperimentali

Risultati Dataset Vino Rosso

Modello a 47 dimensioni ( $n=799$ $n = 799$ ):
- Termine di primo ordine: 2.95e-02
- Termine di secondo ordine: -1.30e-04
- Rischio di stima totale: 2.93e-02
- Corrispondente a $\alpha \approx 0.06$ , tasso di errore bayesiano > 0.44
Modello semplificato a 37 dimensioni:
- Rischio di stima totale: 1.62e-02 < 0.02 (soglia per $\alpha=0.05$ )
- Soddisfa i requisiti del criterio $p-n$
Prestazioni di Classificazione: accuratezza del classificatore generativo 58%, albero decisionale 63%, ma il modello generativo ha meno overfitting

Risultati Dataset Abalone

$p=62$ , $n=4177$ , $M̂=36128.33$
Rischio di primo ordine: 0.0074, rischio di secondo ordine: 1.73e-04
Rischio totale: 0.0076 < 0.02 (per $\alpha=0.05$ )
Soddisfa il criterio $p-n$
Ma per $\alpha=0.01$ è necessario $n \geq 38847$ , il campione effettivo è insufficiente

Risultati Chiave

Il termine di secondo ordine contribuisce poco al rischio totale, l'approssimazione di primo ordine è solitamente sufficiente
Il criterio $p-n$ può guidare efficacemente la selezione del modello e la determinazione della dimensione del campione
I modelli complessi possono essere implementati tramite il metodo MCMC senza richiedere la costante di normalizzazione esplicita

Lavori Correlati

Teoria della Famiglia Esponenziale

Portnoy, Stone, Barron & Sheu hanno studiato la convergenza di sequenze della famiglia esponenziale
Wainwright & Jordan hanno studiato la selezione delle funzioni base nei modelli grafici
Efron & Tibshirani hanno studiato la costruzione di famiglie esponenziali miste

Geometria Informativa

La teoria della geometria informativa di Amari & Nagaoka fornisce la base geometrica per questo articolo
Il concetto di proiezione informativa di Csiszár
Quadro teorico della divergenza $\alpha$

Selezione del Modello

Relazione con i criteri informativi AIC/TIC
Questo metodo separa il rischio di stima dal rischio di approssimazione

Conclusioni e Discussione

Conclusioni Principali

Stabilimento della teoria asintotica precisa del rischio di stima della MLE, in particolare forma semplificata per la famiglia esponenziale
Proposizione del criterio pratico $p-n$ per la determinazione della dimensione del campione e il problema dell'accettazione del modello
Fornitura di un quadro algoritmico per affrontare modelli complessi della famiglia esponenziale
Stabilimento del collegamento teorico con i criteri informativi

Limitazioni

Le ipotesi teoriche richiedono condizioni di regolarità appropriate
Il calcolo del termine di secondo ordine è complesso, nella pratica si utilizza comunemente l'approssimazione di primo ordine
L'impostazione della soglia si basa su relazioni approssimate, potrebbe non essere sufficientemente precisa
Per modelli non della famiglia esponenziale, la forma del criterio è più complessa

Direzioni Future

Estensione a famiglie di divergenza più generali
Studio delle proprietà con campioni finiti
Sviluppo di algoritmi computazionali più efficienti
Applicazione a modelli statistici moderni come l'apprendimento profondo

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Fornitura di prova matematica completa, analisi teorica approfondita
Valore Pratico: Il criterio $p-n$ può essere direttamente applicato a problemi reali
Innovazione Metodologica: L'idea di separare il rischio di stima dal rischio di approssimazione è innovativa
Fattibilità Computazionale: Fornitura di schema di implementazione MCMC per modelli complessi
Applicabilità Ampia: Applicabile a vari modelli della famiglia esponenziale

Insufficienze

Complessità Computazionale: Il calcolo del termine di secondo ordine è oneroso, limitando l'applicazione pratica
Condizioni di Ipotesi: Richiede ipotesi di regolarità relativamente forti
Esperimenti Limitati: Validazione su soli due insiemi di dati
Approssimazione della Soglia: L'approssimazione della relazione tra tasso di errore bayesiano e divergenza K-L potrebbe non essere sufficientemente accurata

Impatto

Contributo Teorico: Fornitura di nuovi strumenti di analisi per la teoria dell'apprendimento statistico
Guida Pratica: Fornitura di criterio quantitativo per la selezione del modello
Metodologia: Stabilimento di nuovo quadro di decomposizione del rischio
Estensibilità: Posa delle fondamenta teoriche per ricerche successive

Scenari Applicabili

Pianificazione della dimensione del campione per modelli della famiglia esponenziale
Selezione del modello per modelli statistici complessi
Controllo della complessità del modello nell'apprendimento automatico
Guida alla selezione della distribuzione a priori nella statistica bayesiana

Bibliografia

Questo articolo cita 28 importanti riferimenti, coprendo geometria informativa, teoria della famiglia esponenziale, statistica asintotica e altri campi, fornendo una base teorica solida per la ricerca. I riferimenti chiave includono il trattato sulla geometria informativa di Amari, la ricerca sulla convergenza della famiglia esponenziale di Barron & Sheu, e la letteratura classica sulla teoria dell'apprendimento statistico.