MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic
Velocidad de convergencia de MLE a la proyección de información de la familia exponencial: Criterio para la dimensión del modelo y el tamaño de muestra -- versión completa de prueba--
Título: Velocidad de convergencia de MLE a la proyección de información de la familia exponencial: Criterio para la dimensión del modelo y el tamaño de muestra -- versión completa de prueba--
Autor: Yo Sheena (Facultad de Ciencia de Datos, Universidad de Shiga; Profesor Visitante, Instituto de Investigación de Estadística Matemática)
Clasificación: math.ST stat.TH
Fecha de Publicación: Mayo de 2021 (preimpresión arXiv)
Este artículo estudia el problema de encontrar la distribución más cercana a la distribución verdadera dentro de un modelo paramétrico cuando la distribución verdadera se encuentra fuera del modelo. Utilizando la divergencia de Kullback-Leibler (K-L) para medir la distancia entre distribuciones, la distribución más cercana se denomina "proyección de información". El riesgo de estimación del estimador de máxima verosimilitud (MLE) se define como la esperanza de la divergencia K-L entre la proyección de información y la distribución predictiva con MLE insertado. Este artículo deriva la expansión asintótica del riesgo hasta el orden n−2 e investiga las condiciones suficientes del riesgo para que la tasa de error bayesiana entre la distribución verdadera y la proyección de información sea inferior a un valor especificado. Combinando estos resultados, se propone el "criterio p−n" para determinar si el MLE es suficientemente cercano a la proyección de información bajo un modelo y muestra dados. En particular, el criterio para modelos de familia exponencial es relativamente simple y puede aplicarse a modelos complejos sin forma explícita de la constante de normalización. Este criterio puede servir como solución para problemas de aceptación de tamaño de muestra o modelo.
Cuando se proporciona un conjunto de datos, es necesario asumir una distribución de probabilidad desconocida como generador de muestras independientes e idénticamente distribuidas (i.i.d.). Si se adopta un modelo de distribución paramétrica para "explicar" los datos, la tarea principal es encontrar la distribución "mejor" dentro del modelo. Dado que la distribución verdadera generalmente se encuentra fuera del modelo, "mejor" significa la distribución más "cercana" a la distribución verdadera.
Existen tres problemas importantes en el proceso de aproximación de distribuciones:
Método sistemático para construir modelos de distribución
Método para evaluar qué tan cerca está el estimador de la distribución óptima
Método para evaluar qué tan cerca está la distribución óptima de la distribución verdadera
La investigación existente se enfoca principalmente en la proximidad entre la distribución predictiva y la distribución verdadera, no en la proximidad a la distribución óptima.
Este artículo se enfoca en el segundo problema, estableciendo un criterio para determinar si el MLE es suficientemente cercano a la distribución óptima. Al separar el segundo y tercer problemas, fija el modelo y deriva la expansión asintótica del riesgo con respecto al tamaño de muestra n.
Contribución Teórica: Derivación de la expansión asintótica del riesgo de estimación de MLE hasta el orden n−2 para modelos de distribución general, con pruebas matemáticas completas
Especialización de Familia Exponencial: Proporciona expresiones de riesgo simplificadas y criterio p−n práctico para modelos de familia exponencial
Criterio Práctico: Propone el criterio p−n para determinar si el tamaño de muestra es suficiente o si la dimensión del modelo es apropiada
Marco Algorítmico: Proporciona algoritmo computacional para modelos complejos de familia exponencial sin necesidad de constante de normalización explícita
Verificación Empírica: Valida la efectividad del criterio p−n en dos conjuntos de datos reales
Conexión Teórica: Establece relación con criterios de información (AIC/TIC)
Dado un modelo de distribución paramétrica M={g(x;θ)∣θ∈Θ}, donde g(x;θ) es una función de densidad de probabilidad con respecto a una medida de referencia dμ. La función de densidad de la distribución verdadera es g(x). El objetivo es:
Encontrar la proyección de información g(x;θ∗) en el modelo
Evaluar la distancia entre la distribución predictiva g(x;θ^) correspondiente al MLE θ^ y la proyección de información
Establecer un criterio para determinar si el MLE es suficientemente cercano a la proyección de información
Teorema 1: El riesgo de estimación de MLE con respecto a la divergencia K-L es:
R[g(x;θ∗)∣g(x;θ^)]=(2n)−1tr(G~−1GG~−1G∗)+n−2[teˊrmino de segundo orden complejo]+O(n−3)
donde:
Gij∗(θ∗): Matriz de información de Fisher
G~ij(θ∗): Negativa de la esperanza de la matriz Hessiana
Gij(θ∗): Matriz de varianza-covarianza bajo la distribución verdadera
Corolario 1: Para modelos de familia exponencial g(x;θ)=exp(∑i=1pθiξi(x)−Ψ(θ)):
R[g(x;θ∗)∣g(x;θ^)]=2n1tr(G~−1G)+24n21[funcioˊn de cumulantes de tercer y cuarto orden]+O(n−3)
Propiedad clave: G∗=G~=Ψ¨(θ∗) (matriz de segunda derivada)
Este artículo cita 28 referencias importantes que abarcan geometría de información, teoría de familia exponencial, estadística asintótica y otros campos múltiples, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen monografía de geometría de información de Amari, investigación de convergencia de familia exponencial de Barron & Sheu, así como literatura clásica de teoría de aprendizaje estadístico.