2025-11-14T18:28:13.480518

MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--

Sheena

For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.

academic

Velocidad de convergencia de MLE a la proyección de información de la familia exponencial: Criterio para la dimensión del modelo y el tamaño de muestra -- versión completa de prueba--

Información Básica

ID del Artículo: 2105.08947
Título: Velocidad de convergencia de MLE a la proyección de información de la familia exponencial: Criterio para la dimensión del modelo y el tamaño de muestra -- versión completa de prueba--
Autor: Yo Sheena (Facultad de Ciencia de Datos, Universidad de Shiga; Profesor Visitante, Instituto de Investigación de Estadística Matemática)
Clasificación: math.ST stat.TH
Fecha de Publicación: Mayo de 2021 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2105.08947

Resumen

Este artículo estudia el problema de encontrar la distribución más cercana a la distribución verdadera dentro de un modelo paramétrico cuando la distribución verdadera se encuentra fuera del modelo. Utilizando la divergencia de Kullback-Leibler (K-L) para medir la distancia entre distribuciones, la distribución más cercana se denomina "proyección de información". El riesgo de estimación del estimador de máxima verosimilitud (MLE) se define como la esperanza de la divergencia K-L entre la proyección de información y la distribución predictiva con MLE insertado. Este artículo deriva la expansión asintótica del riesgo hasta el orden $n^{-2}$ e investiga las condiciones suficientes del riesgo para que la tasa de error bayesiana entre la distribución verdadera y la proyección de información sea inferior a un valor especificado. Combinando estos resultados, se propone el "criterio $p-n$ " para determinar si el MLE es suficientemente cercano a la proyección de información bajo un modelo y muestra dados. En particular, el criterio para modelos de familia exponencial es relativamente simple y puede aplicarse a modelos complejos sin forma explícita de la constante de normalización. Este criterio puede servir como solución para problemas de aceptación de tamaño de muestra o modelo.

Antecedentes y Motivación de la Investigación

Problema Central

Cuando se proporciona un conjunto de datos, es necesario asumir una distribución de probabilidad desconocida como generador de muestras independientes e idénticamente distribuidas (i.i.d.). Si se adopta un modelo de distribución paramétrica para "explicar" los datos, la tarea principal es encontrar la distribución "mejor" dentro del modelo. Dado que la distribución verdadera generalmente se encuentra fuera del modelo, "mejor" significa la distribución más "cercana" a la distribución verdadera.

Importancia del Problema

La aproximación de distribución exitosa tiene aplicaciones amplias:

Análisis de regresión o discriminante basado en distribuciones condicionales
Imputación múltiple utilizando distribuciones condicionales o incondicionales
Detección de anomalías basada en regiones de contorno de probabilidad
Encarnación de la famosa ecuación de C.R. Rao: "Conocimiento incierto" + "Conocimiento del grado de incertidumbre" = "Conocimiento disponible"

Limitaciones de Métodos Existentes

Existen tres problemas importantes en el proceso de aproximación de distribuciones:

Método sistemático para construir modelos de distribución
Método para evaluar qué tan cerca está el estimador de la distribución óptima
Método para evaluar qué tan cerca está la distribución óptima de la distribución verdadera

La investigación existente se enfoca principalmente en la proximidad entre la distribución predictiva y la distribución verdadera, no en la proximidad a la distribución óptima.

Motivación de la Investigación

Este artículo se enfoca en el segundo problema, estableciendo un criterio para determinar si el MLE es suficientemente cercano a la distribución óptima. Al separar el segundo y tercer problemas, fija el modelo y deriva la expansión asintótica del riesgo con respecto al tamaño de muestra $n$ .

Contribuciones Principales

Contribución Teórica: Derivación de la expansión asintótica del riesgo de estimación de MLE hasta el orden $n^{-2}$ para modelos de distribución general, con pruebas matemáticas completas
Especialización de Familia Exponencial: Proporciona expresiones de riesgo simplificadas y criterio $p-n$ práctico para modelos de familia exponencial
Criterio Práctico: Propone el criterio $p-n$ para determinar si el tamaño de muestra es suficiente o si la dimensión del modelo es apropiada
Marco Algorítmico: Proporciona algoritmo computacional para modelos complejos de familia exponencial sin necesidad de constante de normalización explícita
Verificación Empírica: Valida la efectividad del criterio $p-n$ en dos conjuntos de datos reales
Conexión Teórica: Establece relación con criterios de información (AIC/TIC)

Detalles del Método

Definición de Tarea

Dado un modelo de distribución paramétrica $M = \{g(x; \theta) | \theta \in \Theta\}$ , donde $g(x; \theta)$ es una función de densidad de probabilidad con respecto a una medida de referencia $d\mu$ . La función de densidad de la distribución verdadera es $g(x)$ . El objetivo es:

Encontrar la proyección de información $g(x; \theta^*)$ en el modelo
Evaluar la distancia entre la distribución predictiva $g(x; \hat{\theta})$ correspondiente al MLE $\hat{\theta}$ y la proyección de información
Establecer un criterio para determinar si el MLE es suficientemente cercano a la proyección de información

Marco Central

Definición de Proyección de Información

La proyección de información $g(x; \theta^*)$ se define como: $\theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)]$ donde $D[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu$ es la divergencia K-L.

Definición de Riesgo de Estimación

El riesgo de estimación se define como: $R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]]$

Resultados Teóricos

Expansión Asintótica para Modelos Generales

Teorema 1: El riesgo de estimación de MLE con respecto a la divergencia K-L es: $R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{término de segundo orden complejo}] + O(n^{-3})$

donde:

$G^*_{ij}(\theta^*)$ : Matriz de información de Fisher
$\tilde{G}_{ij}(\theta^*)$ : Negativa de la esperanza de la matriz Hessiana
$G_{ij}(\theta^*)$ : Matriz de varianza-covarianza bajo la distribución verdadera

Resultados Simplificados para Familia Exponencial

Corolario 1: Para modelos de familia exponencial $g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta))$ : $R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{función de cumulantes de tercer y cuarto orden}] + O(n^{-3})$

Propiedad clave: $G^* = \tilde{G} = \ddot{\Psi}(\theta^*)$ (matriz de segunda derivada)

Criterio $p-n$

Criterio para Modelos Generales

$C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*)$

Criterio para Familia Exponencial

$C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{término de segundo orden estimado}]$

donde $\hat{\Sigma}$ es la matriz de covarianza muestral de los términos $\xi_i$ .

Establecimiento de Umbral

El umbral $C$ se establece mediante la relación entre la tasa de error bayesiana y la divergencia K-L:

Si $D[g_1 | g_2] \leq \delta$ , entonces la tasa de error $\text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8}$
Para umbral de tasa de error $1/2 - \alpha$ , aproximadamente $C_\alpha = 8\alpha^2$

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Calidad de Vino Tinto:
- Fuente: Repositorio de Aprendizaje Automático UCI
- Tamaño de muestra: 1599 (datos de vino tinto)
- Variables: 11 sustancias químicas (variables continuas) + indicador de calidad (enteros 3-8)
- Modelo: Modelo de familia exponencial de 47 dimensiones (después de filtrado de correlación)
Conjunto de Datos de Abulón:
- Fuente: Repositorio de Aprendizaje Automático UCI
- Tamaño de muestra: 4177
- Variables: Sexo (3 clases) + número de anillos (enteros 1-29)
- Modelo: Distribución multinomial de 62 dimensiones (63 categorías)

Diseño Experimental

Datos de vino tinto: División aleatoria en dos mitades, una mitad para construcción del modelo, otra para estimación de parámetros
Datos de abulón: Aplicación directa de la fórmula del criterio $p-n$ para distribución multinomial
Uso de método MCMC para manejar el problema de la constante de normalización en modelos complejos de familia exponencial

Resultados Experimentales

Resultados del Conjunto de Datos de Vino Tinto

Modelo de 47 dimensiones ( $n=799$ $n = 799$ ):
- Término de primer orden: 2.95e-02
- Término de segundo orden: -1.30e-04
- Riesgo de estimación total: 2.93e-02
- Correspondiente a $\alpha \approx 0.06$ , tasa de error bayesiana > 0.44
Modelo simplificado de 37 dimensiones:
- Riesgo de estimación total: 1.62e-02 < 0.02 (umbral para $\alpha=0.05$ )
- Satisface los requisitos del criterio $p-n$
Rendimiento de Clasificación: Precisión del clasificador generativo 58%, árbol de decisión 63%, pero el modelo generativo tiene menos sobreajuste

Resultados del Conjunto de Datos de Abulón

$p=62$ , $n=4177$ , $M̂=36128.33$
Riesgo de primer orden: 0.0074, riesgo de segundo orden: 1.73e-04
Riesgo total: 0.0076 < 0.02 ( $\alpha=0.05$ )
Satisface el criterio $p-n$
Pero para $\alpha=0.01$ se requiere $n \geq 38847$ , la muestra real es insuficiente

Hallazgos Clave

El término de segundo orden contribuye poco al riesgo total, la aproximación de primer orden es generalmente suficiente
El criterio $p-n$ puede guiar efectivamente la selección de modelo y determinación del tamaño de muestra
Los modelos complejos pueden implementarse mediante método MCMC sin necesidad de constante de normalización explícita

Trabajo Relacionado

Teoría de Familia Exponencial

Portnoy, Stone, Barron & Sheu estudiaron la convergencia de secuencias de familia exponencial
Wainwright & Jordan investigaron la selección de funciones base en modelos gráficos
Efron & Tibshirani estudiaron la construcción de familia exponencial mixta

Geometría de Información

La teoría de geometría de información de Amari & Nagaoka proporciona base geométrica para este artículo
Concepto de proyección de información de Csiszár
Marco teórico de divergencia $\alpha$

Selección de Modelo

Relación con criterios de información AIC/TIC
El método de este artículo separa riesgo de estimación y riesgo de aproximación

Conclusiones y Discusión

Conclusiones Principales

Se establece teoría asintótica precisa del riesgo de estimación de MLE, especialmente forma simplificada para familia exponencial
Se propone criterio $p-n$ práctico para determinación de tamaño de muestra y problemas de aceptación de modelo
Se proporciona marco algorítmico para manejar modelos complejos de familia exponencial
Se establece conexión teórica con criterios de información

Limitaciones

Los supuestos teóricos requieren condiciones de regularidad apropiadas
El cálculo del término de segundo orden es complejo, la práctica generalmente usa aproximación de primer orden
El establecimiento de umbral se basa en relación aproximada, puede no ser suficientemente preciso
Para modelos no de familia exponencial, la forma del criterio es más compleja

Direcciones Futuras

Extensión a familia de divergencia más general
Investigación de propiedades de muestra finita
Desarrollo de algoritmos computacionales más eficientes
Aplicación a modelos estadísticos modernos como aprendizaje profundo

Evaluación Profunda

Ventajas

Rigor Teórico: Proporciona pruebas matemáticas completas, análisis teórico profundo
Valor Práctico: El criterio $p-n$ puede aplicarse directamente a problemas reales
Innovación Metodológica: El enfoque de separar riesgo de estimación y riesgo de aproximación es novedoso
Viabilidad Computacional: Proporciona esquema de implementación MCMC para modelos complejos
Aplicabilidad Amplia: Aplicable a varios modelos de familia exponencial

Insuficiencias

Complejidad Computacional: El cálculo del término de segundo orden requiere gran cantidad de cálculo, limitando aplicación práctica
Condiciones de Supuesto: Requiere supuestos de regularidad relativamente fuertes
Experimentos Limitados: Validación solo en dos conjuntos de datos
Aproximación de Umbral: La aproximación de la relación entre tasa de error bayesiana y divergencia K-L puede no ser suficientemente precisa

Influencia

Contribución Teórica: Proporciona nueva herramienta de análisis para teoría de aprendizaje estadístico
Orientación Práctica: Proporciona criterio cuantitativo para selección de modelo
Metodología: Establece nuevo marco de descomposición de riesgo
Extensibilidad: Sienta base teórica para investigación posterior

Escenarios Aplicables

Planificación de tamaño de muestra para modelos de familia exponencial
Selección de modelo para modelos estadísticos complejos
Control de complejidad de modelo en aprendizaje automático
Orientación para selección de prior en estadística bayesiana

Referencias Bibliográficas

Este artículo cita 28 referencias importantes que abarcan geometría de información, teoría de familia exponencial, estadística asintótica y otros campos múltiples, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen monografía de geometría de información de Amari, investigación de convergencia de familia exponencial de Barron & Sheu, así como literatura clásica de teoría de aprendizaje estadístico.