2025-11-14T18:28:13.480518

MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--

Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic

Velocidad de convergencia de MLE a la proyección de información de la familia exponencial: Criterio para la dimensión del modelo y el tamaño de muestra -- versión completa de prueba--

Información Básica

  • ID del Artículo: 2105.08947
  • Título: Velocidad de convergencia de MLE a la proyección de información de la familia exponencial: Criterio para la dimensión del modelo y el tamaño de muestra -- versión completa de prueba--
  • Autor: Yo Sheena (Facultad de Ciencia de Datos, Universidad de Shiga; Profesor Visitante, Instituto de Investigación de Estadística Matemática)
  • Clasificación: math.ST stat.TH
  • Fecha de Publicación: Mayo de 2021 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2105.08947

Resumen

Este artículo estudia el problema de encontrar la distribución más cercana a la distribución verdadera dentro de un modelo paramétrico cuando la distribución verdadera se encuentra fuera del modelo. Utilizando la divergencia de Kullback-Leibler (K-L) para medir la distancia entre distribuciones, la distribución más cercana se denomina "proyección de información". El riesgo de estimación del estimador de máxima verosimilitud (MLE) se define como la esperanza de la divergencia K-L entre la proyección de información y la distribución predictiva con MLE insertado. Este artículo deriva la expansión asintótica del riesgo hasta el orden n2n^{-2} e investiga las condiciones suficientes del riesgo para que la tasa de error bayesiana entre la distribución verdadera y la proyección de información sea inferior a un valor especificado. Combinando estos resultados, se propone el "criterio pnp-n" para determinar si el MLE es suficientemente cercano a la proyección de información bajo un modelo y muestra dados. En particular, el criterio para modelos de familia exponencial es relativamente simple y puede aplicarse a modelos complejos sin forma explícita de la constante de normalización. Este criterio puede servir como solución para problemas de aceptación de tamaño de muestra o modelo.

Antecedentes y Motivación de la Investigación

Problema Central

Cuando se proporciona un conjunto de datos, es necesario asumir una distribución de probabilidad desconocida como generador de muestras independientes e idénticamente distribuidas (i.i.d.). Si se adopta un modelo de distribución paramétrica para "explicar" los datos, la tarea principal es encontrar la distribución "mejor" dentro del modelo. Dado que la distribución verdadera generalmente se encuentra fuera del modelo, "mejor" significa la distribución más "cercana" a la distribución verdadera.

Importancia del Problema

La aproximación de distribución exitosa tiene aplicaciones amplias:

  1. Análisis de regresión o discriminante basado en distribuciones condicionales
  2. Imputación múltiple utilizando distribuciones condicionales o incondicionales
  3. Detección de anomalías basada en regiones de contorno de probabilidad
  4. Encarnación de la famosa ecuación de C.R. Rao: "Conocimiento incierto" + "Conocimiento del grado de incertidumbre" = "Conocimiento disponible"

Limitaciones de Métodos Existentes

Existen tres problemas importantes en el proceso de aproximación de distribuciones:

  1. Método sistemático para construir modelos de distribución
  2. Método para evaluar qué tan cerca está el estimador de la distribución óptima
  3. Método para evaluar qué tan cerca está la distribución óptima de la distribución verdadera

La investigación existente se enfoca principalmente en la proximidad entre la distribución predictiva y la distribución verdadera, no en la proximidad a la distribución óptima.

Motivación de la Investigación

Este artículo se enfoca en el segundo problema, estableciendo un criterio para determinar si el MLE es suficientemente cercano a la distribución óptima. Al separar el segundo y tercer problemas, fija el modelo y deriva la expansión asintótica del riesgo con respecto al tamaño de muestra nn.

Contribuciones Principales

  1. Contribución Teórica: Derivación de la expansión asintótica del riesgo de estimación de MLE hasta el orden n2n^{-2} para modelos de distribución general, con pruebas matemáticas completas
  2. Especialización de Familia Exponencial: Proporciona expresiones de riesgo simplificadas y criterio pnp-n práctico para modelos de familia exponencial
  3. Criterio Práctico: Propone el criterio pnp-n para determinar si el tamaño de muestra es suficiente o si la dimensión del modelo es apropiada
  4. Marco Algorítmico: Proporciona algoritmo computacional para modelos complejos de familia exponencial sin necesidad de constante de normalización explícita
  5. Verificación Empírica: Valida la efectividad del criterio pnp-n en dos conjuntos de datos reales
  6. Conexión Teórica: Establece relación con criterios de información (AIC/TIC)

Detalles del Método

Definición de Tarea

Dado un modelo de distribución paramétrica M={g(x;θ)θΘ}M = \{g(x; \theta) | \theta \in \Theta\}, donde g(x;θ)g(x; \theta) es una función de densidad de probabilidad con respecto a una medida de referencia dμd\mu. La función de densidad de la distribución verdadera es g(x)g(x). El objetivo es:

  • Encontrar la proyección de información g(x;θ)g(x; \theta^*) en el modelo
  • Evaluar la distancia entre la distribución predictiva g(x;θ^)g(x; \hat{\theta}) correspondiente al MLE θ^\hat{\theta} y la proyección de información
  • Establecer un criterio para determinar si el MLE es suficientemente cercano a la proyección de información

Marco Central

Definición de Proyección de Información

La proyección de información g(x;θ)g(x; \theta^*) se define como: θ=argminθΘD[g(x)g(x;θ)]\theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)] donde D[g1g2]=g1(x)log(g1(x)/g2(x))dμD[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu es la divergencia K-L.

Definición de Riesgo de Estimación

El riesgo de estimación se define como: R[g(x;θ)g(x;θ^)]=E[D[g(x;θ)g(x;θ^)]]R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]]

Resultados Teóricos

Expansión Asintótica para Modelos Generales

Teorema 1: El riesgo de estimación de MLE con respecto a la divergencia K-L es: R[g(x;θ)g(x;θ^)]=(2n)1tr(G~1GG~1G)+n2[teˊrmino de segundo orden complejo]+O(n3)R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{término de segundo orden complejo}] + O(n^{-3})

donde:

  • Gij(θ)G^*_{ij}(\theta^*): Matriz de información de Fisher
  • G~ij(θ)\tilde{G}_{ij}(\theta^*): Negativa de la esperanza de la matriz Hessiana
  • Gij(θ)G_{ij}(\theta^*): Matriz de varianza-covarianza bajo la distribución verdadera

Resultados Simplificados para Familia Exponencial

Corolario 1: Para modelos de familia exponencial g(x;θ)=exp(i=1pθiξi(x)Ψ(θ))g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta)): R[g(x;θ)g(x;θ^)]=12ntr(G~1G)+124n2[funcioˊn de cumulantes de tercer y cuarto orden]+O(n3)R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{función de cumulantes de tercer y cuarto orden}] + O(n^{-3})

Propiedad clave: G=G~=Ψ¨(θ)G^* = \tilde{G} = \ddot{\Psi}(\theta^*) (matriz de segunda derivada)

Criterio pnp-n

Criterio para Modelos Generales

C12ntr(G~^1G^G~^1G^)C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*)

Criterio para Familia Exponencial

C12ntr(Σ^(Ψ¨(θ^))1)+124n2[teˊrmino de segundo orden estimado]C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{término de segundo orden estimado}]

donde Σ^\hat{\Sigma} es la matriz de covarianza muestral de los términos ξi\xi_i.

Establecimiento de Umbral

El umbral CC se establece mediante la relación entre la tasa de error bayesiana y la divergencia K-L:

  • Si D[g1g2]δD[g_1 | g_2] \leq \delta, entonces la tasa de error Er[g1g2]1/2δ/8\text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8}
  • Para umbral de tasa de error 1/2α1/2 - \alpha, aproximadamente Cα=8α2C_\alpha = 8\alpha^2

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos de Calidad de Vino Tinto:
    • Fuente: Repositorio de Aprendizaje Automático UCI
    • Tamaño de muestra: 1599 (datos de vino tinto)
    • Variables: 11 sustancias químicas (variables continuas) + indicador de calidad (enteros 3-8)
    • Modelo: Modelo de familia exponencial de 47 dimensiones (después de filtrado de correlación)
  2. Conjunto de Datos de Abulón:
    • Fuente: Repositorio de Aprendizaje Automático UCI
    • Tamaño de muestra: 4177
    • Variables: Sexo (3 clases) + número de anillos (enteros 1-29)
    • Modelo: Distribución multinomial de 62 dimensiones (63 categorías)

Diseño Experimental

  • Datos de vino tinto: División aleatoria en dos mitades, una mitad para construcción del modelo, otra para estimación de parámetros
  • Datos de abulón: Aplicación directa de la fórmula del criterio pnp-n para distribución multinomial
  • Uso de método MCMC para manejar el problema de la constante de normalización en modelos complejos de familia exponencial

Resultados Experimentales

Resultados del Conjunto de Datos de Vino Tinto

  • Modelo de 47 dimensiones (n=799n=799):
    • Término de primer orden: 2.95e-02
    • Término de segundo orden: -1.30e-04
    • Riesgo de estimación total: 2.93e-02
    • Correspondiente a α0.06\alpha \approx 0.06, tasa de error bayesiana > 0.44
  • Modelo simplificado de 37 dimensiones:
    • Riesgo de estimación total: 1.62e-02 < 0.02 (umbral para α=0.05\alpha=0.05)
    • Satisface los requisitos del criterio pnp-n
  • Rendimiento de Clasificación: Precisión del clasificador generativo 58%, árbol de decisión 63%, pero el modelo generativo tiene menos sobreajuste

Resultados del Conjunto de Datos de Abulón

  • p=62p=62, n=4177n=4177, M^=36128.33M̂=36128.33
  • Riesgo de primer orden: 0.0074, riesgo de segundo orden: 1.73e-04
  • Riesgo total: 0.0076 < 0.02 (α=0.05\alpha=0.05)
  • Satisface el criterio pnp-n
  • Pero para α=0.01\alpha=0.01 se requiere n38847n \geq 38847, la muestra real es insuficiente

Hallazgos Clave

  1. El término de segundo orden contribuye poco al riesgo total, la aproximación de primer orden es generalmente suficiente
  2. El criterio pnp-n puede guiar efectivamente la selección de modelo y determinación del tamaño de muestra
  3. Los modelos complejos pueden implementarse mediante método MCMC sin necesidad de constante de normalización explícita

Trabajo Relacionado

Teoría de Familia Exponencial

  • Portnoy, Stone, Barron & Sheu estudiaron la convergencia de secuencias de familia exponencial
  • Wainwright & Jordan investigaron la selección de funciones base en modelos gráficos
  • Efron & Tibshirani estudiaron la construcción de familia exponencial mixta

Geometría de Información

  • La teoría de geometría de información de Amari & Nagaoka proporciona base geométrica para este artículo
  • Concepto de proyección de información de Csiszár
  • Marco teórico de divergencia α\alpha

Selección de Modelo

  • Relación con criterios de información AIC/TIC
  • El método de este artículo separa riesgo de estimación y riesgo de aproximación

Conclusiones y Discusión

Conclusiones Principales

  1. Se establece teoría asintótica precisa del riesgo de estimación de MLE, especialmente forma simplificada para familia exponencial
  2. Se propone criterio pnp-n práctico para determinación de tamaño de muestra y problemas de aceptación de modelo
  3. Se proporciona marco algorítmico para manejar modelos complejos de familia exponencial
  4. Se establece conexión teórica con criterios de información

Limitaciones

  1. Los supuestos teóricos requieren condiciones de regularidad apropiadas
  2. El cálculo del término de segundo orden es complejo, la práctica generalmente usa aproximación de primer orden
  3. El establecimiento de umbral se basa en relación aproximada, puede no ser suficientemente preciso
  4. Para modelos no de familia exponencial, la forma del criterio es más compleja

Direcciones Futuras

  1. Extensión a familia de divergencia más general
  2. Investigación de propiedades de muestra finita
  3. Desarrollo de algoritmos computacionales más eficientes
  4. Aplicación a modelos estadísticos modernos como aprendizaje profundo

Evaluación Profunda

Ventajas

  1. Rigor Teórico: Proporciona pruebas matemáticas completas, análisis teórico profundo
  2. Valor Práctico: El criterio pnp-n puede aplicarse directamente a problemas reales
  3. Innovación Metodológica: El enfoque de separar riesgo de estimación y riesgo de aproximación es novedoso
  4. Viabilidad Computacional: Proporciona esquema de implementación MCMC para modelos complejos
  5. Aplicabilidad Amplia: Aplicable a varios modelos de familia exponencial

Insuficiencias

  1. Complejidad Computacional: El cálculo del término de segundo orden requiere gran cantidad de cálculo, limitando aplicación práctica
  2. Condiciones de Supuesto: Requiere supuestos de regularidad relativamente fuertes
  3. Experimentos Limitados: Validación solo en dos conjuntos de datos
  4. Aproximación de Umbral: La aproximación de la relación entre tasa de error bayesiana y divergencia K-L puede no ser suficientemente precisa

Influencia

  1. Contribución Teórica: Proporciona nueva herramienta de análisis para teoría de aprendizaje estadístico
  2. Orientación Práctica: Proporciona criterio cuantitativo para selección de modelo
  3. Metodología: Establece nuevo marco de descomposición de riesgo
  4. Extensibilidad: Sienta base teórica para investigación posterior

Escenarios Aplicables

  1. Planificación de tamaño de muestra para modelos de familia exponencial
  2. Selección de modelo para modelos estadísticos complejos
  3. Control de complejidad de modelo en aprendizaje automático
  4. Orientación para selección de prior en estadística bayesiana

Referencias Bibliográficas

Este artículo cita 28 referencias importantes que abarcan geometría de información, teoría de familia exponencial, estadística asintótica y otros campos múltiples, proporcionando base teórica sólida para la investigación. Las referencias clave incluyen monografía de geometría de información de Amari, investigación de convergencia de familia exponencial de Barron & Sheu, así como literatura clásica de teoría de aprendizaje estadístico.