2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov
Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
academic

Descenso Doble Bayesiano

Información Básica

  • ID del Artículo: 2507.07338
  • Título: Bayesian Double Descent
  • Autores: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
  • Clasificación: stat.ML cs.LG stat.CO
  • Fecha de Publicación: Primer Borrador: 25 de diciembre de 2024; Este Borrador: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2507.07338

Resumen

El descenso doble (double descent) es una característica de redescenso que exhiben los modelos estadísticos sobreparametrizados (como las redes neuronales profundas) en su función de riesgo. Con el aumento de la complejidad del modelo, la función de riesgo muestra una región en forma de U debido al equilibrio tradicional sesgo-varianza. Cuando el número de parámetros iguala el número de observaciones, el modelo se convierte en un modelo interpolador y el riesgo puede ser ilimitado. Finalmente, en la región sobreparametrizada, el riesgo desciende nuevamente—este es el efecto de descenso doble. Este artículo tiene como objetivo demostrar que este fenómeno posee una interpretación bayesiana natural y que no entra en conflicto con el principio tradicional de la navaja de Occam. El fundamento teórico utiliza selección de modelos bayesiana, la razón de densidad de Dickey-Savage, y conecta la regresión ridge generalizada y los métodos de contracción global-local con el descenso doble.

Antecedentes de Investigación y Motivación

Problemas Centrales

  1. Ausencia de Interpretación Bayesiana del Fenómeno de Descenso Doble: El fenómeno de descenso doble se ha estudiado principalmente desde una perspectiva frecuentista, careciendo de un marco teórico bayesiano sistemático
  2. Conflicto Aparente entre la Navaja de Occam y el Descenso Doble: Los métodos bayesianos favorecen modelos simples, mientras que el descenso doble sugiere que los modelos complejos pueden ser superiores
  3. Comprensión Teórica Insuficiente de Modelos Sobreparametrizados: Cuando el número de parámetros supera el número de muestras, la teoría estadística tradicional falla

Importancia de la Investigación

  1. Unificación Teórica: Proporcionar un marco teórico bayesiano unificado para el fenómeno de descenso doble
  2. Orientación Práctica: Proporcionar apoyo teórico para métodos modernos de aprendizaje automático como el aprendizaje profundo
  3. Contribución Metodológica: Conectar la teoría estadística clásica con la práctica moderna del aprendizaje automático

Limitaciones de Métodos Existentes

  1. Limitaciones de la Perspectiva Frecuentista: La investigación existente se enfoca principalmente en estimadores de norma L2 mínima, ignorando el papel de la regularización previa
  2. Fallo de la Aproximación BIC: Cuando p > n, la aproximación de Laplace (BIC) tiene un desempeño deficiente
  3. Ineficacia de Límites de Riesgo Empírico: Para interpoladores, el riesgo empírico es cero, haciendo que los límites tradicionales pierdan significado

Contribuciones Principales

  1. Establecer Marco Teórico Bayesiano para el Descenso Doble: Demostrar que la distribución previa condicional p(θ_M|M) es el factor clave que impulsa el fenómeno de descenso doble
  2. Resolver la Paradoja de la Navaja de Occam: Demostrar que la navaja de Occam bayesiana y el fenómeno de descenso doble no entran en conflicto
  3. Conectar Métodos Clásicos con Tecnología Moderna: Vincular la regresión ridge generalizada, métodos de contracción global-local con el descenso doble
  4. Proporcionar Teorema de Equivalencia Computacional: Lograr equivalencia computacional de modelos anidados mediante la razón de densidad de Dickey-Savage
  5. Extensión a Redes Neuronales: Aplicar el marco teórico a regresión de redes neuronales de alta dimensión

Explicación Detallada de Métodos

Definición de Tareas

Estudiar el comportamiento de la función de riesgo en modelos de regresión sobreparametrizados, particularmente el fenómeno de descenso doble del riesgo bayesiano R(M) cuando varía la complejidad del modelo M:

Definición de Descenso Doble Bayesiano: Sea R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² el riesgo bayesiano condicional previo del estimador bajo el modelo M. Cuando M > n, R(M) exhibe comportamiento de redescenso.

Marco Teórico

1. Marco de Complejidad de Modelo Bayesiano

Descomposición de Posterior Conjunta:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

Evidencia (Verosimilitud Marginal):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

Perspectiva Clave: La distribución previa condicional p(θ_M|M) afecta el riesgo bayesiano a través del proceso de marginalización, actuando como regularización implícita en la región sobreparametrizada.

2. Modelos Anidados y Teorema de Equivalencia Computacional

Teorema 3.1 (Modelos Anidados y Equivalencia Computacional): Bajo condiciones de consistencia:

  • p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
  • p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

Se puede calcular la estimación de función del submodelo m desde el modelo completo sobreparametrizado M:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Razón de Densidad de Dickey-Savage:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. Limitaciones de la Aproximación BIC

Cuando p < n, la aproximación de Laplace proporciona:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

Pero cuando p > n, esta aproximación falla, y el impacto de la distribución previa p(θ|M) en el riesgo bayesiano se vuelve significativo.

Conexión de Regresión Ridge Generalizada

Representación de Descomposición Ortogonal

Descomposición SVD de la matriz de diseño X: PXTXQ = Λ², obtenemos:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

donde k_i es el parámetro de contracción local, correspondiente a la escala local del modelo de contracción global-local.

Parámetro de Contracción Óptimo

Optimizando la verosimilitud marginal z_i|k_i, σ² obtenemos:

k̂_i = (λ²_i σ²)/(z²_i - σ²) para z²_i > σ²

Extensión a Redes Neuronales

Especificación Jerárquica Bayesiana:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

Esto permite el aprendizaje adaptativo de funciones base mientras se mantiene el marco de selección de modelos bayesiano.

Configuración Experimental

Experimento de Regresión Polinomial

Generación de Datos:

  • Función verdadera: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
  • Tamaño de muestra: n = 20
  • Complejidad del modelo: d = 1, 2, ..., 50

Selección de Funciones Base: Usar funciones base polinomiales de Legendre, proporcionando una base ortogonal numéricamente estable.

Método de Estimación: Usar pseudoinversa de Moore-Penrose, proporcionando solución de norma mínima en configuración sobreparametrizada.

Regresión Polinomial Bayesiana

Método de Young:

  • Previa: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
  • Posterior: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Método de Deaton:

  • Restricción de orden: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
  • Ajuste de regresión isotónica (PAVA) de estimación MAP sin restricciones

Resultados Experimentales

Verificación del Fenómeno de Descenso Doble

Tres Fases:

  1. Región Clásica (d < 5): Aumentar complejidad reduce sesgo y error de prueba
  2. Crisis de Interpolación (d ≈ n = 20): Error de prueba alcanza su pico, el modelo se ajusta perfectamente a datos de entrenamiento pero generaliza mal
  3. Región Sobreparametrizada (d > 30): Error de prueba desciende nuevamente, sobreparametrización extrema mejora la generalización

Hallazgos Clave

  1. Efecto de Regularización Implícita: La solución de norma mínima posee sesgo implícito hacia funciones simples en configuración sobreparametrizada
  2. Ventaja Bayesiana: Con especificación previa apropiada, los métodos bayesianos funcionan bien en todas las regiones
  3. Eficiencia Computacional: Se puede usar directamente el modelo de máxima complejidad posible, evitando selección de modelo que consume tiempo

Comportamiento de Verosimilitud Marginal

Para el modelo con grado polinomial verdadero p_true = 10, la verosimilitud marginal alcanza su pico en la complejidad correspondiente, verificando la efectividad de la navaja de Occam bayesiana.

Trabajo Relacionado

Investigación Frecuentista

  1. Belkin et al. (2019): Observación pionera del descenso doble en regresión lineal
  2. Bach (2024): Extensión a modelos de regresión aleatoria
  3. Hastie et al. (2022): Estudio de propiedades de interpoladores

Métodos Bayesianos

  1. MacKay (1992): Interpolación bayesiana y regularización de hiperparámetros
  2. Polson & Scott (2012): Marco de contracción global-local
  3. Young (1977), Deaton (1980): Métodos bayesianos para regresión polinomial

Equilibrio Sesgo-Varianza

  1. Geman et al. (1992): Equilibrio sesgo-varianza en redes neuronales
  2. Efron & Morris (1973): Ventajas de estimadores de contracción

Conclusiones y Discusión

Conclusiones Principales

  1. Unificación Teórica: El fenómeno de descenso doble posee una interpretación bayesiana natural, impulsada por la distribución previa condicional p(θ_M|M)
  2. Compatibilidad de la Navaja de Occam: La verosimilitud marginal aún favorece modelos simples, pero la distribución previa condicional puede proporcionar buenas propiedades de riesgo en la región sobreparametrizada
  3. Orientación Práctica: Se recomienda usar el modelo de máxima complejidad posible, confiando en la regularización automática del marco bayesiano

Limitaciones

  1. Desafío de Especificación Previa: Necesidad de especificar distribuciones previas de parámetros conjuntos en espacios complejos
  2. Complejidad Computacional: Cálculo de verosimilitud marginal para funciones base de redes neuronales es difícil
  3. Brecha Teórica: Análisis teórico completo en casos de alta dimensión aún necesita desarrollo

Direcciones Futuras

  1. Previas Adaptativas: Desarrollar especificaciones previas que se ajusten automáticamente a la estructura de datos
  2. Extensión a Aprendizaje Profundo: Extender el marco a aprendizaje profundo donde el número de parámetros supera enormemente el número de muestras
  3. Métodos Computacionales: Desarrollar técnicas de inferencia aproximada eficientes en configuraciones de alta dimensión

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primera propuesta de marco teórico bayesiano sistemático para el fenómeno de descenso doble
  2. Resolución de Problemas: Resolución elegante del conflicto aparente entre la navaja de Occam y el descenso doble
  3. Conexión de Métodos: Conexión exitosa entre métodos estadísticos clásicos y aprendizaje automático moderno
  4. Experimentación Suficiente: Demostración clara de predicciones teóricas mediante regresión polinomial

Deficiencias

  1. Limitaciones de Aplicación: Principalmente limitado a configuraciones de regresión relativamente simples, aplicación a aprendizaje profundo aún necesita desarrollo
  2. Desafío Computacional: El cálculo práctico en casos de alta dimensión sigue siendo difícil
  3. Sensibilidad Previa: El éxito del método depende altamente de la selección previa apropiada

Impacto

  1. Contribución Teórica: Proporciona perspectiva bayesiana importante para comprender fenómenos del aprendizaje automático moderno
  2. Valor Práctico: Proporciona apoyo teórico para el uso de modelos sobreparametrizados
  3. Inspiración para Investigación: Abre nuevas direcciones de aplicación de métodos bayesianos en aprendizaje automático moderno

Escenarios Aplicables

  1. Problemas de Regresión: Especialmente regresión de alta dimensión y aproximación de funciones
  2. Selección de Modelos: Escenarios que requieren selección entre múltiples niveles de complejidad
  3. Cuantificación de Incertidumbre: Aplicaciones que requieren predicción simultánea y estimación de incertidumbre

Referencias Bibliográficas

Este artículo cita numerosas referencias importantes, incluyendo:

  • Belkin et al. (2019): Trabajo pionero sobre el fenómeno de descenso doble
  • MacKay (1992): Literatura clásica sobre interpolación bayesiana
  • Polson & Scott (2012): Método de contracción global-local
  • Young (1977), Deaton (1980): Trabajo temprano sobre regresión polinomial bayesiana

Este artículo tiene importancia significativa en teoría, proporcionando una nueva perspectiva bayesiana para comprender el fenómeno de descenso doble en aprendizaje automático moderno. Aunque aún presenta desafíos en aplicación práctica, sienta una base teórica sólida para investigación futura.