Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
El descenso doble (double descent) es una característica de redescenso que exhiben los modelos estadísticos sobreparametrizados (como las redes neuronales profundas) en su función de riesgo. Con el aumento de la complejidad del modelo, la función de riesgo muestra una región en forma de U debido al equilibrio tradicional sesgo-varianza. Cuando el número de parámetros iguala el número de observaciones, el modelo se convierte en un modelo interpolador y el riesgo puede ser ilimitado. Finalmente, en la región sobreparametrizada, el riesgo desciende nuevamente—este es el efecto de descenso doble. Este artículo tiene como objetivo demostrar que este fenómeno posee una interpretación bayesiana natural y que no entra en conflicto con el principio tradicional de la navaja de Occam. El fundamento teórico utiliza selección de modelos bayesiana, la razón de densidad de Dickey-Savage, y conecta la regresión ridge generalizada y los métodos de contracción global-local con el descenso doble.
Ausencia de Interpretación Bayesiana del Fenómeno de Descenso Doble: El fenómeno de descenso doble se ha estudiado principalmente desde una perspectiva frecuentista, careciendo de un marco teórico bayesiano sistemático
Conflicto Aparente entre la Navaja de Occam y el Descenso Doble: Los métodos bayesianos favorecen modelos simples, mientras que el descenso doble sugiere que los modelos complejos pueden ser superiores
Comprensión Teórica Insuficiente de Modelos Sobreparametrizados: Cuando el número de parámetros supera el número de muestras, la teoría estadística tradicional falla
Limitaciones de la Perspectiva Frecuentista: La investigación existente se enfoca principalmente en estimadores de norma L2 mínima, ignorando el papel de la regularización previa
Fallo de la Aproximación BIC: Cuando p > n, la aproximación de Laplace (BIC) tiene un desempeño deficiente
Ineficacia de Límites de Riesgo Empírico: Para interpoladores, el riesgo empírico es cero, haciendo que los límites tradicionales pierdan significado
Establecer Marco Teórico Bayesiano para el Descenso Doble: Demostrar que la distribución previa condicional p(θ_M|M) es el factor clave que impulsa el fenómeno de descenso doble
Resolver la Paradoja de la Navaja de Occam: Demostrar que la navaja de Occam bayesiana y el fenómeno de descenso doble no entran en conflicto
Conectar Métodos Clásicos con Tecnología Moderna: Vincular la regresión ridge generalizada, métodos de contracción global-local con el descenso doble
Proporcionar Teorema de Equivalencia Computacional: Lograr equivalencia computacional de modelos anidados mediante la razón de densidad de Dickey-Savage
Extensión a Redes Neuronales: Aplicar el marco teórico a regresión de redes neuronales de alta dimensión
Estudiar el comportamiento de la función de riesgo en modelos de regresión sobreparametrizados, particularmente el fenómeno de descenso doble del riesgo bayesiano R(M) cuando varía la complejidad del modelo M:
Definición de Descenso Doble Bayesiano: Sea R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² el riesgo bayesiano condicional previo del estimador bajo el modelo M. Cuando M > n, R(M) exhibe comportamiento de redescenso.
Perspectiva Clave: La distribución previa condicional p(θ_M|M) afecta el riesgo bayesiano a través del proceso de marginalización, actuando como regularización implícita en la región sobreparametrizada.
Para el modelo con grado polinomial verdadero p_true = 10, la verosimilitud marginal alcanza su pico en la complejidad correspondiente, verificando la efectividad de la navaja de Occam bayesiana.
Unificación Teórica: El fenómeno de descenso doble posee una interpretación bayesiana natural, impulsada por la distribución previa condicional p(θ_M|M)
Compatibilidad de la Navaja de Occam: La verosimilitud marginal aún favorece modelos simples, pero la distribución previa condicional puede proporcionar buenas propiedades de riesgo en la región sobreparametrizada
Orientación Práctica: Se recomienda usar el modelo de máxima complejidad posible, confiando en la regularización automática del marco bayesiano
Limitaciones de Aplicación: Principalmente limitado a configuraciones de regresión relativamente simples, aplicación a aprendizaje profundo aún necesita desarrollo
Desafío Computacional: El cálculo práctico en casos de alta dimensión sigue siendo difícil
Sensibilidad Previa: El éxito del método depende altamente de la selección previa apropiada
Este artículo cita numerosas referencias importantes, incluyendo:
Belkin et al. (2019): Trabajo pionero sobre el fenómeno de descenso doble
MacKay (1992): Literatura clásica sobre interpolación bayesiana
Polson & Scott (2012): Método de contracción global-local
Young (1977), Deaton (1980): Trabajo temprano sobre regresión polinomial bayesiana
Este artículo tiene importancia significativa en teoría, proporcionando una nueva perspectiva bayesiana para comprender el fenómeno de descenso doble en aprendizaje automático moderno. Aunque aún presenta desafíos en aplicación práctica, sienta una base teórica sólida para investigación futura.