Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
La double descente est une caractéristique de redescente observée dans la fonction de risque des modèles statistiques surparamétrisés (tels que les réseaux de neurones profonds). À mesure que la complexité du modèle augmente, la fonction de risque présente une région en forme de U en raison du compromis classique biais-variance. Lorsque le nombre de paramètres égale le nombre d'observations, le modèle devient un modèle d'interpolation et le risque peut être non borné. Finalement, dans la région surparamétrisée, le risque redescend — c'est l'effet de double descente. Cet article vise à démontrer que ce phénomène possède une interprétation bayésienne naturelle et à prouver que cela ne contredit pas le principe classique du rasoir d'Occam. Le cadre théorique utilise la sélection de modèles bayésienne, le ratio de densité de Dickey-Savage, et établit des liens entre la régression ridge généralisée, les méthodes de rétrécissement global-local et la double descente.
Absence d'interprétation bayésienne du phénomène de double descente: Le phénomène de double descente a été principalement étudié sous une perspective fréquentiste, manquant d'un cadre théorique bayésien systématique
Conflit apparent entre le rasoir d'Occam et la double descente: Les méthodes bayésiennes favorisent les modèles simples, tandis que la double descente suggère que les modèles complexes pourraient être meilleurs
Compréhension théorique insuffisante des modèles surparamétrisés: Lorsque le nombre de paramètres dépasse le nombre d'observations, la théorie statistique classique échoue
Limitations de la perspective fréquentiste: Les recherches existantes se concentrent principalement sur l'estimateur de norme L2 minimale, négligeant le rôle de la régularisation a priori
Échec de l'approximation BIC: Lorsque p > n, l'approximation de Laplace (BIC) fonctionne mal
Invalabilité des bornes de risque empirique: Pour les interpolateurs, le risque empirique est zéro, rendant les bornes classiques sans signification
Établir un cadre théorique bayésien pour la double descente: Démontrer que la distribution a priori conditionnelle p(θ_M|M) est le facteur clé conduisant au phénomène de double descente
Résoudre le paradoxe du rasoir d'Occam: Prouver que le rasoir d'Occam bayésien et le phénomène de double descente ne sont pas en conflit
Connecter les méthodes classiques aux techniques modernes: Établir des liens entre la régression ridge généralisée, les méthodes de rétrécissement global-local et la double descente
Fournir des théorèmes d'équivalence computationnelle: Réaliser l'équivalence computationnelle des modèles imbriqués via le ratio de densité de Dickey-Savage
Étendre aux réseaux de neurones: Appliquer le cadre théorique à la régression de réseaux de neurones haute dimension
Étudier le comportement de la fonction de risque dans les modèles de régression surparamétrisés, en particulier le phénomène de double descente du risque bayésien R(M) lorsque la complexité du modèle M varie:
Définition de la double descente bayésienne: Soit R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² le risque bayésien conditionnel a priori de l'estimateur sous le modèle M. Lorsque M > n, R(M) présente un comportement de redescente.
Intuition Clé: La distribution a priori conditionnelle p(θ_M|M) influence le risque bayésien via le processus de marginalisation, jouant un rôle de régularisation implicite dans la région surparamétrisée.
Effet de Régularisation Implicite: La solution de norme minimale dans les paramètres surparamétrisés possède un biais implicite vers les fonctions simples
Avantage Bayésien: Avec une spécification a priori appropriée, les méthodes bayésiennes fonctionnent bien dans toutes les régions
Efficacité Computationnelle: On peut directement utiliser le modèle de complexité maximale possible, évitant la sélection de modèles coûteuse
Pour le modèle avec degré polynomial réel p_true = 10, la vraisemblance marginale atteint un pic à la complexité correspondante, validant l'efficacité du rasoir d'Occam bayésien.
Unification Théorique: Le phénomène de double descente possède une interprétation bayésienne naturelle, conduite par la distribution a priori conditionnelle p(θ_M|M)
Compatibilité du Rasoir d'Occam: La vraisemblance marginale favorise toujours les modèles simples, mais la distribution a priori conditionnelle peut fournir de bonnes propriétés de risque dans la région surparamétrisée
Orientation Pratique: Il est recommandé d'utiliser le modèle de complexité maximale possible, en s'appuyant sur la régularisation automatique du cadre bayésien
Limitations d'Application: Principalement limitées aux paramètres de régression relativement simples, les applications à l'apprentissage profond nécessitent encore du développement
Défis Computationnels: Le calcul pratique dans les cas haute dimension reste difficile
Sensibilité A Priori: Le succès de la méthode dépend fortement du choix approprié de la distribution a priori
Cet article cite de nombreuses références importantes, notamment:
Belkin et al. (2019): Travail fondateur sur le phénomène de double descente
MacKay (1992): Littérature classique sur l'interpolation bayésienne
Polson & Scott (2012): Méthodes de rétrécissement global-local
Young (1977), Deaton (1980): Travaux précoces sur la régression polynomiale bayésienne
Cet article revêt une importance théorique significative, fournissant une nouvelle perspective bayésienne pour comprendre le phénomène de double descente en apprentissage automatique moderne. Bien que des défis subsistent dans les applications pratiques, il jette les bases théoriques solides pour les recherches futures.