2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov

Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.

academic

Double Descente Bayésienne

Informations Fondamentales

ID de l'article: 2507.07338
Titre: Bayesian Double Descent
Auteurs: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
Classification: stat.ML cs.LG stat.CO
Date de publication: Premier brouillon: 25 décembre 2024; Brouillon actuel: 16 octobre 2025
Lien de l'article: https://arxiv.org/abs/2507.07338

Résumé

La double descente est une caractéristique de redescente observée dans la fonction de risque des modèles statistiques surparamétrisés (tels que les réseaux de neurones profonds). À mesure que la complexité du modèle augmente, la fonction de risque présente une région en forme de U en raison du compromis classique biais-variance. Lorsque le nombre de paramètres égale le nombre d'observations, le modèle devient un modèle d'interpolation et le risque peut être non borné. Finalement, dans la région surparamétrisée, le risque redescend — c'est l'effet de double descente. Cet article vise à démontrer que ce phénomène possède une interprétation bayésienne naturelle et à prouver que cela ne contredit pas le principe classique du rasoir d'Occam. Le cadre théorique utilise la sélection de modèles bayésienne, le ratio de densité de Dickey-Savage, et établit des liens entre la régression ridge généralisée, les méthodes de rétrécissement global-local et la double descente.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Absence d'interprétation bayésienne du phénomène de double descente: Le phénomène de double descente a été principalement étudié sous une perspective fréquentiste, manquant d'un cadre théorique bayésien systématique
Conflit apparent entre le rasoir d'Occam et la double descente: Les méthodes bayésiennes favorisent les modèles simples, tandis que la double descente suggère que les modèles complexes pourraient être meilleurs
Compréhension théorique insuffisante des modèles surparamétrisés: Lorsque le nombre de paramètres dépasse le nombre d'observations, la théorie statistique classique échoue

Importance de la Recherche

Unification théorique: Fournir un cadre théorique bayésien unifié pour le phénomène de double descente
Orientation pratique: Fournir un soutien théorique aux méthodes modernes d'apprentissage automatique telles que l'apprentissage profond
Contribution méthodologique: Connecter la théorie statistique classique à la pratique moderne de l'apprentissage automatique

Limitations des Méthodes Existantes

Limitations de la perspective fréquentiste: Les recherches existantes se concentrent principalement sur l'estimateur de norme L2 minimale, négligeant le rôle de la régularisation a priori
Échec de l'approximation BIC: Lorsque p > n, l'approximation de Laplace (BIC) fonctionne mal
Invalabilité des bornes de risque empirique: Pour les interpolateurs, le risque empirique est zéro, rendant les bornes classiques sans signification

Contributions Principales

Établir un cadre théorique bayésien pour la double descente: Démontrer que la distribution a priori conditionnelle p(θ_M|M) est le facteur clé conduisant au phénomène de double descente
Résoudre le paradoxe du rasoir d'Occam: Prouver que le rasoir d'Occam bayésien et le phénomène de double descente ne sont pas en conflit
Connecter les méthodes classiques aux techniques modernes: Établir des liens entre la régression ridge généralisée, les méthodes de rétrécissement global-local et la double descente
Fournir des théorèmes d'équivalence computationnelle: Réaliser l'équivalence computationnelle des modèles imbriqués via le ratio de densité de Dickey-Savage
Étendre aux réseaux de neurones: Appliquer le cadre théorique à la régression de réseaux de neurones haute dimension

Détails Méthodologiques

Définition de la Tâche

Étudier le comportement de la fonction de risque dans les modèles de régression surparamétrisés, en particulier le phénomène de double descente du risque bayésien R(M) lorsque la complexité du modèle M varie:

Définition de la double descente bayésienne: Soit R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² le risque bayésien conditionnel a priori de l'estimateur sous le modèle M. Lorsque M > n, R(M) présente un comportement de redescente.

Cadre Théorique

1. Cadre de Complexité de Modèle Bayésien

Décomposition de la Postérieure Conjointe:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

Évidence (Vraisemblance Marginale):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

Intuition Clé: La distribution a priori conditionnelle p(θ_M|M) influence le risque bayésien via le processus de marginalisation, jouant un rôle de régularisation implicite dans la région surparamétrisée.

2. Imbrication de Modèles et Théorème d'Équivalence Computationnelle

Théorème 3.1 (Imbrication de Modèles et Équivalence Computationnelle): Sous des conditions de cohérence:

p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

L'estimation fonctionnelle du sous-modèle m peut être calculée à partir du modèle complet surparamétrisé M:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Ratio de Densité de Dickey-Savage:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. Limitations de l'Approximation BIC

Lorsque p < n, l'approximation de Laplace donne:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

Cependant, lorsque p > n, cette approximation échoue et l'influence de la distribution a priori p(θ|M) sur le risque bayésien devient significative.

Connexion avec la Régression Ridge Généralisée

Représentation par Décomposition Orthogonale

Soit la décomposition en valeurs singulières de la matrice de conception X: PXTXQ = Λ², on obtient:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

où k_i est le paramètre de rétrécissement local, correspondant à l'échelle locale du modèle de rétrécissement global-local.

Paramètres de Rétrécissement Optimal

En optimisant la vraisemblance marginale z_i|k_i, σ², on obtient:

k̂_i = (λ²_i σ²)/(z²_i - σ²) pour z²_i > σ²

Extension aux Réseaux de Neurones

Spécification Hiérarchique Bayésienne:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

Cela permet l'apprentissage adaptatif des fonctions de base tout en maintenant le cadre de sélection de modèles bayésien.

Configuration Expérimentale

Expérience de Régression Polynomiale

Génération de Données:

Fonction réelle: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
Taille d'échantillon: n = 20
Complexité du modèle: d = 1, 2, ..., 50

Choix des Fonctions de Base: Utilisation de polynômes de Legendre, fournissant une base orthogonale numériquement stable.

Méthode d'Estimation: Utilisation de la pseudo-inverse de Moore-Penrose, fournissant la solution de norme minimale en cas de surparamétrage.

Régression Polynomiale Bayésienne

Méthode de Young:

A priori: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
Postérieure: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Méthode de Deaton:

Contrainte d'ordre: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
Ajustement par régression isotonique (PAVA) de l'estimation MAP sans contrainte

Résultats Expérimentaux

Vérification du Phénomène de Double Descente

Trois Phases:

Région Classique (d < 5): L'augmentation de la complexité réduit le biais et l'erreur de test
Crise d'Interpolation (d ≈ n = 20): L'erreur de test atteint un pic, le modèle s'ajuste parfaitement aux données d'entraînement mais généralise mal
Région Surparamétrisée (d > 30): L'erreur de test redescend, la surparamétrage extrême améliore la généralisation

Découvertes Clés

Effet de Régularisation Implicite: La solution de norme minimale dans les paramètres surparamétrisés possède un biais implicite vers les fonctions simples
Avantage Bayésien: Avec une spécification a priori appropriée, les méthodes bayésiennes fonctionnent bien dans toutes les régions
Efficacité Computationnelle: On peut directement utiliser le modèle de complexité maximale possible, évitant la sélection de modèles coûteuse

Comportement de la Vraisemblance Marginale

Pour le modèle avec degré polynomial réel p_true = 10, la vraisemblance marginale atteint un pic à la complexité correspondante, validant l'efficacité du rasoir d'Occam bayésien.

Travaux Connexes

Recherche Fréquentiste

Belkin et al. (2019): Première observation de la double descente en régression linéaire
Bach (2024): Extension aux modèles de régression aléatoire
Hastie et al. (2022): Étude des propriétés des interpolateurs

Méthodes Bayésiennes

MacKay (1992): Interpolation bayésienne et régularisation d'hyperparamètres
Polson & Scott (2012): Cadre de rétrécissement global-local
Young (1977), Deaton (1980): Méthodes bayésiennes pour la régression polynomiale

Compromis Biais-Variance

Geman et al. (1992): Compromis biais-variance dans les réseaux de neurones
Efron & Morris (1973): Avantages des estimateurs de rétrécissement

Conclusions et Discussion

Conclusions Principales

Unification Théorique: Le phénomène de double descente possède une interprétation bayésienne naturelle, conduite par la distribution a priori conditionnelle p(θ_M|M)
Compatibilité du Rasoir d'Occam: La vraisemblance marginale favorise toujours les modèles simples, mais la distribution a priori conditionnelle peut fournir de bonnes propriétés de risque dans la région surparamétrisée
Orientation Pratique: Il est recommandé d'utiliser le modèle de complexité maximale possible, en s'appuyant sur la régularisation automatique du cadre bayésien

Limitations

Défi de Spécification A Priori: Nécessité de spécifier une distribution a priori conjointe sur des espaces complexes
Complexité Computationnelle: Le calcul de la vraisemblance marginale pour les fonctions de base de réseaux de neurones est difficile
Lacune Théorique: L'analyse théorique complète dans les cas haute dimension reste à développer

Directions Futures

A Priori Adaptatif: Développer des spécifications a priori qui s'ajustent automatiquement à la structure des données
Extension à l'Apprentissage Profond: Étendre le cadre à l'apprentissage profond où le nombre de paramètres dépasse largement le nombre d'observations
Méthodes Computationnelles: Développer des techniques d'inférence approchée efficaces dans les paramètres haute dimension

Évaluation Approfondie

Points Forts

Innovation Théorique: Première fourniture d'un cadre théorique bayésien systématique pour le phénomène de double descente
Résolution de Problèmes: Résout élégamment le conflit apparent entre le rasoir d'Occam et la double descente
Connexion Méthodologique: Connecte avec succès les méthodes statistiques classiques aux techniques modernes d'apprentissage automatique
Expériences Suffisantes: Démontre clairement les prédictions théoriques via la régression polynomiale

Insuffisances

Limitations d'Application: Principalement limitées aux paramètres de régression relativement simples, les applications à l'apprentissage profond nécessitent encore du développement
Défis Computationnels: Le calcul pratique dans les cas haute dimension reste difficile
Sensibilité A Priori: Le succès de la méthode dépend fortement du choix approprié de la distribution a priori

Portée d'Impact

Contribution Théorique: Fournit une perspective bayésienne importante pour comprendre les phénomènes de l'apprentissage automatique moderne
Valeur Pratique: Fournit un soutien théorique pour l'utilisation de modèles surparamétrisés
Inspiration pour la Recherche: Ouvre de nouvelles directions d'application des méthodes bayésiennes en apprentissage automatique moderne

Scénarios Applicables

Problèmes de Régression: Particulièrement la régression haute dimension et l'approximation de fonctions
Sélection de Modèles: Scénarios nécessitant une sélection parmi plusieurs niveaux de complexité
Quantification de l'Incertitude: Applications nécessitant simultanément la prédiction et l'estimation de l'incertitude

Références

Cet article cite de nombreuses références importantes, notamment:

Belkin et al. (2019): Travail fondateur sur le phénomène de double descente
MacKay (1992): Littérature classique sur l'interpolation bayésienne
Polson & Scott (2012): Méthodes de rétrécissement global-local
Young (1977), Deaton (1980): Travaux précoces sur la régression polynomiale bayésienne

Cet article revêt une importance théorique significative, fournissant une nouvelle perspective bayésienne pour comprendre le phénomène de double descente en apprentissage automatique moderne. Bien que des défis subsistent dans les applications pratiques, il jette les bases théoriques solides pour les recherches futures.