2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov
Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
academic

Double Descente Bayésienne

Informations Fondamentales

  • ID de l'article: 2507.07338
  • Titre: Bayesian Double Descent
  • Auteurs: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
  • Classification: stat.ML cs.LG stat.CO
  • Date de publication: Premier brouillon: 25 décembre 2024; Brouillon actuel: 16 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2507.07338

Résumé

La double descente est une caractéristique de redescente observée dans la fonction de risque des modèles statistiques surparamétrisés (tels que les réseaux de neurones profonds). À mesure que la complexité du modèle augmente, la fonction de risque présente une région en forme de U en raison du compromis classique biais-variance. Lorsque le nombre de paramètres égale le nombre d'observations, le modèle devient un modèle d'interpolation et le risque peut être non borné. Finalement, dans la région surparamétrisée, le risque redescend — c'est l'effet de double descente. Cet article vise à démontrer que ce phénomène possède une interprétation bayésienne naturelle et à prouver que cela ne contredit pas le principe classique du rasoir d'Occam. Le cadre théorique utilise la sélection de modèles bayésienne, le ratio de densité de Dickey-Savage, et établit des liens entre la régression ridge généralisée, les méthodes de rétrécissement global-local et la double descente.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Absence d'interprétation bayésienne du phénomène de double descente: Le phénomène de double descente a été principalement étudié sous une perspective fréquentiste, manquant d'un cadre théorique bayésien systématique
  2. Conflit apparent entre le rasoir d'Occam et la double descente: Les méthodes bayésiennes favorisent les modèles simples, tandis que la double descente suggère que les modèles complexes pourraient être meilleurs
  3. Compréhension théorique insuffisante des modèles surparamétrisés: Lorsque le nombre de paramètres dépasse le nombre d'observations, la théorie statistique classique échoue

Importance de la Recherche

  1. Unification théorique: Fournir un cadre théorique bayésien unifié pour le phénomène de double descente
  2. Orientation pratique: Fournir un soutien théorique aux méthodes modernes d'apprentissage automatique telles que l'apprentissage profond
  3. Contribution méthodologique: Connecter la théorie statistique classique à la pratique moderne de l'apprentissage automatique

Limitations des Méthodes Existantes

  1. Limitations de la perspective fréquentiste: Les recherches existantes se concentrent principalement sur l'estimateur de norme L2 minimale, négligeant le rôle de la régularisation a priori
  2. Échec de l'approximation BIC: Lorsque p > n, l'approximation de Laplace (BIC) fonctionne mal
  3. Invalabilité des bornes de risque empirique: Pour les interpolateurs, le risque empirique est zéro, rendant les bornes classiques sans signification

Contributions Principales

  1. Établir un cadre théorique bayésien pour la double descente: Démontrer que la distribution a priori conditionnelle p(θ_M|M) est le facteur clé conduisant au phénomène de double descente
  2. Résoudre le paradoxe du rasoir d'Occam: Prouver que le rasoir d'Occam bayésien et le phénomène de double descente ne sont pas en conflit
  3. Connecter les méthodes classiques aux techniques modernes: Établir des liens entre la régression ridge généralisée, les méthodes de rétrécissement global-local et la double descente
  4. Fournir des théorèmes d'équivalence computationnelle: Réaliser l'équivalence computationnelle des modèles imbriqués via le ratio de densité de Dickey-Savage
  5. Étendre aux réseaux de neurones: Appliquer le cadre théorique à la régression de réseaux de neurones haute dimension

Détails Méthodologiques

Définition de la Tâche

Étudier le comportement de la fonction de risque dans les modèles de régression surparamétrisés, en particulier le phénomène de double descente du risque bayésien R(M) lorsque la complexité du modèle M varie:

Définition de la double descente bayésienne: Soit R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² le risque bayésien conditionnel a priori de l'estimateur sous le modèle M. Lorsque M > n, R(M) présente un comportement de redescente.

Cadre Théorique

1. Cadre de Complexité de Modèle Bayésien

Décomposition de la Postérieure Conjointe:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

Évidence (Vraisemblance Marginale):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

Intuition Clé: La distribution a priori conditionnelle p(θ_M|M) influence le risque bayésien via le processus de marginalisation, jouant un rôle de régularisation implicite dans la région surparamétrisée.

2. Imbrication de Modèles et Théorème d'Équivalence Computationnelle

Théorème 3.1 (Imbrication de Modèles et Équivalence Computationnelle): Sous des conditions de cohérence:

  • p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
  • p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

L'estimation fonctionnelle du sous-modèle m peut être calculée à partir du modèle complet surparamétrisé M:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Ratio de Densité de Dickey-Savage:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. Limitations de l'Approximation BIC

Lorsque p < n, l'approximation de Laplace donne:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

Cependant, lorsque p > n, cette approximation échoue et l'influence de la distribution a priori p(θ|M) sur le risque bayésien devient significative.

Connexion avec la Régression Ridge Généralisée

Représentation par Décomposition Orthogonale

Soit la décomposition en valeurs singulières de la matrice de conception X: PXTXQ = Λ², on obtient:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

où k_i est le paramètre de rétrécissement local, correspondant à l'échelle locale du modèle de rétrécissement global-local.

Paramètres de Rétrécissement Optimal

En optimisant la vraisemblance marginale z_i|k_i, σ², on obtient:

k̂_i = (λ²_i σ²)/(z²_i - σ²) pour z²_i > σ²

Extension aux Réseaux de Neurones

Spécification Hiérarchique Bayésienne:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

Cela permet l'apprentissage adaptatif des fonctions de base tout en maintenant le cadre de sélection de modèles bayésien.

Configuration Expérimentale

Expérience de Régression Polynomiale

Génération de Données:

  • Fonction réelle: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
  • Taille d'échantillon: n = 20
  • Complexité du modèle: d = 1, 2, ..., 50

Choix des Fonctions de Base: Utilisation de polynômes de Legendre, fournissant une base orthogonale numériquement stable.

Méthode d'Estimation: Utilisation de la pseudo-inverse de Moore-Penrose, fournissant la solution de norme minimale en cas de surparamétrage.

Régression Polynomiale Bayésienne

Méthode de Young:

  • A priori: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
  • Postérieure: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Méthode de Deaton:

  • Contrainte d'ordre: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
  • Ajustement par régression isotonique (PAVA) de l'estimation MAP sans contrainte

Résultats Expérimentaux

Vérification du Phénomène de Double Descente

Trois Phases:

  1. Région Classique (d < 5): L'augmentation de la complexité réduit le biais et l'erreur de test
  2. Crise d'Interpolation (d ≈ n = 20): L'erreur de test atteint un pic, le modèle s'ajuste parfaitement aux données d'entraînement mais généralise mal
  3. Région Surparamétrisée (d > 30): L'erreur de test redescend, la surparamétrage extrême améliore la généralisation

Découvertes Clés

  1. Effet de Régularisation Implicite: La solution de norme minimale dans les paramètres surparamétrisés possède un biais implicite vers les fonctions simples
  2. Avantage Bayésien: Avec une spécification a priori appropriée, les méthodes bayésiennes fonctionnent bien dans toutes les régions
  3. Efficacité Computationnelle: On peut directement utiliser le modèle de complexité maximale possible, évitant la sélection de modèles coûteuse

Comportement de la Vraisemblance Marginale

Pour le modèle avec degré polynomial réel p_true = 10, la vraisemblance marginale atteint un pic à la complexité correspondante, validant l'efficacité du rasoir d'Occam bayésien.

Travaux Connexes

Recherche Fréquentiste

  1. Belkin et al. (2019): Première observation de la double descente en régression linéaire
  2. Bach (2024): Extension aux modèles de régression aléatoire
  3. Hastie et al. (2022): Étude des propriétés des interpolateurs

Méthodes Bayésiennes

  1. MacKay (1992): Interpolation bayésienne et régularisation d'hyperparamètres
  2. Polson & Scott (2012): Cadre de rétrécissement global-local
  3. Young (1977), Deaton (1980): Méthodes bayésiennes pour la régression polynomiale

Compromis Biais-Variance

  1. Geman et al. (1992): Compromis biais-variance dans les réseaux de neurones
  2. Efron & Morris (1973): Avantages des estimateurs de rétrécissement

Conclusions et Discussion

Conclusions Principales

  1. Unification Théorique: Le phénomène de double descente possède une interprétation bayésienne naturelle, conduite par la distribution a priori conditionnelle p(θ_M|M)
  2. Compatibilité du Rasoir d'Occam: La vraisemblance marginale favorise toujours les modèles simples, mais la distribution a priori conditionnelle peut fournir de bonnes propriétés de risque dans la région surparamétrisée
  3. Orientation Pratique: Il est recommandé d'utiliser le modèle de complexité maximale possible, en s'appuyant sur la régularisation automatique du cadre bayésien

Limitations

  1. Défi de Spécification A Priori: Nécessité de spécifier une distribution a priori conjointe sur des espaces complexes
  2. Complexité Computationnelle: Le calcul de la vraisemblance marginale pour les fonctions de base de réseaux de neurones est difficile
  3. Lacune Théorique: L'analyse théorique complète dans les cas haute dimension reste à développer

Directions Futures

  1. A Priori Adaptatif: Développer des spécifications a priori qui s'ajustent automatiquement à la structure des données
  2. Extension à l'Apprentissage Profond: Étendre le cadre à l'apprentissage profond où le nombre de paramètres dépasse largement le nombre d'observations
  3. Méthodes Computationnelles: Développer des techniques d'inférence approchée efficaces dans les paramètres haute dimension

Évaluation Approfondie

Points Forts

  1. Innovation Théorique: Première fourniture d'un cadre théorique bayésien systématique pour le phénomène de double descente
  2. Résolution de Problèmes: Résout élégamment le conflit apparent entre le rasoir d'Occam et la double descente
  3. Connexion Méthodologique: Connecte avec succès les méthodes statistiques classiques aux techniques modernes d'apprentissage automatique
  4. Expériences Suffisantes: Démontre clairement les prédictions théoriques via la régression polynomiale

Insuffisances

  1. Limitations d'Application: Principalement limitées aux paramètres de régression relativement simples, les applications à l'apprentissage profond nécessitent encore du développement
  2. Défis Computationnels: Le calcul pratique dans les cas haute dimension reste difficile
  3. Sensibilité A Priori: Le succès de la méthode dépend fortement du choix approprié de la distribution a priori

Portée d'Impact

  1. Contribution Théorique: Fournit une perspective bayésienne importante pour comprendre les phénomènes de l'apprentissage automatique moderne
  2. Valeur Pratique: Fournit un soutien théorique pour l'utilisation de modèles surparamétrisés
  3. Inspiration pour la Recherche: Ouvre de nouvelles directions d'application des méthodes bayésiennes en apprentissage automatique moderne

Scénarios Applicables

  1. Problèmes de Régression: Particulièrement la régression haute dimension et l'approximation de fonctions
  2. Sélection de Modèles: Scénarios nécessitant une sélection parmi plusieurs niveaux de complexité
  3. Quantification de l'Incertitude: Applications nécessitant simultanément la prédiction et l'estimation de l'incertitude

Références

Cet article cite de nombreuses références importantes, notamment:

  • Belkin et al. (2019): Travail fondateur sur le phénomène de double descente
  • MacKay (1992): Littérature classique sur l'interpolation bayésienne
  • Polson & Scott (2012): Méthodes de rétrécissement global-local
  • Young (1977), Deaton (1980): Travaux précoces sur la régression polynomiale bayésienne

Cet article revêt une importance théorique significative, fournissant une nouvelle perspective bayésienne pour comprendre le phénomène de double descente en apprentissage automatique moderne. Bien que des défis subsistent dans les applications pratiques, il jette les bases théoriques solides pour les recherches futures.