2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov
Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
academic

Bayesianischer Doppelabstieg

Grundlegende Informationen

  • Papier-ID: 2507.07338
  • Titel: Bayesianischer Doppelabstieg
  • Autoren: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
  • Klassifizierung: stat.ML cs.LG stat.CO
  • Veröffentlichungszeit: Erstentwurf: 25. Dezember 2024; Aktuelle Version: 16. Oktober 2025
  • Papierlink: https://arxiv.org/abs/2507.07338

Zusammenfassung

Der Doppelabstieg (Double Descent) ist eine Eigenschaft überparametrisierter statistischer Modelle (wie tiefe neuronale Netze), die einen erneuten Rückgang ihrer Risikofunktion aufweisen. Mit zunehmender Modellkomplexität zeigt die Risikofunktion aufgrund des klassischen Bias-Varianz-Kompromisses zunächst einen U-förmigen Bereich. Wenn die Anzahl der Parameter der Anzahl der Beobachtungen entspricht, wird das Modell zu einem Interpolationsmodell und das Risiko kann unbegrenzt sein. Schließlich sinkt das Risiko im überparametrisierten Bereich erneut – dies ist der Doppelabstiegseffekt. Ziel dieses Papiers ist es, nachzuweisen, dass dieses Phänomen eine natürliche bayesianische Interpretation hat und dass dies nicht mit dem klassischen Occam's-Razor-Prinzip kollidiert. Die theoretische Grundlage nutzt bayesianische Modellwahl, Dickey-Savage-Dichtequotienten und verbindet verallgemeinerte Ridge-Regression sowie globale-lokale Schrumpfungsmethoden mit dem Doppelabstieg.

Forschungshintergrund und Motivation

Kernprobleme

  1. Fehlende bayesianische Interpretation des Doppelabstiegs: Das Doppelabstiegsphänomen wird hauptsächlich aus frequentistischer Perspektive untersucht, es fehlt ein systematischer bayesianischer theoretischer Rahmen
  2. Oberflächlicher Konflikt zwischen Occam's Razor und Doppelabstieg: Bayesianische Methoden bevorzugen einfache Modelle, während der Doppelabstieg darauf hindeutet, dass komplexe Modelle möglicherweise besser sind
  3. Unzureichendes theoretisches Verständnis überparametrisierter Modelle: Wenn die Anzahl der Parameter die Stichprobengröße übersteigt, versagt die klassische statistische Theorie

Forschungsbedeutung

  1. Theoretische Vereinigung: Bereitstellung eines einheitlichen bayesianischen theoretischen Rahmens für das Doppelabstiegsphänomen
  2. Praktische Anleitung: Theoretische Unterstützung für moderne Methoden des maschinellen Lernens wie Deep Learning
  3. Methodologischer Beitrag: Verbindung zwischen klassischer statistischer Theorie und moderner Praxis des maschinellen Lernens

Einschränkungen bestehender Methoden

  1. Einschränkungen der frequentistischen Perspektive: Bestehende Forschung konzentriert sich hauptsächlich auf Schätzer mit minimaler L2-Norm und ignoriert die Rolle der Prior-Regularisierung
  2. BIC-Approximation versagt: Wenn p > n, zeigt die Laplace-Approximation (BIC) schlechte Leistung
  3. Empirische Risikogrenzen ungültig: Für Interpolatoren ist das empirische Risiko Null, wodurch klassische Grenzen bedeutungslos werden

Kernbeiträge

  1. Etablierung eines bayesianischen theoretischen Rahmens für den Doppelabstieg: Nachweis, dass die bedingte Prior p(θ_M|M) der Schlüsselfaktor ist, der das Doppelabstiegsphänomen antreibt
  2. Lösung des Occam's-Razor-Paradoxons: Nachweis, dass das bayesianische Occam's Razor nicht mit dem Doppelabstiegsphänomen kollidiert
  3. Verbindung klassischer Methoden mit moderner Technik: Verknüpfung von verallgemeinerter Ridge-Regression, globalen-lokalen Schrumpfungsmethoden mit dem Doppelabstieg
  4. Bereitstellung von Rechnerischer-Äquivalenz-Theoremen: Realisierung rechnerischer Äquivalenz verschachtelter Modelle durch Dickey-Savage-Dichtequotienten
  5. Erweiterung auf neuronale Netze: Anwendung des theoretischen Rahmens auf hochdimensionale neuronale Netzwerk-Regression

Methodische Details

Aufgabendefinition

Untersuchung des Verhaltens der Risikofunktion in überparametrisierten Regressionsmodellen, insbesondere des Doppelabstiegsphänomens der bayesianischen Risikofunktion R(M) bei Änderung der Modellkomplexität M:

Definition des bayesianischen Doppelabstiegs: Sei R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² das bedingte Prior-bayesianische Risiko des Schätzers unter Modell M. Wenn M > n, zeigt R(M) erneutes Abstiegsverhalten.

Theoretischer Rahmen

1. Bayesianischer Modellkomplexitätsrahmen

Zerlegung der gemeinsamen Posterior:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

Evidenz (marginale Likelihood):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

Wichtige Erkenntnis: Die bedingte Prior p(θ_M|M) beeinflusst das bayesianische Risiko durch den Marginalisierungsprozess und wirkt als implizite Regularisierung im überparametrisierten Bereich.

2. Modellverschachtelung und Rechnerische-Äquivalenz-Theorem

Theorem 3.1 (Modellverschachtelung und rechnerische Äquivalenz): Unter Konsistenzbedingungen:

  • p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
  • p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

Die Funktionsschätzung des Submodells m kann aus dem überparametrisierten vollständigen Modell M berechnet werden:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Dickey-Savage-Dichtequotient:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. Einschränkungen der BIC-Approximation

Wenn p < n, liefert die Laplace-Approximation:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

Aber wenn p > n, versagt diese Approximation und der Einfluss der Prior p(θ|M) auf das bayesianische Risiko wird signifikant.

Verbindung zur verallgemeinerten Ridge-Regression

Orthogonale Zerlegungsdarstellung

Für die SVD-Zerlegung der Designmatrix X: PXTXQ = Λ², erhalten wir:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

wobei k_i der lokale Schrumpfungsparameter ist, der dem lokalen Maßstab des globalen-lokalen Schrumpfungsmodells entspricht.

Optimale Schrumpfungsparameter

Durch Optimierung der marginalen Likelihood z_i|k_i, σ² erhalten wir:

k̂_i = (λ²_i σ²)/(z²_i - σ²) für z²_i > σ²

Erweiterung auf neuronale Netze

Hierarchische bayesianische Spezifikation:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

Dies ermöglicht adaptives Lernen von Basisfunktionen, während der bayesianische Modellwahlrahmen erhalten bleibt.

Experimentelle Einrichtung

Polynomiale Regressionsexperimente

Datengenerierung:

  • Wahre Funktion: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
  • Stichprobengröße: n = 20
  • Modellkomplexität: d = 1, 2, ..., 50

Basisfunktionswahl: Verwendung von Legendre-Polynombasis, die eine numerisch stabile orthogonale Basis bietet.

Schätzmethode: Verwendung der Moore-Penrose-Pseudoinversen, die im überparametrisierten Fall die Lösung mit minimaler Norm liefert.

Bayesianische polynomiale Regression

Young-Methode:

  • Prior: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
  • Posterior: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Deaton-Methode:

  • Ordnungsbeschränkung: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
  • Pool-Adjacent-Violators-Algorithmus (PAVA) passt uneingeschränkte MAP-Schätzung an

Experimentelle Ergebnisse

Verifikation des Doppelabstiegsphänomens

Drei Phasen:

  1. Klassischer Bereich (d < 5): Erhöhung der Komplexität reduziert Bias und Testfehler
  2. Interpolationskrise (d ≈ n = 20): Testfehler erreicht Spitzenwert, Modell passt Trainingsdaten perfekt an, aber Verallgemeinerung ist schlecht
  3. Überparametrisierter Bereich (d > 30): Testfehler sinkt erneut, extreme Überparametrisierung verbessert Verallgemeinerung

Wichtigste Erkenntnisse

  1. Impliziter Regularisierungseffekt: Die Lösung mit minimaler Norm in überparametrisierten Einstellungen hat implizite Verzerrung zu einfachen Funktionen
  2. Bayesianischer Vorteil: Mit angemessener Prior-Spezifikation zeigt die bayesianische Methode in allen Bereichen gute Leistung
  3. Rechnerische Effizienz: Das größtmögliche Modell kann direkt verwendet werden, wodurch zeitaufwändige Modellwahl vermieden wird

Verhalten der marginalen Likelihood

Für Modelle mit wahrer Polynomgrad p_true = 10 erreicht die marginale Likelihood ihren Höhepunkt bei entsprechender Komplexität, was die Wirksamkeit des bayesianischen Occam's Razor bestätigt.

Verwandte Arbeiten

Frequentistische Forschung

  1. Belkin et al. (2019): Erste Beobachtung des Doppelabstiegs in linearer Regression
  2. Bach (2024): Erweiterung auf stochastische Regressionsmodelle
  3. Hastie et al. (2022): Untersuchung der Eigenschaften von Interpolatoren

Bayesianische Methoden

  1. MacKay (1992): Bayesianische Interpolation und Hyperparameter-Regularisierung
  2. Polson & Scott (2012): Globales-lokales Schrumpfungsrahmen
  3. Young (1977), Deaton (1980): Bayesianische Methoden für polynomiale Regression

Bias-Varianz-Kompromiss

  1. Geman et al. (1992): Bias-Varianz-Kompromiss in neuronalen Netzen
  2. Efron & Morris (1973): Vorteile von Schrumpfungsschätzern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Vereinigung: Das Doppelabstiegsphänomen hat eine natürliche bayesianische Interpretation, angetrieben durch die bedingte Prior p(θ_M|M)
  2. Occam's-Razor-Kompatibilität: Die marginale Likelihood bevorzugt immer noch einfache Modelle, aber die bedingte Prior kann im überparametrisierten Bereich gute Risikoeigenschaften bieten
  3. Praktische Anleitung: Empfehlung, das größtmögliche Modell zu verwenden und sich auf die automatische Regularisierung des bayesianischen Rahmens zu verlassen

Einschränkungen

  1. Prior-Spezifikationsprobleme: Erfordert die Angabe einer gemeinsamen Parameterprior in komplexem Raum
  2. Rechnerische Komplexität: Die Berechnung der marginalen Likelihood für neuronale Netzwerk-Basisfunktionen ist schwierig
  3. Theoretische Lücke: Vollständige theoretische Analyse im hochdimensionalen Fall muss noch entwickelt werden

Zukünftige Richtungen

  1. Adaptive Priors: Entwicklung von Prior-Spezifikationen, die sich automatisch an Datenstrukturen anpassen
  2. Deep-Learning-Erweiterung: Erweiterung des Rahmens auf Deep Learning, wo die Parameterzahl die Stichprobengröße weit übersteigt
  3. Rechenmethoden: Entwicklung effizienter Approximationsinferenztechniken für hochdimensionale Einstellungen

Tiefe Bewertung

Stärken

  1. Theoretische Innovation: Erste systematische Bereitstellung eines bayesianischen theoretischen Rahmens für das Doppelabstiegsphänomen
  2. Problemlösung: Elegante Lösung des oberflächlichen Konflikts zwischen Occam's Razor und Doppelabstieg
  3. Methodenverbindung: Erfolgreiche Verbindung klassischer statistischer Methoden mit modernem maschinellem Lernen
  4. Ausreichende Experimente: Klare Demonstration theoretischer Vorhersagen durch polynomiale Regression

Mängel

  1. Anwendungsbeschränkungen: Hauptsächlich auf relativ einfache Regressionseinstellungen beschränkt, Deep-Learning-Anwendungen müssen noch entwickelt werden
  2. Rechnerische Herausforderungen: Praktische Berechnung in hochdimensionalen Fällen bleibt schwierig
  3. Prior-Empfindlichkeit: Der Erfolg der Methode hängt stark von angemessener Prior-Wahl ab

Einflussfaktor

  1. Theoretischer Beitrag: Bietet wichtige bayesianische Perspektive zum Verständnis moderner Phänomene des maschinellen Lernens
  2. Praktischer Wert: Bietet theoretische Unterstützung für die Verwendung überparametrisierter Modelle
  3. Forschungsinspiration: Eröffnet neue Anwendungsrichtungen bayesianischer Methoden im modernen maschinellen Lernen

Anwendungsszenarien

  1. Regressionsprobleme: Besonders hochdimensionale Regression und Funktionsapproximation
  2. Modellwahl: Szenarien, in denen zwischen mehreren Komplexitätsstufen gewählt werden muss
  3. Unsicherheitsquantifizierung: Anwendungen, die gleichzeitig Vorhersage und Unsicherheitsschätzung erfordern

Literaturverzeichnis

Dieses Papier zitiert umfangreiche wichtige Literatur, einschließlich:

  • Belkin et al. (2019): Bahnbrechende Arbeiten zum Doppelabstiegsphänomen
  • MacKay (1992): Klassische Literatur zur bayesianischen Interpolation
  • Polson & Scott (2012): Globale-lokale Schrumpfungsmethoden
  • Young (1977), Deaton (1980): Frühe Arbeiten zur bayesianischen polynomialen Regression

Dieses Papier hat theoretische Bedeutung und bietet eine neue bayesianische Perspektive zum Verständnis des Doppelabstiegsphänomens im modernen maschinellen Lernen. Obwohl es in praktischen Anwendungen noch Herausforderungen gibt, legt es eine solide theoretische Grundlage für zukünftige Forschung.