2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov

Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.

academic

Bayesianischer Doppelabstieg

Grundlegende Informationen

Papier-ID: 2507.07338
Titel: Bayesianischer Doppelabstieg
Autoren: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
Klassifizierung: stat.ML cs.LG stat.CO
Veröffentlichungszeit: Erstentwurf: 25. Dezember 2024; Aktuelle Version: 16. Oktober 2025
Papierlink: https://arxiv.org/abs/2507.07338

Zusammenfassung

Der Doppelabstieg (Double Descent) ist eine Eigenschaft überparametrisierter statistischer Modelle (wie tiefe neuronale Netze), die einen erneuten Rückgang ihrer Risikofunktion aufweisen. Mit zunehmender Modellkomplexität zeigt die Risikofunktion aufgrund des klassischen Bias-Varianz-Kompromisses zunächst einen U-förmigen Bereich. Wenn die Anzahl der Parameter der Anzahl der Beobachtungen entspricht, wird das Modell zu einem Interpolationsmodell und das Risiko kann unbegrenzt sein. Schließlich sinkt das Risiko im überparametrisierten Bereich erneut – dies ist der Doppelabstiegseffekt. Ziel dieses Papiers ist es, nachzuweisen, dass dieses Phänomen eine natürliche bayesianische Interpretation hat und dass dies nicht mit dem klassischen Occam's-Razor-Prinzip kollidiert. Die theoretische Grundlage nutzt bayesianische Modellwahl, Dickey-Savage-Dichtequotienten und verbindet verallgemeinerte Ridge-Regression sowie globale-lokale Schrumpfungsmethoden mit dem Doppelabstieg.

Forschungshintergrund und Motivation

Kernprobleme

Fehlende bayesianische Interpretation des Doppelabstiegs: Das Doppelabstiegsphänomen wird hauptsächlich aus frequentistischer Perspektive untersucht, es fehlt ein systematischer bayesianischer theoretischer Rahmen
Oberflächlicher Konflikt zwischen Occam's Razor und Doppelabstieg: Bayesianische Methoden bevorzugen einfache Modelle, während der Doppelabstieg darauf hindeutet, dass komplexe Modelle möglicherweise besser sind
Unzureichendes theoretisches Verständnis überparametrisierter Modelle: Wenn die Anzahl der Parameter die Stichprobengröße übersteigt, versagt die klassische statistische Theorie

Forschungsbedeutung

Theoretische Vereinigung: Bereitstellung eines einheitlichen bayesianischen theoretischen Rahmens für das Doppelabstiegsphänomen
Praktische Anleitung: Theoretische Unterstützung für moderne Methoden des maschinellen Lernens wie Deep Learning
Methodologischer Beitrag: Verbindung zwischen klassischer statistischer Theorie und moderner Praxis des maschinellen Lernens

Einschränkungen bestehender Methoden

Einschränkungen der frequentistischen Perspektive: Bestehende Forschung konzentriert sich hauptsächlich auf Schätzer mit minimaler L2-Norm und ignoriert die Rolle der Prior-Regularisierung
BIC-Approximation versagt: Wenn p > n, zeigt die Laplace-Approximation (BIC) schlechte Leistung
Empirische Risikogrenzen ungültig: Für Interpolatoren ist das empirische Risiko Null, wodurch klassische Grenzen bedeutungslos werden

Kernbeiträge

Etablierung eines bayesianischen theoretischen Rahmens für den Doppelabstieg: Nachweis, dass die bedingte Prior p(θ_M|M) der Schlüsselfaktor ist, der das Doppelabstiegsphänomen antreibt
Lösung des Occam's-Razor-Paradoxons: Nachweis, dass das bayesianische Occam's Razor nicht mit dem Doppelabstiegsphänomen kollidiert
Verbindung klassischer Methoden mit moderner Technik: Verknüpfung von verallgemeinerter Ridge-Regression, globalen-lokalen Schrumpfungsmethoden mit dem Doppelabstieg
Bereitstellung von Rechnerischer-Äquivalenz-Theoremen: Realisierung rechnerischer Äquivalenz verschachtelter Modelle durch Dickey-Savage-Dichtequotienten
Erweiterung auf neuronale Netze: Anwendung des theoretischen Rahmens auf hochdimensionale neuronale Netzwerk-Regression

Methodische Details

Aufgabendefinition

Untersuchung des Verhaltens der Risikofunktion in überparametrisierten Regressionsmodellen, insbesondere des Doppelabstiegsphänomens der bayesianischen Risikofunktion R(M) bei Änderung der Modellkomplexität M:

Definition des bayesianischen Doppelabstiegs: Sei R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² das bedingte Prior-bayesianische Risiko des Schätzers unter Modell M. Wenn M > n, zeigt R(M) erneutes Abstiegsverhalten.

Theoretischer Rahmen

1. Bayesianischer Modellkomplexitätsrahmen

Zerlegung der gemeinsamen Posterior:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

Evidenz (marginale Likelihood):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

Wichtige Erkenntnis: Die bedingte Prior p(θ_M|M) beeinflusst das bayesianische Risiko durch den Marginalisierungsprozess und wirkt als implizite Regularisierung im überparametrisierten Bereich.

2. Modellverschachtelung und Rechnerische-Äquivalenz-Theorem

Theorem 3.1 (Modellverschachtelung und rechnerische Äquivalenz): Unter Konsistenzbedingungen:

p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

Die Funktionsschätzung des Submodells m kann aus dem überparametrisierten vollständigen Modell M berechnet werden:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Dickey-Savage-Dichtequotient:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. Einschränkungen der BIC-Approximation

Wenn p < n, liefert die Laplace-Approximation:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

Aber wenn p > n, versagt diese Approximation und der Einfluss der Prior p(θ|M) auf das bayesianische Risiko wird signifikant.

Verbindung zur verallgemeinerten Ridge-Regression

Orthogonale Zerlegungsdarstellung

Für die SVD-Zerlegung der Designmatrix X: PXTXQ = Λ², erhalten wir:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

wobei k_i der lokale Schrumpfungsparameter ist, der dem lokalen Maßstab des globalen-lokalen Schrumpfungsmodells entspricht.

Optimale Schrumpfungsparameter

Durch Optimierung der marginalen Likelihood z_i|k_i, σ² erhalten wir:

k̂_i = (λ²_i σ²)/(z²_i - σ²) für z²_i > σ²

Erweiterung auf neuronale Netze

Hierarchische bayesianische Spezifikation:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

Dies ermöglicht adaptives Lernen von Basisfunktionen, während der bayesianische Modellwahlrahmen erhalten bleibt.

Experimentelle Einrichtung

Polynomiale Regressionsexperimente

Datengenerierung:

Wahre Funktion: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
Stichprobengröße: n = 20
Modellkomplexität: d = 1, 2, ..., 50

Basisfunktionswahl: Verwendung von Legendre-Polynombasis, die eine numerisch stabile orthogonale Basis bietet.

Schätzmethode: Verwendung der Moore-Penrose-Pseudoinversen, die im überparametrisierten Fall die Lösung mit minimaler Norm liefert.

Bayesianische polynomiale Regression

Young-Methode:

Prior: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
Posterior: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Deaton-Methode:

Ordnungsbeschränkung: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
Pool-Adjacent-Violators-Algorithmus (PAVA) passt uneingeschränkte MAP-Schätzung an

Experimentelle Ergebnisse

Verifikation des Doppelabstiegsphänomens

Drei Phasen:

Klassischer Bereich (d < 5): Erhöhung der Komplexität reduziert Bias und Testfehler
Interpolationskrise (d ≈ n = 20): Testfehler erreicht Spitzenwert, Modell passt Trainingsdaten perfekt an, aber Verallgemeinerung ist schlecht
Überparametrisierter Bereich (d > 30): Testfehler sinkt erneut, extreme Überparametrisierung verbessert Verallgemeinerung

Wichtigste Erkenntnisse

Impliziter Regularisierungseffekt: Die Lösung mit minimaler Norm in überparametrisierten Einstellungen hat implizite Verzerrung zu einfachen Funktionen
Bayesianischer Vorteil: Mit angemessener Prior-Spezifikation zeigt die bayesianische Methode in allen Bereichen gute Leistung
Rechnerische Effizienz: Das größtmögliche Modell kann direkt verwendet werden, wodurch zeitaufwändige Modellwahl vermieden wird

Verhalten der marginalen Likelihood

Für Modelle mit wahrer Polynomgrad p_true = 10 erreicht die marginale Likelihood ihren Höhepunkt bei entsprechender Komplexität, was die Wirksamkeit des bayesianischen Occam's Razor bestätigt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretische Vereinigung: Das Doppelabstiegsphänomen hat eine natürliche bayesianische Interpretation, angetrieben durch die bedingte Prior p(θ_M|M)
Occam's-Razor-Kompatibilität: Die marginale Likelihood bevorzugt immer noch einfache Modelle, aber die bedingte Prior kann im überparametrisierten Bereich gute Risikoeigenschaften bieten
Praktische Anleitung: Empfehlung, das größtmögliche Modell zu verwenden und sich auf die automatische Regularisierung des bayesianischen Rahmens zu verlassen

Einschränkungen

Prior-Spezifikationsprobleme: Erfordert die Angabe einer gemeinsamen Parameterprior in komplexem Raum
Rechnerische Komplexität: Die Berechnung der marginalen Likelihood für neuronale Netzwerk-Basisfunktionen ist schwierig
Theoretische Lücke: Vollständige theoretische Analyse im hochdimensionalen Fall muss noch entwickelt werden

Zukünftige Richtungen

Adaptive Priors: Entwicklung von Prior-Spezifikationen, die sich automatisch an Datenstrukturen anpassen
Deep-Learning-Erweiterung: Erweiterung des Rahmens auf Deep Learning, wo die Parameterzahl die Stichprobengröße weit übersteigt
Rechenmethoden: Entwicklung effizienter Approximationsinferenztechniken für hochdimensionale Einstellungen

Tiefe Bewertung

Stärken

Theoretische Innovation: Erste systematische Bereitstellung eines bayesianischen theoretischen Rahmens für das Doppelabstiegsphänomen
Problemlösung: Elegante Lösung des oberflächlichen Konflikts zwischen Occam's Razor und Doppelabstieg
Methodenverbindung: Erfolgreiche Verbindung klassischer statistischer Methoden mit modernem maschinellem Lernen
Ausreichende Experimente: Klare Demonstration theoretischer Vorhersagen durch polynomiale Regression

Mängel

Anwendungsbeschränkungen: Hauptsächlich auf relativ einfache Regressionseinstellungen beschränkt, Deep-Learning-Anwendungen müssen noch entwickelt werden
Rechnerische Herausforderungen: Praktische Berechnung in hochdimensionalen Fällen bleibt schwierig
Prior-Empfindlichkeit: Der Erfolg der Methode hängt stark von angemessener Prior-Wahl ab

Einflussfaktor

Theoretischer Beitrag: Bietet wichtige bayesianische Perspektive zum Verständnis moderner Phänomene des maschinellen Lernens
Praktischer Wert: Bietet theoretische Unterstützung für die Verwendung überparametrisierter Modelle
Forschungsinspiration: Eröffnet neue Anwendungsrichtungen bayesianischer Methoden im modernen maschinellen Lernen

Anwendungsszenarien

Regressionsprobleme: Besonders hochdimensionale Regression und Funktionsapproximation
Modellwahl: Szenarien, in denen zwischen mehreren Komplexitätsstufen gewählt werden muss
Unsicherheitsquantifizierung: Anwendungen, die gleichzeitig Vorhersage und Unsicherheitsschätzung erfordern

Literaturverzeichnis

Dieses Papier zitiert umfangreiche wichtige Literatur, einschließlich:

Belkin et al. (2019): Bahnbrechende Arbeiten zum Doppelabstiegsphänomen
MacKay (1992): Klassische Literatur zur bayesianischen Interpolation
Polson & Scott (2012): Globale-lokale Schrumpfungsmethoden
Young (1977), Deaton (1980): Frühe Arbeiten zur bayesianischen polynomialen Regression

Dieses Papier hat theoretische Bedeutung und bietet eine neue bayesianische Perspektive zum Verständnis des Doppelabstiegsphänomens im modernen maschinellen Lernen. Obwohl es in praktischen Anwendungen noch Herausforderungen gibt, legt es eine solide theoretische Grundlage für zukünftige Forschung.