Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
Der Doppelabstieg (Double Descent) ist eine Eigenschaft überparametrisierter statistischer Modelle (wie tiefe neuronale Netze), die einen erneuten Rückgang ihrer Risikofunktion aufweisen. Mit zunehmender Modellkomplexität zeigt die Risikofunktion aufgrund des klassischen Bias-Varianz-Kompromisses zunächst einen U-förmigen Bereich. Wenn die Anzahl der Parameter der Anzahl der Beobachtungen entspricht, wird das Modell zu einem Interpolationsmodell und das Risiko kann unbegrenzt sein. Schließlich sinkt das Risiko im überparametrisierten Bereich erneut – dies ist der Doppelabstiegseffekt. Ziel dieses Papiers ist es, nachzuweisen, dass dieses Phänomen eine natürliche bayesianische Interpretation hat und dass dies nicht mit dem klassischen Occam's-Razor-Prinzip kollidiert. Die theoretische Grundlage nutzt bayesianische Modellwahl, Dickey-Savage-Dichtequotienten und verbindet verallgemeinerte Ridge-Regression sowie globale-lokale Schrumpfungsmethoden mit dem Doppelabstieg.
Fehlende bayesianische Interpretation des Doppelabstiegs: Das Doppelabstiegsphänomen wird hauptsächlich aus frequentistischer Perspektive untersucht, es fehlt ein systematischer bayesianischer theoretischer Rahmen
Oberflächlicher Konflikt zwischen Occam's Razor und Doppelabstieg: Bayesianische Methoden bevorzugen einfache Modelle, während der Doppelabstieg darauf hindeutet, dass komplexe Modelle möglicherweise besser sind
Unzureichendes theoretisches Verständnis überparametrisierter Modelle: Wenn die Anzahl der Parameter die Stichprobengröße übersteigt, versagt die klassische statistische Theorie
Einschränkungen der frequentistischen Perspektive: Bestehende Forschung konzentriert sich hauptsächlich auf Schätzer mit minimaler L2-Norm und ignoriert die Rolle der Prior-Regularisierung
BIC-Approximation versagt: Wenn p > n, zeigt die Laplace-Approximation (BIC) schlechte Leistung
Empirische Risikogrenzen ungültig: Für Interpolatoren ist das empirische Risiko Null, wodurch klassische Grenzen bedeutungslos werden
Etablierung eines bayesianischen theoretischen Rahmens für den Doppelabstieg: Nachweis, dass die bedingte Prior p(θ_M|M) der Schlüsselfaktor ist, der das Doppelabstiegsphänomen antreibt
Lösung des Occam's-Razor-Paradoxons: Nachweis, dass das bayesianische Occam's Razor nicht mit dem Doppelabstiegsphänomen kollidiert
Verbindung klassischer Methoden mit moderner Technik: Verknüpfung von verallgemeinerter Ridge-Regression, globalen-lokalen Schrumpfungsmethoden mit dem Doppelabstieg
Bereitstellung von Rechnerischer-Äquivalenz-Theoremen: Realisierung rechnerischer Äquivalenz verschachtelter Modelle durch Dickey-Savage-Dichtequotienten
Erweiterung auf neuronale Netze: Anwendung des theoretischen Rahmens auf hochdimensionale neuronale Netzwerk-Regression
Untersuchung des Verhaltens der Risikofunktion in überparametrisierten Regressionsmodellen, insbesondere des Doppelabstiegsphänomens der bayesianischen Risikofunktion R(M) bei Änderung der Modellkomplexität M:
Definition des bayesianischen Doppelabstiegs: Sei R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² das bedingte Prior-bayesianische Risiko des Schätzers unter Modell M. Wenn M > n, zeigt R(M) erneutes Abstiegsverhalten.
Wichtige Erkenntnis: Die bedingte Prior p(θ_M|M) beeinflusst das bayesianische Risiko durch den Marginalisierungsprozess und wirkt als implizite Regularisierung im überparametrisierten Bereich.
Impliziter Regularisierungseffekt: Die Lösung mit minimaler Norm in überparametrisierten Einstellungen hat implizite Verzerrung zu einfachen Funktionen
Bayesianischer Vorteil: Mit angemessener Prior-Spezifikation zeigt die bayesianische Methode in allen Bereichen gute Leistung
Rechnerische Effizienz: Das größtmögliche Modell kann direkt verwendet werden, wodurch zeitaufwändige Modellwahl vermieden wird
Für Modelle mit wahrer Polynomgrad p_true = 10 erreicht die marginale Likelihood ihren Höhepunkt bei entsprechender Komplexität, was die Wirksamkeit des bayesianischen Occam's Razor bestätigt.
Theoretische Vereinigung: Das Doppelabstiegsphänomen hat eine natürliche bayesianische Interpretation, angetrieben durch die bedingte Prior p(θ_M|M)
Occam's-Razor-Kompatibilität: Die marginale Likelihood bevorzugt immer noch einfache Modelle, aber die bedingte Prior kann im überparametrisierten Bereich gute Risikoeigenschaften bieten
Praktische Anleitung: Empfehlung, das größtmögliche Modell zu verwenden und sich auf die automatische Regularisierung des bayesianischen Rahmens zu verlassen
Anwendungsbeschränkungen: Hauptsächlich auf relativ einfache Regressionseinstellungen beschränkt, Deep-Learning-Anwendungen müssen noch entwickelt werden
Rechnerische Herausforderungen: Praktische Berechnung in hochdimensionalen Fällen bleibt schwierig
Prior-Empfindlichkeit: Der Erfolg der Methode hängt stark von angemessener Prior-Wahl ab
Dieses Papier zitiert umfangreiche wichtige Literatur, einschließlich:
Belkin et al. (2019): Bahnbrechende Arbeiten zum Doppelabstiegsphänomen
MacKay (1992): Klassische Literatur zur bayesianischen Interpolation
Polson & Scott (2012): Globale-lokale Schrumpfungsmethoden
Young (1977), Deaton (1980): Frühe Arbeiten zur bayesianischen polynomialen Regression
Dieses Papier hat theoretische Bedeutung und bietet eine neue bayesianische Perspektive zum Verständnis des Doppelabstiegsphänomens im modernen maschinellen Lernen. Obwohl es in praktischen Anwendungen noch Herausforderungen gibt, legt es eine solide theoretische Grundlage für zukünftige Forschung.