Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.
La discesa doppia (double descent) è una caratteristica di ridiscesa nella funzione di rischio esibita da modelli statistici sovraparametrizzati (come le reti neurali profonde). Con l'aumento della complessità del modello, la funzione di rischio mostra una regione a forma di U dovuta al tradizionale compromesso bias-varianza; quando il numero di parametri uguaglia il numero di osservazioni il modello diventa un modello interpolante e il rischio può essere illimitato; infine nella regione sovraparametrizzata diminuisce nuovamente—questo è l'effetto della discesa doppia. Questo articolo mira a dimostrare che questo fenomeno possiede un'interpretazione bayesiana naturale e a provare che ciò non contrasta con il tradizionale principio del rasoio di Occam. La base teorica utilizza la selezione bayesiana dei modelli, il rapporto di densità Dickey-Savage, e collega la regressione ridge generalizzata e i metodi di contrazione globale-locale alla discesa doppia.
Mancanza di interpretazione bayesiana del fenomeno della discesa doppia: Il fenomeno della discesa doppia è stato principalmente studiato da una prospettiva frequentista, mancando di un quadro teorico bayesiano sistematico
Conflitto apparente tra il rasoio di Occam e la discesa doppia: I metodi bayesiani preferiscono modelli semplici, mentre la discesa doppia suggerisce che modelli complessi potrebbero essere migliori
Comprensione teorica insufficiente dei modelli sovraparametrizzati: Quando il numero di parametri supera il numero di campioni, la teoria statistica tradizionale fallisce
Limitazioni della prospettiva frequentista: La ricerca esistente si concentra principalmente su stimatori con norma L2 minima, trascurando il ruolo della regolarizzazione a priori
Fallimento dell'approssimazione BIC: Quando p > n, l'approssimazione di Laplace (BIC) funziona male
Invalidità dei limiti del rischio empirico: Per gli interpolatori, il rischio empirico è zero, rendendo i limiti tradizionali privi di significato
Stabilire un quadro teorico bayesiano per la discesa doppia: Dimostrare che la distribuzione a priori condizionata p(θ_M|M) è il fattore chiave che guida il fenomeno della discesa doppia
Risolvere il paradosso del rasoio di Occam: Provare che il rasoio di Occam bayesiano non contrasta con il fenomeno della discesa doppia
Collegare metodi classici con tecnologie moderne: Collegare la regressione ridge generalizzata, i metodi di contrazione globale-locale alla discesa doppia
Fornire teoremi di equivalenza computazionale: Realizzare l'equivalenza computazionale per modelli annidati attraverso il rapporto di densità Dickey-Savage
Estensione alle reti neurali: Applicare il quadro teorico alla regressione di reti neurali ad alta dimensione
Studiare il comportamento della funzione di rischio nei modelli di regressione sovraparametrizzati, in particolare il fenomeno della discesa doppia del rischio bayesiano R(M) al variare della complessità del modello M:
Definizione della discesa doppia bayesiana: Sia R(M) = E_{y,θ|M}(θ̂_M(y) - θ)² il rischio bayesiano condizionato a priori dello stimatore sotto il modello M; quando M > n, R(M) mostra un comportamento di ridiscesa.
Intuizione chiave: La distribuzione a priori condizionata p(θ_M|M) influenza il rischio bayesiano attraverso il processo di marginalizzazione, agendo come regolarizzazione implicita nella regione sovraparametrizzata.
Regione classica (d < 5): L'aumento della complessità riduce il bias e l'errore di test
Crisi di interpolazione (d ≈ n = 20): L'errore di test raggiunge il picco, il modello si adatta perfettamente ai dati di addestramento ma generalizza male
Regione sovraparametrizzata (d > 30): L'errore di test diminuisce nuovamente, la sovraparametrizzazione estrema migliora la generalizzazione
Effetto di regolarizzazione implicita: La soluzione di norma minima nella configurazione sovraparametrizzata ha un bias implicito verso funzioni semplici
Vantaggio bayesiano: Attraverso la specifica appropriata della distribuzione a priori, il metodo bayesiano funziona bene in tutte le regioni
Efficienza computazionale: È possibile utilizzare direttamente il modello con la massima complessità possibile, evitando la selezione dei modelli dispendiosa in termini di tempo
Per il modello con grado polinomiale vero p_true = 10, la verosimiglianza marginale raggiunge il picco alla complessità corrispondente, verificando l'efficacia del rasoio di Occam bayesiano.
Unificazione teorica: Il fenomeno della discesa doppia possiede un'interpretazione bayesiana naturale, guidata dalla distribuzione a priori condizionata p(θ_M|M)
Compatibilità del rasoio di Occam: La verosimiglianza marginale continua a preferire modelli semplici, ma la distribuzione a priori condizionata può fornire buone proprietà di rischio nella regione sovraparametrizzata
Guida pratica: Si consiglia di utilizzare il modello con la massima complessità possibile, affidandosi alla regolarizzazione automatica del quadro bayesiano
Limitazioni applicative: Principalmente limitato a impostazioni di regressione relativamente semplici; l'applicazione all'apprendimento profondo richiede ancora sviluppo
Sfide computazionali: Il calcolo pratico nel caso ad alta dimensione rimane difficile
Sensibilità alla distribuzione a priori: Il successo del metodo dipende fortemente dalla scelta appropriata della distribuzione a priori
Polson & Scott (2012): Metodo di contrazione globale-locale
Young (1977), Deaton (1980): Lavori iniziali sulla regressione polinomiale bayesiana
Questo articolo è teoricamente significativo, fornendo una nuova prospettiva bayesiana per la comprensione del fenomeno della discesa doppia nell'apprendimento automatico moderno. Sebbene rimangono sfide nell'applicazione pratica, pone una base teorica solida per la ricerca futura.