Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives
Rowan
Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
academic
Discretizzazioni non lineari e metodo di Newton: caratterizzazione dei punti stazionari degli obiettivi di regressione
I metodi di ottimizzazione del secondo ordine stanno emergendo come alternative promettenti agli ottimizzatori del primo ordine come la discesa del gradiente e ADAM. Sebbene nella letteratura di machine learning scientifico i vantaggi dell'inclusione di informazioni di curvatura per il calcolo dei passi di ottimizzazione siano ampiamente celebrati, tutti i metodi del secondo ordine studiati sono metodi quasi-newtoniani, ovvero approssimazioni della matrice Hessiana della funzione obiettivo. Sebbene ci si aspetti che l'utilizzo della vera Hessiana al posto della sua approssimazione comporti solo vantaggi, questo articolo dimostra che l'addestramento delle reti neurali fallisce in modo affidabile quando si dipende da informazioni di curvatura esatte. Questi modelli di fallimento forniscono intuizioni sulle proprietà geometriche delle discretizzazioni non lineari e sulla distribuzione dei punti stazionari nel paesaggio di perdita, portandoci a mettere in discussione la concezione tradizionale secondo cui il paesaggio di perdita è pieno di minimi locali.
Ottimizzazione del primo ordine vs secondo ordine: Tradizionalmente, l'addestramento delle reti neurali si basa principalmente su metodi di ottimizzazione del primo ordine come ADAM, che aggiornano iterativamente i parametri nella direzione di massima discesa.
Vantaggi teorici dei metodi del secondo ordine: I metodi del secondo ordine utilizzano un'approssimazione quadratica locale della funzione obiettivo per determinare la direzione e la grandezza del passo, con vantaggi quali lunghezza di passo naturalmente suggerita e evitamento di oscillazioni in regioni mal condizionate.
Limitazioni della ricerca esistente: Tutti i metodi del secondo ordine nella letteratura di machine learning scientifico (SciML) sono metodi quasi-newtoniani (come BFGS, L-BFGS), che utilizzano approssimazioni dell'Hessiana piuttosto che l'Hessiana esatta.
L'autore mette in discussione un'assunzione fondamentale: l'utilizzo dell'Hessiana esatta è davvero migliore dell'approssimazione? Attraverso analisi teorica e esperimenti numerici, l'autore scopre che il metodo di Newton esatto mostra comportamenti patologici nell'addestramento delle reti neurali, fornendo una nuova prospettiva per comprendere la geometria delle discretizzazioni non lineari e la struttura del paesaggio di perdita.
Interpretazione geometrica: Discussione di problemi di regressione su varietà, mostrando l'interpretazione geometrica dei punti stazionari
Quadro concettuale: Concettualizzazione delle reti neurali come varietà approssimate che costruiscono simultaneamente funzioni di base e coefficienti
Identificazione di soluzioni banali: Identificazione di punti stazionari speciali degli obiettivi di regressione delle reti neurali — soluzioni zero banali
Scoperte numeriche: Dimostrazione sperimentale che il metodo di Newton esatto converge in modo affidabile a soluzioni banali, anche su semplici problemi unidimensionali
Spiegazione dei meccanismi: Analisi delle differenze tra metodi quasi-newtoniani e newtoniani esatti, spiegazione del successo dei primi
Considerare un problema di regressione discreta dove il vettore target v deve essere approssimato dal vettore parametrizzato N(θ), dove θ sono i parametri da determinare. L'obiettivo dell'errore quadratico standard e le sue condizioni di punto stazionario sono:
Discretizzazione lineare: Il ridimensionamento dei parametri fissa i vettori di base, soddisfa la condizione di ottimalità di Galerkin, garantendo una soluzione unica e minima.
Discretizzazione non lineare: Definisce una varietà approssimata incorporata in uno spazio ad alta dimensione; le condizioni di punto stazionario richiedono che il vettore di errore sia ortogonale allo spazio tangente dello spazio approssimato.
Esempio del cerchio unitario:
N(θ)=[cos(θ)sin(θ)],v=[22]
Condizione di punto stazionario: ∂θ∂L=2(sin(θ)−cos(θ))=0
Risolvendo si ottiene θ=π/4,5π/4, dove il primo è un minimo e il secondo è un massimo.
Esempio del toro ellittico:
N(θ)=(R+rcos(θ2))cos(θ1)(R+rcos(θ2))sin(θ1)rsin(θ2)
Questo esempio mostra 8 punti stazionari: 2 minimi, 2 massimi, 4 punti di sella, dimostrando che il metodo di Newton non ha preferenze per diversi tipi di punti stazionari.
Riformulazione di una rete neurale MLP come:
N(x,θ)=∑k=1∣θO∣θkOhk(x;θI)
dove θ=[θI,θO] è decomposto in parametri "interni" ed "esterni", i parametri interni definiscono le funzioni di base, i parametri esterni fungono da coefficienti di ridimensionamento.
Applicazione L-BFGS: Ottimizzazione della geometria del profilo alare con apprendimento simultaneo della distribuzione del flusso
Ottimizzatori ibridi: Metodi ibridi che combinano L-BFGS e ADAM
Confronto della famiglia BFGS: Miglioramenti delle prestazioni di varianti BFGS auto-scalanti
Risoluzione di conflitti di gradiente: I metodi quasi-newtoniani risolvono naturalmente i conflitti di gradiente tra diversi termini delle funzioni di perdita
Strategie di precondizionamento: Nuovi metodi di precondizionamento quasi-newtoniani
Nella letteratura esistente, tutti i metodi del secondo ordine sono metodi quasi-newtoniani; questo articolo è il primo a studiare sistematicamente il comportamento del metodo di Newton esatto nell'addestramento delle reti neurali.
Fallimento del metodo di Newton esatto: Le informazioni esatte dell'Hessiana portano a fallimenti affidabili nell'addestramento delle reti neurali, convergendo a soluzioni banali di punti di sella
Meccanismo di successo dei metodi quasi-newtoniani: Il successo dei metodi quasi-newtoniani non è dovuto all'approssimazione dell'Hessiana, ma ai meccanismi di protezione dall'aumento incorporati
Caratteristiche del paesaggio di perdita: I punti di sella dominano il paesaggio di perdita delle reti neurali ad alta dimensione, mettendo in discussione il punto di vista tradizionale della "ricchezza di minimi locali"
Intuizioni geometriche: Le discretizzazioni non lineari creano varietà incorporate, le condizioni di punto stazionario hanno interpretazioni geometriche esplicite
Esempi semplici: Gli esperimenti numerici sono relativamente semplici; il comportamento su problemi pratici complessi potrebbe differire
Profondità dell'analisi teorica: L'analisi teorica della non unicità delle soluzioni banali e dei meccanismi di convergenza specifici necessita di approfondimento
Praticità: Principalmente fornisce intuizioni teoriche, con guida diretta limitata per applicazioni pratiche
Innovazione teorica: Primo studio sistematico del comportamento patologico del metodo di Newton esatto nell'addestramento delle reti neurali, sfidando la conoscenza convenzionale
Intuizioni geometriche: Fornisce interpretazioni geometriche delle discretizzazioni non lineari e dei punti stazionari, approfondendo la comprensione del paesaggio di perdita
Completezza sperimentale: Dalla semplice geometria agli esempi di reti neurali complesse, il design sperimentale è chiaramente strutturato
Valore pratico: Spiega le vere ragioni del successo dei metodi quasi-newtoniani, fornendo guida per la progettazione di ottimizzatori
Testi classici di teoria dell'ottimizzazione (Nocedal & Wright, Ruszczynski)
Metodi di ottimizzazione delle reti neurali (ADAM, famiglia BFGS)
Reti neurali informate dalla fisica (Raissi et al., varie applicazioni PINNs)
Teoria delle reti neurali (distorsione spettrale, SIREN, caratteristiche di Fourier)
Teoria dell'ottimizzazione ad alta dimensione (problemi di punti di sella, Dauphin et al.)
Valutazione complessiva: Questo è un articolo eccellente con intuizioni teoriche profonde che sfida la concezione convenzionale secondo cui l'Hessiana esatta è necessariamente migliore, fornendo una nuova prospettiva per comprendere la natura geometrica dell'ottimizzazione delle reti neurali. Sebbene la scala sperimentale sia relativamente limitata, il suo contributo teorico e la spiegazione dei principi di progettazione degli ottimizzatori hanno un importante valore accademico.