Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives
Rowan
Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
academic
Nichtlineare Diskretisierungen und Newtons Methode: Charakterisierung stationärer Punkte von Regressionszielzielen
Optimierungsmethoden zweiter Ordnung entstehen als vielversprechende Alternative zu Gradientenabstieg und Optimierern erster Ordnung wie ADAM. Obwohl die Vorteile der Einbeziehung von Krümmungsinformationen zur Berechnung von Optimierungsschritten in der wissenschaftlichen Maschinenlern-Literatur gepriesen werden, sind alle untersuchten Methoden zweiter Ordnung Quasi-Newton-Methoden, die die Hesse-Matrix der Zielfunktion approximieren. Obwohl erwartet wird, dass die Verwendung der echten Hesse-Matrix anstelle ihrer Approximation nur Vorteile bringt, zeigt dieses Papier, dass das Training neuronaler Netze zuverlässig fehlschlägt, wenn man sich auf exakte Krümmungsinformationen verlässt. Diese Fehlermuster bieten Einblicke in die geometrischen Eigenschaften nichtlinearer Diskretisierungen und die Verteilung stationärer Punkte in der Verlustlandschaft, was uns veranlasst, die traditionelle Ansicht zu hinterfragen, dass die Verlustlandschaft von lokalen Minima erfüllt ist.
Optimierung erster vs. zweiter Ordnung: Traditionell verlässt sich das Training neuronaler Netze hauptsächlich auf Optimierungsmethoden erster Ordnung wie ADAM, die Parameter durch iterative Aktualisierung in Richtung des steilsten Abstiegs aktualisieren.
Theoretische Vorteile von Methoden zweiter Ordnung: Methoden zweiter Ordnung verwenden lokale quadratische Approximationen der Zielfunktion, um Schrittrichtung und -größe zu bestimmen, mit Vorteilen wie natürlich vorgeschlagenen Schrittgrößen und Vermeidung von Oszillationen in schlecht konditionierten Regionen.
Einschränkungen bestehender Forschung: Alle Methoden zweiter Ordnung in der wissenschaftlichen Maschinenlern-Literatur (SciML) sind Quasi-Newton-Methoden (wie BFGS, L-BFGS), die Hesse-Approximationen anstelle exakter Hesse-Matrizen verwenden.
Der Autor stellt eine grundlegende Annahme in Frage: Ist die Verwendung der exakten Hesse-Matrix wirklich besser als eine Approximation? Durch theoretische Analyse und numerische Experimente zeigt der Autor, dass die exakte Newton-Methode pathologisches Verhalten beim Training neuronaler Netze aufweist, was neue Perspektiven zum Verständnis der Geometrie nichtlinearer Diskretisierungen und der Struktur der Verlustlandschaft bietet.
Geometrische Interpretation: Diskussion von Regressionsproblemen auf Mannigfaltigkeiten mit geometrischer Interpretation stationärer Punkte
Konzeptioneller Rahmen: Konzeptualisierung neuronaler Netze als simultane Konstruktion von Basisfunktionen und Koeffizienten auf einer Näherungsmannigfaltigkeit
Identifikation trivialer Lösungen: Identifikation spezieller stationärer Punkte von Regressionszielzielen neuronaler Netze – triviale Nulllösungen
Numerische Erkenntnisse: Experimenteller Nachweis, dass die exakte Newton-Methode zuverlässig zu trivialen Lösungen konvergiert, selbst bei einfachen eindimensionalen Problemen
Mechanismuserklärung: Analyse der Unterschiede zwischen Quasi-Newton- und exakter Newton-Methode, Erklärung des Erfolgs der ersteren
Betrachten Sie das diskrete Regressionsproblem, bei dem der Zielvektor v durch einen parametrisierten Vektor N(θ) approximiert werden soll, wobei θ die zu bestimmenden Parameter sind. Das standardmäßige quadratische Fehlerzielfunktional und seine stationären Punktbedingungen sind:
Lineare Diskretisierung: Parameterskalierung fester Basisvektoren erfüllt die Galerkin-Optimalitätsbedingung und garantiert eine eindeutige Lösung, die ein Minimum ist.
Nichtlineare Diskretisierung: Definition einer in einem höherdimensionalen Raum eingebetteten Mannigfaltigkeit zur Approximation. Die Bedingung für stationäre Punkte erfordert, dass der Fehlervektor orthogonal zum Tangentialraum des Approximationsraums ist.
Dieses Beispiel zeigt acht stationäre Punkte: zwei Minima, zwei Maxima und vier Sattelpunkte, was beweist, dass die Newton-Methode keine Vorliebe für verschiedene Arten stationärer Punkte hat.
Umformulierung eines MLP-Netzwerks als:
N(x,θ)=∑k=1∣θO∣θkOhk(x;θI)
wobei θ=[θI,θO] in "innere" und "äußere" Parameter zerlegt wird, innere Parameter definieren Basisfunktionen und äußere Parameter dienen als Skalierungskoeffizienten.
In der bestehenden Literatur sind alle Methoden zweiter Ordnung Quasi-Newton-Methoden. Dieses Papier ist das erste, das das Verhalten der exakten Newton-Methode beim Training neuronaler Netze systematisch untersucht.
Versagen der exakten Newton-Methode: Exakte Hesse-Informationen führen zu zuverlässigem Versagen des Trainings neuronaler Netze mit Konvergenz zu trivialen Sattelpunktlösungen
Erfolgsmechanismus der Quasi-Newton-Methode: Der Erfolg der Quasi-Newton-Methode ist nicht darauf zurückzuführen, dass die Hesse-Matrix approximiert wird, sondern auf eingebaute Aufstiegsschutzmaßnahmen
Charakteristiken der Verlustlandschaft: In hochdimensionalen Verlustlandschaften neuronaler Netze dominieren Sattelpunkte, was die traditionelle Ansicht der "Fülle lokaler Minima" in Frage stellt
Einfache Beispiele: Numerische Experimente sind relativ einfach; das Verhalten bei komplexeren praktischen Problemen könnte unterschiedlich sein
Tiefe der theoretischen Analyse: Theoretische Erklärungen für die Nicht-Eindeutigkeit trivialer Lösungen und spezifische Konvergenzmechanismen erfordern weitere Vertiefung
Praktische Anwendbarkeit: Hauptsächlich theoretische Einsichten mit begrenzter direkter Anleitung für praktische Anwendungen
Theoretische Innovativität: Erste systematische Untersuchung pathologischen Verhaltens der exakten Newton-Methode beim Training neuronaler Netze, Herausforderung traditioneller Ansichten
Geometrische Einsichten: Bereitstellung geometrischer Interpretationen nichtlinearer Diskretisierungen und stationärer Punkte, Verbesserung des Verständnisses der Verlustlandschaft
Experimentelle Vollständigkeit: Klare hierarchische Experimentaldesign von einfachen geometrischen Beispielen bis zu komplexen neuronalen Netzen
Praktischer Wert: Erklärung der wahren Gründe für den Erfolg der Quasi-Newton-Methode, Anleitung für Optimierer-Design
Hochdimensionale Optimierungstheorie (Sattelpunkt-Probleme, Dauphin et al.)
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit tiefgreifenden theoretischen Einsichten, das durch kontraintuitive Erkenntnisse die traditionelle Ansicht herausfordert, dass exakte Hesse-Matrizen notwendigerweise besser sind, und neue Perspektiven auf die geometrische Natur der Optimierung neuronaler Netze bietet. Obwohl der experimentelle Umfang relativ begrenzt ist, haben seine theoretischen Beiträge und die Erklärung der Designprinzipien von Optimierern erheblichen akademischen Wert.