Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives
Rowan
Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
academic
Discrétisations non-linéaires et méthode de Newton : caractérisation des points stationnaires des objectifs de régression
Les méthodes d'optimisation du second ordre émergent comme des alternatives prometteuses aux optimiseurs du premier ordre tels que la descente de gradient et ADAM. Bien que les avantages de l'incorporation d'informations de courbure pour calculer les étapes d'optimisation soient largement célébrés dans la littérature d'apprentissage automatique scientifique, toutes les méthodes du second ordre étudiées sont des méthodes quasi-newtoniennes, c'est-à-dire qu'elles approximent la matrice hessienne de la fonction objectif. Bien qu'on s'attende à ce que l'utilisation de la vraie hessienne à la place de son approximation n'apporte que des bénéfices, cet article démontre que l'entraînement des réseaux de neurones échoue de manière fiable lorsqu'on s'appuie sur des informations de courbure exactes. Ces modes de défaillance fournissent des aperçus sur les propriétés géométriques des discrétisations non-linéaires et la distribution des points stationnaires dans le paysage de perte, nous amenant à remettre en question la conception traditionnelle selon laquelle le paysage de perte est rempli de minima locaux.
Optimisation du premier ordre vs second ordre: Traditionnellement, l'entraînement des réseaux de neurones repose principalement sur des méthodes d'optimisation du premier ordre comme ADAM, qui mettent à jour les paramètres de manière itérative selon la direction de plus forte descente.
Avantages théoriques des méthodes du second ordre: Les méthodes du second ordre utilisent une approximation quadratique locale de la fonction objectif pour déterminer la direction et l'amplitude des étapes, offrant des avantages tels qu'une suggestion naturelle de taille de pas et l'évitement des oscillations dans les régions mal conditionnées.
Limitations de la recherche existante: Toutes les méthodes du second ordre dans la littérature d'apprentissage automatique scientifique (SciML) sont des méthodes quasi-newtoniennes (comme BFGS, L-BFGS), utilisant des approximations hessiennes plutôt que la hessienne exacte.
L'auteur remet en question une hypothèse fondamentale : l'utilisation de la hessienne exacte est-elle vraiment meilleure que l'approximation ? Par l'analyse théorique et les expériences numériques, l'auteur découvre que la méthode de Newton exacte présente un comportement pathologique dans l'entraînement des réseaux de neurones, offrant une nouvelle perspective pour comprendre la géométrie des discrétisations non-linéaires et la structure du paysage de perte.
Interprétation géométrique: Discussion des problèmes de régression sur les variétés, démonstration de l'interprétation géométrique des points stationnaires
Cadre conceptuel: Conceptualisation des réseaux de neurones comme construisant simultanément des fonctions de base et des coefficients d'une variété d'approximation
Identification des solutions triviales: Identification de points stationnaires particuliers des objectifs de régression des réseaux de neurones — les solutions zéro triviales
Découvertes numériques: Démonstration expérimentale que la méthode de Newton exacte converge de manière fiable vers les solutions triviales, même sur des problèmes unidimensionnels simples
Explication des mécanismes: Analyse des différences entre les méthodes quasi-newtoniennes et newtoniennes exactes, explication du succès des premières
Considérons un problème de régression discrète où le vecteur cible v doit être approximé par un vecteur paramétrisé N(θ), où θ sont les paramètres à déterminer. L'objectif d'erreur quadratique standard et ses conditions de point stationnaire sont :
Discrétisation linéaire: Les paramètres mettent à l'échelle les vecteurs de base fixes, satisfaisant la condition d'optimalité de Galerkin, garantissant une solution unique et minimale.
Discrétisation non-linéaire: Définit une variété d'approximation plongée dans un espace de dimension supérieure, où les conditions de point stationnaire exigent que le vecteur d'erreur soit orthogonal à l'espace tangent de l'espace d'approximation.
Exemple du cercle unitaire:
N(θ)=[cos(θ)sin(θ)],v=[22]
Condition de point stationnaire: ∂θ∂L=2(sin(θ)−cos(θ))=0
Solutions: θ=π/4,5π/4, où le premier est un minimum et le second un maximum.
Exemple du tore elliptique:
N(θ)=(R+rcos(θ2))cos(θ1)(R+rcos(θ2))sin(θ1)rsin(θ2)
Cet exemple démontre 8 points stationnaires : 2 minima, 2 maxima, 4 points de selle, prouvant que la méthode de Newton n'a pas de préférence pour les différents types de points stationnaires.
Reformulation d'un réseau de neurones MLP comme :
N(x,θ)=∑k=1∣θO∣θkOhk(x;θI)
où θ=[θI,θO] se décompose en paramètres « internes » et « externes », les paramètres internes définissant les fonctions de base et les paramètres externes servant de coefficients d'échelle.
Perte sous forme forte:
L(θ)=21∫01(∂x2∂2N(x;θ)+v(x))2dx
Résultats: Les 5 exécutions convergent toutes vers la solution triviale, apprenant des fonctions de base dont la dérivée seconde est orthogonale au terme source.
Application de L-BFGS: Optimisation de géométrie d'aile tout en apprenant la distribution d'écoulement
Optimiseurs hybrides: Méthodes hybrides combinant L-BFGS et ADAM
Comparaison de la famille BFGS: Améliorations de performance des variantes BFGS auto-mises à l'échelle
Résolution des conflits de gradient: Les méthodes quasi-newtoniennes résolvent naturellement les conflits de gradient entre différents termes des fonctions de perte
Stratégies de préconditionnement: Nouvelles méthodes quasi-newtoniennes de préconditionnement
Toutes les méthodes du second ordre dans la littérature existante sont des méthodes quasi-newtoniennes ; cet article est le premier à étudier systématiquement le comportement de la méthode de Newton exacte dans l'entraînement des réseaux de neurones.
Échec de la méthode de Newton exacte: Les informations hessiennes exactes entraînent un échec fiable de l'entraînement des réseaux de neurones, convergeant vers des solutions triviales de point de selle
Mécanisme de succès des méthodes quasi-newtoniennes: Le succès des méthodes quasi-newtoniennes ne provient pas de l'approximation de la hessienne, mais des mécanismes de protection contre la montée intégrés
Caractéristiques du paysage de perte: Les points de selle dominent dans le paysage de perte des réseaux de neurones de haute dimension, remettant en question le point de vue traditionnel selon lequel les minima locaux sont abondants
Aperçus géométriques: Les discrétisations non-linéaires créent des variétés plongées, et les conditions de point stationnaire ont une interprétation géométrique claire
Exemples simples: Les expériences numériques sont relativement simples ; le comportement sur des problèmes pratiques complexes peut différer
Profondeur de l'analyse théorique: L'explication théorique de la non-unicité des solutions triviales et des mécanismes de convergence spécifiques mérite d'être approfondie
Applicabilité pratique: Principalement des aperçus théoriques avec une orientation directe limitée pour les applications pratiques
Innovation théorique: Première étude systématique du comportement pathologique de la méthode de Newton exacte dans l'entraînement des réseaux de neurones, remettant en question les conceptions traditionnelles
Aperçus géométriques: Fournit une interprétation géométrique des discrétisations non-linéaires et des points stationnaires, améliorant la compréhension du paysage de perte
Suffisance expérimentale: Conception expérimentale claire par niveaux, des exemples géométriques simples aux réseaux de neurones complexes
Valeur pratique: Explique les véritables raisons du succès des méthodes quasi-newtoniennes, fournissant des orientations pour la conception d'optimiseurs
Échelle expérimentale: Les expériences sur les réseaux de neurones sont relativement simples, manquant de validation sur des applications pratiques à grande échelle
Profondeur théorique: L'analyse théorique du mécanisme de convergence vers les solutions triviales pourrait être plus approfondie
Solutions: Identifie principalement les problèmes avec une exploration limitée des méthodes d'amélioration
Portée d'applicabilité: L'universalité des conclusions nécessite une vérification plus large
Manuels classiques de théorie de l'optimisation (Nocedal & Wright, Ruszczynski)
Méthodes d'optimisation des réseaux de neurones (ADAM, famille BFGS)
Réseaux de neurones informés par la physique (Raissi et al., diverses applications PINNs)
Théorie des réseaux de neurones (biais spectral, SIREN, caractéristiques de Fourier)
Théorie de l'optimisation de haute dimension (problèmes de points de selle, Dauphin et al.)
Évaluation globale: Cet article est un excellent travail avec des aperçus théoriques profonds, remettant en question la conception traditionnelle selon laquelle la hessienne exacte est nécessairement meilleure par des découvertes contre-intuitives, offrant une nouvelle perspective pour comprendre la nature géométrique de l'optimisation des réseaux de neurones. Bien que l'échelle expérimentale soit relativement limitée, sa contribution théorique et son explication des principes de conception des optimiseurs ont une valeur académique importante.