2025-11-24T20:55:23.989588

Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives

Rowan

Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.

academic

Discrétisations non-linéaires et méthode de Newton : caractérisation des points stationnaires des objectifs de régression

Informations fondamentales

ID de l'article: 2510.11987
Titre: Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives
Auteur: Conor Rowan (University of Colorado Boulder)
Classification: cs.LG (Apprentissage automatique)
Date de publication: 13 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.11987

Résumé

Les méthodes d'optimisation du second ordre émergent comme des alternatives prometteuses aux optimiseurs du premier ordre tels que la descente de gradient et ADAM. Bien que les avantages de l'incorporation d'informations de courbure pour calculer les étapes d'optimisation soient largement célébrés dans la littérature d'apprentissage automatique scientifique, toutes les méthodes du second ordre étudiées sont des méthodes quasi-newtoniennes, c'est-à-dire qu'elles approximent la matrice hessienne de la fonction objectif. Bien qu'on s'attende à ce que l'utilisation de la vraie hessienne à la place de son approximation n'apporte que des bénéfices, cet article démontre que l'entraînement des réseaux de neurones échoue de manière fiable lorsqu'on s'appuie sur des informations de courbure exactes. Ces modes de défaillance fournissent des aperçus sur les propriétés géométriques des discrétisations non-linéaires et la distribution des points stationnaires dans le paysage de perte, nous amenant à remettre en question la conception traditionnelle selon laquelle le paysage de perte est rempli de minima locaux.

Contexte et motivation de la recherche

Contexte du problème

Optimisation du premier ordre vs second ordre: Traditionnellement, l'entraînement des réseaux de neurones repose principalement sur des méthodes d'optimisation du premier ordre comme ADAM, qui mettent à jour les paramètres de manière itérative selon la direction de plus forte descente.
Avantages théoriques des méthodes du second ordre: Les méthodes du second ordre utilisent une approximation quadratique locale de la fonction objectif pour déterminer la direction et l'amplitude des étapes, offrant des avantages tels qu'une suggestion naturelle de taille de pas et l'évitement des oscillations dans les régions mal conditionnées.
Limitations de la recherche existante: Toutes les méthodes du second ordre dans la littérature d'apprentissage automatique scientifique (SciML) sont des méthodes quasi-newtoniennes (comme BFGS, L-BFGS), utilisant des approximations hessiennes plutôt que la hessienne exacte.

Motivation de la recherche

L'auteur remet en question une hypothèse fondamentale : l'utilisation de la hessienne exacte est-elle vraiment meilleure que l'approximation ? Par l'analyse théorique et les expériences numériques, l'auteur découvre que la méthode de Newton exacte présente un comportement pathologique dans l'entraînement des réseaux de neurones, offrant une nouvelle perspective pour comprendre la géométrie des discrétisations non-linéaires et la structure du paysage de perte.

Contributions principales

Interprétation géométrique: Discussion des problèmes de régression sur les variétés, démonstration de l'interprétation géométrique des points stationnaires
Cadre conceptuel: Conceptualisation des réseaux de neurones comme construisant simultanément des fonctions de base et des coefficients d'une variété d'approximation
Identification des solutions triviales: Identification de points stationnaires particuliers des objectifs de régression des réseaux de neurones — les solutions zéro triviales
Découvertes numériques: Démonstration expérimentale que la méthode de Newton exacte converge de manière fiable vers les solutions triviales, même sur des problèmes unidimensionnels simples
Explication des mécanismes: Analyse des différences entre les méthodes quasi-newtoniennes et newtoniennes exactes, explication du succès des premières

Détails méthodologiques

Définition de la tâche

Considérons un problème de régression discrète où le vecteur cible v doit être approximé par un vecteur paramétrisé N(θ), où θ sont les paramètres à déterminer. L'objectif d'erreur quadratique standard et ses conditions de point stationnaire sont :

$L(\theta) = \|N(\theta) - v\|^2, \quad \frac{\partial L}{\partial \theta_k} = (N(\theta) - v) \cdot \frac{\partial N}{\partial \theta_k} = 0$

Compréhension géométrique des discrétisations non-linéaires

Comparaison des discrétisations linéaires et non-linéaires

Discrétisation linéaire: Les paramètres mettent à l'échelle les vecteurs de base fixes, satisfaisant la condition d'optimalité de Galerkin, garantissant une solution unique et minimale.

Discrétisation non-linéaire: Définit une variété d'approximation plongée dans un espace de dimension supérieure, où les conditions de point stationnaire exigent que le vecteur d'erreur soit orthogonal à l'espace tangent de l'espace d'approximation.

Analyse d'exemples géométriques

Exemple du cercle unitaire: $N(\theta) = \begin{bmatrix} \cos(\theta) \\ \sin(\theta) \end{bmatrix}, \quad v = \begin{bmatrix} 2 \\ 2 \end{bmatrix}$

Condition de point stationnaire: $\frac{\partial L}{\partial \theta} = 2(\sin(\theta) - \cos(\theta)) = 0$

Solutions: $\theta = \pi/4, 5\pi/4$ , où le premier est un minimum et le second un maximum.

Exemple du tore elliptique: $N(\theta) = \begin{bmatrix} (R + r\cos(\theta_2))\cos(\theta_1) \\ (R + r\cos(\theta_2))\sin(\theta_1) \\ r\sin(\theta_2) \end{bmatrix}$

Cet exemple démontre 8 points stationnaires : 2 minima, 2 maxima, 4 points de selle, prouvant que la méthode de Newton n'a pas de préférence pour les différents types de points stationnaires.

Analyse de la régression des réseaux de neurones

Interprétation de la structure MLP

Reformulation d'un réseau de neurones MLP comme : $N(x, \theta) = \sum_{k=1}^{|\theta^O|} \theta^O_k h_k(x; \theta^I)$

où $\theta = [\theta^I, \theta^O]$ se décompose en paramètres « internes » et « externes », les paramètres internes définissant les fonctions de base et les paramètres externes servant de coefficients d'échelle.

Analyse théorique des solutions triviales

Lorsque $N(x; \theta) = 0$ , la condition de point stationnaire devient : $\frac{\partial L}{\partial \theta} = \int_0^1 v(x) \frac{\partial N}{\partial \theta} dx = 0$

Peut être satisfaite de deux manières :

Ajuster des fonctions de base orthogonales à la fonction cible
Définir les paramètres externes $\theta^O = 0$

Configuration expérimentale

Configuration des expériences

Architecture réseau: MLP à deux couches cachées, 10 neurones par couche
Fonction d'activation: Tangente hyperbolique / Fonction sinusoïdale pour les réseaux SIREN
Initialisation des paramètres: Initialisation Xavier intégrée de PyTorch
Algorithme d'optimisation: Méthode de Newton amortie (algorithme de Levenberg-Marquardt)
Intégration numérique: Grille uniforme de 100 points équidistants

Méthode de Newton amortie

$\theta_{k+1} = \theta_k - \eta \left(\frac{\partial^2 L}{\partial \theta \partial \theta} + \epsilon I\right)^{-1} \left(\frac{\partial L}{\partial \theta}\right)$

où $0 < \eta < 1$ est un paramètre de relaxation de taille de pas et $\epsilon > 0$ introduit la convexité pour éviter les étapes excessives.

Résultats expérimentaux

Expériences de régression MLP standard

Fonction cible: $v(x) = 2\sin(4\pi x)$ Paramètres: $\eta = \epsilon = 5 \times 10^{-2}$ , $T = 1 \times 10^{-5}$

Principales découvertes:

La méthode de Newton converge vers la solution triviale, apprenant des fonctions de base orthogonales à la fonction cible
9 exécutions sur 10 obtiennent la solution triviale
Les fonctions de base sont principalement des fonctions constantes et de la forme $\sin(\pi x) + c$
L'analyse des valeurs propres de la hessienne confirme qu'il s'agit d'une solution de point de selle

Expériences avec réseaux SIREN

Configuration réseau: Fonction d'activation sinusoïdale avec $\omega_0 = 4$ Paramètres: $\eta = 5 \times 10^{-2}$ , $\epsilon = 1 \times 10^{-1}$

Résultats:

Convergence toujours vers la solution triviale, mais les fonctions de base deviennent des fonctions non redondantes de haute fréquence
4 exécutions sur 5 obtiennent la solution triviale
Démontre que le biais spectral ne peut pas éviter le problème des solutions triviales

Expériences avec plongement de caractéristiques de Fourier

Couche d'entrée: $\gamma(x) = [\sin(2\pi Bx), \cos(2\pi Bx)]^T$ Paramètres: $\sigma^2 = 1.5$ , $f = 10$

Résultats:

Environ la moitié des exécutions convergent vers la solution triviale
Les autres exécutions échouent principalement à converger
Les fonctions de base de haute fréquence ne peuvent toujours pas éviter le problème

Expériences avec réseaux de neurones informés par la physique (PINNs)

Problème de valeur limite unidimensionnel

$\frac{\partial^2 u}{\partial x^2} + v(x) = 0, \quad u(0) = u(1) = 0$

Perte sous forme forte: $L(\theta) = \frac{1}{2} \int_0^1 \left(\frac{\partial^2 N(x; \theta)}{\partial x^2} + v(x)\right)^2 dx$

Résultats: Les 5 exécutions convergent toutes vers la solution triviale, apprenant des fonctions de base dont la dérivée seconde est orthogonale au terme source.

Problème de diffusion-réaction bidimensionnel

$\nabla^2 u + u + v(x) = 0, \quad x \in [0,1]^2$

Expérience comparative: La méthode de Newton converge vers la solution triviale, tandis qu'ADAM résout avec succès l'équation différentielle.

Analyse statistique des valeurs propres de la hessienne

En générant aléatoirement $10^5$ matrices hessiennes 140×140 (distribution normale standard indépendante), on découvre :

Aucune matrice ne possède des valeurs propres purement positives ou purement négatives
Soutient l'hypothèse que les points de selle dominent dans les paysages de perte de haute dimension
Explique le phénomène de convergence fiable de la méthode de Newton vers les points de selle

Travaux connexes

Application des méthodes quasi-newtoniennes en SciML

Application de L-BFGS: Optimisation de géométrie d'aile tout en apprenant la distribution d'écoulement
Optimiseurs hybrides: Méthodes hybrides combinant L-BFGS et ADAM
Comparaison de la famille BFGS: Améliorations de performance des variantes BFGS auto-mises à l'échelle
Résolution des conflits de gradient: Les méthodes quasi-newtoniennes résolvent naturellement les conflits de gradient entre différents termes des fonctions de perte
Stratégies de préconditionnement: Nouvelles méthodes quasi-newtoniennes de préconditionnement

Comparaison avec la méthode de Newton exacte

Toutes les méthodes du second ordre dans la littérature existante sont des méthodes quasi-newtoniennes ; cet article est le premier à étudier systématiquement le comportement de la méthode de Newton exacte dans l'entraînement des réseaux de neurones.

Conclusions et discussion

Conclusions principales

Échec de la méthode de Newton exacte: Les informations hessiennes exactes entraînent un échec fiable de l'entraînement des réseaux de neurones, convergeant vers des solutions triviales de point de selle
Mécanisme de succès des méthodes quasi-newtoniennes: Le succès des méthodes quasi-newtoniennes ne provient pas de l'approximation de la hessienne, mais des mécanismes de protection contre la montée intégrés
Caractéristiques du paysage de perte: Les points de selle dominent dans le paysage de perte des réseaux de neurones de haute dimension, remettant en question le point de vue traditionnel selon lequel les minima locaux sont abondants
Aperçus géométriques: Les discrétisations non-linéaires créent des variétés plongées, et les conditions de point stationnaire ont une interprétation géométrique claire

Aperçus clés

Véritable avantage des méthodes quasi-newtoniennes:

BFGS/L-BFGS appliquent les conditions de courbure, maintenant une approximation hessienne définie positive
Évite que la méthode de Newton exacte rejette explicitement les directions de courbure négative
Utilise uniquement les informations de courbure qui aident à la minimisation, ignorant la courbure négative

Limitations

Exemples simples: Les expériences numériques sont relativement simples ; le comportement sur des problèmes pratiques complexes peut différer
Profondeur de l'analyse théorique: L'explication théorique de la non-unicité des solutions triviales et des mécanismes de convergence spécifiques mérite d'être approfondie
Applicabilité pratique: Principalement des aperçus théoriques avec une orientation directe limitée pour les applications pratiques

Directions futures

Théorie du paysage de perte: Compréhension approfondie de la structure géométrique du paysage de perte des réseaux de neurones
Conception d'optimiseurs: Nouveaux optimiseurs du second ordre basés sur le traitement de la courbure négative
Analyse de convergence: Théorie de convergence des différents optimiseurs sur les problèmes non-convexes de haute dimension
Applications pratiques: Validation des découvertes sur des problèmes de calcul scientifique plus complexes

Évaluation approfondie

Points forts

Innovation théorique: Première étude systématique du comportement pathologique de la méthode de Newton exacte dans l'entraînement des réseaux de neurones, remettant en question les conceptions traditionnelles
Aperçus géométriques: Fournit une interprétation géométrique des discrétisations non-linéaires et des points stationnaires, améliorant la compréhension du paysage de perte
Suffisance expérimentale: Conception expérimentale claire par niveaux, des exemples géométriques simples aux réseaux de neurones complexes
Valeur pratique: Explique les véritables raisons du succès des méthodes quasi-newtoniennes, fournissant des orientations pour la conception d'optimiseurs

Insuffisances

Échelle expérimentale: Les expériences sur les réseaux de neurones sont relativement simples, manquant de validation sur des applications pratiques à grande échelle
Profondeur théorique: L'analyse théorique du mécanisme de convergence vers les solutions triviales pourrait être plus approfondie
Solutions: Identifie principalement les problèmes avec une exploration limitée des méthodes d'amélioration
Portée d'applicabilité: L'universalité des conclusions nécessite une vérification plus large

Influence

Contribution académique: Offre une nouvelle perspective sur la théorie de l'optimisation et l'entraînement des réseaux de neurones
Orientation pratique: Explique les principes de conception des méthodes d'optimisation du second ordre
Inspiration pour la recherche: Ouvre des recherches approfondies sur la structure géométrique du paysage de perte

Scénarios applicables

Apprentissage automatique scientifique: Applications de calcul scientifique telles que les réseaux de neurones informés par la physique
Recherche sur les optimiseurs: Analyse théorique et amélioration des méthodes d'optimisation du second ordre
Enseignement et recherche: Cas d'étude pour l'enseignement de la théorie de l'optimisation et de la géométrie des réseaux de neurones

Références

L'article cite 30 références connexes, couvrant :

Manuels classiques de théorie de l'optimisation (Nocedal & Wright, Ruszczynski)
Méthodes d'optimisation des réseaux de neurones (ADAM, famille BFGS)
Réseaux de neurones informés par la physique (Raissi et al., diverses applications PINNs)
Théorie des réseaux de neurones (biais spectral, SIREN, caractéristiques de Fourier)
Théorie de l'optimisation de haute dimension (problèmes de points de selle, Dauphin et al.)

Évaluation globale: Cet article est un excellent travail avec des aperçus théoriques profonds, remettant en question la conception traditionnelle selon laquelle la hessienne exacte est nécessairement meilleure par des découvertes contre-intuitives, offrant une nouvelle perspective pour comprendre la nature géométrique de l'optimisation des réseaux de neurones. Bien que l'échelle expérimentale soit relativement limitée, sa contribution théorique et son explication des principes de conception des optimiseurs ont une valeur académique importante.