Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
論文ID : 2510.11987タイトル : Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives著者 : Conor Rowan (University of Colorado Boulder)分類 : cs.LG (機械学習)発表日 : 2025年10月13日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.11987 勾配降下法やADAMなどの一階最適化器の代替案として、二階最適化法が急速に台頭している。科学機械学習の文献では、曲率情報を含めて最適化ステップを計算することの利点が広く称賛されているが、研究されている二階法はすべて準ニュートン法であり、目的関数のヘッシアン行列を近似している。真のヘッシアンをその近似値に置き換えることは利益をもたらすだけであると予想されるが、本論文は、正確な曲率情報に依存する場合、ニューラルネットワーク訓練が確実に失敗することを示している。これらの失敗パターンは、非線形離散化の幾何学的特性と損失景観における定常点の分布に関する洞察を提供し、損失景観が局所最小値で満たされているという従来の見方に疑問を投げかけている。
一階 vs 二階最適化 : 従来、ニューラルネットワーク訓練は主にADAMなどの一階最適化法に依存しており、これらは最急降下方向を通じて反復的にパラメータを更新する。二階法の理論的利点 : 二階法は目的関数の局所二次近似を使用してステップ方向と大きさを決定し、自然に提案されたステップサイズ、病的領域での振動回避などの利点を持つ。既存研究の限界 : 科学機械学習(SciML)文献のすべての二階法は準ニュートン法(BFGS、L-BFGSなど)であり、正確なヘッシアンではなくヘッシアン近似を使用している。著者は基本的な仮定に疑問を呈する:正確なヘッシアンは本当に近似値より優れているのか?理論分析と数値実験を通じて、著者は正確なニュートン法がニューラルネットワーク訓練で病理学的挙動を示すことを発見し、これは非線形離散化の幾何学と損失景観構造の理解に新しい視点を提供する。
幾何学的解釈 : 多様体上の回帰問題を議論し、定常点の幾何学的解釈を示す概念的枠組み : ニューラルネットワークを基底関数と係数を同時に構築する近似多様体として概念化する自明解の識別 : ニューラルネットワーク回帰目的の特殊な定常点—自明なゼロ解を識別する数値的発見 : 実験を通じて、正確なニュートン法が簡単な一次元問題でさえ自明解に確実に収束することを証明するメカニズム解説 : 準ニュートン法と正確なニュートン法の違いを分析し、前者の成功の理由を説明する離散回帰問題を考える。目的ベクトルvはパラメータ化ベクトルN(θ)で近似される必要があり、θは決定されるべきパラメータである。標準二次誤差目的とその定常点条件は以下の通りである:
L ( θ ) = ∥ N ( θ ) − v ∥ 2 , ∂ L ∂ θ k = ( N ( θ ) − v ) ⋅ ∂ N ∂ θ k = 0 L(\theta) = \|N(\theta) - v\|^2, \quad \frac{\partial L}{\partial \theta_k} = (N(\theta) - v) \cdot \frac{\partial N}{\partial \theta_k} = 0 L ( θ ) = ∥ N ( θ ) − v ∥ 2 , ∂ θ k ∂ L = ( N ( θ ) − v ) ⋅ ∂ θ k ∂ N = 0
線形離散化 : パラメータスケーリングは固定基ベクトルであり、ガラーキン最適性条件を満たし、一意解を保証し、それが最小値である。
非線形離散化 : 高次元空間に埋め込まれた多様体近似を定義し、定常点条件は誤差ベクトルが近似空間の接空間に直交することを要求する。
単位円の例 :
N ( θ ) = [ cos ( θ ) sin ( θ ) ] , v = [ 2 2 ] N(\theta) = \begin{bmatrix} \cos(\theta) \\ \sin(\theta) \end{bmatrix}, \quad v = \begin{bmatrix} 2 \\ 2 \end{bmatrix} N ( θ ) = [ cos ( θ ) sin ( θ ) ] , v = [ 2 2 ]
定常点条件: ∂ L ∂ θ = 2 ( sin ( θ ) − cos ( θ ) ) = 0 \frac{\partial L}{\partial \theta} = 2(\sin(\theta) - \cos(\theta)) = 0 ∂ θ ∂ L = 2 ( sin ( θ ) − cos ( θ )) = 0
解は θ = π / 4 , 5 π / 4 \theta = \pi/4, 5\pi/4 θ = π /4 , 5 π /4 であり、前者は最小値、後者は最大値である。
楕円トーラスの例 :
N ( θ ) = [ ( R + r cos ( θ 2 ) ) cos ( θ 1 ) ( R + r cos ( θ 2 ) ) sin ( θ 1 ) r sin ( θ 2 ) ] N(\theta) = \begin{bmatrix} (R + r\cos(\theta_2))\cos(\theta_1) \\ (R + r\cos(\theta_2))\sin(\theta_1) \\ r\sin(\theta_2) \end{bmatrix} N ( θ ) = ( R + r cos ( θ 2 )) cos ( θ 1 ) ( R + r cos ( θ 2 )) sin ( θ 1 ) r sin ( θ 2 )
この例は8つの定常点を示す:2つの最小値、2つの最大値、4つの鞍点であり、ニュートン法が異なるタイプの定常点に対して無差別であることを証明する。
MLPニューラルネットワークを以下のように再定式化する:
N ( x , θ ) = ∑ k = 1 ∣ θ O ∣ θ k O h k ( x ; θ I ) N(x, \theta) = \sum_{k=1}^{|\theta^O|} \theta^O_k h_k(x; \theta^I) N ( x , θ ) = ∑ k = 1 ∣ θ O ∣ θ k O h k ( x ; θ I )
ここで θ = [ θ I , θ O ] \theta = [\theta^I, \theta^O] θ = [ θ I , θ O ] は「内部」パラメータと「外部」パラメータに分解され、内部パラメータは基底関数を定義し、外部パラメータはスケーリング係数として機能する。
N ( x ; θ ) = 0 N(x; \theta) = 0 N ( x ; θ ) = 0 のとき、定常点条件は以下のようになる:
∂ L ∂ θ = ∫ 0 1 v ( x ) ∂ N ∂ θ d x = 0 \frac{\partial L}{\partial \theta} = \int_0^1 v(x) \frac{\partial N}{\partial \theta} dx = 0 ∂ θ ∂ L = ∫ 0 1 v ( x ) ∂ θ ∂ N d x = 0
これは2つの方法で満たされる:
目的関数に直交する基底関数を適合させる 外部パラメータ θ O = 0 \theta^O = 0 θ O = 0 を設定する ネットワークアーキテクチャ : 2つの隠れ層を持つMLP、各層10個のニューロン活性化関数 : 双曲正接関数 / SIRENネットワークの正弦関数パラメータ初期化 : PyTorchの組み込みXavier初期化最適化アルゴリズム : 修正ニュートン法(Levenberg-Marquardt アルゴリズム)数値積分 : 100個の等間隔点の均一グリッドθ k + 1 = θ k − η ( ∂ 2 L ∂ θ ∂ θ + ϵ I ) − 1 ( ∂ L ∂ θ ) \theta_{k+1} = \theta_k - \eta \left(\frac{\partial^2 L}{\partial \theta \partial \theta} + \epsilon I\right)^{-1} \left(\frac{\partial L}{\partial \theta}\right) θ k + 1 = θ k − η ( ∂ θ ∂ θ ∂ 2 L + ϵ I ) − 1 ( ∂ θ ∂ L )
ここで 0 < η < 1 0 < \eta < 1 0 < η < 1 はステップサイズ緩和パラメータであり、ϵ > 0 \epsilon > 0 ϵ > 0 は過度なステップサイズを避けるため凸性を導入する。
目的関数 : v ( x ) = 2 sin ( 4 π x ) v(x) = 2\sin(4\pi x) v ( x ) = 2 sin ( 4 π x ) パラメータ設定 : η = ϵ = 5 × 10 − 2 \eta = \epsilon = 5 \times 10^{-2} η = ϵ = 5 × 1 0 − 2 , T = 1 × 10 − 5 T = 1 \times 10^{-5} T = 1 × 1 0 − 5
主要な発見 :
ニュートン法は自明解に収束し、目的関数に直交する基底関数を学習する 10回の実行中9回が自明解を得た 基底関数は主に定数関数と sin ( π x ) + c \sin(\pi x) + c sin ( π x ) + c 形式である ヘッシアン固有値分析は鞍点解を確認した ネットワーク構成 : ω 0 = 4 \omega_0 = 4 ω 0 = 4 の正弦活性化関数
パラメータ設定 : η = 5 × 10 − 2 \eta = 5 \times 10^{-2} η = 5 × 1 0 − 2 , ϵ = 1 × 10 − 1 \epsilon = 1 \times 10^{-1} ϵ = 1 × 1 0 − 1
結果 :
依然として自明解に収束するが、基底関数は高周波非冗長関数になる 5回の実行中4回が自明解を得た スペクトル偏差が自明解問題を回避できないことを証明する 入力層 : γ ( x ) = [ sin ( 2 π B x ) , cos ( 2 π B x ) ] T \gamma(x) = [\sin(2\pi Bx), \cos(2\pi Bx)]^T γ ( x ) = [ sin ( 2 π B x ) , cos ( 2 π B x ) ] T パラメータ : σ 2 = 1.5 \sigma^2 = 1.5 σ 2 = 1.5 , f = 10 f = 10 f = 10
結果 :
約半数の実行が自明解に収束する 残りの実行のほとんどは収束できない 高周波基底関数は依然として問題を回避できない ∂ 2 u ∂ x 2 + v ( x ) = 0 , u ( 0 ) = u ( 1 ) = 0 \frac{\partial^2 u}{\partial x^2} + v(x) = 0, \quad u(0) = u(1) = 0 ∂ x 2 ∂ 2 u + v ( x ) = 0 , u ( 0 ) = u ( 1 ) = 0
強形式損失 :
L ( θ ) = 1 2 ∫ 0 1 ( ∂ 2 N ( x ; θ ) ∂ x 2 + v ( x ) ) 2 d x L(\theta) = \frac{1}{2} \int_0^1 \left(\frac{\partial^2 N(x; \theta)}{\partial x^2} + v(x)\right)^2 dx L ( θ ) = 2 1 ∫ 0 1 ( ∂ x 2 ∂ 2 N ( x ; θ ) + v ( x ) ) 2 d x
結果 : 5回の実行すべてが自明解に収束し、二階導数が源項に直交する基底関数を学習する。
∇ 2 u + u + v ( x ) = 0 , x ∈ [ 0 , 1 ] 2 \nabla^2 u + u + v(x) = 0, \quad x \in [0,1]^2 ∇ 2 u + u + v ( x ) = 0 , x ∈ [ 0 , 1 ] 2
比較実験 : ニュートン法は自明解に収束するが、ADAMは微分方程式を成功裏に解く。
ランダムに生成された 10 5 10^5 1 0 5 個の140×140ヘッシアン行列(独立標準正規分布)を通じて、以下を発見:
純粋に正または純粋に負の固有値を持つ行列は1つもない 高次元損失景観で鞍点が支配的であるという仮説を支持する ニュートン法が鞍点に確実に収束する現象を説明する L-BFGS応用 : 翼型幾何最適化と流分布学習の同時実行ハイブリッド最適化器 : L-BFGSとADAMのハイブリッド法BFGS族比較 : 自己スケーリングBFGS変種の性能改善勾配競合解決 : 準ニュートン法は損失関数の異なる項間の勾配競合を自然に解決する前処理戦略 : 新しい準ニュートン前処理法既存文献のすべての二階法は準ニュートン法であり、本論文は初めてニューラルネットワーク訓練における正確なニュートン法の挙動を体系的に研究する。
正確なニュートン法の失敗 : 正確なヘッシアン情報はニューラルネットワーク訓練を確実に失敗させ、自明な鞍点解に収束する準ニュートン法の成功メカニズム : 準ニュートン法の成功はヘッシアン近似のためではなく、内蔵の上昇防止メカニズムのためである損失景観の特性 : 高次元ニューラルネットワーク損失景観では鞍点が支配的であり、従来の「局所最小値が豊富」という見方に疑問を投げかける幾何学的洞察 : 非線形離散化は埋め込み多様体を作成し、定常点条件は明確な幾何学的解釈を持つ準ニュートン法の真の利点 :
BFGS/L-BFGSは曲率条件を強制し、正定ヘッシアン近似を維持する 鞍点ニュートン法が明示的に負の曲率方向を排除することを回避する 最小化に役立つ曲率情報のみを利用し、負の曲率を無視する 簡単な例 : 数値実験は比較的簡単であり、複雑な実際の問題の挙動は異なる可能性がある理論分析の深さ : 自明解の非一意性と具体的な収束メカニズムに関する理論的説明は深掘りが必要である実用性 : 主に理論的洞察であり、実際の応用への直接的なガイダンスは限定的である損失景観理論 : ニューラルネットワーク損失景観の幾何学的構造の深い理解最適化器設計 : 負の曲率処理に基づく新しい二階最適化器収束性分析 : 高次元非凸問題における異なる最適化器の収束性理論実際の応用 : より複雑な科学計算問題での発見の検証理論的革新性 : ニューラルネットワーク訓練における正確なニュートン法の病理学的挙動を初めて体系的に研究し、従来の認識に挑戦する幾何学的洞察 : 非線形離散化と定常点の幾何学的解釈を提供し、損失景観の理解を深める実験の充実性 : 簡単な幾何学的例から複雑なニューラルネットワークまで、実験設計は階層的に明確である実用的価値 : 準ニュートン法の成功の真の理由を説明し、最適化器設計にガイダンスを提供する実験規模 : ニューラルネットワーク実験は比較的簡単であり、大規模な実際の応用検証が不足している理論の深さ : 自明解収束メカニズムの理論分析をより深掘りできる解決策 : 主に問題を識別し、改善方法の探討は限定的である適用範囲 : 結論の普遍性はより広い検証が必要である学術的貢献 : 最適化理論とニューラルネットワーク訓練に新しい視点を提供する実用的ガイダンス : 二階最適化法の設計原理を説明する研究啓発 : 損失景観の幾何学的構造の深い研究を開始する科学機械学習 : 物理情報ニューラルネットワークなどの科学計算応用最適化器研究 : 二階最適化法の理論分析と改善教育研究 : 最適化理論とニューラルネットワーク幾何学の教育事例論文は30篇の関連文献を引用しており、以下を含む:
最適化理論の古典教科書 (Nocedal & Wright, Ruszczynski) ニューラルネットワーク最適化法 (ADAM, BFGS族) 物理情報ニューラルネットワーク (Raissi et al., 各種PINNs応用) ニューラルネットワーク理論 (スペクトル偏差、SIREN、フーリエ特徴) 高次元最適化理論 (鞍点問題、Dauphin et al.) 総合評価 : これは理論的洞察が深い優れた論文であり、正確なヘッシアンが必然的により優れているという従来の観念に反直感的な発見で挑戦し、ニューラルネットワーク最適化の幾何学的本質を理解するための新しい視点を提供する。実験規模は比較的限定的であるが、その理論的貢献と最適化器設計原理の説明は重要な学術的価値を持つ。