Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives 论文ID : 2510.11987标题 : Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives作者 : Conor Rowan (University of Colorado Boulder)分类 : cs.LG (Machine Learning)发表时间 : 2025年10月13日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.11987 二阶优化方法作为梯度下降和ADAM等一阶优化器的有前途替代方案正在兴起。尽管在科学机器学习文献中,包含曲率信息来计算优化步骤的优势备受赞誉,但所研究的二阶方法都是拟牛顿法,即对目标函数的Hessian矩阵进行近似。虽然人们期望使用真实Hessian替代其近似只会带来收益,但本文表明,当依赖精确曲率信息时,神经网络训练会可靠地失败。这些失败模式为非线性离散化的几何特性以及损失景观中驻点分布提供了洞察,使我们质疑损失景观充满局部极小值的传统观念。
一阶vs二阶优化 : 传统上,神经网络训练主要依赖ADAM等一阶优化方法,这些方法通过最陡下降方向迭代更新参数。二阶方法的理论优势 : 二阶方法使用目标函数的局部二次近似来确定步长方向和大小,具有自然建议步长、避免病态区域振荡等优势。现有研究局限 : 科学机器学习(SciML)文献中的所有二阶方法都是拟牛顿法(如BFGS、L-BFGS),使用Hessian近似而非精确Hessian。作者质疑一个基本假设:使用精确Hessian是否真的比近似更好?通过理论分析和数值实验,作者发现精确牛顿法在神经网络训练中表现出病理行为,这为理解非线性离散化几何和损失景观结构提供了新视角。
几何解释 : 讨论流形上的回归问题,展示驻点的几何解释概念框架 : 将神经网络概念化为同时构建基函数和系数的近似流形平凡解识别 : 识别出神经网络回归目标的特殊驻点——平凡零解数值发现 : 通过实验证明精确牛顿法可靠地收敛到平凡解,即使在简单一维问题上机制解释 : 分析拟牛顿法与精确牛顿法的差异,解释前者成功的原因考虑离散回归问题,目标向量v需要由参数化向量N(θ)近似,其中θ为待确定参数。标准二次误差目标及其驻点条件为:
L ( θ ) = ∥ N ( θ ) − v ∥ 2 , ∂ L ∂ θ k = ( N ( θ ) − v ) ⋅ \f � ∂ N ∂ θ k = 0 L(\theta) = \|N(\theta) - v\|^2, \quad \frac{\partial L}{\partial \theta_k} = (N(\theta) - v) \cdot \f�{\partial N}{\partial \theta_k} = 0 L ( θ ) = ∥ N ( θ ) − v ∥ 2 , ∂ θ k ∂ L = ( N ( θ ) − v ) ⋅ \f � ∂ N ∂ θ k = 0
线性离散化 :参数缩放固定基向量,满足Galerkin最优性条件,保证唯一解且为最小值。
非线性离散化 :定义嵌入在高维空间中的流形近似,驻点条件要求误差向量正交于近似空间的切空间。
单位圆示例 :
N ( θ ) = [ cos ( θ ) sin ( θ ) ] , v = [ 2 2 ] N(\theta) = \begin{bmatrix} \cos(\theta) \\ \sin(\theta) \end{bmatrix}, \quad v = \begin{bmatrix} 2 \\ 2 \end{bmatrix} N ( θ ) = [ cos ( θ ) sin ( θ ) ] , v = [ 2 2 ]
驻点条件:∂ L ∂ θ = 2 ( sin ( θ ) − cos ( θ ) ) = 0 \frac{\partial L}{\partial \theta} = 2(\sin(\theta) - \cos(\theta)) = 0 ∂ θ ∂ L = 2 ( sin ( θ ) − cos ( θ )) = 0
解得 θ = π / 4 , 5 π / 4 \theta = \pi/4, 5\pi/4 θ = π /4 , 5 π /4 ,其中前者为最小值,后者为最大值。
椭圆环面示例 :
N ( θ ) = [ ( R + r cos ( θ 2 ) ) cos ( θ 1 ) ( R + r cos ( θ 2 ) ) e sin ( θ 1 ) r sin ( θ 2 ) ] N(\theta) = \begin{bmatrix} (R + r\cos(\theta_2))\cos(\theta_1) \\ (R + r\cos(\theta_2))e\sin(\theta_1) \\ r\sin(\theta_2) \end{bmatrix} N ( θ ) = ( R + r cos ( θ 2 )) cos ( θ 1 ) ( R + r cos ( θ 2 )) e sin ( θ 1 ) r sin ( θ 2 )
该示例展示了8个驻点:2个最小值、2个最大值、4个鞍点,证明牛顿法对不同类型驻点无偏好。
将MLP神经网络重新表述为:
N ( x , θ ) = ∑ k = 1 ∣ θ O ∣ θ k O h k ( x ; θ I ) N(x, \theta) = \sum_{k=1}^{|\theta^O|} \theta^O_k h_k(x; \theta^I) N ( x , θ ) = ∑ k = 1 ∣ θ O ∣ θ k O h k ( x ; θ I )
其中θ = [ θ I , θ O ] \theta = [\theta^I, \theta^O] θ = [ θ I , θ O ] 分解为"内部"和"外部"参数,内部参数定义基函数,外部参数作为缩放系数。
当N ( x ; θ ) = 0 N(x; \theta) = 0 N ( x ; θ ) = 0 时,驻点条件变为:
∂ L ∂ θ = ∫ 0 1 v ( x ) ∂ N ∂ θ d x = 0 \frac{\partial L}{\partial \theta} = \int_0^1 v(x) \frac{\partial N}{\partial \theta} dx = 0 ∂ θ ∂ L = ∫ 0 1 v ( x ) ∂ θ ∂ N d x = 0
可通过两种方式满足:
拟合与目标函数正交的基函数 设置外部参数θ O = 0 \theta^O = 0 θ O = 0 网络架构 : 两层隐藏层MLP,每层10个神经元激活函数 : 双曲正切函数 / SIREN网络的正弦函数参数初始化 : PyTorch内置Xavier初始化优化算法 : 修正牛顿法(Levenberg-Marquardt算法)数值积分 : 100个等间距点的均匀网格θ k + 1 = θ k − η ( ∂ 2 L ∂ θ ∂ θ + ϵ I ) − 1 ( ∂ L ∂ θ ) \theta_{k+1} = \theta_k - \eta \left(\frac{\partial^2 L}{\partial \theta \partial \theta} + \epsilon I\right)^{-1} \left(\frac{\partial L}{\partial \theta}\right) θ k + 1 = θ k − η ( ∂ θ ∂ θ ∂ 2 L + ϵ I ) − 1 ( ∂ θ ∂ L )
其中0 < η < 1 0 < \eta < 1 0 < η < 1 为步长松弛参数,ϵ > 0 \epsilon > 0 ϵ > 0 引入凸性避免过大步长。
目标函数 : v ( x ) = 2 sin ( 4 π x ) v(x) = 2\sin(4\pi x) v ( x ) = 2 sin ( 4 π x ) 参数设置 : η = ϵ = 5 × 10 − 2 \eta = \epsilon = 5 \times 10^{-2} η = ϵ = 5 × 1 0 − 2 , T = 1 × 10 − 5 T = 1 \times 10^{-5} T = 1 × 1 0 − 5
主要发现 :
牛顿法收敛到平凡解,学习与目标函数正交的基函数 10次运行中9次获得平凡解 基函数主要为常数函数和sin ( π x ) + c \sin(\pi x) + c sin ( π x ) + c 形式 Hessian特征值分析确认为鞍点解 网络配置 : ω 0 = 4 \omega_0 = 4 ω 0 = 4 的正弦激活函数
参数设置 : η = 5 × 10 − 2 \eta = 5 \times 10^{-2} η = 5 × 1 0 − 2 , ϵ = 1 × 10 − 1 \epsilon = 1 \times 10^{-1} ϵ = 1 × 1 0 − 1
结果 :
仍然收敛到平凡解,但基函数变为高频非冗余函数 5次运行中4次获得平凡解 证明频谱偏置不能避免平凡解问题 输入层 : γ ( x ) = [ sin ( 2 π B x ) , cos ( 2 π B x ) ] T \gamma(x) = [\sin(2\pi Bx), \cos(2\pi Bx)]^T γ ( x ) = [ sin ( 2 π B x ) , cos ( 2 π B x ) ] T 参数 : σ 2 = 1.5 \sigma^2 = 1.5 σ 2 = 1.5 , f = 10 f = 10 f = 10
结果 :
约半数运行收敛到平凡解 其余运行大多无法收敛 高频基函数仍无法避免问题 ∂ 2 u ∂ x 2 + v ( x ) = 0 , u ( 0 ) = u ( 1 ) = 0 \frac{\partial^2 u}{\partial x^2} + v(x) = 0, \quad u(0) = u(1) = 0 ∂ x 2 ∂ 2 u + v ( x ) = 0 , u ( 0 ) = u ( 1 ) = 0
强形式损失 :
L ( θ ) = 1 2 ∫ 0 1 ( ∂ 2 N ( x ; θ ) ∂ x 2 + v ( x ) ) 2 d x L(\theta) = \frac{1}{2} \int_0^1 \left(\frac{\partial^2 N(x; \theta)}{\partial x^2} + v(x)\right)^2 dx L ( θ ) = 2 1 ∫ 0 1 ( ∂ x 2 ∂ 2 N ( x ; θ ) + v ( x ) ) 2 d x
结果 : 5次运行全部收敛到平凡解,学习二阶导数与源项正交的基函数。
∇ 2 u + u + v ( x ) = 0 , x ∈ [ 0 , 1 ] 2 \nabla^2 u + u + v(x) = 0, \quad x \in [0,1]^2 ∇ 2 u + u + v ( x ) = 0 , x ∈ [ 0 , 1 ] 2
对比实验 : 牛顿法收敛到平凡解,而ADAM成功求解微分方程。
通过随机生成10 5 10^5 1 0 5 个140×140的Hessian矩阵(独立标准正态分布),发现:
没有一个矩阵具有纯正或纯负特征值 支持高维损失景观中鞍点占主导地位的假设 解释了牛顿法可靠收敛到鞍点的现象 L-BFGS应用 : 翼型几何优化同时学习流分布混合优化器 : L-BFGS与ADAM的混合方法BFGS族比较 : 自缩放BFGS变体的性能改进梯度冲突解决 : 拟牛顿法自然解决损失函数不同项间的梯度冲突预条件策略 : 新型拟牛顿预条件方法现有文献中所有二阶方法都是拟牛顿法,本文首次系统研究精确牛顿法在神经网络训练中的行为。
精确牛顿法的失败 : 精确Hessian信息导致神经网络训练可靠失败,收敛到平凡鞍点解拟牛顿法的成功机制 : 拟牛顿法成功不是因为近似Hessian,而是因为内置的防上升保护机制损失景观特性 : 高维神经网络损失景观中鞍点占主导地位,质疑传统的"局部极小值丰富"观点几何洞察 : 非线性离散化创建嵌入流形,驻点条件具有明确几何解释拟牛顿法的真正优势 :
BFGS/L-BFGS强制执行曲率条件,维持正定Hessian近似 避免鞍点Newton方法显式排斥负曲率方向 只利用有助于最小化的曲率信息,忽略负曲率 简单示例 : 数值实验相对简单,复杂实际问题的行为可能不同理论分析深度 : 对平凡解非唯一性和具体收敛机制的理论解释有待深入实用性 : 主要为理论洞察,对实际应用的直接指导有限损失景观理论 : 深入理解神经网络损失景观的几何结构优化器设计 : 基于负曲率处理的新型二阶优化器收敛性分析 : 不同优化器在高维非凸问题上的收敛性理论实际应用 : 在更复杂的科学计算问题上验证发现理论创新性 : 首次系统研究精确牛顿法在神经网络训练中的病理行为,挑战传统认知几何洞察 : 提供非线性离散化和驻点的几何解释,增进对损失景观的理解实验充分性 : 从简单几何示例到复杂神经网络,实验设计层次清晰实用价值 : 解释拟牛顿法成功的真正原因,为优化器设计提供指导实验规模 : 神经网络实验相对简单,缺乏大规模实际应用验证理论深度 : 对平凡解收敛机制的理论分析可以更深入解决方案 : 主要识别问题,对改进方法的探讨有限适用范围 : 结论的普适性需要更广泛验证学术贡献 : 为优化理论和神经网络训练提供新视角实用指导 : 解释二阶优化方法的设计原理研究启发 : 开启对损失景观几何结构的深入研究科学机器学习 : 物理信息神经网络等科学计算应用优化器研究 : 二阶优化方法的理论分析和改进教学研究 : 优化理论和神经网络几何的教学案例论文引用了30篇相关文献,涵盖:
优化理论经典教材 (Nocedal & Wright, Ruszczynski) 神经网络优化方法 (ADAM, BFGS族) 物理信息神经网络 (Raissi et al., 各种PINNs应用) 神经网络理论 (频谱偏置、SIREN、Fourier特征) 高维优化理论 (鞍点问题、Dauphin et al.) 总体评价 : 这是一篇理论洞察深刻的优秀论文,通过反直觉的发现挑战了精确Hessian必然更好的传统观念,为理解神经网络优化的几何本质提供了新视角。虽然实验规模相对有限,但其理论贡献和对优化器设计原理的解释具有重要学术价值。