Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
논문 ID : 2510.11987제목 : Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives저자 : Conor Rowan (University of Colorado Boulder)분류 : cs.LG (기계학습)발표 시간 : 2025년 10월 13일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2510.11987 2차 최적화 방법이 경사하강법 및 ADAM과 같은 1차 최적화기의 유망한 대안으로 부상하고 있습니다. 과학 기계학습 문헌에서 곡률 정보를 포함하여 최적화 단계를 계산하는 이점이 널리 찬양되고 있지만, 연구된 모든 2차 방법은 목적함수의 헤시안 행렬을 근사하는 준뉴턴법입니다. 진정한 헤시안을 그 근사값으로 대체하면 이득만 얻을 것으로 예상되지만, 본 논문은 정확한 곡률 정보에 의존할 때 신경망 훈련이 안정적으로 실패함을 보여줍니다. 이러한 실패 패턴은 비선형 이산화의 기하학적 특성과 손실 경관에서의 정류점 분포에 대한 통찰력을 제공하며, 손실 경관이 국소 최솟값으로 가득 차 있다는 전통적 관념에 의문을 제기합니다.
1차 vs 2차 최적화 : 전통적으로 신경망 훈련은 주로 ADAM과 같은 1차 최적화 방법에 의존하며, 이는 최급강하 방향을 통해 매개변수를 반복적으로 업데이트합니다.2차 방법의 이론적 장점 : 2차 방법은 목적함수의 국소 이차 근사를 사용하여 단계 크기 방향과 크기를 결정하며, 자연스러운 단계 크기 제안, 병적 영역에서의 진동 회피 등의 장점이 있습니다.기존 연구의 한계 : 과학 기계학습(SciML) 문헌의 모든 2차 방법은 정확한 헤시안 대신 헤시안 근사를 사용하는 준뉴턴법(예: BFGS, L-BFGS)입니다.저자는 기본 가정에 의문을 제기합니다: 정확한 헤시안 사용이 정말 근사보다 나을까요? 이론적 분석과 수치 실험을 통해 저자는 정확한 뉴턴법이 신경망 훈련에서 병리적 행동을 나타내며, 이는 비선형 이산화의 기하학과 손실 경관 구조를 이해하기 위한 새로운 관점을 제공함을 발견했습니다.
기하학적 해석 : 다양체 위의 회귀 문제를 논의하고 정류점의 기하학적 해석을 제시개념적 틀 : 신경망을 기저함수와 계수를 동시에 구성하는 근사 다양체로 개념화자명해 식별 : 신경망 회귀 목적함수의 특수한 정류점인 자명 영해 식별수치적 발견 : 실험을 통해 정확한 뉴턴법이 자명해로 안정적으로 수렴함을 증명, 단순한 1차원 문제에서도 수렴메커니즘 설명 : 준뉴턴법과 정확한 뉴턴법의 차이를 분석하고 전자의 성공 이유 설명이산 회귀 문제를 고려하며, 목표 벡터 v는 매개변수화된 벡터 N(θ)로 근사되어야 하고, θ는 결정할 매개변수입니다. 표준 이차 오차 목적함수 및 그 정류점 조건은 다음과 같습니다:
L ( θ ) = ∥ N ( θ ) − v ∥ 2 , ∂ L ∂ θ k = ( N ( θ ) − v ) ⋅ ∂ N ∂ θ k = 0 L(\theta) = \|N(\theta) - v\|^2, \quad \frac{\partial L}{\partial \theta_k} = (N(\theta) - v) \cdot \frac{\partial N}{\partial \theta_k} = 0 L ( θ ) = ∥ N ( θ ) − v ∥ 2 , ∂ θ k ∂ L = ( N ( θ ) − v ) ⋅ ∂ θ k ∂ N = 0
선형 이산화 : 매개변수가 고정 기저 벡터를 스케일링하며, Galerkin 최적성 조건을 만족하고 유일한 해를 보장하며 최솟값입니다.
비선형 이산화 : 고차원 공간에 내장된 다양체를 정의하며, 정류점 조건은 오차 벡터가 근사 공간의 접공간에 직교함을 요구합니다.
단위원 예시 :
N ( θ ) = [ cos ( θ ) sin ( θ ) ] , v = [ 2 2 ] N(\theta) = \begin{bmatrix} \cos(\theta) \\ \sin(\theta) \end{bmatrix}, \quad v = \begin{bmatrix} 2 \\ 2 \end{bmatrix} N ( θ ) = [ cos ( θ ) sin ( θ ) ] , v = [ 2 2 ]
정류점 조건: ∂ L ∂ θ = 2 ( sin ( θ ) − cos ( θ ) ) = 0 \frac{\partial L}{\partial \theta} = 2(\sin(\theta) - \cos(\theta)) = 0 ∂ θ ∂ L = 2 ( sin ( θ ) − cos ( θ )) = 0
해: θ = π / 4 , 5 π / 4 \theta = \pi/4, 5\pi/4 θ = π /4 , 5 π /4 , 여기서 전자는 최솟값, 후자는 최댓값입니다.
타원 토러스 예시 :
N ( θ ) = [ ( R + r cos ( θ 2 ) ) cos ( θ 1 ) ( R + r cos ( θ 2 ) ) e sin ( θ 1 ) r sin ( θ 2 ) ] N(\theta) = \begin{bmatrix} (R + r\cos(\theta_2))\cos(\theta_1) \\ (R + r\cos(\theta_2))e\sin(\theta_1) \\ r\sin(\theta_2) \end{bmatrix} N ( θ ) = ( R + r cos ( θ 2 )) cos ( θ 1 ) ( R + r cos ( θ 2 )) e sin ( θ 1 ) r sin ( θ 2 )
이 예시는 8개의 정류점을 보여줍니다: 2개의 최솟값, 2개의 최댓값, 4개의 안장점으로, 뉴턴법이 다양한 유형의 정류점에 편향되지 않음을 증명합니다.
MLP 신경망을 다음과 같이 재표현합니다:
N ( x , θ ) = ∑ k = 1 ∣ θ O ∣ θ k O h k ( x ; θ I ) N(x, \theta) = \sum_{k=1}^{|\theta^O|} \theta^O_k h_k(x; \theta^I) N ( x , θ ) = ∑ k = 1 ∣ θ O ∣ θ k O h k ( x ; θ I )
여기서 θ = [ θ I , θ O ] \theta = [\theta^I, \theta^O] θ = [ θ I , θ O ] 는 "내부" 및 "외부" 매개변수로 분해되며, 내부 매개변수는 기저함수를 정의하고 외부 매개변수는 스케일링 계수로 작용합니다.
N ( x ; θ ) = 0 N(x; \theta) = 0 N ( x ; θ ) = 0 일 때, 정류점 조건은 다음과 같이 됩니다:
∂ L ∂ θ = ∫ 0 1 v ( x ) ∂ N ∂ θ d x = 0 \frac{\partial L}{\partial \theta} = \int_0^1 v(x) \frac{\partial N}{\partial \theta} dx = 0 ∂ θ ∂ L = ∫ 0 1 v ( x ) ∂ θ ∂ N d x = 0
두 가지 방식으로 만족될 수 있습니다:
목표함수에 직교하는 기저함수 적합 외부 매개변수 θ O = 0 \theta^O = 0 θ O = 0 설정 네트워크 아키텍처 : 각 계층 10개 뉴런의 2계층 은닉층 MLP활성화 함수 : 쌍곡탄젠트 함수 / SIREN 네트워크의 정현 함수매개변수 초기화 : PyTorch 내장 Xavier 초기화최적화 알고리즘 : 수정된 뉴턴법(Levenberg-Marquardt 알고리즘)수치 적분 : 100개 등간격 점의 균일 격자θ k + 1 = θ k − η ( ∂ 2 L ∂ θ ∂ θ + ϵ I ) − 1 ( ∂ L ∂ θ ) \theta_{k+1} = \theta_k - \eta \left(\frac{\partial^2 L}{\partial \theta \partial \theta} + \epsilon I\right)^{-1} \left(\frac{\partial L}{\partial \theta}\right) θ k + 1 = θ k − η ( ∂ θ ∂ θ ∂ 2 L + ϵ I ) − 1 ( ∂ θ ∂ L )
여기서 0 < η < 1 0 < \eta < 1 0 < η < 1 은 단계 크기 완화 매개변수이고, ϵ > 0 \epsilon > 0 ϵ > 0 은 과도한 단계를 피하기 위해 볼록성을 도입합니다.
목표함수 : v ( x ) = 2 sin ( 4 π x ) v(x) = 2\sin(4\pi x) v ( x ) = 2 sin ( 4 π x ) 매개변수 설정 : η = ϵ = 5 × 10 − 2 \eta = \epsilon = 5 \times 10^{-2} η = ϵ = 5 × 1 0 − 2 , T = 1 × 10 − 5 T = 1 \times 10^{-5} T = 1 × 1 0 − 5
주요 발견 :
뉴턴법이 자명해로 수렴하며, 목표함수에 직교하는 기저함수 학습 10회 실행 중 9회에서 자명해 획득 기저함수는 주로 상수함수 및 sin ( π x ) + c \sin(\pi x) + c sin ( π x ) + c 형태 헤시안 고유값 분석이 안장점 해임을 확인 네트워크 구성 : ω 0 = 4 \omega_0 = 4 ω 0 = 4 의 정현 활성화 함수
매개변수 설정 : η = 5 × 10 − 2 \eta = 5 \times 10^{-2} η = 5 × 1 0 − 2 , ϵ = 1 × 10 − 1 \epsilon = 1 \times 10^{-1} ϵ = 1 × 1 0 − 1
결과 :
여전히 자명해로 수렴하지만 기저함수는 고주파 비중복 함수로 변환 5회 실행 중 4회에서 자명해 획득 스펙트럼 편향이 자명해 문제를 피할 수 없음을 증명 입력층 : γ ( x ) = [ sin ( 2 π B x ) , cos ( 2 π B x ) ] T \gamma(x) = [\sin(2\pi Bx), \cos(2\pi Bx)]^T γ ( x ) = [ sin ( 2 π B x ) , cos ( 2 π B x ) ] T 매개변수 : σ 2 = 1.5 \sigma^2 = 1.5 σ 2 = 1.5 , f = 10 f = 10 f = 10
결과 :
약 절반의 실행이 자명해로 수렴 나머지 실행은 대부분 수렴 실패 고주파 기저함수도 문제를 피할 수 없음 ∂ 2 u ∂ x 2 + v ( x ) = 0 , u ( 0 ) = u ( 1 ) = 0 \frac{\partial^2 u}{\partial x^2} + v(x) = 0, \quad u(0) = u(1) = 0 ∂ x 2 ∂ 2 u + v ( x ) = 0 , u ( 0 ) = u ( 1 ) = 0
강형식 손실 :
L ( θ ) = 1 2 ∫ 0 1 ( ∂ 2 N ( x ; θ ) ∂ x 2 + v ( x ) ) 2 d x L(\theta) = \frac{1}{2} \int_0^1 \left(\frac{\partial^2 N(x; \theta)}{\partial x^2} + v(x)\right)^2 dx L ( θ ) = 2 1 ∫ 0 1 ( ∂ x 2 ∂ 2 N ( x ; θ ) + v ( x ) ) 2 d x
결과 : 5회 실행 모두 자명해로 수렴하며, 2차 도함수가 소스항에 직교하는 기저함수 학습.
∇ 2 u + u + v ( x ) = 0 , x ∈ [ 0 , 1 ] 2 \nabla^2 u + u + v(x) = 0, \quad x \in [0,1]^2 ∇ 2 u + u + v ( x ) = 0 , x ∈ [ 0 , 1 ] 2
비교 실험 : 뉴턴법은 자명해로 수렴하지만 ADAM은 미분방정식을 성공적으로 풀이.
무작위로 생성된 10 5 10^5 1 0 5 개의 140×140 헤시안 행렬(독립 표준정규분포)을 통해 다음을 발견:
순수 양수 또는 순수 음수 고유값을 가진 행렬 없음 고차원 손실 경관에서 안장점이 지배적이라는 가설 지지 뉴턴법이 안장점으로 안정적으로 수렴하는 현상 설명 L-BFGS 적용 : 익형 기하학 최적화와 동시 유동 분포 학습혼합 최적화기 : L-BFGS와 ADAM의 혼합 방법BFGS 계열 비교 : 자동 스케일링 BFGS 변형의 성능 개선경사 충돌 해결 : 준뉴턴법이 손실함수 다양한 항 간의 경사 충돌을 자연스럽게 해결전조건화 전략 : 새로운 준뉴턴 전조건화 방법기존 문헌의 모든 2차 방법은 준뉴턴법이며, 본 논문은 신경망 훈련에서 정확한 뉴턴법의 행동을 처음으로 체계적으로 연구합니다.
정확한 뉴턴법의 실패 : 정확한 헤시안 정보는 신경망 훈련을 안정적으로 실패하게 하며, 자명한 안장점 해로 수렴준뉴턴법의 성공 메커니즘 : 준뉴턴법의 성공은 헤시안 근사 때문이 아니라 내장된 상승 방지 메커니즘 때문손실 경관 특성 : 고차원 신경망 손실 경관에서 안장점이 지배적이며, 전통적인 "국소 최솟값 풍부" 관점에 의문 제기기하학적 통찰 : 비선형 이산화는 내장 다양체를 생성하며, 정류점 조건은 명확한 기하학적 해석을 가짐준뉴턴법의 진정한 장점 :
BFGS/L-BFGS는 곡률 조건을 강제하여 양정치 헤시안 근사 유지 안장점 뉴턴 방법이 음의 곡률 방향을 명시적으로 배제 최소화에 도움이 되는 곡률 정보만 활용하고 음의 곡률 무시 단순한 예시 : 수치 실험이 상대적으로 단순하며, 복잡한 실제 문제의 행동은 다를 수 있음이론적 깊이 : 자명해의 비유일성과 구체적 수렴 메커니즘에 대한 이론적 설명 필요실용성 : 주로 이론적 통찰이며, 실제 응용에 대한 직접적 지도 제한적손실 경관 이론 : 신경망 손실 경관의 기하학적 구조 심화 이해최적화기 설계 : 음의 곡률 처리 기반의 새로운 2차 최적화기수렴성 분석 : 고차원 비볼록 문제에서 다양한 최적화기의 수렴성 이론실제 응용 : 더 복잡한 과학 계산 문제에서 발견 검증이론적 혁신성 : 신경망 훈련에서 정확한 뉴턴법의 병리적 행동을 처음으로 체계적으로 연구하며 전통적 인식에 도전기하학적 통찰 : 비선형 이산화와 정류점의 기하학적 해석을 제공하여 손실 경관 이해 증진실험의 충분성 : 단순한 기하학적 예시에서 복잡한 신경망까지, 실험 설계가 계층적으로 명확실용적 가치 : 준뉴턴법 성공의 진정한 이유를 설명하여 최적화기 설계에 지도 제공실험 규모 : 신경망 실험이 상대적으로 단순하며, 대규모 실제 응용 검증 부족이론적 깊이 : 자명해 수렴 메커니즘에 대한 이론적 분석 심화 가능해결 방안 : 주로 문제 식별에 중점이며, 개선 방법 탐구 제한적적용 범위 : 결론의 보편성은 더 광범위한 검증 필요학술 기여 : 최적화 이론과 신경망 훈련에 새로운 관점 제공실용적 지도 : 2차 최적화 방법의 설계 원리 설명연구 영감 : 손실 경관 기하학적 구조의 심화 연구 개시과학 기계학습 : 물리정보신경망 등 과학 계산 응용최적화기 연구 : 2차 최적화 방법의 이론적 분석 및 개선교육 연구 : 최적화 이론과 신경망 기하학의 교육 사례논문은 30편의 관련 문헌을 인용하며, 다음을 포함합니다:
최적화 이론 고전 교재 (Nocedal & Wright, Ruszczynski) 신경망 최적화 방법 (ADAM, BFGS 계열) 물리정보신경망 (Raissi et al., 다양한 PINNs 응용) 신경망 이론 (스펙트럼 편향, SIREN, 푸리에 특성) 고차원 최적화 이론 (안장점 문제, Dauphin et al.) 종합 평가 : 이는 이론적 통찰이 깊은 우수한 논문으로, 정확한 헤시안이 반드시 더 나을 것이라는 전통적 관념에 반직관적 발견으로 도전하며, 신경망 최적화의 기하학적 본질을 이해하기 위한 새로운 관점을 제공합니다. 실험 규모는 상대적으로 제한적이지만, 이론적 기여와 최적화기 설계 원리에 대한 설명은 중요한 학술적 가치를 가집니다.