Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
論文ID : 2510.09034タイトル : Convergence of optimizers implies eigenvalues filtering at equilibrium著者 : Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels分類 : cs.LG math.DS math.OC発表日 : 2025年10月13日論文リンク : https://arxiv.org/abs/2510.09034 深いニューラルネットワークの訓練における豊富な経験的証拠は、様々なオプティマイザーが全体最適解に近い解を見つける傾向があることを示唆している。本論文は逆の視点を採用し、収束を任意の点に仮定して証明するのではなく、この仮定の帰結に焦点を当てている。この観点から、辺縁安定性現象の最近の進展と組み合わせて、著者らは異なるオプティマイザーが実際には超パラメータによって決定される固有値フィルターとして機能することを論証している。具体的には、標準的な勾配降下法は本質的に最も鋭い最小値を回避し、鋭度認識最小化(SAM)アルゴリズムはさらに積極的により広い盆地を好む。これらの知見に基づいて、著者らは2つの新しいアルゴリズムを提案し、強化された固有値フィルタリング能力を示し、より広い最小値を効果的に促進する。理論的分析は一般化されたHadamard-Perron安定多様体定理を利用し、一般的な半代数C²関数に適用可能であり、追加の非退化条件やグローバルLipschitz界の仮定を必要としない。
本研究が取り組む核心問題は、深層学習におけるオプティマイザーの収束挙動、特に損失関数の複雑なランドスケープにおいて特定の最小値をどのように選択するかを理解することである。従来の研究は収束性の証明に焦点を当てているが、本論文は「逆向き」の視点を採用している:収束がすでに発生したと仮定し、この収束が到達点の幾何学的性質(特にHessian固有値)に対する制約を分析する。
安定性と汎化の関連性 :安定した訓練は広い吸引盆地と平坦な最小値に関連し、これらの特性は汎化性能と密接に関連している辺縁安定性現象 :経験的観察は標準的な訓練が通常安定性の境界付近で動作することを示唆している実用的意義 :オプティマイザーの暗黙的な偏好を理解することは、より良い訓練アルゴリズムの設計に役立つ既存の理論は通常、厳密な仮定条件(グローバルLipschitz界、非退化条件など)を必要とする 異なるオプティマイザーの固有値フィルタリング挙動を理解するための統一フレームワークが不足している SAM類アルゴリズムの理論的理解が限定的である 過去10年間、深層学習の実践において成功した訓練がほぼ常態となったことから、研究視点は「いつ収束するか」から「なぜ成功裏に収束し、超パラメータがどのようにそれを可能にするか」へと転換している。
統一理論フレームワーク :一般化されたHadamard-Perron安定多様体定理に基づく統一分析フレームワークを提案し、広範なオプティマイザーアルゴリズムのクラスに適用可能固有値フィルタリング理論 :成功したオプティマイザーの収束は必然的に到達点のHessian固有値に制約を課し、「固有値フィルタリング」効果を形成することを証明アルゴリズム分析 :勾配降下法、重球法、Nesterov加速勾配法、USAMの固有値フィルタリング特性を体系的に分析新アルゴリズムの提案 :Two-step USAMとHessian USAMの2つの新しいアルゴリズムを設計し、より強い固有値フィルタリング能力を示す理論の拡張 :既存の結果をより一般的な半代数関数クラスに拡張し、抽象的な非退化仮定を除去一般形式の反復最適化アルゴリズムを考える:
x k + 1 = G α ( x k ) = D x k − α g ( x k ) , k = 0 , 1 , 2 , … x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots x k + 1 = G α ( x k ) = D x k − αg ( x k ) , k = 0 , 1 , 2 , …
ここで:
D ∈ R m × m D \in \mathbb{R}^{m \times m} D ∈ R m × m は可逆行列g : R m → R m g: \mathbb{R}^m \to \mathbb{R}^m g : R m → R m はC¹連続微分可能な半代数写像α > 0 \alpha > 0 α > 0 はステップサイズパラメータ定理1.1 :D ∈ R m × m D \in \mathbb{R}^{m \times m} D ∈ R m × m を可逆行列、g : R m → R m g: \mathbb{R}^m \to \mathbb{R}^m g : R m → R m をC¹半代数写像とする。ほぼすべてのx 0 ∈ R m x_0 \in \mathbb{R}^m x 0 ∈ R m とα > 0 \alpha > 0 α > 0 に対して、列( x k ) k ∈ N (x_k)_{k \in \mathbb{N}} ( x k ) k ∈ N がある点x ˉ \bar{x} x ˉ に収束する場合、D − α g D - \alpha g D − αg のx ˉ \bar{x} x ˉ でのJacobianのスペクトル半径は最大1である:
ρ ( Jac G α ( x ˉ ) ) ≤ 1 \rho(\text{Jac}G_\alpha(\bar{x})) \leq 1 ρ ( Jac G α ( x ˉ )) ≤ 1
定理2.1 :Λ ⊂ R + \Lambda \subset \mathbb{R}_+ Λ ⊂ R + が存在し、その補集合は有限集合であり、任意のα ∈ Λ \alpha \in \Lambda α ∈ Λ に対して、集合
W α = { x 0 ∈ R m ∣ ∃ x ˉ s.t. G α ( x ˉ ) = x ˉ , ρ ( Jac G α ( x ˉ ) ) > 1 , x k → x ˉ } W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} W α = { x 0 ∈ R m ∣∃ x ˉ s.t. G α ( x ˉ ) = x ˉ , ρ ( Jac G α ( x ˉ )) > 1 , x k → x ˉ }
は最大m − 1 m-1 m − 1 次元のC¹部分多様体の可算和に含まれる。
半代数仮定 :半代数関数クラスを十分条件として使用し、深層学習でほぼすべての一般的な関数を含むグローバル条件不要 :グローバルLipschitz界や非退化仮定を必要としない統一分析フレームワーク :統一された行列形式D D D と写像g g g を通じて、複数の最適化アルゴリズムを網羅命題3.1 :勾配降下法x k + 1 = x k − α ∇ f ( x k ) x_{k+1} = x_k - \alpha \nabla f(x_k) x k + 1 = x k − α ∇ f ( x k ) に対して、x ˉ \bar{x} x ˉ に収束する場合、∇ 2 f ( x ˉ ) \nabla^2f(\bar{x}) ∇ 2 f ( x ˉ ) のすべての固有値λ \lambda λ は以下を満たす:
0 ≤ λ ≤ 2 α 0 \leq \lambda \leq \frac{2}{\alpha} 0 ≤ λ ≤ α 2
命題3.2 :重球法に対して、固有値制約は以下の通り:
0 ≤ λ ≤ 2 ( 1 + β ) α 0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ≤ α 2 ( 1 + β )
命題3.4 :USAMアルゴリズムx k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k ) ) x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)) x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k )) に対して、固有値λ \lambda λ は以下を満たす:
0 ≤ λ ( 1 + ρ λ ) ≤ 2 ( 1 + β ) α 0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ( 1 + ρ λ ) ≤ α 2 ( 1 + β )
同等に:
0 ≤ λ ≤ 1 + 8 ( 1 + β ) ρ / α − 1 2 ρ 0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho} 0 ≤ λ ≤ 2 ρ 1 + 8 ( 1 + β ) ρ / α − 1
更新規則:
x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k ) + ρ ∇ f ( x k + ρ ∇ f ( x k ) ) ) x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k))) x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k ) + ρ ∇ f ( x k + ρ ∇ f ( x k )))
固有値制約:
0 ≤ λ ( 1 + ρ λ ) 2 ≤ 2 ( 1 + β ) α 0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ( 1 + ρ λ ) 2 ≤ α 2 ( 1 + β )
更新規則:
x k + 1 = x k − α ∇ f ( x k + ρ ∇ 2 f ( x k ) ∇ f ( x k ) ) x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k)) x k + 1 = x k − α ∇ f ( x k + ρ ∇ 2 f ( x k ) ∇ f ( x k ))
固有値制約:
0 ≤ λ ( 1 + ρ λ 2 ) ≤ 2 ( 1 + β ) α 0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ( 1 + ρ λ 2 ) ≤ α 2 ( 1 + β )
MNIST + MLP :隠れ層次元{128, 64, 10, 10}、ReLU活性化、交差エントロピー損失Fashion-MNIST + MLP :同じ設定CIFAR10 + WideResNet-16-8 :バッチ正規化層なしのWideResNetアーキテクチャバッチサイズ:128 学習率:α = 0.01 \alpha = 0.01 α = 0.01 重み減衰:5 × 10 − 4 5 \times 10^{-4} 5 × 1 0 − 4 モメンタム:β ∈ { 0 , 0.9 } \beta \in \{0, 0.9\} β ∈ { 0 , 0.9 } SAMパラメータ:ρ \rho ρ はグリッドサーチで選択 テスト精度 Hessian行列の上位3つの最大固有値 固有値フィルタリングの検証 :実験結果は理論予測と高度に一致し、USAM、Two-step USAM、Hessian USAMは確かにより平坦な最小値を見つけているアルゴリズム比較 :標準勾配降下法:ベースラインパフォーマンス USAM:Hessian固有値を大幅に低減 Two-step USAM:固有値フィルタリングをさらに改善 Hessian USAM:同様の改善効果 アーキテクチャ依存性 :MLPアーキテクチャ:理論予測と実験結果が高度に一致 WideResNet:差異が小さい、訓練難度の増加による可能性 安定性要件 :Two-step USAMとHessian USAMは訓練失敗を避けるためにより小さいρ \rho ρ 値を必要とし、理論予測のより厳密な曲率制約と一致しているバッチ正規化の影響 :バッチ正規化を使用するアーキテクチャでは、SAM類アルゴリズムの平坦化効果は明白ではなく、これは理論と矛盾しない。バッチ正規化はアルゴリズムの動力学を変更するためであるHadamard (1901)、Perron (1929)の古典的結果 現代最適化への応用:Lee et al. (2016)、Panageas & Piliouras (2017)、Ahn et al. (2022) Cohen et al. (2021, 2022):勾配降下法と適応的方法の辺縁安定性 Andreyev & Beneventano (2024):確率的アルゴリズムへの拡張 Foret et al. (2021):元のSAMアルゴリズム Andriushchenko & Flammarion (2022):USAM変体 後続の理論分析:Zhou et al. (2025)、Marion & Chizat (2024) 統一的視点 :成功したオプティマイザーの訓練は本質的に固有値フィルタリングプロセスであり、異なるアルゴリズムは超パラメータを通じて異なる程度のフィルタリングを実現する理論的拡張 :一般化された安定多様体定理は最適化アルゴリズムを理解するための強力な理論的ツールを提供する実用的指導 :理論的結果は新しい最適化アルゴリズムの設計に原則的な指導を提供する半代数仮定 :広範ではあるが、依然として一定の制限がある新アルゴリズムの計算コスト :Two-step USAMとHessian USAMの単一反復のコストはより高いバッチ正規化との互換性 :理論フレームワークはまだバッチ正規化操作を含まないより一般的な関数クラスへの拡張 :半代数仮定を必要としない理論的拡張の探索バッチ正規化理論 :バッチ正規化を含むアーキテクチャへの理論フレームワークの拡張実用的なアルゴリズム最適化 :理論的利点を保ちながら新しいアルゴリズムの計算コストを削減理論的革新 :最適化アルゴリズムを理解するための全く新しい視点を提供し、「収束性証明」から「収束後の分析」へと転換統一フレームワーク :複数の最適化アルゴリズムの固有値フィルタリング挙動を分析するための統一理論フレームワークを初めて提供実用的価値 :理論的結果は新しいアルゴリズムの設計を直接指導し、実験で検証されている技術的厳密性 :数学的導出は厳密で、仮定条件は明確かつ合理的実験規模の限定 :実験は比較的単純なアーキテクチャとデータセットで主に実施され、大規模実験検証が不足している新アルゴリズムの評価 :Two-step USAMとHessian USAMの包括的なパフォーマンス評価(汎化能力を含む)にはさらなる作業が必要理論的ギャップ :SAMアルゴリズムの実際のパフォーマンスと理論予測の間に一定の差異がある(例えば、厳密な鞍点問題)理論的貢献 :最適化理論に新しい分析ツールと視点を提供実用的価値 :最適化アルゴリズム設計に原則的な指導を提供学際的意義 :動力系理論と機械学習実践を結びつける深層学習最適化 :特にニューラルネットワーク訓練アルゴリズムの理解と改善に適用可能非凸最適化 :一般的な非凸最適化問題に新しい分析ツールを提供アルゴリズム設計 :新しい最適化アルゴリズムの設計と分析を指導本論文は多くの関連研究を引用しており、主に以下を含む:
古典的動力系理論文献 現代最適化理論の進展 深層学習における安定性と汎化研究 鋭度認識最小化関連研究 辺縁安定性現象の理論と実験研究 総合評価 :これは理論的深さと実用的価値を兼ね備えた優れた論文であり、深層学習における最適化現象を理解するための新しい理論的ツールを提供し、理論が算法設計を指導する成功事例を示している。大規模実験検証の面でまだ改善の余地があるが、その理論的貢献と革新的視点により、最適化理論分野における重要な進展となっている。