2025-11-12T03:25:10.381590

Non-Singularity of the Gradient Descent map for Neural Networks with Piecewise Analytic Activations

CrÄciun, Ghoshdastidar

The theory of training deep networks has become a central question of modern machine learning and has inspired many practical advancements. In particular, the gradient descent (GD) optimization algorithm has been extensively studied in recent years. A key assumption about GD has appeared in several recent works: the \emph{GD map is non-singular} -- it preserves sets of measure zero under preimages. Crucially, this assumption has been used to prove that GD avoids saddle points and maxima, and to establish the existence of a computable quantity that determines the convergence to global minima (both for GD and stochastic GD). However, the current literature either assumes the non-singularity of the GD map or imposes restrictive assumptions, such as Lipschitz smoothness of the loss (for example, Lipschitzness does not hold for deep ReLU networks with the cross-entropy loss) and restricts the analysis to GD with small step-sizes. In this paper, we investigate the neural network map as a function on the space of weights and biases. We also prove, for the first time, the non-singularity of the gradient descent (GD) map on the loss landscape of realistic neural network architectures (with fully connected, convolutional, or softmax attention layers) and piecewise analytic activations (which includes sigmoid, ReLU, leaky ReLU, etc.) for almost all step-sizes. Our work significantly extends the existing results on the convergence of GD and SGD by guaranteeing that they apply to practical neural network settings and has the potential to unlock further exploration of learning dynamics.

academic

区分解析的活性化関数を持つニューラルネットワークの勾配降下法マップの非特異性

基本情報

論文ID: 2510.24466
タイトル: Non-Singularity of the Gradient Descent Map for Neural Networks with Piecewise Analytic Activations
著者: Alexandru Crăciun (ミュンヘン工科大学)、Debarghya Ghoshdastidar (ミュンヘン工科大学、ミュンヘンデータサイエンス研究所、ミュンヘン機械学習センター)
分類: math.OC (最適化と制御)、cs.LG (機械学習)
発表会議: NeurIPS 2025 (第39回ニューラル情報処理システム会議)
論文リンク: https://arxiv.org/abs/2510.24466v1

要約

本論文は、ReLU、シグモイド、リーキーReLUなどの区分解析的活性化関数を使用する実際のニューラルネットワークアーキテクチャ（完全結合層、畳み込み層、またはソフトマックス注意層を含む）に対して、勾度降下法（GD）マップがほぼすべてのステップサイズで非特異であることを初めて証明しました。非特異性とは、GDマップが測度ゼロ集合を原像の下で測度ゼロのままに保つことを意味します。この結果は、先行する理論的研究における重要な仮定を検証し、GDが鞍点と最大値を回避することの理論的結果、および最小値の安定性に関する分析が実際の深層学習シナリオに適用できることを保証します。本研究は、GDおよびSGDの収束性に関する既存の結果を大幅に拡張し、ニューラルネットワーク最適化動力学の理解に対して堅実な理論的基礎を提供します。

研究背景と動機

1. 解決すべき核心問題

深いニューラルネットワークの訓練は、高次元パラメータ空間における高度に非凸な損失関数の最適化を含みます。核心的な理論的問題は以下の通りです：勾配降下法（GD）マップ $G_\eta(\theta) = \theta - \eta\nabla L(\theta)$ は非特異であるか？

非特異性の定義：マップ $G$ のいかなる測度ゼロ集合の原像も測度ゼロ集合である場合、 $G$ は非特異であると言われます。この性質は、病的な挙動（例えば、不理想な点への収束）が無視できる集合上でのみ発生することを保証します。

2. 問題の重要性

非特異性の仮定は、複数の重要な理論的結果の基礎です：

鞍点と最大値の回避：Lee et al. (2019) は、GDマップが非特異である場合、ほぼすべての初期化に対してGDが鞍点または最大値への収束を回避することを証明しました
最小値の安定性：Chemnitz and Engel (2024) などの研究は、非特異性が、GD/SGDが近くの初期化から与えられた最小値に収束するかどうかを判定するための計算可能な量を定義できることを保証することを示しています
汎化能力：安定した最小値はより良い汎化能力と関連しています

3. 既存方法の限界

非特異性は理論的分析において重要ですが、既存の文献には以下の問題があります：

直接的な仮定：多くの研究（Lee et al., 2019; Chemnitz and Engel, 2024）はGDマップの非特異性を直接仮定し、厳密な証明が欠けています
制限的な条件：一部の研究は損失関数がリプシッツ滑らかであることを要求していますが、これは実際にはしばしば成立しません（例えば、深いReLUネットワークと交差エントロピー損失の組み合わせ）
小ステップサイズの制限：分析は通常、小ステップサイズの場合に限定されます
活性化関数の制限：ReLUなどの厳密に区分解析的な関数に対しては、標準的な分析ツールが失敗します

4. 研究の動機

本論文の核心的な動機は、実際のニューラルネットワーク訓練に対して厳密な理論的基礎を提供することです。著者は以下を認識しています：

解析的活性化関数に対しては、標準的な分析ツールが非特異性を証明できます
しかし、ReLUなどの区分解析的関数に対しては、全く新しい方法が必要です
ニューラルネットワークの階層構造が重要な洞察を提供します

核心的貢献

本論文の主な貢献は以下の通りです：

主要な理論的結果（定理1）：区分解析的活性化関数を使用するニューラルネットワーク（完全結合層、畳み込み層、注意層を含む）に対して、ほぼすべてのステップサイズ $\eta$ で、（確率的）勾度降下法マップが非特異であることを初めて証明しました
技術的革新：
- 区分解析的関数の連鎖法則の類似物を提案（命題6）し、ニューラルネットワークの階層構造を利用します
- ニューラルネットワーク損失関数がほぼ至る所で解析的であることを証明（系9）
- 局所可逆性から全体的非特異性への橋を確立しました
理論的拡張：
- Lee et al. (2019) および Chemnitz and Engel (2024) などの研究における重要な仮定を検証しました
- これらの理論的結果を実際の深層学習シナリオに適用可能にしました
- SGDおよび適応的学習率シナリオに拡張しました
実用的応用：
- 周期軌道の安定性を分析するためのフレームワークを提供しました
- GDとSGDが異なる安定最小値集合を持つ可能性があることを示しました

方法の詳細説明

タスク定義

教師あり学習の設定：

パラメータ化モデル： $F: \mathbb{R}^{n_\theta} \times \mathbb{R}^{n_0} \to \mathbb{R}^{n_D}$
訓練データ： $\{(x_i, y_i)\}_{i=1}^m \subset \mathbb{R}^{n_0} \times \mathbb{R}^{n_D}$
損失関数： $l: \mathbb{R}^{n_D} \times \mathbb{R}^{n_D} \to \mathbb{R}$
経験的損失： $L(\theta) = \frac{1}{m}\sum_{i=1}^m l(y_i, F(\theta, x_i))$

目標：GDマップ $G_\eta(\theta) = \theta - \eta\nabla L(\theta)$ がほぼすべてのステップサイズ $\eta > 0$ で非特異であることを証明します。

核心的な技術フレームワーク

1. 区分解析的関数の定義（定義2）

単変量の場合：関数 $f: \mathbb{R} \to \mathbb{R}$ は区分解析的であると言われるのは、厳密に増加する数列 $\{x_i\}_{i\in\mathbb{Z}}$ が存在し、 $f$ が各開区間 $(x_i, x_{i+1})$ で解析的である場合です。

多変量の場合：関数 $f: \mathbb{R}^m \to \mathbb{R}^n$ がほぼ至る所で解析的であると言われるのは、開集合 $U \subset \mathbb{R}^m$ が存在し、 $f|_U$ が解析的であり、 $U$ の補集合の測度がゼロである場合です。

記号：

$D(f)$ ： $f$ が解析的である最大開集合
$S(f) = \mathbb{R}^m \setminus D(f)$ ： $f$ が解析的でない点の集合

例：

シグモイド関数： $D(f) = \mathbb{R}$
ReLU関数： $S(f) = \{0\}$

2. ニューラルネットワークの連鎖法則の類似物（命題6）

これは本論文の重要な技術的革新です。標準的な連鎖法則はほぼ至る所で解析的な関数には適用されません（注釈5の反例を参照）。

定理の陳述： $D > 0$ とし、 $\{\sigma_i: \mathbb{R}^{n_i} \to \mathbb{R}^{n_i}\}_{i=1}^D$ をほぼ至る所で解析的なマップの集合、 $\alpha \in \mathbb{R}^{n_0}$ をベクトルとします。再帰的マップを定義します：

$f_D: \mathbb{R}^{n_1 \times n_0} \times \cdots \times \mathbb{R}^{n_D \times n_{D-1}} \to \mathbb{R}^{n_D}$ $(W_1, \ldots, W_D) \mapsto \sigma_D(W_D f_{D-1}(W_1, \ldots, W_{D-1}))$

ここで $f_1(W_1) = \sigma_1(W_1\alpha)$ です。すると $f_D$ はほぼ至る所で解析的であり、 $\partial Z(f_D)$ の測度はゼロです。

証明の思路（帰納法）：

基本ケース ( $D=1$ )：

$\alpha = 0$ の場合、 $f_1$ は定数であり、明らかに解析的です
$\alpha \neq 0$ の場合、重要な観察：乗法マップ $M_1: W_1 \mapsto W_1\alpha$ は非特異です（これはサブマージョンであるため）
したがって $S(f_1) = \{W_1\alpha \in S(\sigma_1)\}$ の測度はゼロです

帰納ステップ： $f_{D-1}$ がほぼ至る所で解析的であると仮定します。定義域を3つの互いに素な部分に分割します：

「悪い」点： $B(f_{D-1}) = \partial Z(f_{D-1}) \cup S(f_{D-1})$ （測度ゼロ）
「良い」ゼロ点： $\text{int}(Z(f_{D-1}))$
「良い」非ゼロ点： $N(f_{D-1}) = \text{dom}(f_{D-1}) \setminus (B(f_{D-1}) \cup \text{int}(Z(f_{D-1})))$

ケース2と3に対しては、連鎖法則を適用できます：

$N(f_{D-1})$ 上では、 $f_{D-1}(x_{D-1}) \neq 0$ であり、乗法マップがサブマージョンになるように $W_D$ を選択できます
$\text{int}(Z(f_{D-1}))$ 上では、 $f_D$ は定数です

重要な技術的ポイント：「悪い」点集合 $\Delta = \{(x_{D-1}, W_D) \in N(f_{D-1}) \times \mathbb{R}^{n_D \times n_{D-1}} | W_D f_{D-1}(x_{D-1}) \in S(\sigma_D)\}$ の測度がゼロであることを証明します。フビニの定理を使用して完成させます。

3. 損失関数の解析性（系9）

結論：区分解析的活性化関数を使用するニューラルネットワークに対して、与えられたデータセットと解析的損失関数に対して、経験的損失 $L(\theta)$ はほぼ至る所で解析的です。

証明：

命題7により、各入力 $x_i$ に対して、マップ $\theta \mapsto f_\theta(x_i)$ はほぼ至る所で解析的です
補題8により、解析的関数とほぼ至る所で解析的関数の合成はなおほぼ至る所で解析的です
したがって $l \circ (\theta \mapsto (y_i, f_\theta(x_i)))$ はほぼ至る所で解析的です
ほぼ至る所で解析的な関数の和はなおほぼ至る所で解析的です

4. GDマップの非特異性（命題11と系12）

解析的損失の場合（命題11）：

解析的損失 $L$ に対して、GDマップのヤコビアン行列式は： $\det(DG_\eta) = \det(I - \eta H_L)$

ここで $H_L$ はヘッシアン行列です。重要な観察：

すべての固有値 $\lambda_i$ が定数である場合、 $\eta \notin \{1/\lambda_1, \ldots, 1/\lambda_{n_\theta}\}$ に対して、行列式は非ゼロです
少なくとも1つの固有値が非定数である場合、解析的パス $\gamma$ を構成でき、 $\lambda_i \circ \gamma$ は解析的関数です
非定数解析的関数に対しては、ゼロ点集合の測度はゼロです
補題10（サブマージョンの非特異性）を適用して証明を完成させます

ほぼ至る所で解析的な損失の場合（系12）：

ほぼ至る所で解析的な $L$ に対して、 $D(L)$ 上で $G_\eta$ は非特異です。任意の測度ゼロ集合 $B$ に対して： $G_\eta^{-1}(B) = G_\eta|_{D(L)}^{-1}(B) \cup G_\eta|_{S(L)}^{-1}(B)$

両項は測度ゼロです（最初の項は $D(L)$ 上の非特異性により、2番目の項は $S(L)$ の測度がゼロであるため）。

技術的革新点

階層構造の利用：ニューラルネットワークを一般的なほぼ至る所で解析的な関数として見るのではなく、その階層構造を利用して帰納的に証明します
細かい集合分解：パラメータ空間を「良い」点と「悪い」点に分解し、それぞれを処理します
測度論的ツール：フビニの定理、サブマージョン理論、解析的関数のゼロ点集合の性質を巧妙に使用します
アーキテクチャの汎用性：証明技術は畳み込み層（命題16）と注意層（命題17）に拡張可能です

実験設定

実験の目的

本論文は主に理論的研究であり、実験は以下のために使用されます：

理論的予測の検証（周期軌道の存在と安定性）
GDとSGDの安定最小値の差異を示す

実験設定

モデル：2層ReLUネットワーク $f_\theta(x) = \text{ReLU}(\theta_2 \text{ReLU}(\theta_1 x))$

データ：2つのデータポイント $(0.9, 0.9)$ と $(2.5, 2.5)$ 、線形関数を決定

損失関数： $L(\theta_1, \theta_2) = 3.53(1 - \text{ReLU}(\theta_2 \text{ReLU}(\theta_1)))^2$

全体最小値： $\{(\theta_1, \theta_2) | \theta_1\theta_2 = 1, \theta_1, \theta_2 > 0\}$ （第1象限の双曲線）

安定性判定基準：Chemnitz and Engel (2024) に従って、計算可能な量：

$\mu(\theta) = \log(|1 - \eta(p \cdot 0.9^2 + (1-p) \cdot 2.5^2)(\theta_1^2 + \theta_2^2)|)$

$\lambda(\theta) = p\log(|1 - \eta \cdot 0.9^2(\theta_1^2 + \theta_2^2)|) + (1-p)\log(|1 - \eta \cdot 2.5^2(\theta_1^2 + \theta_2^2)|)$

ここで $p$ はSGDが最初のデータポイントを選択する確率です。

GD安定条件： $\mu(\theta) < 0$
SGD安定条件： $\lambda(\theta) < 0$

実験結果

主要な結果

1. 周期軌道分析（図3）

分岐図（左図）：

対角線上の周期軌道（ $\theta_1 = \theta_2$ ）を研究します
ステップサイズ $\eta$ $η$ が0.26から0.36に増加するにつれて：
- 1-周期軌道（固定点）が不安定になります
- 安定した2-周期軌道が出現します
- さらに4-周期、8-周期軌道が出現します
古典的な倍周期分岐現象を示します

収束と振動の対比（右図）：

同じ初期化 $(1.48, 1/1.48 + 0.1)$
$\eta = 0.25$ ：全体最小値に収束（紫色の軌道）
$\eta = 0.325$ ：2-周期軌道に収束（茶色の軌道）
理論的予測を検証します：大きなステップサイズは周期的な挙動につながる可能性があります

理論的意義：

非特異性フレームワークが周期軌道を分析できることを検証します
実践で観察されるヘッシアン固有値の振動現象を説明します（Cohen et al., 2021, 2023）

2. GDとSGDの安定最小値の差異（図4）

ケース1（左図）： $\eta = 0.15$ , $p = 0.5$

SGD安定最小値（赤色）はGD安定最小値（緑色）の真部分集合です
SGDが最小値の選択に対してより「厳しい」ことを示します

ケース2（右図）： $\eta = 0.3$ , $p = 0.58$

GDとSGDの安定最小値集合は完全に重なりません
ステップサイズとデータサンプリング確率を変更するだけで実現します

理論的検証：

Wu et al. (2018) の経験的観察を定量的に検証します：GDとSGDは異なる最小値に収束する可能性があります
系13の実用的応用を示します：計算可能な量 $\mu$ と $\lambda$ を通じて安定性を判定できます

実験的発見

ステップサイズの重要な役割：
- ステップサイズは収束速度だけでなく、最適化動力学を根本的に変えます
- 大きなステップサイズは周期軌道ではなく収束につながる可能性があります
GDとSGDの本質的な違い：
- ノイズの影響だけでなく、異なる安定最小値集合を選択します
- 関係は複雑であり、一般的な規則を確立することは困難です
理論と実践の橋：
- 理論的予測（ $\mu$ と $\lambda$ を通じて）は数値実験と完全に一致します
- 非特異性フレームワークの実用的価値を検証します

結論と議論

主要な結論

核心定理：区分解析的活性化関数を使用するニューラルネットワーク（完全結合層、畳み込み層、注意層を含む）に対して、ほぼすべてのステップサイズで、GDおよびSGDマップは非特異です
理論的意義：
- Lee et al. (2019) の鞍点回避に関する理論的仮定を検証しました
- Chemnitz and Engel (2024) の最小値安定性に関する理論的仮定を検証しました
- 実際の深層学習に対して厳密な理論的基礎を提供します
実践的指導：
- ほぼすべての初期化とステップサイズに対して、最適化軌道は病的な挙動を回避します
- 計算可能な量を通じて最小値の安定性を判定できます
- GDとSGDは異なる安定最小値を選択する可能性があります

限界

著者は以下の限界を誠実に指摘しています：

アーキテクチャの制限：
- 現在の証明は再帰型ニューラルネットワーク（RNN）をカバーしていません
- RNNに対しては、既存の技術は不十分であり、より深い分析が必要です
- 著者は結論がなおも成立すると推測していますが、新しい方法が必要です
ステップサイズの例外：
- 非特異性は特定のステップサイズ値（ $\eta = 1/\lambda_i$ 、ここで $\lambda_i$ はヘッシアン固有値）で失敗する可能性があります
- しかし、これらの値は測度ゼロ集合を構成し、実践では無視できます
「一般的なデータ」仮定：
- 畳み込み層に対しては、データが一般的（generic）であることを仮定する必要があります
- ノイズデータはこの条件を満たしますが、病的なデータは満たさない可能性があります
安定最小値の関係：
- GDとSGDの安定最小値の関係は複雑であり、一般的な規則を確立することは困難です
- ケースバイケースの分析が必要な可能性があります

将来の方向

他のアーキテクチャへの拡張：
- グラフニューラルネットワーク（GNN）
- 残差ネットワーク（ResNet）：著者は標準的な応用である可能性があると考えています
- 再帰型ニューラルネットワーク（RNN）：新しい技術が必要です
他の最適化アルゴリズム：
- ミラー降下法（Mirror Descent）
- 近接点法（Proximal Point Methods）
- 著者は技術が移行可能である可能性があることを指摘しています
汎化理論：
- 安定性と汎化の関係（Hochreiter and Schmidhuber, 1997）
- 本論文のフレームワークを使用してより厳密な関連を確立する可能性があります
実用的応用：
- より良い学習率スケジューリング戦略の設計
- 訓練中の周期軌道の理解と回避
- より良い安定最小値への最適化の誘導

深い評価

利点

1. 理論的厳密性と革新性（★★★★★）

重要な理論的空白を埋める：実際のニューラルネットワークのGDマップの非特異性を初めて厳密に証明し、以前の「仮定」を「定理」に変えました
技術的革新：命題6の連鎖法則の類似物は真の革新であり、ニューラルネットワークの階層構造を巧妙に利用しています
数学的深さ：実分析、測度論、微分幾何学などのツールを総合的に使用し、証明は厳密です

2. 広い適用可能性（★★★★★）

活性化関数：すべての区分解析的関数（シグモイド、tanh、ReLU、リーキーReLU、GELUなど）をカバーします
アーキテクチャ：完全結合層、畳み込み層、注意層（Transformerをカバー）
アルゴリズム：GD、SGD、適応的学習率
実用的価値が非常に高い：現在の主流の深層学習実践に直接適用可能です

3. 理論的接続性（★★★★★）

孤立した結果ではなく、複数の重要な理論的研究の基礎です
系13を通じて安定性理論に接続します
将来の研究に対して堅実なプラットフォームを提供します

4. 執筆の明確さ（★★★★☆）

構造が明確で、単純から複雑へと段階的に展開します
図（図1、2）は核心概念を直感的に示します
定理の陳述は正確で、証明は詳細です（付録）
軽微な不足：主文における一部の証明の思路はより直感的にできます

5. 実験的検証（★★★★☆）

理論論文ですが、意味のある数値検証を提供しています
周期軌道分析は理論の予測能力を示します
GD対SGDの対比は実用的な洞察を提供します

不足

1. アーキテクチャカバレッジの不完全性（★★★☆☆）

RNNの欠失：これが現在の主な制限です
著者は誠実に認めていますが、完全性のためには残念です
ただし、Transformerは多くのタスクでRNNを置き換えています

2. 実験規模の制限（★★★☆☆）

2パラメータの単純な例のみ
実際の規模のネットワークでの検証なし（理論は適用可能性を保証していますが）
中程度の規模の実験を追加すると説得力が増します

3. 実践的指導の制限（★★★☆☆）

理論は「ほぼすべてのステップサイズ」が良いことを教えていますが、ステップサイズの選択方法は教えていません
安定性判定基準 $\mu$ と $\lambda$ の計算は大規模ネットワークで実行可能かどうか不明です
理論から実践への距離はなおあります

4. 「一般的なデータ」仮定（★★★★☆）

畳み込み層に対してはこの仮定が必要です
合理的ですが（ノイズデータは通常満たします）、完全に無条件ではありません
一部の特殊なアプリケーションで注意が必要な場合があります

影響力評価

領域への貢献（★★★★★）

基礎的研究：最適化理論に対して堅実な基礎を提供します
実現機能：複数の重要な理論的結果を実践に適用可能にします
長期的価値：広く引用されると予想されます

実用的価値（★★★★☆）

直接的応用は限定的：訓練実践を変えません
間接的価値は高い：訓練動力学の理解にツールを提供します
将来の可能性：新しい最適化アルゴリズムの設計に着想を与える可能性があります

再現性（★★★★★）

理論的証明は完全で検証可能です
実験設定は明確で、コード実装は単純です
数学的ツールは標準的で、拡張が容易です

適用シナリオ

1. 理論的研究

最適化理論：GD/SGD収束性研究の基礎
汎化理論：安定性と汎化の接続
ニューラルネットワーク理論：損失景観の幾何学の理解

2. アルゴリズム設計

学習率スケジューリング：ステップサイズが動力学に与える影響の理解
オプティマイザー開発：新しい1次法の設計
アーキテクチャサーチ：異なるアーキテクチャの最適化特性の理解

3. 実用的応用

訓練診断：訓練中の異常な挙動（振動など）の理解
ハイパーパラメータ選択：病的な挙動につながるステップサイズの回避
最小値選択：GDとSGDの異なる好みの理解

4. 教育的価値

理論的分析の優れた例
抽象的な数学ツールを実際の問題に適用する方法を示します
高度な機械学習コースに適しています

全体的評価

これは高品質の理論論文であり、以下の特徴があります：

重要性：理論的機械学習における基本的な問題を解決します
厳密性：数学的証明は厳密で、結論は信頼できます
革新性：技術的に真の革新があります（連鎖法則の類似物）
影響力：この領域の基礎的な引用になると予想されます

推奨読者：

最適化理論研究者（必読）
深層学習理論研究者（強く推奨）
訓練動力学に関心のある実践者（推奨）
博士課程の学生（理論的研究の優れた例）

非推奨読者：

純粋な工学実践者（短期的な実用的価値は限定的）
数学的背景がない者（実分析、測度論の基礎が必要）

歴史的地位の予測：この論文は、Lee et al. (2019) が鞍点回避の分野で持つ地位と同様に、ニューラルネットワーク最適化理論の古典的な引用になる可能性が高いです。この領域に対して堅実な数学的基礎を提供し、後続の研究がより信頼できる仮定の上で進行することを可能にします。

参考文献（重要な文献）

Lee et al. (2019)：「First-order methods almost always avoid strict saddle points」- 本論文が検証する核心的な仮定の出典
Chemnitz and Engel (2024)：「Characterizing dynamical stability of stochastic gradient descent」- 安定性分析フレームワーク
Jentzen and Riekert (2022a,b, 2023)：最も関連のある先行研究、本論文の重要な拡張
Wu et al. (2018)：「How SGD selects the global minima」- GD対SGD差異の経験的観察
Cooper (2020, 2021)：過パラメータ化ネットワークの臨界点に関する理論的研究

要約：本論文は厳密な数学的証明を通じて、実際のニューラルネットワーク訓練の理論的理解に対して堅実な基礎を提供し、最適化理論領域における重要な貢献です。短期的には訓練実践を直接変えることはありませんが、長期的な理論的発展とアルゴリズム革新の基礎を確立しています。