Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
論文ID : 2510.09816タイトル : A mathematical theory for understanding when abstract representations emerge in neural networks著者 : Bin Wang, W. Jeffrey Johnston, Stefano Fusi所属機関 : Center for Theoretical Neuroscience, Columbia University分類 : q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML発表日 : 2025年10月14日(プレプリント)論文リンク : https://arxiv.org/abs/2510.09816 本論文は、ニューラルネットワークにおける抽象表現(abstract representations)の出現に関する数学的メカニズムを研究している。実験的知見から、タスク関連変数は通常、神経活動空間の近似直交部分空間において符号化され、分離された低次元表現を形成することが知られている。この幾何学的構造は単純な分布外汎化を支持するが、その出現メカニズムはいまだ不明である。著者らは、潜在変数に依存するタスクで訓練された前向き非線形ネットワークにおいて、抽象表現が最後の隠れ層に必然的に出現することを数学的に証明している。このため、著者らはネットワーク重み最適化を神経前活性化分布上の平均場問題にマッピングする分析フレームワークを開発した。
抽象表現の普遍性 : 神経科学実験は、複数の脳領域および種における神経活動が抽象表現を示すことを示唆しており、タスク関連変数は近似直交部分空間において符号化されているメカニズム理解の欠落 : この幾何学的構造は広く存在するが、その出現のネットワークメカニズムは依然として不明である既存方法の限界 : 研究されたメカニズムの多くは教師なし方法(変分自己符号化器など)であるが、識別可能性の問題のため、純粋な教師なし学習による分離表現の学習は困難である理論的意義 : 広く観察される抽象表現現象に対する数学的説明を提供する実用的価値 : 表現学習メカニズムの理解は、より優れたニューラルネットワークアーキテクチャの設計に役立つ学際的影響 : 神経科学と機械学習における表現学習理論を結びつける理論的保証 : 多タスク教師あり学習設定において、前向き非線形ネットワークが必然的に抽象表現を生成することを初めて数学的に証明した分析フレームワーク : ネットワーク重み最適化を神経前活性化分布平均場問題にマッピングする汎用分析ツールを開発した活性化関数の堅牢性 : 抽象表現の出現が活性化関数の選択に対して堅牢であることを証明したアーキテクチャ拡張 : 分析を深いネットワークと再帰型ネットワークに拡張した神経科学的洞察 : 生物学的ニューラルネットワークで観察される抽象表現に対する計算的説明を提供した訓練データセット D = { ( x i , y i ) } i = 1 P D = \{(x^i, y^i)\}_{i=1}^P D = {( x i , y i ) } i = 1 P を考える。ここで:
入力 x i ∈ R d X x^i \in \mathbb{R}^{d_X} x i ∈ R d X は本質的に非構造化 出力 y i ∈ { ± 1 } d Y y^i \in \{±1\}^{d_Y} y i ∈ { ± 1 } d Y は d Y d_Y d Y 個の二値ラベルを含み、潜在変数構造を反映 すべてのデータは 2 d Y 2^{d_Y} 2 d Y 個の異なるクラスを形成し、各クラスは n n n 個のサンプルを含む 総サンプル数 P = n ⋅ 2 d Y P = n \cdot 2^{d_Y} P = n ⋅ 2 d Y 最も単純な2層ネットワークを研究する:
f W 1 , W 2 , b ( x ) = W 2 ϕ ( W 1 x + b ) f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b) f W 1 , W 2 , b ( x ) = W 2 ϕ ( W 1 x + b )
ここで:
W 1 ∈ R M × d X W_1 \in \mathbb{R}^{M \times d_X} W 1 ∈ R M × d X : 第1層の重み行列W 2 ∈ R d Y × M W_2 \in \mathbb{R}^{d_Y \times M} W 2 ∈ R d Y × M : 第2層の重み行列b ∈ R M b \in \mathbb{R}^M b ∈ R M : バイアスパラメータϕ \phi ϕ : 要素ごとの非線形活性化関数M M M : 隠れ層の幅L2正則化付き平均二乗誤差を使用:
E ( W 1 , W 2 , b ) = ∥ Y − W 2 ϕ ( W X ) ∥ F 2 + λ 1 ∥ W ∥ F 2 + λ 2 ∥ W 2 ∥ F 2 E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2 E ( W 1 , W 2 , b ) = ∥ Y − W 2 ϕ ( W X ) ∥ F 2 + λ 1 ∥ W ∥ F 2 + λ 2 ∥ W 2 ∥ F 2
平行性スコア(Parallelism Score, PS) を用いて表現の抽象度を定量化:
クラスプロトタイプ表現 : r ( y ) = 1 n ∑ i : y i = y r i r^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i r ( y ) = n 1 ∑ i : y i = y r i 表現変化方向 : Δ r ( k ; α ) = r ( y k = + 1 , y ∖ k = α ) − r ( y k = − 1 , y ∖ k = α ) \Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)} Δ r ( k ; α ) = r ( y k = + 1 , y ∖ k = α ) − r ( y k = − 1 , y ∖ k = α ) 平行性スコア : P S = 1 d Y ∑ k = 1 d Y P S k PS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k PS = d Y 1 ∑ k = 1 d Y P S k ここで P S k PS_k P S k は第 k k k 潜在ラベル符号化方向の一貫性を測定する。PS = 1 は完全な抽象表現に対応する。
重要な革新は、元の最適化問題:
min W 1 , W 2 , b E ( W 1 , W 2 , b ) \min_{W_1,W_2,b} E(W_1,W_2,b) min W 1 , W 2 , b E ( W 1 , W 2 , b )
を神経前活性化分布上の最適化に変換することである:
min ρ M E [ ρ M ] \min_{\rho_M} \mathcal{E}[\rho_M] min ρ M E [ ρ M ]
ここで ρ M = ∑ k = 1 M δ h k \rho_M = \sum_{k=1}^M \delta_{h_k} ρ M = ∑ k = 1 M δ h k は前活性化パターンの経験測度である。
有効システムのエネルギー関数は:
E [ ρ M ] = λ 1 ∫ h T K X † h d ρ M ( h ) + tr ( λ 2 λ 2 + ∫ ϕ ( h ) ϕ ( h ) T d ρ M ( h ) K Y ) \mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right) E [ ρ M ] = λ 1 ∫ h T K X † h d ρ M ( h ) + tr ( λ 2 + ∫ ϕ ( h ) ϕ ( h ) T d ρ M ( h ) λ 2 K Y )
ここで:
K X = X T X K_X = X^TX K X = X T X : 入力カーネル行列K Y = Y T Y K_Y = Y^TY K Y = Y T Y : 出力カーネル行列K X † K_X^\dagger K X † : Moore-Penrose疑似逆行列最適解は以下を満たす:
λ 1 h T K X † h − λ 2 ϕ ( h ) T 1 λ 2 + K [ ρ ∗ ] K Y 1 λ 2 + K [ ρ ∗ ] ϕ ( h ) ≥ 0 \lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0 λ 1 h T K X † h − λ 2 ϕ ( h ) T λ 2 + K [ ρ ∗ ] 1 K Y λ 2 + K [ ρ ∗ ] 1 ϕ ( h ) ≥ 0
等号は h ∈ supp ( ρ ∗ ) h \in \text{supp}(\rho^*) h ∈ supp ( ρ ∗ ) のときのみ成立する。
白色化入力 : X data T X data = I P X_{\text{data}}^T X_{\text{data}} = I_P X data T X data = I P 目標整列入力 : 入力と出力の幾何学的構造が部分的に整列異方性入力 : 異なる方向に異なるスケーリング因子を持つ活性化関数: ReLU、ハードシグモイド、tanhなど ネットワーク幅: M ≥ 2 d Y M \geq 2^{d_Y} M ≥ 2 d Y 正則化パラメータ: λ 1 , λ 2 \lambda_1, \lambda_2 λ 1 , λ 2 は小さい値 平行性スコア(PS) 訓練損失 表現カーネル行列の理論予測と実際結果の比較 白色化入力と単一要素クラス(n = 1 n=1 n = 1 )の場合、最適隠れ表現カーネルは:
K [ ρ ∗ ] = b ∗ ( d Y 11 T + K Y ) K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y) K [ ρ ∗ ] = b ∗ ( d Y 1 1 T + K Y )
ここで:
b ∗ = λ 2 λ 1 P + 1 P ( P + 2 ) − λ 2 P b^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P} b ∗ = λ 1 λ 2 P ( P + 2 ) P + 1 − P λ 2
定理 : M ≥ 2 d Y M \geq 2^{d_Y} M ≥ 2 d Y で入力が白色化または目標整列されている場合、すべての大域最小値は抽象表現(P S = 1 PS = 1 PS = 1 )に対応する。
最適前活性化パターンは:
h = α ( 1 ± v i ) , α ≥ 0 , i ∈ { 1 , 2 , … , d Y } h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\} h = α ( 1 ± v i ) , α ≥ 0 , i ∈ { 1 , 2 , … , d Y }
これは隠れ層ニューロンが 2 d Y 2^{d_Y} 2 d Y グループに分割され、各グループが単一の出力ラベルにのみ応答することを示している。
ϕ ( z ) = ϕ + ( z ) ⋅ 1 z ≥ 0 \phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0} ϕ ( z ) = ϕ + ( z ) ⋅ 1 z ≥ 0 の形式の活性化関数に対して、最適表現カーネルは同じ形式を保ち、係数のみが変化する。
奇関数活性化に対して、最適カーネルは:
K [ ρ ∗ ] = b ∗ K Y K[\rho^*] = b^* K_Y K [ ρ ∗ ] = b ∗ K Y
定数項は欠落しているが、依然として抽象表現(P S = 1 PS = 1 PS = 1 )に対応する。
L層の深いネットワークの場合、各層は抽象表現を示す:
K ( l ) [ ρ l ∗ ] = b l ∗ ( d Y 11 T + K Y ) K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y) K ( l ) [ ρ l ∗ ] = b l ∗ ( d Y 1 1 T + K Y )
ここで b l ∗ = ( γ ∗ ) l − 1 b 1 ∗ b_l^* = (\gamma^*)^{l-1} b_1^* b l ∗ = ( γ ∗ ) l − 1 b 1 ∗ である。
最後の時間ステップでも同様に抽象表現が出現し、フレームワークの広い適用可能性を検証している。
複数の脳領域(海馬、前頭前皮質など)で抽象表現が観察されている これらの表現は分布外汎化と抽象推論を支持する 変分自己符号化器 : 教師なし分離表現学習の標準的方法教師あり方法 : 多タスク学習を通じた分離表現の獲得ニューラル崩壊 : 深いネットワーク訓練後期の表現幾何現象ニューラルタンジェントカーネル : 無限幅ネットワークの理論的分析平均場理論 : 深いネットワークの統計物理的方法学習動力学 : 重み進化の数学的分析理論的保証 : 適切な条件下で、教師あり学習は必然的に抽象表現を生成するメカニズム説明 : タスク構造は表現幾何を決定し、入力幾何は学習効率に影響する普遍性 : 結果は活性化関数とネットワークアーキテクチャに対して堅牢である脳で広く観察される抽象表現に対する計算的説明を提供する 海馬などの脳領域の「再符号化」は下流の抽象表現形成を促進する可能性がある 単一ニューロン非線形性は調律特性に影響するが、群体幾何は変わらない タスク制限 : 主に二値分類の組み合わせタスクに適用可能入力仮定 : 特定の入力幾何学的構造が必要正則化依存 : 適切なL2正則化強度が必要連続変数 : 連続潜在変数の表現学習への拡張学習動力学 : 抽象表現形成プロセスの分析生物学的実装 : 生物学的学習規則下の表現出現の研究理論的厳密性 : 抽象表現出現の数学的証明を提供し、重要な理論的空白を埋める方法論的革新性 : 平均場フレームワークは有限幅ネットワーク分析の新しいツールを提供する普遍的適用可能性 : 結果は複数の活性化関数とネットワークアーキテクチャで成立する学際的価値 : 神経科学的観察と機械学習理論を結びつける実験検証の充実 : 理論予測と数値実験の高い一致タスク範囲の制限 : 主に特定の二値ラベル組み合わせタスクを対象入力条件の厳格性 : 白色化または目標整列入力幾何が必要実用的応用との距離 : 現実世界の複雑なタスクとの距離がある計算複雑性 : 平均場方程式の求解は計算量が多い可能性がある理論的貢献 : 表現学習理論に重要な数学的基礎を提供する方法論的価値 : 分析フレームワークは他のネットワークモデルに適用可能実用的指導 : 抽象表現を促進するネットワークアーキテクチャ設計に指導を提供する分野横断的影響 : 神経科学と機械学習の交差研究に影響を与える可能性がある解釈可能性の強い表現学習タスク 多タスク学習における特徴分離 神経科学における表現幾何の理論的モデリング 分布外汎化能力が必要なアプリケーション 測度論的方法 : 離散ニューロン問題を連続測度最適化に変換凸最適化理論 : KKT条件を利用して大域最適解を分析行列分析 : カーネル行列を通じて表現幾何構造を刻画共正定計画法 : ReLUネットワークの非凸制約を処理Schur凸性 : 異なる活性化関数の統一的性質を分析摂動分析 : 連続性論証を通じて結果を拡張本研究は、ニューラルネットワーク表現学習の理解に重要な理論的基礎を提供しており、その数学的フレームワークと洞察は神経科学と機械学習の両分野に重要な価値を持つ。