2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic

A mathematical theory for understanding when abstract representations emerge in neural networks

基本信息

  • 论文ID: 2510.09816
  • 标题: A mathematical theory for understanding when abstract representations emerge in neural networks
  • 作者: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
  • 机构: Center for Theoretical Neuroscience, Columbia University
  • 分类: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
  • 发表时间: October 14, 2025 (预印本)
  • 论文链接: https://arxiv.org/abs/2510.09816

摘要

本文研究神经网络中抽象表示(abstract representations)出现的数学机制。实验发现,任务相关变量通常在神经活动空间的近似正交子空间中编码,形成解耦的低维表示。这种几何结构支持简单的分布外泛化,但其涌现机制尚不清楚。作者数学证明,当前馈非线性网络在依赖潜在变量的任务上训练时,抽象表示必然出现在最后隐藏层。为此,作者开发了一个分析框架,将网络权重优化映射为神经预激活分布上的平均场问题。

研究背景与动机

核心问题

  1. 抽象表示的普遍性:神经科学实验表明,多个脑区和物种的神经活动都展现出抽象表示,其中任务相关变量在近似正交的子空间中编码
  2. 机制理解缺失:尽管这种几何结构广泛存在,但其涌现的网络机制仍不清楚
  3. 现有方法局限:已研究的机制多为无监督方法(如变分自编码器),但由于可识别性问题,纯无监督学习解耦表示困难重重

研究重要性

  • 理论意义:为广泛观察到的抽象表示现象提供数学解释
  • 实用价值:理解表示学习机制有助于设计更好的神经网络架构
  • 跨学科影响:连接了神经科学和机器学习中的表示学习理论

核心贡献

  1. 理论保证:首次数学证明在多任务监督学习设置下,前馈非线性网络必然产生抽象表示
  2. 分析框架:开发了将网络权重优化映射为神经预激活分布平均场问题的通用分析工具
  3. 激活函数鲁棒性:证明抽象表示的出现对激活函数选择具有鲁棒性
  4. 架构扩展:将分析扩展到深度网络和循环网络
  5. 神经科学洞察:为生物神经网络中观察到的抽象表示提供计算解释

方法详解

任务定义

考虑训练数据集 D={(xi,yi)}i=1PD = \{(x^i, y^i)\}_{i=1}^P,其中:

  • 输入 xiRdXx^i \in \mathbb{R}^{d_X} 基本无结构
  • 输出 yi{±1}dYy^i \in \{±1\}^{d_Y} 包含 dYd_Y 个二元标签,反映潜在变量结构
  • 所有数据形成 2dY2^{d_Y} 个不同类别,每类包含 nn 个样本
  • 总样本数 P=n2dYP = n \cdot 2^{d_Y}

网络架构

研究最简单的两层网络: fW1,W2,b(x)=W2ϕ(W1x+b)f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)

其中:

  • W1RM×dXW_1 \in \mathbb{R}^{M \times d_X}:第一层权重矩阵
  • W2RdY×MW_2 \in \mathbb{R}^{d_Y \times M}:第二层权重矩阵
  • bRMb \in \mathbb{R}^M:偏置参数
  • ϕ\phi:逐元素非线性激活函数
  • MM:隐藏层宽度

损失函数

使用带L2正则化的均方误差: E(W1,W2,b)=YW2ϕ(WX)F2+λ1WF2+λ2W2F2E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2

抽象表示度量

使用**平行性得分(Parallelism Score, PS)**量化表示的抽象程度:

  1. 类原型表示r(y)=1ni:yi=yrir^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i
  2. 表示变化方向Δr(k;α)=r(yk=+1,yk=α)r(yk=1,yk=α)\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}
  3. 平行性得分PS=1dYk=1dYPSkPS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k

其中 PSkPS_k 测量第 kk 个潜在标签编码方向的一致性。PS = 1 对应完全抽象表示。

分析框架核心

平均场变换

关键创新是将原始优化问题: minW1,W2,bE(W1,W2,b)\min_{W_1,W_2,b} E(W_1,W_2,b)

转换为神经预激活分布上的优化: minρME[ρM]\min_{\rho_M} \mathcal{E}[\rho_M]

其中 ρM=k=1Mδhk\rho_M = \sum_{k=1}^M \delta_{h_k} 是预激活模式的经验测度。

有效能量函数

有效系统的能量函数为: E[ρM]=λ1hTKXhdρM(h)+tr(λ2λ2+ϕ(h)ϕ(h)TdρM(h)KY)\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)

其中:

  • KX=XTXK_X = X^TX:输入核矩阵
  • KY=YTYK_Y = Y^TY:输出核矩阵
  • KXK_X^\dagger:Moore-Penrose伪逆

KKT条件

最优解满足: λ1hTKXhλ2ϕ(h)T1λ2+K[ρ]KY1λ2+K[ρ]ϕ(h)0\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0

等号成立当且仅当 hsupp(ρ)h \in \text{supp}(\rho^*)

实验设置

数据配置

  1. 白化输入XdataTXdata=IPX_{\text{data}}^T X_{\text{data}} = I_P
  2. 目标对齐输入:输入与输出几何结构部分对齐
  3. 各向异性输入:不同方向具有不同的缩放因子

网络配置

  • 激活函数:ReLU、硬sigmoid、tanh等
  • 网络宽度:M2dYM \geq 2^{d_Y}
  • 正则化参数:λ1,λ2\lambda_1, \lambda_2 较小

评价指标

  • 平行性得分(PS)
  • 训练损失
  • 表示核矩阵的理论预测vs实际结果对比

实验结果

主要结果

ReLU网络的最优表示

对于白化输入和单元素类(n=1n=1),最优隐藏表示核为: K[ρ]=b(dY11T+KY)K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

其中: b=λ2λ1P+1P(P+2)λ2Pb^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}

抽象表示保证

定理:当 M2dYM \geq 2^{d_Y} 且输入为白化或目标对齐时,所有全局最小值都对应抽象表示(PS=1PS = 1)。

神经元调谐特性

最优预激活模式为: h=α(1±vi),α0,i{1,2,,dY}h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}

这表明隐藏层神经元分为 2dY2^{d_Y} 组,每组仅响应单个输出标签。

激活函数鲁棒性

阈值型激活函数

对于形如 ϕ(z)=ϕ+(z)1z0\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0} 的激活函数,最优表示核保持相同形式,仅系数发生变化。

奇对称激活函数

对于奇函数激活,最优核为: K[ρ]=bKYK[\rho^*] = b^* K_Y

虽然缺少常数项,但仍对应抽象表示(PS=1PS = 1)。

扩展结果

深度网络

对于L层深度网络,每层都展现抽象表示: K(l)[ρl]=bl(dY11T+KY)K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

其中 bl=(γ)l1b1b_l^* = (\gamma^*)^{l-1} b_1^*

循环网络

在最后时间步同样出现抽象表示,验证了框架的广泛适用性。

相关工作

神经科学背景

  • 多个脑区(海马、前额皮层等)观察到抽象表示
  • 这些表示支持分布外泛化和抽象推理

机器学习方法

  • 变分自编码器:无监督解耦表示学习的标准方法
  • 监督方法:通过多任务学习获得解耦表示
  • 神经坍塌:深度网络训练后期的表示几何现象

理论分析

  • 神经切线核:无限宽网络的理论分析
  • 平均场理论:深度网络的统计物理方法
  • 学习动力学:权重演化的数学分析

结论与讨论

主要结论

  1. 理论保证:在合适条件下,监督学习必然产生抽象表示
  2. 机制解释:任务结构决定表示几何,输入几何影响学习效率
  3. 普遍性:结果对激活函数和网络架构具有鲁棒性

生物学意义

  • 为大脑中广泛观察到的抽象表示提供计算解释
  • 海马等脑区的"重编码"可能促进下游抽象表示形成
  • 单神经元非线性影响调谐特性但不改变群体几何

局限性

  1. 任务限制:主要适用于二元分类的组合任务
  2. 输入假设:要求特定的输入几何结构
  3. 正则化依赖:需要适当的L2正则化强度

未来方向

  1. 连续变量:扩展到连续潜在变量的表示学习
  2. 学习动力学:分析抽象表示的形成过程
  3. 生物实现:研究生物学习规则下的表示涌现

深度评价

优点

  1. 理论严谨性:提供了抽象表示涌现的数学证明,填补了重要理论空白
  2. 方法创新性:平均场框架为分析有限宽度网络提供了新工具
  3. 普遍适用性:结果对多种激活函数和网络架构成立
  4. 跨学科价值:连接了神经科学观察和机器学习理论
  5. 实验验证充分:理论预测与数值实验高度一致

不足

  1. 任务范围限制:主要针对特定的二元标签组合任务
  2. 输入条件严格:需要白化或目标对齐的输入几何
  3. 实际应用距离:与现实世界的复杂任务仍有差距
  4. 计算复杂性:平均场方程的求解可能计算昂贵

影响力

  1. 理论贡献:为表示学习理论提供了重要的数学基础
  2. 方法论价值:分析框架可应用于其他网络模型
  3. 实用指导:为设计促进抽象表示的网络架构提供指导
  4. 跨领域影响:可能影响神经科学和机器学习的交叉研究

适用场景

  • 需要解释性强的表示学习任务
  • 多任务学习中的特征解耦
  • 神经科学中表示几何的理论建模
  • 需要分布外泛化能力的应用

技术创新点

核心数学工具

  1. 测度论方法:将离散神经元问题转化为连续测度优化
  2. 凸优化理论:利用KKT条件分析全局最优解
  3. 矩阵分析:通过核矩阵刻画表示几何结构

分析技巧

  • 协正定规划:处理ReLU网络的非凸约束
  • Schur凸性:分析不同激活函数的统一性质
  • 扰动分析:通过连续性论证扩展结果

这项工作为理解神经网络表示学习提供了重要的理论基础,其数学框架和洞察对神经科学和机器学习都具有重要价值。