2025-11-11T14:49:09.685149

Symmetry in Neural Network Parameter Spaces

Zhao, Walters, Yu

Modern deep learning models are highly overparameterized, resulting in large sets of parameter configurations that yield the same outputs. A significant portion of this redundancy is explained by symmetries in the parameter space--transformations that leave the network function unchanged. These symmetries shape the loss landscape and constrain learning dynamics, offering a new lens for understanding optimization, generalization, and model complexity that complements existing theory of deep learning. This survey provides an overview of parameter space symmetry. We summarize existing literature, uncover connections between symmetry and learning theory, and identify gaps and opportunities in this emerging field.

academic

Symmetry in Neural Network Parameter Spaces

基本信息

论文ID: 2506.13018
标题: Symmetry in Neural Network Parameter Spaces
作者: Bo Zhao (UCSD), Robin Walters (Northeastern University), Rose Yu (UCSD)
分类: cs.LG cs.AI
发表时间: arXiv:2506.13018v2 cs.LG 10 Oct 2025
论文链接: https://arxiv.org/abs/2506.13018

摘要

现代深度学习模型高度过参数化，导致大量参数配置产生相同的输出。这种冗余的很大一部分可以通过参数空间中的对称性来解释——即保持网络函数不变的变换。这些对称性塑造了损失景观并约束了学习动力学，为理解优化、泛化和模型复杂性提供了新的视角，补充了现有的深度学习理论。本综述提供了参数空间对称性的概述，总结了现有文献，揭示了对称性与学习理论之间的联系，并识别了这一新兴领域的空白和机遇。

研究背景与动机

核心问题

过参数化冗余性：现代神经网络具有大量参数，但许多不同的参数配置可以产生相同的函数输出，这种冗余性的本质是什么？
损失景观复杂性：过参数化导致损失函数的水平集具有高维结构，传统理论难以解释这种复杂性。
优化动力学理解：梯度下降等优化算法在这种高维、冗余的参数空间中如何工作？

重要性

理论意义：对称性提供了理解神经网络本质结构的数学框架
实践价值：可以指导更有效的优化算法、模型压缩和架构设计
统一视角：将群论等数学工具引入深度学习，建立更严格的理论基础

现有局限性

数据空间对称性（如几何深度学习）研究较多，但参数空间对称性关注不足
缺乏系统性的理论框架来描述和利用参数对称性
对称性与优化、泛化之间的关系缺乏深入理解

核心贡献

系统性综述：首次全面梳理了神经网络参数空间对称性的相关工作
理论统一：建立了参数空间对称性的数学框架，连接了群论与深度学习
分类体系：提出了多层次的对称性定义（函数对称性、损失对称性、数据依赖对称性等）
应用总结：系统分析了对称性在损失景观、优化算法、学习动力学中的作用
未来方向：识别了该领域的关键挑战和研究机会

方法详解

任务定义

本文不是提出具体方法，而是对参数空间对称性进行系统性的理论分析和综述。核心任务是：

定义和分类神经网络参数空间中的各种对称性
分析这些对称性如何影响学习过程
总结利用对称性的算法和应用

函数对称性 vs 损失对称性
- 函数对称性：保持网络输出不变
- 损失对称性：保持损失值不变，但允许输出改变
作用范围
- 全局对称性：对所有数据保持不变
- 数据依赖对称性：仅对特定数据子集保持不变
- 分布对称性：期望意义下保持不变

常见对称性类型

置换对称性：交换隐藏神经元及其权重
- 群：对称群 $S_h$
- 作用： $g \cdot (W_2, W_1) = (W_2g^{-1}, gW_1)$
缩放对称性：同时缩放相邻层的权重
- 群：正缩放群 $\mathbb{R}_{>0}^h$
- 适用于ReLU等齐次激活函数
符号翻转对称性：适用于tanh等奇函数激活
- 群： $\mathbb{Z}_2^h$
正交对称性：适用于径向激活函数
- 群：正交群 $O(h)$