A mathematical theory for understanding when abstract representations emerge in neural networks
Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic
Une théorie mathématique pour comprendre l'émergence des représentations abstraites dans les réseaux de neurones
Cet article étudie les mécanismes mathématiques de l'émergence des représentations abstraites dans les réseaux de neurones. Les expériences révèlent que les variables pertinentes pour la tâche sont généralement encodées dans des sous-espaces approximativement orthogonaux de l'espace d'activité neuronale, formant des représentations découplées de faible dimension. Cette structure géométrique favorise une généralisation simple hors distribution, mais son mécanisme d'émergence reste obscur. Les auteurs démontrent mathématiquement que les représentations abstraites émergent nécessairement dans la dernière couche cachée lorsque les réseaux non-linéaires feedforward sont entraînés sur des tâches dépendant de variables latentes. À cette fin, les auteurs développent un cadre analytique qui transforme l'optimisation des poids du réseau en un problème de champ moyen sur la distribution des pré-activations neuronales.
Universalité des représentations abstraites: Les expériences en neurosciences montrent que l'activité neuronale dans plusieurs régions cérébrales et espèces exhibe des représentations abstraites, où les variables pertinentes pour la tâche sont encodées dans des sous-espaces approximativement orthogonaux
Absence de compréhension des mécanismes: Bien que cette structure géométrique soit largement observée, les mécanismes réseau sous-jacents à son émergence restent mal compris
Limitations des approches existantes: Les mécanismes étudiés sont principalement des méthodes non-supervisées (comme les autoencodeurs variationnels), mais l'apprentissage non-supervisé pur se heurte à des difficultés considérables en raison des problèmes d'identifiabilité
Signification théorique: Fournir une explication mathématique au phénomène largement observé des représentations abstraites
Valeur pratique: Comprendre les mécanismes d'apprentissage des représentations aide à concevoir de meilleures architectures de réseaux de neurones
Impact interdisciplinaire: Établir des connexions entre la théorie de l'apprentissage des représentations en neurosciences et en apprentissage automatique
Garanties théoriques: Première démonstration mathématique que les réseaux non-linéaires feedforward produisent nécessairement des représentations abstraites dans un cadre d'apprentissage supervisé multi-tâche
Cadre analytique: Développement d'un outil analytique général transformant l'optimisation des poids du réseau en un problème de champ moyen sur la distribution des pré-activations neuronales
Robustesse des fonctions d'activation: Preuve que l'émergence des représentations abstraites est robuste au choix de la fonction d'activation
Extension architecturale: Extension de l'analyse aux réseaux profonds et aux réseaux récurrents
Intuitions neuroscientifiques: Explication computationnelle des représentations abstraites observées dans les réseaux biologiques
Théorème: Lorsque M≥2dY et que les entrées sont blanchies ou alignées avec la cible, tous les minima globaux correspondent à des représentations abstraites (PS=1).
Pour les fonctions d'activation de la forme ϕ(z)=ϕ+(z)⋅1z≥0, la matrice noyau de représentation optimale conserve la même forme, seuls les coefficients changent.
Garanties théoriques: Sous des conditions appropriées, l'apprentissage supervisé produit nécessairement des représentations abstraites
Explication des mécanismes: La structure de la tâche détermine la géométrie de la représentation, tandis que la géométrie d'entrée influence l'efficacité d'apprentissage
Universalité: Les résultats sont robustes aux choix de fonction d'activation et d'architecture de réseau
Programmation copositive: Traitement des contraintes non-convexes des réseaux ReLU
Convexité de Schur: Analyse des propriétés d'unification pour différentes fonctions d'activation
Analyse perturbative: Extension des résultats par arguments de continuité
Ce travail fournit une base théorique importante pour comprendre l'apprentissage des représentations dans les réseaux de neurones, et son cadre mathématique et ses intuitions possèdent une valeur importante pour les neurosciences et l'apprentissage automatique.