2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi

Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.

academic

Une théorie mathématique pour comprendre l'émergence des représentations abstraites dans les réseaux de neurones

Informations de base

ID de l'article: 2510.09816
Titre: A mathematical theory for understanding when abstract representations emerge in neural networks
Auteurs: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
Institution: Center for Theoretical Neuroscience, Columbia University
Classification: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
Date de publication: 14 octobre 2025 (prépublication)
Lien de l'article: https://arxiv.org/abs/2510.09816

Résumé

Cet article étudie les mécanismes mathématiques de l'émergence des représentations abstraites dans les réseaux de neurones. Les expériences révèlent que les variables pertinentes pour la tâche sont généralement encodées dans des sous-espaces approximativement orthogonaux de l'espace d'activité neuronale, formant des représentations découplées de faible dimension. Cette structure géométrique favorise une généralisation simple hors distribution, mais son mécanisme d'émergence reste obscur. Les auteurs démontrent mathématiquement que les représentations abstraites émergent nécessairement dans la dernière couche cachée lorsque les réseaux non-linéaires feedforward sont entraînés sur des tâches dépendant de variables latentes. À cette fin, les auteurs développent un cadre analytique qui transforme l'optimisation des poids du réseau en un problème de champ moyen sur la distribution des pré-activations neuronales.

Contexte de recherche et motivation

Problèmes fondamentaux

Universalité des représentations abstraites: Les expériences en neurosciences montrent que l'activité neuronale dans plusieurs régions cérébrales et espèces exhibe des représentations abstraites, où les variables pertinentes pour la tâche sont encodées dans des sous-espaces approximativement orthogonaux
Absence de compréhension des mécanismes: Bien que cette structure géométrique soit largement observée, les mécanismes réseau sous-jacents à son émergence restent mal compris
Limitations des approches existantes: Les mécanismes étudiés sont principalement des méthodes non-supervisées (comme les autoencodeurs variationnels), mais l'apprentissage non-supervisé pur se heurte à des difficultés considérables en raison des problèmes d'identifiabilité

Importance de la recherche

Signification théorique: Fournir une explication mathématique au phénomène largement observé des représentations abstraites
Valeur pratique: Comprendre les mécanismes d'apprentissage des représentations aide à concevoir de meilleures architectures de réseaux de neurones
Impact interdisciplinaire: Établir des connexions entre la théorie de l'apprentissage des représentations en neurosciences et en apprentissage automatique

Contributions principales

Garanties théoriques: Première démonstration mathématique que les réseaux non-linéaires feedforward produisent nécessairement des représentations abstraites dans un cadre d'apprentissage supervisé multi-tâche
Cadre analytique: Développement d'un outil analytique général transformant l'optimisation des poids du réseau en un problème de champ moyen sur la distribution des pré-activations neuronales
Robustesse des fonctions d'activation: Preuve que l'émergence des représentations abstraites est robuste au choix de la fonction d'activation
Extension architecturale: Extension de l'analyse aux réseaux profonds et aux réseaux récurrents
Intuitions neuroscientifiques: Explication computationnelle des représentations abstraites observées dans les réseaux biologiques

Détails méthodologiques

Définition de la tâche

Considérons un ensemble de données d'entraînement $D = \{(x^i, y^i)\}_{i=1}^P$ , où:

Les entrées $x^i \in \mathbb{R}^{d_X}$ sont essentiellement non-structurées
Les sorties $y^i \in \{±1\}^{d_Y}$ contiennent $d_Y$ étiquettes binaires reflétant la structure des variables latentes
Toutes les données forment $2^{d_Y}$ classes distinctes, chaque classe contenant $n$ échantillons
Le nombre total d'échantillons est $P = n \cdot 2^{d_Y}$

Architecture du réseau

Étude du réseau à deux couches le plus simple: $f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)$

où:

$W_1 \in \mathbb{R}^{M \times d_X}$ : matrice de poids de la première couche
$W_2 \in \mathbb{R}^{d_Y \times M}$ : matrice de poids de la deuxième couche
$b \in \mathbb{R}^M$ : paramètres de biais
$\phi$ : fonction d'activation non-linéaire élément par élément
$M$ : largeur de la couche cachée

Fonction de perte

Utilisation de l'erreur quadratique moyenne avec régularisation L2: $E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2$

Mesure des représentations abstraites

Utilisation du score de parallélisme (Parallelism Score, PS) pour quantifier le degré d'abstraction de la représentation:

Représentation du prototype de classe: $r^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i$
Direction de variation de représentation: $\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}$
Score de parallélisme: $PS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k$

où $PS_k$ mesure la cohérence de la direction d'encodage du $k$ -ème label latent. PS = 1 correspond à une représentation complètement abstraite.

Cœur du cadre analytique

Transformation de champ moyen

L'innovation clé consiste à transformer le problème d'optimisation original: $\min_{W_1,W_2,b} E(W_1,W_2,b)$

en une optimisation sur la distribution des pré-activations neuronales: $\min_{\rho_M} \mathcal{E}[\rho_M]$

où $\rho_M = \sum_{k=1}^M \delta_{h_k}$ est la mesure empirique des motifs de pré-activation.

Fonction d'énergie effective

La fonction d'énergie du système effectif est: $\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)$

où:

$K_X = X^TX$ : matrice noyau d'entrée
$K_Y = Y^TY$ : matrice noyau de sortie
$K_X^\dagger$ : pseudo-inverse de Moore-Penrose

Conditions KKT

La solution optimale satisfait: $\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0$

l'égalité valant si et seulement si $h \in \text{supp}(\rho^*)$ .

Configuration expérimentale

Configuration des données

Entrées blanchies: $X_{\text{data}}^T X_{\text{data}} = I_P$
Entrées alignées avec la cible: les entrées sont partiellement alignées avec la structure géométrique de la sortie
Entrées anisotropes: différentes directions possèdent différents facteurs d'échelle

Configuration du réseau

Fonctions d'activation: ReLU, sigmoïde dur, tanh, etc.
Largeur du réseau: $M \geq 2^{d_Y}$
Paramètres de régularisation: $\lambda_1, \lambda_2$ petits

Métriques d'évaluation

Score de parallélisme (PS)
Perte d'entraînement
Comparaison entre prédictions théoriques et résultats réels de la matrice noyau de représentation

Résultats expérimentaux

Résultats principaux

Représentation optimale pour les réseaux ReLU

Pour les entrées blanchies et les classes unitaires ( $n=1$ ), la matrice noyau de représentation cachée optimale est: $K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)$

où: $b^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}$

Garanties de représentation abstraite

Théorème: Lorsque $M \geq 2^{d_Y}$ et que les entrées sont blanchies ou alignées avec la cible, tous les minima globaux correspondent à des représentations abstraites ( $PS = 1$ ).

Propriétés d'accord des neurones

Les motifs de pré-activation optimaux sont: $h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}$

Cela indique que les neurones de la couche cachée se divisent en $2^{d_Y}$ groupes, chaque groupe ne répondant qu'à un seul label de sortie.

Robustesse des fonctions d'activation

Fonctions d'activation de type seuil

Pour les fonctions d'activation de la forme $\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0}$ , la matrice noyau de représentation optimale conserve la même forme, seuls les coefficients changent.

Fonctions d'activation antisymétriques

Pour les activations impaires, la matrice noyau optimale est: $K[\rho^*] = b^* K_Y$

Bien que le terme constant soit absent, cela correspond toujours à une représentation abstraite ( $PS = 1$ ).

Résultats étendus

Réseaux profonds

Pour un réseau profond à L couches, chaque couche exhibe une représentation abstraite: $K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)$

où $b_l^* = (\gamma^*)^{l-1} b_1^*$ .

Réseaux récurrents

Une représentation abstraite émerge également au dernier pas de temps, validant l'applicabilité générale du cadre.

Travaux connexes

Contexte neuroscientifique

Représentations abstraites observées dans plusieurs régions cérébrales (hippocampe, cortex préfrontal, etc.)
Ces représentations favorisent la généralisation hors distribution et le raisonnement abstrait

Approches en apprentissage automatique

Autoencodeurs variationnels: méthode standard pour l'apprentissage non-supervisé de représentations découplées
Méthodes supervisées: acquisition de représentations découplées via apprentissage multi-tâche
Effondrement neuronal: phénomène géométrique de représentation en phase tardive d'entraînement de réseaux profonds

Analyse théorique

Noyau tangent neuronal: analyse théorique des réseaux de largeur infinie
Théorie du champ moyen: approches de physique statistique pour les réseaux profonds
Dynamique d'apprentissage: analyse mathématique de l'évolution des poids

Conclusions et discussion

Conclusions principales

Garanties théoriques: Sous des conditions appropriées, l'apprentissage supervisé produit nécessairement des représentations abstraites
Explication des mécanismes: La structure de la tâche détermine la géométrie de la représentation, tandis que la géométrie d'entrée influence l'efficacité d'apprentissage
Universalité: Les résultats sont robustes aux choix de fonction d'activation et d'architecture de réseau

Signification biologique

Fournir une explication computationnelle aux représentations abstraites largement observées dans le cerveau
Le "réencodage" dans des régions comme l'hippocampe pourrait favoriser la formation de représentations abstraites en aval
La non-linéarité des neurones individuels affecte les propriétés d'accord mais ne modifie pas la géométrie de population

Limitations

Restrictions de tâche: Principalement applicable aux tâches combinatoires de classification binaire
Hypothèses d'entrée: Nécessite une structure géométrique d'entrée spécifique
Dépendance de régularisation: Requiert une force de régularisation L2 appropriée

Directions futures

Variables continues: Extension à l'apprentissage de représentations avec variables latentes continues
Dynamique d'apprentissage: Analyse du processus de formation des représentations abstraites
Implémentation biologique: Étude de l'émergence de représentations sous des règles d'apprentissage biologiques

Évaluation approfondie

Points forts

Rigueur théorique: Fournit une preuve mathématique de l'émergence des représentations abstraites, comblant un vide théorique important
Innovativité méthodologique: Le cadre de champ moyen offre un nouvel outil pour analyser les réseaux de largeur finie
Applicabilité générale: Les résultats valent pour plusieurs fonctions d'activation et architectures de réseau
Valeur interdisciplinaire: Établit des connexions entre les observations neuroscientifiques et la théorie de l'apprentissage automatique
Vérification expérimentale suffisante: Les prédictions théoriques sont hautement cohérentes avec les expériences numériques

Insuffisances

Limitation de la portée des tâches: Principalement ciblées sur des tâches spécifiques de labels binaires combinatoires
Conditions d'entrée strictes: Nécessite une géométrie d'entrée blanchie ou alignée avec la cible
Distance aux applications pratiques: Écart persistant avec les tâches complexes du monde réel
Complexité computationnelle: La résolution des équations de champ moyen peut être coûteuse en calcul

Impact

Contribution théorique: Fournit une base mathématique importante pour la théorie de l'apprentissage des représentations
Valeur méthodologique: Le cadre analytique peut s'appliquer à d'autres modèles de réseau
Orientation pratique: Fournit des conseils pour concevoir des architectures de réseau favorisant les représentations abstraites
Impact interdisciplinaire: Peut influencer la recherche à l'intersection des neurosciences et de l'apprentissage automatique

Scénarios d'application

Tâches d'apprentissage de représentations nécessitant une forte interprétabilité
Découplage de caractéristiques dans l'apprentissage multi-tâche
Modélisation théorique de la géométrie de représentation en neurosciences
Applications nécessitant une capacité de généralisation hors distribution

Points d'innovation technique

Outils mathématiques fondamentaux

Méthodes de théorie des mesures: Transformation de problèmes de neurones discrets en optimisation de mesures continues
Théorie de l'optimisation convexe: Utilisation des conditions KKT pour analyser les solutions globales optimales
Analyse matricielle: Caractérisation de la structure géométrique de représentation via matrices noyau

Techniques analytiques

Programmation copositive: Traitement des contraintes non-convexes des réseaux ReLU
Convexité de Schur: Analyse des propriétés d'unification pour différentes fonctions d'activation
Analyse perturbative: Extension des résultats par arguments de continuité

Ce travail fournit une base théorique importante pour comprendre l'apprentissage des représentations dans les réseaux de neurones, et son cadre mathématique et ses intuitions possèdent une valeur importante pour les neurosciences et l'apprentissage automatique.