2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic

Une théorie mathématique pour comprendre l'émergence des représentations abstraites dans les réseaux de neurones

Informations de base

  • ID de l'article: 2510.09816
  • Titre: A mathematical theory for understanding when abstract representations emerge in neural networks
  • Auteurs: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
  • Institution: Center for Theoretical Neuroscience, Columbia University
  • Classification: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
  • Date de publication: 14 octobre 2025 (prépublication)
  • Lien de l'article: https://arxiv.org/abs/2510.09816

Résumé

Cet article étudie les mécanismes mathématiques de l'émergence des représentations abstraites dans les réseaux de neurones. Les expériences révèlent que les variables pertinentes pour la tâche sont généralement encodées dans des sous-espaces approximativement orthogonaux de l'espace d'activité neuronale, formant des représentations découplées de faible dimension. Cette structure géométrique favorise une généralisation simple hors distribution, mais son mécanisme d'émergence reste obscur. Les auteurs démontrent mathématiquement que les représentations abstraites émergent nécessairement dans la dernière couche cachée lorsque les réseaux non-linéaires feedforward sont entraînés sur des tâches dépendant de variables latentes. À cette fin, les auteurs développent un cadre analytique qui transforme l'optimisation des poids du réseau en un problème de champ moyen sur la distribution des pré-activations neuronales.

Contexte de recherche et motivation

Problèmes fondamentaux

  1. Universalité des représentations abstraites: Les expériences en neurosciences montrent que l'activité neuronale dans plusieurs régions cérébrales et espèces exhibe des représentations abstraites, où les variables pertinentes pour la tâche sont encodées dans des sous-espaces approximativement orthogonaux
  2. Absence de compréhension des mécanismes: Bien que cette structure géométrique soit largement observée, les mécanismes réseau sous-jacents à son émergence restent mal compris
  3. Limitations des approches existantes: Les mécanismes étudiés sont principalement des méthodes non-supervisées (comme les autoencodeurs variationnels), mais l'apprentissage non-supervisé pur se heurte à des difficultés considérables en raison des problèmes d'identifiabilité

Importance de la recherche

  • Signification théorique: Fournir une explication mathématique au phénomène largement observé des représentations abstraites
  • Valeur pratique: Comprendre les mécanismes d'apprentissage des représentations aide à concevoir de meilleures architectures de réseaux de neurones
  • Impact interdisciplinaire: Établir des connexions entre la théorie de l'apprentissage des représentations en neurosciences et en apprentissage automatique

Contributions principales

  1. Garanties théoriques: Première démonstration mathématique que les réseaux non-linéaires feedforward produisent nécessairement des représentations abstraites dans un cadre d'apprentissage supervisé multi-tâche
  2. Cadre analytique: Développement d'un outil analytique général transformant l'optimisation des poids du réseau en un problème de champ moyen sur la distribution des pré-activations neuronales
  3. Robustesse des fonctions d'activation: Preuve que l'émergence des représentations abstraites est robuste au choix de la fonction d'activation
  4. Extension architecturale: Extension de l'analyse aux réseaux profonds et aux réseaux récurrents
  5. Intuitions neuroscientifiques: Explication computationnelle des représentations abstraites observées dans les réseaux biologiques

Détails méthodologiques

Définition de la tâche

Considérons un ensemble de données d'entraînement D={(xi,yi)}i=1PD = \{(x^i, y^i)\}_{i=1}^P, où:

  • Les entrées xiRdXx^i \in \mathbb{R}^{d_X} sont essentiellement non-structurées
  • Les sorties yi{±1}dYy^i \in \{±1\}^{d_Y} contiennent dYd_Y étiquettes binaires reflétant la structure des variables latentes
  • Toutes les données forment 2dY2^{d_Y} classes distinctes, chaque classe contenant nn échantillons
  • Le nombre total d'échantillons est P=n2dYP = n \cdot 2^{d_Y}

Architecture du réseau

Étude du réseau à deux couches le plus simple: fW1,W2,b(x)=W2ϕ(W1x+b)f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)

où:

  • W1RM×dXW_1 \in \mathbb{R}^{M \times d_X}: matrice de poids de la première couche
  • W2RdY×MW_2 \in \mathbb{R}^{d_Y \times M}: matrice de poids de la deuxième couche
  • bRMb \in \mathbb{R}^M: paramètres de biais
  • ϕ\phi: fonction d'activation non-linéaire élément par élément
  • MM: largeur de la couche cachée

Fonction de perte

Utilisation de l'erreur quadratique moyenne avec régularisation L2: E(W1,W2,b)=YW2ϕ(WX)F2+λ1WF2+λ2W2F2E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2

Mesure des représentations abstraites

Utilisation du score de parallélisme (Parallelism Score, PS) pour quantifier le degré d'abstraction de la représentation:

  1. Représentation du prototype de classe: r(y)=1ni:yi=yrir^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i
  2. Direction de variation de représentation: Δr(k;α)=r(yk=+1,yk=α)r(yk=1,yk=α)\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}
  3. Score de parallélisme: PS=1dYk=1dYPSkPS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k

PSkPS_k mesure la cohérence de la direction d'encodage du kk-ème label latent. PS = 1 correspond à une représentation complètement abstraite.

Cœur du cadre analytique

Transformation de champ moyen

L'innovation clé consiste à transformer le problème d'optimisation original: minW1,W2,bE(W1,W2,b)\min_{W_1,W_2,b} E(W_1,W_2,b)

en une optimisation sur la distribution des pré-activations neuronales: minρME[ρM]\min_{\rho_M} \mathcal{E}[\rho_M]

ρM=k=1Mδhk\rho_M = \sum_{k=1}^M \delta_{h_k} est la mesure empirique des motifs de pré-activation.

Fonction d'énergie effective

La fonction d'énergie du système effectif est: E[ρM]=λ1hTKXhdρM(h)+tr(λ2λ2+ϕ(h)ϕ(h)TdρM(h)KY)\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)

où:

  • KX=XTXK_X = X^TX: matrice noyau d'entrée
  • KY=YTYK_Y = Y^TY: matrice noyau de sortie
  • KXK_X^\dagger: pseudo-inverse de Moore-Penrose

Conditions KKT

La solution optimale satisfait: λ1hTKXhλ2ϕ(h)T1λ2+K[ρ]KY1λ2+K[ρ]ϕ(h)0\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0

l'égalité valant si et seulement si hsupp(ρ)h \in \text{supp}(\rho^*).

Configuration expérimentale

Configuration des données

  1. Entrées blanchies: XdataTXdata=IPX_{\text{data}}^T X_{\text{data}} = I_P
  2. Entrées alignées avec la cible: les entrées sont partiellement alignées avec la structure géométrique de la sortie
  3. Entrées anisotropes: différentes directions possèdent différents facteurs d'échelle

Configuration du réseau

  • Fonctions d'activation: ReLU, sigmoïde dur, tanh, etc.
  • Largeur du réseau: M2dYM \geq 2^{d_Y}
  • Paramètres de régularisation: λ1,λ2\lambda_1, \lambda_2 petits

Métriques d'évaluation

  • Score de parallélisme (PS)
  • Perte d'entraînement
  • Comparaison entre prédictions théoriques et résultats réels de la matrice noyau de représentation

Résultats expérimentaux

Résultats principaux

Représentation optimale pour les réseaux ReLU

Pour les entrées blanchies et les classes unitaires (n=1n=1), la matrice noyau de représentation cachée optimale est: K[ρ]=b(dY11T+KY)K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

où: b=λ2λ1P+1P(P+2)λ2Pb^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}

Garanties de représentation abstraite

Théorème: Lorsque M2dYM \geq 2^{d_Y} et que les entrées sont blanchies ou alignées avec la cible, tous les minima globaux correspondent à des représentations abstraites (PS=1PS = 1).

Propriétés d'accord des neurones

Les motifs de pré-activation optimaux sont: h=α(1±vi),α0,i{1,2,,dY}h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}

Cela indique que les neurones de la couche cachée se divisent en 2dY2^{d_Y} groupes, chaque groupe ne répondant qu'à un seul label de sortie.

Robustesse des fonctions d'activation

Fonctions d'activation de type seuil

Pour les fonctions d'activation de la forme ϕ(z)=ϕ+(z)1z0\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0}, la matrice noyau de représentation optimale conserve la même forme, seuls les coefficients changent.

Fonctions d'activation antisymétriques

Pour les activations impaires, la matrice noyau optimale est: K[ρ]=bKYK[\rho^*] = b^* K_Y

Bien que le terme constant soit absent, cela correspond toujours à une représentation abstraite (PS=1PS = 1).

Résultats étendus

Réseaux profonds

Pour un réseau profond à L couches, chaque couche exhibe une représentation abstraite: K(l)[ρl]=bl(dY11T+KY)K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

bl=(γ)l1b1b_l^* = (\gamma^*)^{l-1} b_1^*.

Réseaux récurrents

Une représentation abstraite émerge également au dernier pas de temps, validant l'applicabilité générale du cadre.

Travaux connexes

Contexte neuroscientifique

  • Représentations abstraites observées dans plusieurs régions cérébrales (hippocampe, cortex préfrontal, etc.)
  • Ces représentations favorisent la généralisation hors distribution et le raisonnement abstrait

Approches en apprentissage automatique

  • Autoencodeurs variationnels: méthode standard pour l'apprentissage non-supervisé de représentations découplées
  • Méthodes supervisées: acquisition de représentations découplées via apprentissage multi-tâche
  • Effondrement neuronal: phénomène géométrique de représentation en phase tardive d'entraînement de réseaux profonds

Analyse théorique

  • Noyau tangent neuronal: analyse théorique des réseaux de largeur infinie
  • Théorie du champ moyen: approches de physique statistique pour les réseaux profonds
  • Dynamique d'apprentissage: analyse mathématique de l'évolution des poids

Conclusions et discussion

Conclusions principales

  1. Garanties théoriques: Sous des conditions appropriées, l'apprentissage supervisé produit nécessairement des représentations abstraites
  2. Explication des mécanismes: La structure de la tâche détermine la géométrie de la représentation, tandis que la géométrie d'entrée influence l'efficacité d'apprentissage
  3. Universalité: Les résultats sont robustes aux choix de fonction d'activation et d'architecture de réseau

Signification biologique

  • Fournir une explication computationnelle aux représentations abstraites largement observées dans le cerveau
  • Le "réencodage" dans des régions comme l'hippocampe pourrait favoriser la formation de représentations abstraites en aval
  • La non-linéarité des neurones individuels affecte les propriétés d'accord mais ne modifie pas la géométrie de population

Limitations

  1. Restrictions de tâche: Principalement applicable aux tâches combinatoires de classification binaire
  2. Hypothèses d'entrée: Nécessite une structure géométrique d'entrée spécifique
  3. Dépendance de régularisation: Requiert une force de régularisation L2 appropriée

Directions futures

  1. Variables continues: Extension à l'apprentissage de représentations avec variables latentes continues
  2. Dynamique d'apprentissage: Analyse du processus de formation des représentations abstraites
  3. Implémentation biologique: Étude de l'émergence de représentations sous des règles d'apprentissage biologiques

Évaluation approfondie

Points forts

  1. Rigueur théorique: Fournit une preuve mathématique de l'émergence des représentations abstraites, comblant un vide théorique important
  2. Innovativité méthodologique: Le cadre de champ moyen offre un nouvel outil pour analyser les réseaux de largeur finie
  3. Applicabilité générale: Les résultats valent pour plusieurs fonctions d'activation et architectures de réseau
  4. Valeur interdisciplinaire: Établit des connexions entre les observations neuroscientifiques et la théorie de l'apprentissage automatique
  5. Vérification expérimentale suffisante: Les prédictions théoriques sont hautement cohérentes avec les expériences numériques

Insuffisances

  1. Limitation de la portée des tâches: Principalement ciblées sur des tâches spécifiques de labels binaires combinatoires
  2. Conditions d'entrée strictes: Nécessite une géométrie d'entrée blanchie ou alignée avec la cible
  3. Distance aux applications pratiques: Écart persistant avec les tâches complexes du monde réel
  4. Complexité computationnelle: La résolution des équations de champ moyen peut être coûteuse en calcul

Impact

  1. Contribution théorique: Fournit une base mathématique importante pour la théorie de l'apprentissage des représentations
  2. Valeur méthodologique: Le cadre analytique peut s'appliquer à d'autres modèles de réseau
  3. Orientation pratique: Fournit des conseils pour concevoir des architectures de réseau favorisant les représentations abstraites
  4. Impact interdisciplinaire: Peut influencer la recherche à l'intersection des neurosciences et de l'apprentissage automatique

Scénarios d'application

  • Tâches d'apprentissage de représentations nécessitant une forte interprétabilité
  • Découplage de caractéristiques dans l'apprentissage multi-tâche
  • Modélisation théorique de la géométrie de représentation en neurosciences
  • Applications nécessitant une capacité de généralisation hors distribution

Points d'innovation technique

Outils mathématiques fondamentaux

  1. Méthodes de théorie des mesures: Transformation de problèmes de neurones discrets en optimisation de mesures continues
  2. Théorie de l'optimisation convexe: Utilisation des conditions KKT pour analyser les solutions globales optimales
  3. Analyse matricielle: Caractérisation de la structure géométrique de représentation via matrices noyau

Techniques analytiques

  • Programmation copositive: Traitement des contraintes non-convexes des réseaux ReLU
  • Convexité de Schur: Analyse des propriétés d'unification pour différentes fonctions d'activation
  • Analyse perturbative: Extension des résultats par arguments de continuité

Ce travail fournit une base théorique importante pour comprendre l'apprentissage des représentations dans les réseaux de neurones, et son cadre mathématique et ses intuitions possèdent une valeur importante pour les neurosciences et l'apprentissage automatique.