2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic

Eine mathematische Theorie zum Verständnis der Entstehung abstrakter Repräsentationen in neuronalen Netzen

Grundinformationen

  • Papier-ID: 2510.09816
  • Titel: A mathematical theory for understanding when abstract representations emerge in neural networks
  • Autoren: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
  • Institution: Center for Theoretical Neuroscience, Columbia University
  • Klassifizierung: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
  • Veröffentlichungsdatum: 14. Oktober 2025 (Preprint)
  • Papierlink: https://arxiv.org/abs/2510.09816

Zusammenfassung

Dieses Papier untersucht die mathematischen Mechanismen der Entstehung abstrakter Repräsentationen in neuronalen Netzen. Experimentelle Befunde zeigen, dass aufgabenbezogene Variablen typischerweise in näherungsweise orthogonalen Unterräumen der neuronalen Aktivitätsraums kodiert werden und entkoppelte niedrigdimensionale Repräsentationen bilden. Diese geometrische Struktur unterstützt einfache Verallgemeinerung außerhalb der Verteilung, doch der Entstehungsmechanismus bleibt unklar. Die Autoren beweisen mathematisch, dass abstrakte Repräsentationen zwangsläufig in der letzten verborgenen Schicht entstehen, wenn vorwärtsgekoppelte nichtlineare Netze auf Aufgaben trainiert werden, die von latenten Variablen abhängen. Zu diesem Zweck entwickeln die Autoren ein analytisches Rahmenwerk, das die Optimierung von Netzgewichten auf ein Mittelfeld-Problem über der Verteilung neuronaler Präaktivierungen abbildet.

Forschungshintergrund und Motivation

Kernprobleme

  1. Universalität abstrakter Repräsentationen: Neurowissenschaftliche Experimente zeigen, dass neuronale Aktivitäten in mehreren Hirnregionen und Spezies abstrakte Repräsentationen aufweisen, bei denen aufgabenbezogene Variablen in näherungsweise orthogonalen Unterräumen kodiert sind
  2. Fehlende Mechanismuserklärung: Obwohl diese geometrische Struktur weit verbreitet ist, bleibt der Netzwerkmechanismus ihrer Entstehung unklar
  3. Einschränkungen bestehender Methoden: Die untersuchten Mechanismen sind überwiegend unüberwachte Methoden (wie Variational Autoencoders), doch aufgrund von Identifizierbarkeitsproblemen ist das Erlernen entkoppelter Repräsentationen durch rein unüberwachtes Lernen schwierig

Forschungsbedeutung

  • Theoretischer Wert: Bietet eine mathematische Erklärung für das weit beobachtete Phänomen abstrakter Repräsentationen
  • Praktischer Nutzen: Das Verständnis von Repräsentationslernmechanismen hilft bei der Gestaltung besserer Netzwerkarchitekturen
  • Interdisziplinäre Auswirkungen: Verbindet die Repräsentationslerntheorie in Neurowissenschaften und maschinellem Lernen

Kernbeiträge

  1. Theoretische Garantien: Erstmaliger mathematischer Beweis, dass vorwärtsgekoppelte nichtlineare Netze in Mehraufgaben-Überwachungslerneinstellungen zwangsläufig abstrakte Repräsentationen erzeugen
  2. Analytisches Rahmenwerk: Entwicklung eines universellen Analysetools, das die Optimierung von Netzgewichten auf ein Mittelfeld-Problem über neuronalen Präaktivierungsverteilungen abbildet
  3. Robustheit der Aktivierungsfunktion: Beweis, dass die Entstehung abstrakter Repräsentationen robust gegenüber der Wahl der Aktivierungsfunktion ist
  4. Architekturerweiterung: Erweiterung der Analyse auf tiefe Netze und rekurrente Netze
  5. Neurowissenschaftliche Einsichten: Bietet eine rechnerische Erklärung für abstrakte Repräsentationen, die in biologischen neuronalen Netzen beobachtet werden

Methodische Details

Aufgabendefinition

Betrachten Sie einen Trainingsdatensatz D={(xi,yi)}i=1PD = \{(x^i, y^i)\}_{i=1}^P, wobei:

  • Eingaben xiRdXx^i \in \mathbb{R}^{d_X} grundsätzlich unstrukturiert sind
  • Ausgaben yi{±1}dYy^i \in \{±1\}^{d_Y} enthalten dYd_Y binäre Etiketten, die die Struktur latenter Variablen widerspiegeln
  • Alle Daten bilden 2dY2^{d_Y} verschiedene Klassen, jede mit nn Stichproben
  • Gesamtstichprobenzahl P=n2dYP = n \cdot 2^{d_Y}

Netzwerkarchitektur

Untersuchen Sie das einfachste zweischichtige Netz: fW1,W2,b(x)=W2ϕ(W1x+b)f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)

wobei:

  • W1RM×dXW_1 \in \mathbb{R}^{M \times d_X}: Gewichtsmatrix der ersten Schicht
  • W2RdY×MW_2 \in \mathbb{R}^{d_Y \times M}: Gewichtsmatrix der zweiten Schicht
  • bRMb \in \mathbb{R}^M: Bias-Parameter
  • ϕ\phi: elementweise nichtlineare Aktivierungsfunktion
  • MM: Breite der verborgenen Schicht

Verlustfunktion

Verwenden Sie mittlere quadratische Fehler mit L2-Regularisierung: E(W1,W2,b)=YW2ϕ(WX)F2+λ1WF2+λ2W2F2E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2

Messung abstrakter Repräsentationen

Verwenden Sie die Parallelitätsbewertung (Parallelism Score, PS) zur Quantifizierung des Abstraktionsgrades der Repräsentation:

  1. Klassenprototyp-Repräsentation: r(y)=1ni:yi=yrir^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i
  2. Repräsentationsänderungsrichtung: Δr(k;α)=r(yk=+1,yk=α)r(yk=1,yk=α)\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}
  3. Parallelitätsbewertung: PS=1dYk=1dYPSkPS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k

wobei PSkPS_k die Konsistenz der Kodierungsrichtung für das kk-te latente Etikett misst. PS = 1 entspricht einer vollständig abstrakten Repräsentation.

Kern des analytischen Rahmenwerks

Mittelfeld-Transformation

Die Schlüsselinnovation besteht darin, das ursprüngliche Optimierungsproblem: minW1,W2,bE(W1,W2,b)\min_{W_1,W_2,b} E(W_1,W_2,b)

in eine Optimierung über Präaktivierungsverteilungen umzuwandeln: minρME[ρM]\min_{\rho_M} \mathcal{E}[\rho_M]

wobei ρM=k=1Mδhk\rho_M = \sum_{k=1}^M \delta_{h_k} das empirische Maß der Präaktivierungsmuster ist.

Effektive Energiefunktion

Die Energiefunktion des effektiven Systems ist: E[ρM]=λ1hTKXhdρM(h)+tr(λ2λ2+ϕ(h)ϕ(h)TdρM(h)KY)\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)

wobei:

  • KX=XTXK_X = X^TX: Eingabe-Kernmatrix
  • KY=YTYK_Y = Y^TY: Ausgabe-Kernmatrix
  • KXK_X^\dagger: Moore-Penrose-Pseudoinverse

KKT-Bedingungen

Die optimale Lösung erfüllt: λ1hTKXhλ2ϕ(h)T1λ2+K[ρ]KY1λ2+K[ρ]ϕ(h)0\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0

Gleichheit gilt genau dann, wenn hsupp(ρ)h \in \text{supp}(\rho^*).

Experimentelle Einrichtung

Datenkonfiguration

  1. Aufgehellte Eingaben: XdataTXdata=IPX_{\text{data}}^T X_{\text{data}} = I_P
  2. Zielausgerichtete Eingaben: Eingaben mit teilweise ausgerichteter Geometrie zur Ausgabe
  3. Anisotrope Eingaben: Verschiedene Richtungen mit unterschiedlichen Skalierungsfaktoren

Netzwerkkonfiguration

  • Aktivierungsfunktionen: ReLU, Hard-Sigmoid, Tanh usw.
  • Netzwerkbreite: M2dYM \geq 2^{d_Y}
  • Regularisierungsparameter: λ1,λ2\lambda_1, \lambda_2 klein

Bewertungsmetriken

  • Parallelitätsbewertung (PS)
  • Trainingsverlust
  • Vergleich theoretischer vs. tatsächlicher Repräsentations-Kernmatrizen

Experimentelle Ergebnisse

Hauptergebnisse

Optimale Repräsentation für ReLU-Netze

Für aufgehellte Eingaben und Einzelelement-Klassen (n=1n=1) ist die optimale verborgene Repräsentations-Kernmatrix: K[ρ]=b(dY11T+KY)K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

wobei: b=λ2λ1P+1P(P+2)λ2Pb^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}

Garantie abstrakter Repräsentationen

Theorem: Wenn M2dYM \geq 2^{d_Y} und die Eingaben aufgehellt oder zielausgerichtet sind, entsprechen alle globalen Minima abstrakten Repräsentationen (PS=1PS = 1).

Neuronale Abstimmungseigenschaften

Die optimalen Präaktivierungsmuster sind: h=α(1±vi),α0,i{1,2,,dY}h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}

Dies zeigt, dass verborgene Neuronen in 2dY2^{d_Y} Gruppen unterteilt sind, wobei jede Gruppe nur auf ein einzelnes Ausgabeetikett reagiert.

Robustheit der Aktivierungsfunktion

Schwellenwert-Aktivierungsfunktionen

Für Aktivierungsfunktionen der Form ϕ(z)=ϕ+(z)1z0\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0} behält die optimale Repräsentations-Kernmatrix die gleiche Form bei, wobei sich nur die Koeffizienten ändern.

Ungerade symmetrische Aktivierungsfunktionen

Für ungerade Aktivierungsfunktionen ist die optimale Kernmatrix: K[ρ]=bKYK[\rho^*] = b^* K_Y

Obwohl der konstante Term fehlt, entspricht dies immer noch einer abstrakten Repräsentation (PS=1PS = 1).

Erweiterte Ergebnisse

Tiefe Netze

Für L-schichtige tiefe Netze zeigt jede Schicht abstrakte Repräsentationen: K(l)[ρl]=bl(dY11T+KY)K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

wobei bl=(γ)l1b1b_l^* = (\gamma^*)^{l-1} b_1^*.

Rekurrente Netze

Im letzten Zeitschritt entstehen ebenfalls abstrakte Repräsentationen, was die breite Anwendbarkeit des Rahmenwerks bestätigt.

Verwandte Arbeiten

Neurowissenschaftlicher Hintergrund

  • Abstrakte Repräsentationen werden in mehreren Hirnregionen (Hippocampus, präfrontaler Kortex usw.) beobachtet
  • Diese Repräsentationen unterstützen Verallgemeinerung außerhalb der Verteilung und abstraktes Denken

Maschinelles Lernen Methoden

  • Variational Autoencoders: Standardmethode für unüberwachtes Lernen entkoppelter Repräsentationen
  • Überwachte Methoden: Erwerben entkoppelter Repräsentationen durch Mehraufgaben-Lernen
  • Neuronaler Kollaps: Repräsentationsgeometrie-Phänomen in späten Trainingsphasen tiefer Netze

Theoretische Analyse

  • Neural Tangent Kernel: Theoretische Analyse unendlich breiter Netze
  • Mittelfeld-Theorie: Statistische Physik-Methoden für tiefe Netze
  • Lern-Dynamik: Mathematische Analyse der Gewichtsentwicklung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretische Garantien: Unter geeigneten Bedingungen erzeugt überwachtes Lernen zwangsläufig abstrakte Repräsentationen
  2. Mechanismuserklärung: Die Aufgabenstruktur bestimmt die Repräsentationsgeometrie, die Eingabegeometrie beeinflusst die Lerneffizienz
  3. Universalität: Ergebnisse sind robust gegenüber Aktivierungsfunktionen und Netzwerkarchitekturen

Biologische Bedeutung

  • Bietet eine rechnerische Erklärung für abstrakte Repräsentationen, die im Gehirn weit verbreitet beobachtet werden
  • Die "Neukodierung" in Hirnregionen wie dem Hippocampus könnte die Bildung nachgelagerter abstrakter Repräsentationen fördern
  • Einzelneuronale Nichtlinearität beeinflusst Abstimmungseigenschaften, ändert aber nicht die Gruppen-Geometrie

Einschränkungen

  1. Aufgabenbeschränkungen: Hauptsächlich anwendbar auf kombinatorische Aufgaben mit binären Klassifizierungen
  2. Eingabeannahmen: Erfordert spezifische Eingabegeometrie-Strukturen
  3. Regularisierungsabhängigkeit: Erfordert angemessene L2-Regularisierungsstärke

Zukünftige Richtungen

  1. Kontinuierliche Variablen: Erweiterung auf Repräsentationslernens mit kontinuierlichen latenten Variablen
  2. Lern-Dynamik: Analyse des Bildungsprozesses abstrakter Repräsentationen
  3. Biologische Implementierung: Untersuchung der Repräsentationsentstehung unter biologischen Lernregeln

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Bietet mathematische Beweise für die Entstehung abstrakter Repräsentationen und füllt eine wichtige theoretische Lücke
  2. Methodische Innovation: Das Mittelfeld-Rahmenwerk bietet neue Werkzeuge zur Analyse endlich breiter Netze
  3. Universelle Anwendbarkeit: Ergebnisse gelten für mehrere Aktivierungsfunktionen und Netzwerkarchitekturen
  4. Interdisziplinärer Wert: Verbindet neurowissenschaftliche Beobachtungen und Maschinenlerntheorie
  5. Umfassende experimentelle Validierung: Theoretische Vorhersagen stimmen stark mit numerischen Experimenten überein

Schwächen

  1. Begrenzte Aufgabenbereiche: Hauptsächlich auf spezifische binäre Etiketten-Kombinationsaufgaben ausgerichtet
  2. Strenge Eingabebedingungen: Erfordert aufgehellte oder zielausgerichtete Eingabegeometrie
  3. Abstand zur praktischen Anwendung: Noch Abstand zu komplexen realen Aufgaben
  4. Rechenkomplexität: Die Lösung von Mittelfeld-Gleichungen kann rechnerisch teuer sein

Einflussfähigkeit

  1. Theoretischer Beitrag: Bietet wichtige mathematische Grundlagen für die Repräsentationslerntheorie
  2. Methodologischer Wert: Das Analyserahmenwerk kann auf andere Netzwerkmodelle angewendet werden
  3. Praktische Anleitung: Bietet Anleitung zur Gestaltung von Netzwerkarchitekturen, die abstrakte Repräsentationen fördern
  4. Bereichsübergreifende Auswirkungen: Könnte die interdisziplinäre Forschung zwischen Neurowissenschaften und maschinellem Lernen beeinflussen

Anwendungsszenarien

  • Repräsentationslernaufgaben, die hohe Interpretierbarkeit erfordern
  • Merkmalsent-kopplung beim Mehraufgaben-Lernen
  • Theoretische Modellierung von Repräsentationsgeometrie in Neurowissenschaften
  • Anwendungen, die Verallgemeinerung außerhalb der Verteilung erfordern

Technische Innovationspunkte

Zentrale mathematische Werkzeuge

  1. Maßtheoretische Methoden: Umwandlung diskreter Neuronenprobleme in kontinuierliche Maßoptimierung
  2. Konvexe Optimierungstheorie: Nutzung von KKT-Bedingungen zur Analyse globaler Optima
  3. Matrixanalyse: Charakterisierung von Repräsentationsgeometrie durch Kernmatrizen

Analysetechniken

  • Kopositive Programmierung: Behandlung nicht-konvexer ReLU-Netz-Beschränkungen
  • Schur-Konvexität: Analyse einheitlicher Eigenschaften verschiedener Aktivierungsfunktionen
  • Störungsanalyse: Erweiterung von Ergebnissen durch Kontinuitätsargumente

Diese Arbeit bietet eine wichtige theoretische Grundlage zum Verständnis des Repräsentationslernens in neuronalen Netzen. Ihr mathematisches Rahmenwerk und ihre Einsichten haben bedeutenden Wert für Neurowissenschaften und maschinelles Lernen.