A mathematical theory for understanding when abstract representations emerge in neural networks
Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic
Eine mathematische Theorie zum Verständnis der Entstehung abstrakter Repräsentationen in neuronalen Netzen
Dieses Papier untersucht die mathematischen Mechanismen der Entstehung abstrakter Repräsentationen in neuronalen Netzen. Experimentelle Befunde zeigen, dass aufgabenbezogene Variablen typischerweise in näherungsweise orthogonalen Unterräumen der neuronalen Aktivitätsraums kodiert werden und entkoppelte niedrigdimensionale Repräsentationen bilden. Diese geometrische Struktur unterstützt einfache Verallgemeinerung außerhalb der Verteilung, doch der Entstehungsmechanismus bleibt unklar. Die Autoren beweisen mathematisch, dass abstrakte Repräsentationen zwangsläufig in der letzten verborgenen Schicht entstehen, wenn vorwärtsgekoppelte nichtlineare Netze auf Aufgaben trainiert werden, die von latenten Variablen abhängen. Zu diesem Zweck entwickeln die Autoren ein analytisches Rahmenwerk, das die Optimierung von Netzgewichten auf ein Mittelfeld-Problem über der Verteilung neuronaler Präaktivierungen abbildet.
Universalität abstrakter Repräsentationen: Neurowissenschaftliche Experimente zeigen, dass neuronale Aktivitäten in mehreren Hirnregionen und Spezies abstrakte Repräsentationen aufweisen, bei denen aufgabenbezogene Variablen in näherungsweise orthogonalen Unterräumen kodiert sind
Fehlende Mechanismuserklärung: Obwohl diese geometrische Struktur weit verbreitet ist, bleibt der Netzwerkmechanismus ihrer Entstehung unklar
Einschränkungen bestehender Methoden: Die untersuchten Mechanismen sind überwiegend unüberwachte Methoden (wie Variational Autoencoders), doch aufgrund von Identifizierbarkeitsproblemen ist das Erlernen entkoppelter Repräsentationen durch rein unüberwachtes Lernen schwierig
Theoretische Garantien: Erstmaliger mathematischer Beweis, dass vorwärtsgekoppelte nichtlineare Netze in Mehraufgaben-Überwachungslerneinstellungen zwangsläufig abstrakte Repräsentationen erzeugen
Analytisches Rahmenwerk: Entwicklung eines universellen Analysetools, das die Optimierung von Netzgewichten auf ein Mittelfeld-Problem über neuronalen Präaktivierungsverteilungen abbildet
Robustheit der Aktivierungsfunktion: Beweis, dass die Entstehung abstrakter Repräsentationen robust gegenüber der Wahl der Aktivierungsfunktion ist
Architekturerweiterung: Erweiterung der Analyse auf tiefe Netze und rekurrente Netze
Neurowissenschaftliche Einsichten: Bietet eine rechnerische Erklärung für abstrakte Repräsentationen, die in biologischen neuronalen Netzen beobachtet werden
Für Aktivierungsfunktionen der Form ϕ(z)=ϕ+(z)⋅1z≥0 behält die optimale Repräsentations-Kernmatrix die gleiche Form bei, wobei sich nur die Koeffizienten ändern.
Störungsanalyse: Erweiterung von Ergebnissen durch Kontinuitätsargumente
Diese Arbeit bietet eine wichtige theoretische Grundlage zum Verständnis des Repräsentationslernens in neuronalen Netzen. Ihr mathematisches Rahmenwerk und ihre Einsichten haben bedeutenden Wert für Neurowissenschaften und maschinelles Lernen.