A mathematical theory for understanding when abstract representations emerge in neural networks
Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic
Una teoria matematica per comprendere quando emergono rappresentazioni astratte nelle reti neurali
Questo articolo indaga i meccanismi matematici dell'emergenza di rappresentazioni astratte (abstract representations) nelle reti neurali. Gli esperimenti rivelano che le variabili rilevanti per il compito sono tipicamente codificate in sottospazi approssimativamente ortogonali dello spazio dell'attività neurale, formando rappresentazioni disaccoppiate a bassa dimensionalità. Questa struttura geometrica supporta una semplice generalizzazione fuori distribuzione, ma il meccanismo della sua emergenza rimane poco chiaro. Gli autori dimostrano matematicamente che le rappresentazioni astratte emergono necessariamente nell'ultimo strato nascosto quando reti feedforward non lineari vengono addestrate su compiti dipendenti da variabili latenti. A tal fine, gli autori sviluppano un framework analitico che mappa l'ottimizzazione dei pesi della rete in un problema di campo medio sulla distribuzione delle pre-attivazioni neurali.
Universalità delle rappresentazioni astratte: Gli esperimenti di neuroscienze dimostrano che l'attività neurale in più aree cerebrali e specie presenta rappresentazioni astratte, dove le variabili rilevanti per il compito sono codificate in sottospazi approssimativamente ortogonali
Mancanza di comprensione meccanicistica: Sebbene questa struttura geometrica sia ampiamente osservata, il meccanismo di rete della sua emergenza rimane poco chiaro
Limitazioni dei metodi esistenti: I meccanismi precedentemente studiati sono principalmente metodi non supervisionati (come gli autoencoder variazionali), ma l'apprendimento puramente non supervisionato di rappresentazioni disaccoppiate è difficile a causa di problemi di identificabilità
Garanzie teoriche: Prima dimostrazione matematica che le reti feedforward non lineari producono necessariamente rappresentazioni astratte in un contesto di apprendimento supervisionato multitask
Framework analitico: Sviluppo di uno strumento analitico generale che mappa l'ottimizzazione dei pesi della rete in un problema di campo medio sulla distribuzione delle pre-attivazioni neurali
Robustezza della funzione di attivazione: Dimostrazione che l'emergenza di rappresentazioni astratte è robusta rispetto alla scelta della funzione di attivazione
Estensione dell'architettura: Estensione dell'analisi a reti profonde e reti ricorrenti
Intuizioni neurobiologiche: Fornisce una spiegazione computazionale per le rappresentazioni astratte osservate nelle reti neurali biologiche
Si utilizza il Parallelism Score (PS) per quantificare il grado di astrazione della rappresentazione:
Rappresentazione del prototipo di classe: r(y)=n1∑i:yi=yri
Direzioni di variazione della rappresentazione: Δr(k;α)=r(yk=+1,y∖k=α)−r(yk=−1,y∖k=α)
Parallelism Score: PS=dY1∑k=1dYPSk
dove PSk misura la coerenza della direzione di codifica per l'etichetta latente k-esima. PS = 1 corrisponde a una rappresentazione completamente astratta.
Per funzioni di attivazione della forma ϕ(z)=ϕ+(z)⋅1z≥0, il kernel di rappresentazione ottimale mantiene la stessa forma, con solo coefficienti che cambiano.
Garanzie teoriche: In condizioni appropriate, l'apprendimento supervisionato produce necessariamente rappresentazioni astratte
Spiegazione meccanicistica: La struttura del compito determina la geometria della rappresentazione, mentre la geometria dell'input influenza l'efficienza di apprendimento
Universalità: I risultati sono robusti rispetto alla funzione di attivazione e all'architettura della rete
Programmazione copositive: Gestione di vincoli non convessi in reti ReLU
Convessità di Schur: Analisi di proprietà unificate per diverse funzioni di attivazione
Analisi perturbativa: Estensione dei risultati attraverso argomenti di continuità
Questo lavoro fornisce una base teorica importante per comprendere l'apprendimento di rappresentazioni nelle reti neurali, e il suo framework matematico e le sue intuizioni hanno un valore significativo sia per le neuroscienze che per l'apprendimento automatico.