2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic

Una teoria matematica per comprendere quando emergono rappresentazioni astratte nelle reti neurali

Informazioni Fondamentali

  • ID Articolo: 2510.09816
  • Titolo: A mathematical theory for understanding when abstract representations emerge in neural networks
  • Autori: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
  • Istituzione: Center for Theoretical Neuroscience, Columbia University
  • Classificazione: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
  • Data di Pubblicazione: 14 ottobre 2025 (preprint)
  • Link Articolo: https://arxiv.org/abs/2510.09816

Riassunto

Questo articolo indaga i meccanismi matematici dell'emergenza di rappresentazioni astratte (abstract representations) nelle reti neurali. Gli esperimenti rivelano che le variabili rilevanti per il compito sono tipicamente codificate in sottospazi approssimativamente ortogonali dello spazio dell'attività neurale, formando rappresentazioni disaccoppiate a bassa dimensionalità. Questa struttura geometrica supporta una semplice generalizzazione fuori distribuzione, ma il meccanismo della sua emergenza rimane poco chiaro. Gli autori dimostrano matematicamente che le rappresentazioni astratte emergono necessariamente nell'ultimo strato nascosto quando reti feedforward non lineari vengono addestrate su compiti dipendenti da variabili latenti. A tal fine, gli autori sviluppano un framework analitico che mappa l'ottimizzazione dei pesi della rete in un problema di campo medio sulla distribuzione delle pre-attivazioni neurali.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Universalità delle rappresentazioni astratte: Gli esperimenti di neuroscienze dimostrano che l'attività neurale in più aree cerebrali e specie presenta rappresentazioni astratte, dove le variabili rilevanti per il compito sono codificate in sottospazi approssimativamente ortogonali
  2. Mancanza di comprensione meccanicistica: Sebbene questa struttura geometrica sia ampiamente osservata, il meccanismo di rete della sua emergenza rimane poco chiaro
  3. Limitazioni dei metodi esistenti: I meccanismi precedentemente studiati sono principalmente metodi non supervisionati (come gli autoencoder variazionali), ma l'apprendimento puramente non supervisionato di rappresentazioni disaccoppiate è difficile a causa di problemi di identificabilità

Importanza della Ricerca

  • Significato teorico: Fornisce una spiegazione matematica per il fenomeno delle rappresentazioni astratte ampiamente osservato
  • Valore pratico: Comprendere i meccanismi dell'apprendimento di rappresentazioni aiuta a progettare architetture di reti neurali migliori
  • Impatto interdisciplinare: Connette la teoria dell'apprendimento di rappresentazioni nelle neuroscienze e nell'apprendimento automatico

Contributi Principali

  1. Garanzie teoriche: Prima dimostrazione matematica che le reti feedforward non lineari producono necessariamente rappresentazioni astratte in un contesto di apprendimento supervisionato multitask
  2. Framework analitico: Sviluppo di uno strumento analitico generale che mappa l'ottimizzazione dei pesi della rete in un problema di campo medio sulla distribuzione delle pre-attivazioni neurali
  3. Robustezza della funzione di attivazione: Dimostrazione che l'emergenza di rappresentazioni astratte è robusta rispetto alla scelta della funzione di attivazione
  4. Estensione dell'architettura: Estensione dell'analisi a reti profonde e reti ricorrenti
  5. Intuizioni neurobiologiche: Fornisce una spiegazione computazionale per le rappresentazioni astratte osservate nelle reti neurali biologiche

Dettagli del Metodo

Definizione del Compito

Si consideri un insieme di dati di addestramento D={(xi,yi)}i=1PD = \{(x^i, y^i)\}_{i=1}^P, dove:

  • Input xiRdXx^i \in \mathbb{R}^{d_X} essenzialmente senza struttura
  • Output yi{±1}dYy^i \in \{±1\}^{d_Y} contenente dYd_Y etichette binarie, riflettendo la struttura delle variabili latenti
  • Tutti i dati formano 2dY2^{d_Y} classi distinte, ciascuna contenente nn campioni
  • Numero totale di campioni P=n2dYP = n \cdot 2^{d_Y}

Architettura della Rete

Si studia la più semplice rete a due strati: fW1,W2,b(x)=W2ϕ(W1x+b)f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)

dove:

  • W1RM×dXW_1 \in \mathbb{R}^{M \times d_X}: matrice dei pesi del primo strato
  • W2RdY×MW_2 \in \mathbb{R}^{d_Y \times M}: matrice dei pesi del secondo strato
  • bRMb \in \mathbb{R}^M: parametri di bias
  • ϕ\phi: funzione di attivazione non lineare elemento-saggio
  • MM: larghezza dello strato nascosto

Funzione di Perdita

Si utilizza l'errore quadratico medio con regolarizzazione L2: E(W1,W2,b)=YW2ϕ(WX)F2+λ1WF2+λ2W2F2E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2

Metrica di Rappresentazione Astratta

Si utilizza il Parallelism Score (PS) per quantificare il grado di astrazione della rappresentazione:

  1. Rappresentazione del prototipo di classe: r(y)=1ni:yi=yrir^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i
  2. Direzioni di variazione della rappresentazione: Δr(k;α)=r(yk=+1,yk=α)r(yk=1,yk=α)\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}
  3. Parallelism Score: PS=1dYk=1dYPSkPS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k

dove PSkPS_k misura la coerenza della direzione di codifica per l'etichetta latente kk-esima. PS = 1 corrisponde a una rappresentazione completamente astratta.

Nucleo del Framework Analitico

Trasformazione di Campo Medio

L'innovazione chiave è la trasformazione del problema di ottimizzazione originale: minW1,W2,bE(W1,W2,b)\min_{W_1,W_2,b} E(W_1,W_2,b)

in un'ottimizzazione sulla distribuzione delle pre-attivazioni neurali: minρME[ρM]\min_{\rho_M} \mathcal{E}[\rho_M]

dove ρM=k=1Mδhk\rho_M = \sum_{k=1}^M \delta_{h_k} è la misura empirica dei modelli di pre-attivazione.

Funzione di Energia Effettiva

La funzione di energia del sistema effettivo è: E[ρM]=λ1hTKXhdρM(h)+tr(λ2λ2+ϕ(h)ϕ(h)TdρM(h)KY)\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)

dove:

  • KX=XTXK_X = X^TX: matrice del kernel di input
  • KY=YTYK_Y = Y^TY: matrice del kernel di output
  • KXK_X^\dagger: pseudoinversa di Moore-Penrose

Condizioni KKT

La soluzione ottimale soddisfa: λ1hTKXhλ2ϕ(h)T1λ2+K[ρ]KY1λ2+K[ρ]ϕ(h)0\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0

con uguaglianza se e solo se hsupp(ρ)h \in \text{supp}(\rho^*).

Configurazione Sperimentale

Configurazione dei Dati

  1. Input sbiancati: XdataTXdata=IPX_{\text{data}}^T X_{\text{data}} = I_P
  2. Input allineati al target: input con struttura geometrica parzialmente allineata all'output
  3. Input anisotropi: fattori di scala diversi in direzioni diverse

Configurazione della Rete

  • Funzioni di attivazione: ReLU, hard sigmoid, tanh, ecc.
  • Larghezza della rete: M2dYM \geq 2^{d_Y}
  • Parametri di regolarizzazione: λ1,λ2\lambda_1, \lambda_2 piccoli

Metriche di Valutazione

  • Parallelism Score (PS)
  • Perdita di addestramento
  • Confronto tra previsioni teoriche e risultati effettivi della matrice del kernel di rappresentazione

Risultati Sperimentali

Risultati Principali

Rappresentazione Ottimale per Reti ReLU

Per input sbiancati e classi singleton (n=1n=1), il kernel di rappresentazione nascosto ottimale è: K[ρ]=b(dY11T+KY)K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

dove: b=λ2λ1P+1P(P+2)λ2Pb^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}

Garanzie di Rappresentazione Astratta

Teorema: Quando M2dYM \geq 2^{d_Y} e l'input è sbiancato o allineato al target, tutti i minimi globali corrispondono a rappresentazioni astratte (PS = 1).

Caratteristiche di Sintonizzazione Neurale

I modelli di pre-attivazione ottimali sono: h=α(1±vi),α0,i{1,2,,dY}h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}

Questo indica che i neuroni dello strato nascosto si dividono in 2dY2^{d_Y} gruppi, ciascuno rispondente solo a una singola etichetta di output.

Robustezza della Funzione di Attivazione

Funzioni di Attivazione di Tipo Soglia

Per funzioni di attivazione della forma ϕ(z)=ϕ+(z)1z0\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0}, il kernel di rappresentazione ottimale mantiene la stessa forma, con solo coefficienti che cambiano.

Funzioni di Attivazione Simmetriche Dispari

Per attivazioni con funzione dispari, il kernel ottimale è: K[ρ]=bKYK[\rho^*] = b^* K_Y

Sebbene manchi il termine costante, corrisponde comunque a una rappresentazione astratta (PS = 1).

Risultati Estesi

Reti Profonde

Per reti profonde a L strati, ogni strato presenta rappresentazioni astratte: K(l)[ρl]=bl(dY11T+KY)K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

dove bl=(γ)l1b1b_l^* = (\gamma^*)^{l-1} b_1^*.

Reti Ricorrenti

Rappresentazioni astratte emergono anche nell'ultimo passo temporale, verificando l'ampia applicabilità del framework.

Lavori Correlati

Contesto Neurobiologico

  • Rappresentazioni astratte osservate in più aree cerebrali (ippocampo, corteccia prefrontale, ecc.)
  • Queste rappresentazioni supportano la generalizzazione fuori distribuzione e il ragionamento astratto

Metodi di Apprendimento Automatico

  • Autoencoder variazionali: metodo standard per l'apprendimento non supervisionato di rappresentazioni disaccoppiate
  • Metodi supervisionati: acquisizione di rappresentazioni disaccoppiate attraverso l'apprendimento multitask
  • Neural Collapse: fenomeno geometrico di rappresentazione nella fase tardiva dell'addestramento di reti profonde

Analisi Teorica

  • Neural Tangent Kernel: analisi teorica di reti di larghezza infinita
  • Teoria di campo medio: approccio di fisica statistica per reti profonde
  • Dinamica di apprendimento: analisi matematica dell'evoluzione dei pesi

Conclusioni e Discussione

Conclusioni Principali

  1. Garanzie teoriche: In condizioni appropriate, l'apprendimento supervisionato produce necessariamente rappresentazioni astratte
  2. Spiegazione meccanicistica: La struttura del compito determina la geometria della rappresentazione, mentre la geometria dell'input influenza l'efficienza di apprendimento
  3. Universalità: I risultati sono robusti rispetto alla funzione di attivazione e all'architettura della rete

Significato Biologico

  • Fornisce una spiegazione computazionale per le rappresentazioni astratte ampiamente osservate nel cervello
  • La "ricodifica" in aree come l'ippocampo potrebbe facilitare la formazione di rappresentazioni astratte a valle
  • La non linearità dei singoli neuroni influenza le caratteristiche di sintonizzazione ma non modifica la geometria della popolazione

Limitazioni

  1. Limitazioni del compito: Principalmente applicabile a compiti combinatori di classificazione binaria
  2. Ipotesi di input: Richiede una struttura geometrica di input specifica
  3. Dipendenza dalla regolarizzazione: Richiede una forza di regolarizzazione L2 appropriata

Direzioni Future

  1. Variabili continue: Estensione all'apprendimento di rappresentazioni con variabili latenti continue
  2. Dinamica di apprendimento: Analisi del processo di formazione delle rappresentazioni astratte
  3. Implementazione biologica: Studio dell'emergenza di rappresentazioni secondo regole di apprendimento biologiche

Valutazione Approfondita

Punti di Forza

  1. Rigore teorico: Fornisce una dimostrazione matematica dell'emergenza di rappresentazioni astratte, colmando un importante vuoto teorico
  2. Innovazione metodologica: Il framework di campo medio fornisce un nuovo strumento per analizzare reti di larghezza finita
  3. Applicabilità universale: I risultati valgono per molteplici funzioni di attivazione e architetture di rete
  4. Valore interdisciplinare: Connette le osservazioni neurobiologiche con la teoria dell'apprendimento automatico
  5. Verifica sperimentale adeguata: Le previsioni teoriche sono altamente coerenti con gli esperimenti numerici

Insufficienze

  1. Limitazione dell'ambito dei compiti: Principalmente focalizzato su compiti specifici di etichette binarie combinate
  2. Condizioni di input rigorose: Richiede geometria di input sbiancata o allineata al target
  3. Distanza dalle applicazioni pratiche: Rimane ancora distante dai compiti complessi del mondo reale
  4. Complessità computazionale: La risoluzione delle equazioni di campo medio potrebbe essere computazionalmente costosa

Impatto

  1. Contributo teorico: Fornisce una base matematica importante per la teoria dell'apprendimento di rappresentazioni
  2. Valore metodologico: Il framework analitico può essere applicato ad altri modelli di rete
  3. Guida pratica: Fornisce indicazioni per la progettazione di architetture di rete che promuovono rappresentazioni astratte
  4. Impatto interdisciplinare: Potrebbe influenzare la ricerca di intersezione tra neuroscienze e apprendimento automatico

Scenari Applicabili

  • Compiti di apprendimento di rappresentazioni che richiedono forte interpretabilità
  • Disaccoppiamento di caratteristiche nell'apprendimento multitask
  • Modellazione teorica della geometria di rappresentazione nelle neuroscienze
  • Applicazioni che richiedono capacità di generalizzazione fuori distribuzione

Punti di Innovazione Tecnica

Strumenti Matematici Fondamentali

  1. Metodi di teoria della misura: Trasformazione di problemi di neuroni discreti in ottimizzazione di misure continue
  2. Teoria dell'ottimizzazione convessa: Utilizzo di condizioni KKT per analizzare soluzioni globalmente ottimali
  3. Analisi matriciale: Caratterizzazione della struttura geometrica di rappresentazione attraverso matrici kernel

Tecniche Analitiche

  • Programmazione copositive: Gestione di vincoli non convessi in reti ReLU
  • Convessità di Schur: Analisi di proprietà unificate per diverse funzioni di attivazione
  • Analisi perturbativa: Estensione dei risultati attraverso argomenti di continuità

Questo lavoro fornisce una base teorica importante per comprendere l'apprendimento di rappresentazioni nelle reti neurali, e il suo framework matematico e le sue intuizioni hanno un valore significativo sia per le neuroscienze che per l'apprendimento automatico.