2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi

Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.

academic

Una teoría matemática para comprender cuándo emergen representaciones abstractas en redes neuronales

Información Básica

ID del Artículo: 2510.09816
Título: A mathematical theory for understanding when abstract representations emerge in neural networks
Autores: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
Institución: Center for Theoretical Neuroscience, Columbia University
Clasificación: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
Fecha de Publicación: 14 de octubre de 2025 (preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.09816

Resumen

Este artículo investiga los mecanismos matemáticos de la emergencia de representaciones abstractas (abstract representations) en redes neuronales. Los experimentos revelan que las variables relevantes para la tarea se codifican típicamente en subespacios aproximadamente ortogonales del espacio de actividad neuronal, formando representaciones de baja dimensión desacopladas. Esta estructura geométrica respalda la generalización simple fuera de distribución, pero su mecanismo de emergencia aún no está claro. Los autores demuestran matemáticamente que las representaciones abstractas emergen necesariamente en la última capa oculta cuando redes no lineales de retroalimentación directa se entrenan en tareas que dependen de variables latentes. Para ello, los autores desarrollan un marco analítico que mapea la optimización de pesos de la red como un problema de campo medio sobre distribuciones de preactivaciones neuronales.

Antecedentes y Motivación de la Investigación

Problemas Centrales

Universalidad de Representaciones Abstractas: Experimentos de neurociencia demuestran que la actividad neuronal en múltiples regiones cerebrales y especies exhibe representaciones abstractas, donde variables relevantes para la tarea se codifican en subespacios aproximadamente ortogonales
Falta de Comprensión de Mecanismos: Aunque esta estructura geométrica es ampliamente observada, los mecanismos de red subyacentes a su emergencia permanecen sin claridad
Limitaciones de Métodos Existentes: Los mecanismos estudiados son principalmente métodos no supervisados (como autoencodificadores variacionales), pero el aprendizaje no supervisado puro enfrenta dificultades significativas en aprender representaciones desacopladas debido a problemas de identificabilidad

Importancia de la Investigación

Significado Teórico: Proporciona una explicación matemática para el fenómeno de representaciones abstractas ampliamente observado
Valor Práctico: Comprender los mecanismos de aprendizaje de representaciones ayuda a diseñar arquitecturas de redes neuronales mejoradas
Impacto Interdisciplinario: Conecta la teoría del aprendizaje de representaciones en neurociencia y aprendizaje automático

Contribuciones Principales

Garantías Teóricas: Primera demostración matemática de que redes no lineales de retroalimentación directa producen necesariamente representaciones abstractas en configuraciones de aprendizaje supervisado multitarea
Marco Analítico: Desarrollo de una herramienta analítica general que mapea la optimización de pesos de la red como un problema de campo medio sobre distribuciones de preactivaciones neuronales
Robustez de Funciones de Activación: Demostración de que la emergencia de representaciones abstractas es robusta a la elección de función de activación
Extensión de Arquitectura: Extensión del análisis a redes profundas y redes recurrentes
Perspectivas de Neurociencia: Proporciona una explicación computacional para representaciones abstractas observadas en redes neuronales biológicas

Detalles de la Metodología

Definición de Tareas

Considérese un conjunto de datos de entrenamiento $D = \{(x^i, y^i)\}_{i=1}^P$ , donde:

Entrada $x^i \in \mathbb{R}^{d_X}$ es esencialmente sin estructura
Salida $y^i \in \{±1\}^{d_Y}$ contiene $d_Y$ etiquetas binarias que reflejan la estructura de variables latentes
Todos los datos forman $2^{d_Y}$ clases distintas, cada clase contiene $n$ muestras
Número total de muestras $P = n \cdot 2^{d_Y}$

Arquitectura de Red

Se estudia la red de dos capas más simple: $f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)$

Donde:

$W_1 \in \mathbb{R}^{M \times d_X}$ : matriz de pesos de la primera capa
$W_2 \in \mathbb{R}^{d_Y \times M}$ : matriz de pesos de la segunda capa
$b \in \mathbb{R}^M$ : parámetros de sesgo
$\phi$ : función de activación no lineal elemento a elemento
$M$ : ancho de la capa oculta

Función de Pérdida

Se utiliza error cuadrático medio con regularización L2: $E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2$

Métrica de Representación Abstracta

Se utiliza la Puntuación de Paralelismo (Parallelism Score, PS) para cuantificar el grado de abstracción de la representación:

Representación de Prototipos de Clase: $r^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i$
Dirección de Variación de Representación: $\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}$
Puntuación de Paralelismo: $PS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k$

Donde $PS_k$ mide la consistencia de la dirección de codificación para la $k$ -ésima etiqueta latente. PS = 1 corresponde a representación completamente abstracta.

Núcleo del Marco Analítico

Transformación de Campo Medio

La innovación clave es transformar el problema de optimización original: $\min_{W_1,W_2,b} E(W_1,W_2,b)$

en una optimización sobre distribuciones de preactivaciones neuronales: $\min_{\rho_M} \mathcal{E}[\rho_M]$

Donde $\rho_M = \sum_{k=1}^M \delta_{h_k}$ es la medida empírica de patrones de preactivación.

Función de Energía Efectiva

La función de energía del sistema efectivo es: $\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)$

Donde:

$K_X = X^TX$ : matriz de núcleo de entrada
$K_Y = Y^TY$ : matriz de núcleo de salida
$K_X^\dagger$ : pseudoinversa de Moore-Penrose

Condiciones KKT

La solución óptima satisface: $\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0$

La igualdad se cumple si y solo si $h \in \text{supp}(\rho^*)$ .

Configuración Experimental

Configuración de Datos

Entrada Blanqueada: $X_{\text{data}}^T X_{\text{data}} = I_P$
Entrada Alineada con Objetivo: entrada con estructura geométrica parcialmente alineada con salida
Entrada Anisotrópica: diferentes direcciones con diferentes factores de escala

Configuración de Red

Funciones de activación: ReLU, sigmoide duro, tanh, etc.
Ancho de red: $M \geq 2^{d_Y}$
Parámetros de regularización: $\lambda_1, \lambda_2$ relativamente pequeños

Métricas de Evaluación

Puntuación de Paralelismo (PS)
Pérdida de entrenamiento
Comparación de predicción teórica vs. resultados reales de matriz de núcleo de representación

Resultados Experimentales

Resultados Principales

Representación Óptima para Redes ReLU

Para entrada blanqueada y clase de elemento único ( $n=1$ ), el núcleo de representación oculta óptimo es: $K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)$

Donde: $b^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}$

Garantía de Representación Abstracta

Teorema: Cuando $M \geq 2^{d_Y}$ y la entrada es blanqueada o alineada con objetivo, todos los mínimos globales corresponden a representaciones abstractas (PS = 1).

Características de Sintonización Neuronal

Los patrones de preactivación óptimos son: $h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}$

Esto indica que las neuronas de la capa oculta se dividen en $2^{d_Y}$ grupos, cada grupo responde solo a una etiqueta de salida individual.

Robustez de Función de Activación

Funciones de Activación de Tipo Umbral

Para funciones de activación de la forma $\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0}$ , el núcleo de representación óptimo mantiene la misma forma, con solo cambios en los coeficientes.

Funciones de Activación Simétricamente Impares

Para activaciones de función impar, el núcleo óptimo es: $K[\rho^*] = b^* K_Y$

Aunque carece del término constante, sigue correspondiendo a representación abstracta (PS = 1).

Resultados Extendidos

Redes Profundas

Para redes profundas de L capas, cada capa exhibe representación abstracta: $K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)$

Donde $b_l^* = (\gamma^*)^{l-1} b_1^*$ .

Redes Recurrentes

En el último paso de tiempo también emerge representación abstracta, validando la amplia aplicabilidad del marco.

Trabajo Relacionado

Antecedentes de Neurociencia

Representaciones abstractas observadas en múltiples regiones cerebrales (hipocampo, corteza prefrontal, etc.)
Estas representaciones respaldan la generalización fuera de distribución y el razonamiento abstracto

Métodos de Aprendizaje Automático

Autoencodificadores Variacionales: método estándar para aprendizaje de representaciones desacopladas no supervisadas
Métodos Supervisados: obtención de representaciones desacopladas mediante aprendizaje multitarea
Colapso Neuronal: fenómeno de geometría de representación en etapas posteriores del entrenamiento de redes profundas

Análisis Teórico

Núcleo Tangente Neuronal: análisis teórico de redes de ancho infinito
Teoría de Campo Medio: método de física estadística para redes profundas
Dinámica de Aprendizaje: análisis matemático de evolución de pesos

Conclusiones y Discusión

Conclusiones Principales

Garantías Teóricas: Bajo condiciones apropiadas, el aprendizaje supervisado produce necesariamente representaciones abstractas
Explicación de Mecanismos: La estructura de tareas determina la geometría de representación, mientras que la geometría de entrada afecta la eficiencia de aprendizaje
Universalidad: Los resultados son robustos a funciones de activación y arquitecturas de red

Significado Biológico

Proporciona explicación computacional para representaciones abstractas ampliamente observadas en el cerebro
La "recodificación" en regiones como el hipocampo puede facilitar la formación de representaciones abstractas en capas posteriores
La no linealidad de neuronas individuales afecta características de sintonización pero no cambia la geometría de población

Limitaciones

Restricciones de Tareas: Aplicable principalmente a tareas combinatorias de clasificación binaria
Suposiciones de Entrada: Requiere estructura geométrica de entrada específica
Dependencia de Regularización: Requiere fuerza de regularización L2 apropiada

Direcciones Futuras

Variables Continuas: Extensión al aprendizaje de representaciones con variables latentes continuas
Dinámica de Aprendizaje: Análisis del proceso de formación de representaciones abstractas
Implementación Biológica: Investigación de emergencia de representaciones bajo reglas de aprendizaje biológico

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona demostración matemática de emergencia de representaciones abstractas, llenando un vacío teórico importante
Innovación de Métodos: El marco de campo medio proporciona nueva herramienta para analizar redes de ancho finito
Aplicabilidad Universal: Los resultados se cumplen para múltiples funciones de activación y arquitecturas de red
Valor Interdisciplinario: Conecta observaciones de neurociencia con teoría de aprendizaje automático
Verificación Experimental Suficiente: Predicciones teóricas altamente consistentes con experimentos numéricos

Insuficiencias

Limitación de Rango de Tareas: Enfocado principalmente en tareas específicas de etiquetas binarias combinatorias
Condiciones de Entrada Estrictas: Requiere geometría de entrada blanqueada o alineada con objetivo
Distancia de Aplicación Práctica: Aún existe brecha con tareas complejas del mundo real
Complejidad Computacional: La solución de ecuaciones de campo medio puede ser computacionalmente costosa

Influencia

Contribución Teórica: Proporciona base matemática importante para teoría de aprendizaje de representaciones
Valor Metodológico: El marco analítico puede aplicarse a otros modelos de red
Orientación Práctica: Proporciona orientación para diseñar arquitecturas de red que promuevan representaciones abstractas
Impacto Interdisciplinario: Puede influir en investigación de intersección entre neurociencia y aprendizaje automático

Escenarios Aplicables

Tareas de aprendizaje de representaciones que requieren alta interpretabilidad
Desacoplamiento de características en aprendizaje multitarea
Modelado teórico de geometría de representación en neurociencia
Aplicaciones que requieren capacidad de generalización fuera de distribución

Puntos de Innovación Técnica

Herramientas Matemáticas Centrales

Métodos de Teoría de Medidas: Transformación de problemas discretos de neuronas en optimización de medidas continuas
Teoría de Optimización Convexa: Utilización de condiciones KKT para analizar soluciones óptimas globales
Análisis Matricial: Caracterización de estructura geométrica de representación mediante matrices de núcleo

Técnicas de Análisis

Programación Semidefinida Copositive: Manejo de restricciones no convexas en redes ReLU
Convexidad de Schur: Análisis de propiedades unificadas de diferentes funciones de activación
Análisis de Perturbación: Extensión de resultados mediante argumentos de continuidad

Este trabajo proporciona una base teórica importante para comprender el aprendizaje de representaciones en redes neuronales, y su marco matemático e ideas tienen valor significativo tanto para neurociencia como para aprendizaje automático.