A mathematical theory for understanding when abstract representations emerge in neural networks
Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic
Una teoría matemática para comprender cuándo emergen representaciones abstractas en redes neuronales
Este artículo investiga los mecanismos matemáticos de la emergencia de representaciones abstractas (abstract representations) en redes neuronales. Los experimentos revelan que las variables relevantes para la tarea se codifican típicamente en subespacios aproximadamente ortogonales del espacio de actividad neuronal, formando representaciones de baja dimensión desacopladas. Esta estructura geométrica respalda la generalización simple fuera de distribución, pero su mecanismo de emergencia aún no está claro. Los autores demuestran matemáticamente que las representaciones abstractas emergen necesariamente en la última capa oculta cuando redes no lineales de retroalimentación directa se entrenan en tareas que dependen de variables latentes. Para ello, los autores desarrollan un marco analítico que mapea la optimización de pesos de la red como un problema de campo medio sobre distribuciones de preactivaciones neuronales.
Universalidad de Representaciones Abstractas: Experimentos de neurociencia demuestran que la actividad neuronal en múltiples regiones cerebrales y especies exhibe representaciones abstractas, donde variables relevantes para la tarea se codifican en subespacios aproximadamente ortogonales
Falta de Comprensión de Mecanismos: Aunque esta estructura geométrica es ampliamente observada, los mecanismos de red subyacentes a su emergencia permanecen sin claridad
Limitaciones de Métodos Existentes: Los mecanismos estudiados son principalmente métodos no supervisados (como autoencodificadores variacionales), pero el aprendizaje no supervisado puro enfrenta dificultades significativas en aprender representaciones desacopladas debido a problemas de identificabilidad
Garantías Teóricas: Primera demostración matemática de que redes no lineales de retroalimentación directa producen necesariamente representaciones abstractas en configuraciones de aprendizaje supervisado multitarea
Marco Analítico: Desarrollo de una herramienta analítica general que mapea la optimización de pesos de la red como un problema de campo medio sobre distribuciones de preactivaciones neuronales
Robustez de Funciones de Activación: Demostración de que la emergencia de representaciones abstractas es robusta a la elección de función de activación
Extensión de Arquitectura: Extensión del análisis a redes profundas y redes recurrentes
Perspectivas de Neurociencia: Proporciona una explicación computacional para representaciones abstractas observadas en redes neuronales biológicas
Se utiliza la Puntuación de Paralelismo (Parallelism Score, PS) para cuantificar el grado de abstracción de la representación:
Representación de Prototipos de Clase: r(y)=n1∑i:yi=yri
Dirección de Variación de Representación: Δr(k;α)=r(yk=+1,y∖k=α)−r(yk=−1,y∖k=α)
Puntuación de Paralelismo: PS=dY1∑k=1dYPSk
Donde PSk mide la consistencia de la dirección de codificación para la k-ésima etiqueta latente. PS = 1 corresponde a representación completamente abstracta.
Teorema: Cuando M≥2dY y la entrada es blanqueada o alineada con objetivo, todos los mínimos globales corresponden a representaciones abstractas (PS = 1).
Para funciones de activación de la forma ϕ(z)=ϕ+(z)⋅1z≥0, el núcleo de representación óptimo mantiene la misma forma, con solo cambios en los coeficientes.
Garantías Teóricas: Bajo condiciones apropiadas, el aprendizaje supervisado produce necesariamente representaciones abstractas
Explicación de Mecanismos: La estructura de tareas determina la geometría de representación, mientras que la geometría de entrada afecta la eficiencia de aprendizaje
Universalidad: Los resultados son robustos a funciones de activación y arquitecturas de red
Programación Semidefinida Copositive: Manejo de restricciones no convexas en redes ReLU
Convexidad de Schur: Análisis de propiedades unificadas de diferentes funciones de activación
Análisis de Perturbación: Extensión de resultados mediante argumentos de continuidad
Este trabajo proporciona una base teórica importante para comprender el aprendizaje de representaciones en redes neuronales, y su marco matemático e ideas tienen valor significativo tanto para neurociencia como para aprendizaje automático.