2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic

Una teoría matemática para comprender cuándo emergen representaciones abstractas en redes neuronales

Información Básica

  • ID del Artículo: 2510.09816
  • Título: A mathematical theory for understanding when abstract representations emerge in neural networks
  • Autores: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
  • Institución: Center for Theoretical Neuroscience, Columbia University
  • Clasificación: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09816

Resumen

Este artículo investiga los mecanismos matemáticos de la emergencia de representaciones abstractas (abstract representations) en redes neuronales. Los experimentos revelan que las variables relevantes para la tarea se codifican típicamente en subespacios aproximadamente ortogonales del espacio de actividad neuronal, formando representaciones de baja dimensión desacopladas. Esta estructura geométrica respalda la generalización simple fuera de distribución, pero su mecanismo de emergencia aún no está claro. Los autores demuestran matemáticamente que las representaciones abstractas emergen necesariamente en la última capa oculta cuando redes no lineales de retroalimentación directa se entrenan en tareas que dependen de variables latentes. Para ello, los autores desarrollan un marco analítico que mapea la optimización de pesos de la red como un problema de campo medio sobre distribuciones de preactivaciones neuronales.

Antecedentes y Motivación de la Investigación

Problemas Centrales

  1. Universalidad de Representaciones Abstractas: Experimentos de neurociencia demuestran que la actividad neuronal en múltiples regiones cerebrales y especies exhibe representaciones abstractas, donde variables relevantes para la tarea se codifican en subespacios aproximadamente ortogonales
  2. Falta de Comprensión de Mecanismos: Aunque esta estructura geométrica es ampliamente observada, los mecanismos de red subyacentes a su emergencia permanecen sin claridad
  3. Limitaciones de Métodos Existentes: Los mecanismos estudiados son principalmente métodos no supervisados (como autoencodificadores variacionales), pero el aprendizaje no supervisado puro enfrenta dificultades significativas en aprender representaciones desacopladas debido a problemas de identificabilidad

Importancia de la Investigación

  • Significado Teórico: Proporciona una explicación matemática para el fenómeno de representaciones abstractas ampliamente observado
  • Valor Práctico: Comprender los mecanismos de aprendizaje de representaciones ayuda a diseñar arquitecturas de redes neuronales mejoradas
  • Impacto Interdisciplinario: Conecta la teoría del aprendizaje de representaciones en neurociencia y aprendizaje automático

Contribuciones Principales

  1. Garantías Teóricas: Primera demostración matemática de que redes no lineales de retroalimentación directa producen necesariamente representaciones abstractas en configuraciones de aprendizaje supervisado multitarea
  2. Marco Analítico: Desarrollo de una herramienta analítica general que mapea la optimización de pesos de la red como un problema de campo medio sobre distribuciones de preactivaciones neuronales
  3. Robustez de Funciones de Activación: Demostración de que la emergencia de representaciones abstractas es robusta a la elección de función de activación
  4. Extensión de Arquitectura: Extensión del análisis a redes profundas y redes recurrentes
  5. Perspectivas de Neurociencia: Proporciona una explicación computacional para representaciones abstractas observadas en redes neuronales biológicas

Detalles de la Metodología

Definición de Tareas

Considérese un conjunto de datos de entrenamiento D={(xi,yi)}i=1PD = \{(x^i, y^i)\}_{i=1}^P, donde:

  • Entrada xiRdXx^i \in \mathbb{R}^{d_X} es esencialmente sin estructura
  • Salida yi{±1}dYy^i \in \{±1\}^{d_Y} contiene dYd_Y etiquetas binarias que reflejan la estructura de variables latentes
  • Todos los datos forman 2dY2^{d_Y} clases distintas, cada clase contiene nn muestras
  • Número total de muestras P=n2dYP = n \cdot 2^{d_Y}

Arquitectura de Red

Se estudia la red de dos capas más simple: fW1,W2,b(x)=W2ϕ(W1x+b)f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)

Donde:

  • W1RM×dXW_1 \in \mathbb{R}^{M \times d_X}: matriz de pesos de la primera capa
  • W2RdY×MW_2 \in \mathbb{R}^{d_Y \times M}: matriz de pesos de la segunda capa
  • bRMb \in \mathbb{R}^M: parámetros de sesgo
  • ϕ\phi: función de activación no lineal elemento a elemento
  • MM: ancho de la capa oculta

Función de Pérdida

Se utiliza error cuadrático medio con regularización L2: E(W1,W2,b)=YW2ϕ(WX)F2+λ1WF2+λ2W2F2E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2

Métrica de Representación Abstracta

Se utiliza la Puntuación de Paralelismo (Parallelism Score, PS) para cuantificar el grado de abstracción de la representación:

  1. Representación de Prototipos de Clase: r(y)=1ni:yi=yrir^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i
  2. Dirección de Variación de Representación: Δr(k;α)=r(yk=+1,yk=α)r(yk=1,yk=α)\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}
  3. Puntuación de Paralelismo: PS=1dYk=1dYPSkPS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k

Donde PSkPS_k mide la consistencia de la dirección de codificación para la kk-ésima etiqueta latente. PS = 1 corresponde a representación completamente abstracta.

Núcleo del Marco Analítico

Transformación de Campo Medio

La innovación clave es transformar el problema de optimización original: minW1,W2,bE(W1,W2,b)\min_{W_1,W_2,b} E(W_1,W_2,b)

en una optimización sobre distribuciones de preactivaciones neuronales: minρME[ρM]\min_{\rho_M} \mathcal{E}[\rho_M]

Donde ρM=k=1Mδhk\rho_M = \sum_{k=1}^M \delta_{h_k} es la medida empírica de patrones de preactivación.

Función de Energía Efectiva

La función de energía del sistema efectivo es: E[ρM]=λ1hTKXhdρM(h)+tr(λ2λ2+ϕ(h)ϕ(h)TdρM(h)KY)\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)

Donde:

  • KX=XTXK_X = X^TX: matriz de núcleo de entrada
  • KY=YTYK_Y = Y^TY: matriz de núcleo de salida
  • KXK_X^\dagger: pseudoinversa de Moore-Penrose

Condiciones KKT

La solución óptima satisface: λ1hTKXhλ2ϕ(h)T1λ2+K[ρ]KY1λ2+K[ρ]ϕ(h)0\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0

La igualdad se cumple si y solo si hsupp(ρ)h \in \text{supp}(\rho^*).

Configuración Experimental

Configuración de Datos

  1. Entrada Blanqueada: XdataTXdata=IPX_{\text{data}}^T X_{\text{data}} = I_P
  2. Entrada Alineada con Objetivo: entrada con estructura geométrica parcialmente alineada con salida
  3. Entrada Anisotrópica: diferentes direcciones con diferentes factores de escala

Configuración de Red

  • Funciones de activación: ReLU, sigmoide duro, tanh, etc.
  • Ancho de red: M2dYM \geq 2^{d_Y}
  • Parámetros de regularización: λ1,λ2\lambda_1, \lambda_2 relativamente pequeños

Métricas de Evaluación

  • Puntuación de Paralelismo (PS)
  • Pérdida de entrenamiento
  • Comparación de predicción teórica vs. resultados reales de matriz de núcleo de representación

Resultados Experimentales

Resultados Principales

Representación Óptima para Redes ReLU

Para entrada blanqueada y clase de elemento único (n=1n=1), el núcleo de representación oculta óptimo es: K[ρ]=b(dY11T+KY)K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

Donde: b=λ2λ1P+1P(P+2)λ2Pb^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}

Garantía de Representación Abstracta

Teorema: Cuando M2dYM \geq 2^{d_Y} y la entrada es blanqueada o alineada con objetivo, todos los mínimos globales corresponden a representaciones abstractas (PS = 1).

Características de Sintonización Neuronal

Los patrones de preactivación óptimos son: h=α(1±vi),α0,i{1,2,,dY}h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}

Esto indica que las neuronas de la capa oculta se dividen en 2dY2^{d_Y} grupos, cada grupo responde solo a una etiqueta de salida individual.

Robustez de Función de Activación

Funciones de Activación de Tipo Umbral

Para funciones de activación de la forma ϕ(z)=ϕ+(z)1z0\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0}, el núcleo de representación óptimo mantiene la misma forma, con solo cambios en los coeficientes.

Funciones de Activación Simétricamente Impares

Para activaciones de función impar, el núcleo óptimo es: K[ρ]=bKYK[\rho^*] = b^* K_Y

Aunque carece del término constante, sigue correspondiendo a representación abstracta (PS = 1).

Resultados Extendidos

Redes Profundas

Para redes profundas de L capas, cada capa exhibe representación abstracta: K(l)[ρl]=bl(dY11T+KY)K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

Donde bl=(γ)l1b1b_l^* = (\gamma^*)^{l-1} b_1^*.

Redes Recurrentes

En el último paso de tiempo también emerge representación abstracta, validando la amplia aplicabilidad del marco.

Trabajo Relacionado

Antecedentes de Neurociencia

  • Representaciones abstractas observadas en múltiples regiones cerebrales (hipocampo, corteza prefrontal, etc.)
  • Estas representaciones respaldan la generalización fuera de distribución y el razonamiento abstracto

Métodos de Aprendizaje Automático

  • Autoencodificadores Variacionales: método estándar para aprendizaje de representaciones desacopladas no supervisadas
  • Métodos Supervisados: obtención de representaciones desacopladas mediante aprendizaje multitarea
  • Colapso Neuronal: fenómeno de geometría de representación en etapas posteriores del entrenamiento de redes profundas

Análisis Teórico

  • Núcleo Tangente Neuronal: análisis teórico de redes de ancho infinito
  • Teoría de Campo Medio: método de física estadística para redes profundas
  • Dinámica de Aprendizaje: análisis matemático de evolución de pesos

Conclusiones y Discusión

Conclusiones Principales

  1. Garantías Teóricas: Bajo condiciones apropiadas, el aprendizaje supervisado produce necesariamente representaciones abstractas
  2. Explicación de Mecanismos: La estructura de tareas determina la geometría de representación, mientras que la geometría de entrada afecta la eficiencia de aprendizaje
  3. Universalidad: Los resultados son robustos a funciones de activación y arquitecturas de red

Significado Biológico

  • Proporciona explicación computacional para representaciones abstractas ampliamente observadas en el cerebro
  • La "recodificación" en regiones como el hipocampo puede facilitar la formación de representaciones abstractas en capas posteriores
  • La no linealidad de neuronas individuales afecta características de sintonización pero no cambia la geometría de población

Limitaciones

  1. Restricciones de Tareas: Aplicable principalmente a tareas combinatorias de clasificación binaria
  2. Suposiciones de Entrada: Requiere estructura geométrica de entrada específica
  3. Dependencia de Regularización: Requiere fuerza de regularización L2 apropiada

Direcciones Futuras

  1. Variables Continuas: Extensión al aprendizaje de representaciones con variables latentes continuas
  2. Dinámica de Aprendizaje: Análisis del proceso de formación de representaciones abstractas
  3. Implementación Biológica: Investigación de emergencia de representaciones bajo reglas de aprendizaje biológico

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona demostración matemática de emergencia de representaciones abstractas, llenando un vacío teórico importante
  2. Innovación de Métodos: El marco de campo medio proporciona nueva herramienta para analizar redes de ancho finito
  3. Aplicabilidad Universal: Los resultados se cumplen para múltiples funciones de activación y arquitecturas de red
  4. Valor Interdisciplinario: Conecta observaciones de neurociencia con teoría de aprendizaje automático
  5. Verificación Experimental Suficiente: Predicciones teóricas altamente consistentes con experimentos numéricos

Insuficiencias

  1. Limitación de Rango de Tareas: Enfocado principalmente en tareas específicas de etiquetas binarias combinatorias
  2. Condiciones de Entrada Estrictas: Requiere geometría de entrada blanqueada o alineada con objetivo
  3. Distancia de Aplicación Práctica: Aún existe brecha con tareas complejas del mundo real
  4. Complejidad Computacional: La solución de ecuaciones de campo medio puede ser computacionalmente costosa

Influencia

  1. Contribución Teórica: Proporciona base matemática importante para teoría de aprendizaje de representaciones
  2. Valor Metodológico: El marco analítico puede aplicarse a otros modelos de red
  3. Orientación Práctica: Proporciona orientación para diseñar arquitecturas de red que promuevan representaciones abstractas
  4. Impacto Interdisciplinario: Puede influir en investigación de intersección entre neurociencia y aprendizaje automático

Escenarios Aplicables

  • Tareas de aprendizaje de representaciones que requieren alta interpretabilidad
  • Desacoplamiento de características en aprendizaje multitarea
  • Modelado teórico de geometría de representación en neurociencia
  • Aplicaciones que requieren capacidad de generalización fuera de distribución

Puntos de Innovación Técnica

Herramientas Matemáticas Centrales

  1. Métodos de Teoría de Medidas: Transformación de problemas discretos de neuronas en optimización de medidas continuas
  2. Teoría de Optimización Convexa: Utilización de condiciones KKT para analizar soluciones óptimas globales
  3. Análisis Matricial: Caracterización de estructura geométrica de representación mediante matrices de núcleo

Técnicas de Análisis

  • Programación Semidefinida Copositive: Manejo de restricciones no convexas en redes ReLU
  • Convexidad de Schur: Análisis de propiedades unificadas de diferentes funciones de activación
  • Análisis de Perturbación: Extensión de resultados mediante argumentos de continuidad

Este trabajo proporciona una base teórica importante para comprender el aprendizaje de representaciones en redes neuronales, y su marco matemático e ideas tienen valor significativo tanto para neurociencia como para aprendizaje automático.