2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan

Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.

academic

Escalado de Propagación de Equilibrio a Arquitecturas de Redes Neuronales Más Profundas

Información Básica

ID del Artículo: 2509.26003
Título: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Autores: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
Clasificación: cs.NE (Computación Neuronal y Evolutiva), cs.LG (Aprendizaje Automático)
Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2509.26003

Resumen

La Propagación de Equilibrio (Equilibrium Propagation, EP) se propone como una alternativa biológicamente plausible al algoritmo de retropropagación. La naturaleza local del cálculo de gradientes, combinada con el uso de RNN convergentes para alcanzar estados de equilibrio, hace que este método sea muy adecuado para su implementación en hardware neuromórfico. Sin embargo, investigaciones previas sobre EP se han limitado a redes que contienen capas densas o arquitecturas relativamente pequeñas, que presentan brechas de precisión significativas en comparación con redes prealimentadas de tamaño similar entrenadas con retropropagación. Este trabajo introduce la arquitectura Hopfield-Resnet, que integra conexiones residuales en redes de Hopfield y utiliza ReLU recortado como función de activación. Los mejoras arquitectónicas propuestas permiten que la red entrene casi el doble de capas reportadas en trabajos anteriores. Por ejemplo, Hopfield-Resnet13 alcanza una precisión del 93.92% en CIFAR-10, aproximadamente 3.5% superior a los resultados anteriores más óptimos, comparable al rendimiento de Resnet13 entrenado con retropropagación.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la escalabilidad del método de Propagación de Equilibrio (EP) en redes neuronales profundas. Se manifiesta específicamente en:

Limitación de Profundidad: Los métodos EP existentes solo pueden entrenar efectivamente redes superficiales (≤6 capas)
Brecha de Rendimiento: Las redes entrenadas con EP presentan una brecha de rendimiento significativa en comparación con redes del mismo tamaño entrenadas con retropropagación
Requisito de Plausibilidad Biológica: Necesidad de mantener las ventajas de plausibilidad biológica del método EP

Análisis de Importancia

La importancia de este problema se refleja en:

Plausibilidad Biológica: La retropropagación se considera biológicamente implausible debido a que el cálculo de gradientes es no local
Compatibilidad de Hardware: El método EP es más adecuado para implementación en hardware neuromórfico, con mayor eficiencia energética
Potencial de Aprendizaje en Línea: EP permite aprendizaje en dispositivos, adecuado para escenarios de computación de borde

Limitaciones de Métodos Existentes

Restricciones Arquitectónicas: Investigaciones previas limitadas a redes pequeñas como VGG5
Sesgo de Gradientes: Teóricamente requiere parámetro de nudging β infinitesimal, introduciendo sesgo en aplicaciones prácticas
Dificultades de Convergencia: Las redes profundas tienen dificultad para alcanzar estados de equilibrio estables
Restricciones de Función de Activación: Las funciones de activación existentes funcionan mal en redes profundas

Contribuciones Principales

Propuesta de Función de Activación ReLU Recortado: Simplifica la función de energía y el cálculo de gradientes, mejorando la estabilidad del entrenamiento en redes profundas
Introducción de Arquitectura Hopfield-Resnet: Mediante conexiones residuales permite que el método EP entrene exitosamente redes profundas de más de 12 capas
Mejora Significativa de Rendimiento: Alcanza precisión del 93.92% en CIFAR-10, cercana al rendimiento de retropropagación
Validación en Múltiples Conjuntos de Datos: Verifica la efectividad del método en CIFAR-10, CIFAR-100 y Fashion-MNIST

Explicación Detallada del Método

Definición de la Tarea

Este trabajo investiga cómo utilizar el método de Propagación de Equilibrio para entrenar redes neuronales convolucionales profundas en tareas de clasificación de imágenes. La entrada es una imagen x, la salida es una etiqueta de clase y, con la restricción de mantener la plausibilidad biológica del método EP y las características de cálculo de gradientes locales.

Teoría Fundamental de Propagación de Equilibrio

El método EP se basa en RNN estáticos convergentes, donde la evolución del estado de la red obedece:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

donde Φ es la función de energía, s es el estado de las neuronas, θ son los parámetros de la red.

El entrenamiento con EP incluye dos fases:

Fase Libre: Evolución basada únicamente en la función de energía
Fase de Sujeción Débil: Adición de un término de perturbación proporcional al gradiente de la función de pérdida

La fórmula de cálculo de gradientes es:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Diseño de Arquitectura Hopfield-Resnet

Integración de Conexiones Residuales

El bloque Hopfield-Resnet contiene tres operaciones convolucionales:

Ruta principal: dos convoluciones 3×3
Conexión de salto: una convolución 1×1

La ecuación de actualización del estado neuronal se modifica a:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

donde pre(n) y post(n) representan todos los estados anteriores y posteriores que interactúan directamente con el estado n.

Detalles de la Arquitectura de Red

4 bloques Hopfield-Resnet + 1 capa completamente conectada
Total de 13 conjuntos de parámetros entrenables (12 capas convolucionales + 1 capa completamente conectada)
9 estados de neuronas actualizables

Función de Activación ReLU Recortado

Se propone la función de activación ReLU_α que limita la salida al rango 0, α:

Previene el crecimiento explosivo de la función de energía
En experimentos se utiliza ReLU_6 (α=6) para obtener el mejor rendimiento
Computacionalmente más simple en comparación con funciones sigmoid/tanh tradicionales

Propagación de Equilibrio Centrada (CEP)

Se adopta el algoritmo CEP para reducir el sesgo en la estimación de gradientes:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Configuración Experimental

Conjuntos de Datos

CIFAR-10: Imágenes en color 32×32, 10 clases, 50,000 muestras de entrenamiento
CIFAR-100: Imágenes en color 32×32, 100 clases, 50,000 muestras de entrenamiento
Fashion-MNIST: Imágenes en escala de grises 28×28, 10 clases, 60,000 muestras de entrenamiento

Métricas de Evaluación

Se utiliza la precisión en el conjunto de prueba como métrica de evaluación principal

Métodos de Comparación

Método Base: Red de Hopfield Convolucional Profunda (DCHN) con arquitectura VGG5
Línea Base de Retropropagación: Arquitectura de red prealimentada correspondiente

Detalles de Implementación

Optimizador: Optimizador de Gradiente Acelerado de Nesterov
Parámetro de Nudging β: Ajuste empírico en rango 0.1, 0.4
Pasos de Tiempo: 120 pasos en fase libre, 50 pasos en cada fase de sujeción (±β)
Hardware: GPU NVIDIA RTX 4090 y 6000 Ada
Marco: PyTorch

Resultados Experimentales

Resultados Principales

Conjunto de Datos	Arquitectura del Modelo	Mejor Anterior (%)	Este Trabajo (%)	Retropropagación (%)
CIFAR-10	VGG5	90.3	92.84	92.11
CIFAR-10	Hopfield-Resnet13	-	93.92	93.78
CIFAR-100	VGG5	68.4	70.78	72.54
CIFAR-100	Hopfield-Resnet13	-	71.05	75.12
F-MNIST	VGG5	93.53	94.34	-
F-MNIST	Hopfield-Resnet13	-	94.15	-

Hallazgos Clave

Mejora Significativa de Rendimiento: Aumento del 3.5% sobre los resultados anteriores más óptimos en CIFAR-10
Rendimiento Cercano a Retropropagación: Hopfield-Resnet13 en CIFAR-10 solo 0.14% por debajo de retropropagación
Entrenamiento Exitoso de Redes Profundas: Primera vez que se entrena exitosamente una red EP de más de 12 capas

Experimentos de Ablación

Importancia de Conexiones Residuales

Los experimentos muestran que las redes profundas sin conexiones residuales mantienen la pérdida de entrenamiento estancada, mientras que las redes con conexiones residuales convergen exitosamente.

Comparación de Funciones de Activación

ReLU_6 muestra el mejor rendimiento
ReLU_1 (hard-sigmoid) tiene rendimiento secundario
ReLU_α con α inicializado aleatoriamente en 0,10 tiene rendimiento intermedio

Análisis de Tiempo de Entrenamiento

Hopfield-Resnet13 requiere más de 30 horas para entrenar 300 épocas
Gran cantidad de tiempo consumido en lanzamiento de kernel GPU y sincronización CPU-GPU
Existe espacio para optimización

Uso de Memoria

El uso de memoria del entrenamiento CEP es comparable al de retropropagación
Hopfield-Resnet13 (tamaño de lote 128): 1612 MiB
Resnet13 correspondiente: 1324 MiB

Análisis de Distribución de Pesos

Características de la distribución de pesos de redes entrenadas con CEP:

Valores de Peso Más Pequeños: Tanto el valor absoluto como la varianza son menores que en redes entrenadas con retropropagación
Pesos de Capas Profundas Tienden a Cero: Con el aumento de profundidad, los pesos se acercan gradualmente a cero
Mitigación de Conexiones Residuales: La proporción de pesos cercanos a cero en capas de conexión de salto se reduce significativamente

Trabajo Relacionado

Algoritmos de Aprendizaje Biológicamente Plausibles

Propagación Hacia Adelante: Evita la no localidad de la retropropagación
Codificación Predictiva: Aprendizaje basado en el principio de energía libre
Aprendizaje Hebbiano Contrastivo: Fundamento teórico de EP

Evolución de Propagación de Equilibrio

EP Original: Teoría fundamental propuesta por Scellier & Bengio (2017)
CEP: Reduce sesgo de gradientes mediante ±β
HEP: Utiliza múltiples puntos de equilibrio en el plano complejo para reducir sesgo adicional
Extensión Convolucional: Extensión de EP a redes convolucionales

Implementación en Hardware

Investigaciones previas han implementado EP en hardware neuromórfico como matrices de memristores, demostrando el potencial de aprendizaje en dispositivos.

Conclusiones y Discusión

Conclusiones Principales

Avance Técnico: Primera extensión exitosa de EP a redes profundas de 13 capas
Mejora de Rendimiento: Supera significativamente métodos EP anteriores en múltiples conjuntos de datos
Innovación Arquitectónica: La combinación de conexiones residuales y ReLU recortado resuelve efectivamente el problema de escalado de profundidad

Limitaciones

Eficiencia Computacional: El tiempo de entrenamiento sigue siendo significativamente mayor que el de retropropagación
Dependencia de Hardware: Requiere hardware especializado optimizado para aprovechar plenamente las ventajas
Brecha de Rendimiento: Aún existe brecha de rendimiento en conjuntos de datos complejos (como CIFAR-100)
Limitación de Profundidad: Aunque mejorada, sigue siendo inferior a redes profundas modernas

Direcciones Futuras

Redes de Hopfield Modernas: Integración con redes de Hopfield modernas para aprendizaje de secuencias
Optimización de Hardware: Desarrollo de hardware neuromórfico especializado adaptado a EP
Optimización de Algoritmos: Reducción adicional del tiempo de entrenamiento y mejora de eficiencia
Análisis Teórico: Comprensión profunda de las propiedades del mecanismo de entrenamiento único de EP

Evaluación Profunda

Fortalezas

Avance Importante: Primera extensión exitosa de EP a redes profundas, resolviendo el problema de escalabilidad de larga data
Innovación Práctica: La combinación de conexiones residuales y ReLU recortado es simple y efectiva
Validación Completa: Verificación experimental suficiente en múltiples conjuntos de datos
Análisis Profundo: Proporciona análisis profundos como distribución de pesos
Código Abierto: Proporciona implementación completa, mejorando la reproducibilidad

Deficiencias

Eficiencia Computacional: El tiempo de entrenamiento excesivo limita la aplicación práctica
Análisis Teórico Insuficiente: Falta explicación teórica de por qué las conexiones residuales son efectivas
Limitación de Conjuntos de Datos: Validación principalmente en conjuntos de datos relativamente simples
Optimización de Hardware Ausente: No aprovecha plenamente la capacidad de computación paralela de GPU existentes

Impacto

Contribución Académica: Proporciona innovación arquitectónica importante para el campo de EP
Valor Práctico: Proporciona método de aprendizaje profundo más práctico para computación neuromórfica
Inspiración de Investigación: Sienta las bases para investigación posterior en redes profundas EP

Escenarios Aplicables

Hardware Neuromórfico: Particularmente adecuado para implementación en chips neuromórficos especializados
Computación de Borde: Adecuado para dispositivos de borde que requieren aprendizaje en línea
Computación Inspirada en Biología: Proporciona dirección para construir sistemas de IA más biológicamente plausibles
Aplicaciones de Bajo Consumo: Ventajoso en escenarios con requisitos extremadamente altos de eficiencia energética

Referencias

Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Este artículo logra un avance importante en la extensión de redes profundas de Propagación de Equilibrio. Mediante diseño arquitectónico ingenioso, mejora significativamente la practicidad del método EP, haciendo una contribución valiosa al desarrollo de computación neuromórfica y algoritmos de aprendizaje inspirados en biología.