Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic
Escalado de Propagación de Equilibrio a Arquitecturas de Redes Neuronales Más Profundas
La Propagación de Equilibrio (Equilibrium Propagation, EP) se propone como una alternativa biológicamente plausible al algoritmo de retropropagación. La naturaleza local del cálculo de gradientes, combinada con el uso de RNN convergentes para alcanzar estados de equilibrio, hace que este método sea muy adecuado para su implementación en hardware neuromórfico. Sin embargo, investigaciones previas sobre EP se han limitado a redes que contienen capas densas o arquitecturas relativamente pequeñas, que presentan brechas de precisión significativas en comparación con redes prealimentadas de tamaño similar entrenadas con retropropagación. Este trabajo introduce la arquitectura Hopfield-Resnet, que integra conexiones residuales en redes de Hopfield y utiliza ReLU recortado como función de activación. Los mejoras arquitectónicas propuestas permiten que la red entrene casi el doble de capas reportadas en trabajos anteriores. Por ejemplo, Hopfield-Resnet13 alcanza una precisión del 93.92% en CIFAR-10, aproximadamente 3.5% superior a los resultados anteriores más óptimos, comparable al rendimiento de Resnet13 entrenado con retropropagación.
El problema central que aborda esta investigación es la escalabilidad del método de Propagación de Equilibrio (EP) en redes neuronales profundas. Se manifiesta específicamente en:
Limitación de Profundidad: Los métodos EP existentes solo pueden entrenar efectivamente redes superficiales (≤6 capas)
Brecha de Rendimiento: Las redes entrenadas con EP presentan una brecha de rendimiento significativa en comparación con redes del mismo tamaño entrenadas con retropropagación
Requisito de Plausibilidad Biológica: Necesidad de mantener las ventajas de plausibilidad biológica del método EP
Propuesta de Función de Activación ReLU Recortado: Simplifica la función de energía y el cálculo de gradientes, mejorando la estabilidad del entrenamiento en redes profundas
Introducción de Arquitectura Hopfield-Resnet: Mediante conexiones residuales permite que el método EP entrene exitosamente redes profundas de más de 12 capas
Mejora Significativa de Rendimiento: Alcanza precisión del 93.92% en CIFAR-10, cercana al rendimiento de retropropagación
Validación en Múltiples Conjuntos de Datos: Verifica la efectividad del método en CIFAR-10, CIFAR-100 y Fashion-MNIST
Este trabajo investiga cómo utilizar el método de Propagación de Equilibrio para entrenar redes neuronales convolucionales profundas en tareas de clasificación de imágenes. La entrada es una imagen x, la salida es una etiqueta de clase y, con la restricción de mantener la plausibilidad biológica del método EP y las características de cálculo de gradientes locales.
Los experimentos muestran que las redes profundas sin conexiones residuales mantienen la pérdida de entrenamiento estancada, mientras que las redes con conexiones residuales convergen exitosamente.
Investigaciones previas han implementado EP en hardware neuromórfico como matrices de memristores, demostrando el potencial de aprendizaje en dispositivos.
Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.
Este artículo logra un avance importante en la extensión de redes profundas de Propagación de Equilibrio. Mediante diseño arquitectónico ingenioso, mejora significativamente la practicidad del método EP, haciendo una contribución valiosa al desarrollo de computación neuromórfica y algoritmos de aprendizaje inspirados en biología.