Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic
Skalierung der Gleichgewichtspropagation auf tiefere neuronale Netzwerkarchitekturen
Die Gleichgewichtspropagation (Equilibrium Propagation) wurde als biologisch plausible Alternative zum Backpropagation-Algorithmus vorgeschlagen. Die lokale Natur der Gradientenberechnung in Kombination mit der Verwendung konvergenter RNNs zur Erreichung eines Gleichgewichtszustands macht dieses Verfahren sehr geeignet für die Implementierung auf neuromorphen Hardwareplattformen. Bisherige Forschungen zur Gleichgewichtspropagation waren jedoch auf Netzwerke mit dichten Schichten oder relativ kleine Architekturen beschränkt, die erhebliche Genauigkeitslücken im Vergleich zu ähnlich großen Feedforward-Netzwerken aufweisen, die mit Backpropagation trainiert werden. Diese Arbeit führt die Hopfield-Resnet-Architektur ein, die Residualverbindungen in Hopfield-Netzwerken integriert und beschnittene ReLU als Aktivierungsfunktion verwendet. Die vorgeschlagenen Architekturverbesserungen ermöglichen es dem Netzwerk, fast doppelt so viele Schichten wie in früheren Arbeiten zu trainieren. Beispielsweise erreicht Hopfield-Resnet13 auf CIFAR-10 eine Genauigkeit von 93,92%, was etwa 3,5% über den bisherigen besten Ergebnissen liegt und mit der Leistung von mit Backpropagation trainiertem Resnet13 vergleichbar ist.
Das Kernproblem dieser Forschung ist die Skalierungsproblematik der Gleichgewichtspropagation (EP) in tiefen neuronalen Netzwerken. Dies manifestiert sich konkret als:
Tiefenbeschränkung: Bestehende EP-Methoden können nur flache Netzwerke (≤6 Schichten) effektiv trainieren
Leistungslücke: Mit EP trainierte Netzwerke weisen erhebliche Leistungsunterschiede zu gleichgroßen mit Backpropagation trainierten Netzwerken auf
Anforderung biologischer Plausibilität: Die biologischen Plausibilitätsvorteile der EP-Methode müssen erhalten bleiben
Einführung der beschnittenen ReLU-Aktivierungsfunktion: Vereinfacht die Energiefunktion und Gradientenberechnung, verbessert die Trainingsstabilität tiefer Netzwerke
Einführung der Hopfield-Resnet-Architektur: Ermöglicht es der EP-Methode durch Residualverbindungen, erfolgreich tiefe Netzwerke mit über 12 Schichten zu trainieren
Erhebliche Leistungsverbesserung: Erreicht 93,92% Genauigkeit auf CIFAR-10, nahe an der Backpropagation-Leistung
Validierung über mehrere Datensätze: Verifiziert die Wirksamkeit der Methode auf CIFAR-10, CIFAR-100 und Fashion-MNIST
Diese Arbeit untersucht, wie die Gleichgewichtspropagation-Methode zum Trainieren tiefer Faltungsneuronaler Netzwerke für Bildklassifizierungsaufgaben verwendet wird. Die Eingabe ist ein Bild x, die Ausgabe ist ein Klassenlabel y, mit der Einschränkung, dass die biologische Plausibilität und die lokalen Gradienten-Berechnungseigenschaften der EP-Methode erhalten bleiben.
Experimente zeigen, dass tiefe Netzwerke ohne Residualverbindungen einen stagnierenden Trainingsverlust aufweisen, während Netzwerke mit Residualverbindungen erfolgreich konvergieren.
Bisherige Forschungen haben EP auf neuromorphen Hardwareplattformen wie Memristor-Crossbar-Arrays implementiert und das Potenzial für On-Device-Lernen demonstriert.
Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.
Diese Arbeit hat einen wichtigen Durchbruch bei der Erweiterung der Gleichgewichtspropagation auf tiefe Netzwerke erzielt. Durch geschicktes Architektur-Design hat sie die Praktikabilität der EP-Methode erheblich verbessert und leistet einen wertvollen Beitrag zur Entwicklung von neuromorphem Computing und bioinspirierten Lernalgorithmen.