2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan

Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.

academic

Skalierung der Gleichgewichtspropagation auf tiefere neuronale Netzwerkarchitekturen

Grundinformationen

Papier-ID: 2509.26003
Titel: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Autoren: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
Klassifizierung: cs.NE (Neural and Evolutionary Computing), cs.LG (Machine Learning)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
Papierlink: https://arxiv.org/abs/2509.26003

Zusammenfassung

Die Gleichgewichtspropagation (Equilibrium Propagation) wurde als biologisch plausible Alternative zum Backpropagation-Algorithmus vorgeschlagen. Die lokale Natur der Gradientenberechnung in Kombination mit der Verwendung konvergenter RNNs zur Erreichung eines Gleichgewichtszustands macht dieses Verfahren sehr geeignet für die Implementierung auf neuromorphen Hardwareplattformen. Bisherige Forschungen zur Gleichgewichtspropagation waren jedoch auf Netzwerke mit dichten Schichten oder relativ kleine Architekturen beschränkt, die erhebliche Genauigkeitslücken im Vergleich zu ähnlich großen Feedforward-Netzwerken aufweisen, die mit Backpropagation trainiert werden. Diese Arbeit führt die Hopfield-Resnet-Architektur ein, die Residualverbindungen in Hopfield-Netzwerken integriert und beschnittene ReLU als Aktivierungsfunktion verwendet. Die vorgeschlagenen Architekturverbesserungen ermöglichen es dem Netzwerk, fast doppelt so viele Schichten wie in früheren Arbeiten zu trainieren. Beispielsweise erreicht Hopfield-Resnet13 auf CIFAR-10 eine Genauigkeit von 93,92%, was etwa 3,5% über den bisherigen besten Ergebnissen liegt und mit der Leistung von mit Backpropagation trainiertem Resnet13 vergleichbar ist.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die Skalierungsproblematik der Gleichgewichtspropagation (EP) in tiefen neuronalen Netzwerken. Dies manifestiert sich konkret als:

Tiefenbeschränkung: Bestehende EP-Methoden können nur flache Netzwerke (≤6 Schichten) effektiv trainieren
Leistungslücke: Mit EP trainierte Netzwerke weisen erhebliche Leistungsunterschiede zu gleichgroßen mit Backpropagation trainierten Netzwerken auf
Anforderung biologischer Plausibilität: Die biologischen Plausibilitätsvorteile der EP-Methode müssen erhalten bleiben

Bedeutungsanalyse

Die Bedeutung dieses Problems zeigt sich in:

Biologische Plausibilität: Backpropagation wird als biologisch implausibel angesehen, da die Gradientenberechnung nicht-lokal ist
Hardwarekompatibilität: Die EP-Methode eignet sich besser für die Implementierung auf neuromorphen Hardwareplattformen mit höherer Energieeffizienz
Potenzial für Online-Lernen: EP unterstützt On-Device-Lernen, geeignet für Edge-Computing-Szenarien

Einschränkungen bestehender Methoden

Architektur-Einschränkungen: Frühere Forschungen waren auf kleine Netzwerke wie VGG5 beschränkt
Gradienten-Verzerrung: Theoretisch erforderlich sind infinitesimale Nudging-Parameter β, was in praktischen Anwendungen zu Verzerrungen führt
Konvergenzschwierigkeiten: Tiefe Netzwerke können schwer einen stabilen Gleichgewichtszustand erreichen
Aktivierungsfunktions-Einschränkungen: Bestehende Aktivierungsfunktionen zeigen schlechte Leistung in tiefen Netzwerken

Kernbeiträge

Einführung der beschnittenen ReLU-Aktivierungsfunktion: Vereinfacht die Energiefunktion und Gradientenberechnung, verbessert die Trainingsstabilität tiefer Netzwerke
Einführung der Hopfield-Resnet-Architektur: Ermöglicht es der EP-Methode durch Residualverbindungen, erfolgreich tiefe Netzwerke mit über 12 Schichten zu trainieren
Erhebliche Leistungsverbesserung: Erreicht 93,92% Genauigkeit auf CIFAR-10, nahe an der Backpropagation-Leistung
Validierung über mehrere Datensätze: Verifiziert die Wirksamkeit der Methode auf CIFAR-10, CIFAR-100 und Fashion-MNIST

Methodische Details

Aufgabendefinition

Diese Arbeit untersucht, wie die Gleichgewichtspropagation-Methode zum Trainieren tiefer Faltungsneuronaler Netzwerke für Bildklassifizierungsaufgaben verwendet wird. Die Eingabe ist ein Bild x, die Ausgabe ist ein Klassenlabel y, mit der Einschränkung, dass die biologische Plausibilität und die lokalen Gradienten-Berechnungseigenschaften der EP-Methode erhalten bleiben.

Grundlegende Theorie der Gleichgewichtspropagation

Die EP-Methode basiert auf statischen konvergenten RNNs, wobei die Netzwerkzustandsentwicklung folgt:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

wobei Φ die Energiefunktion ist, s der Neuronenzustand und θ die Netzwerkparameter.

Das EP-Training umfasst zwei Phasen:

Freie Phase: Entwicklung basierend nur auf der Energiefunktion
Schwach fixierte Phase: Hinzufügen einer Störung proportional zum Gradienten der Verlustfunktion

Die Gradientenberechnungsformel lautet:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnet-Architektur-Design

Integration von Residualverbindungen

Der Hopfield-Resnet-Block enthält drei Faltungsoperationen:

Hauptpfad: zwei 3×3-Faltungen
Sprungverbindung: eine 1×1-Faltung

Die Neuronenzustands-Aktualisierungsgleichung wird modifiziert zu:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

wobei pre(n) und post(n) alle Vorgänger- und Nachfolgerzustände darstellen, die direkt mit Zustand n interagieren.

Architektur-Details des Netzwerks

4 Hopfield-Resnet-Blöcke + 1 vollständig verbundene Schicht
Insgesamt 13 trainierbare Parameter-Gruppen (12 Faltungsschichten + 1 vollständig verbundene Schicht)
9 aktualisierbare Neuronenzustände

Beschnittene ReLU-Aktivierungsfunktion

Einführung der ReLU_α-Aktivierungsfunktion, die die Ausgabe auf den Bereich 0, α begrenzt:

Verhindert explosives Wachstum der Energiefunktion
Im Experiment wurde ReLU_6 (α=6) für optimale Leistung verwendet
Einfachere Berechnung im Vergleich zu traditionellen Sigmoid/Tanh-Funktionen

Zentrierte Gleichgewichtspropagation (CEP)

Verwendung des CEP-Algorithmus zur Reduzierung der Gradienten-Schätzverzerrung:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Experimentelle Einrichtung

Datensätze

CIFAR-10: 32×32 Farbbilder, 10 Klassen, 50.000 Trainingsmuster
CIFAR-100: 32×32 Farbbilder, 100 Klassen, 50.000 Trainingsmuster
Fashion-MNIST: 28×28 Graustufenbilder, 10 Klassen, 60.000 Trainingsmuster

Bewertungsmetriken

Genauigkeit auf dem Testdatensatz als primäre Bewertungsmetrik

Vergleichsmethoden

Baseline-Methode: Tiefes Faltungs-Hopfield-Netzwerk (DCHN) mit VGG5-Architektur
Backpropagation-Baseline: Entsprechende Feedforward-Netzwerk-Architektur

Implementierungsdetails

Optimierer: Nesterov-beschleunigter Gradientenoptimierer
Nudging-Parameter β: Empirisch abgestimmt auf 0,1, 0,4-Bereich
Zeitschritte: 120 Schritte in der freien Phase, je 50 Schritte in der fixierten Phase (±β)
Hardware: NVIDIA RTX 4090 und 6000 Ada GPU
Framework: PyTorch

Experimentelle Ergebnisse

Hauptergebnisse

Datensatz	Modellarchitektur	Bisheriges Beste (%)	Diese Arbeit (%)	Backpropagation (%)
CIFAR-10	VGG5	90,3	92,84	92,11
CIFAR-10	Hopfield-Resnet13	-	93,92	93,78
CIFAR-100	VGG5	68,4	70,78	72,54
CIFAR-100	Hopfield-Resnet13	-	71,05	75,12
F-MNIST	VGG5	93,53	94,34	-
F-MNIST	Hopfield-Resnet13	-	94,15	-

Wichtigste Erkenntnisse

Erhebliche Leistungsverbesserung: 3,5% Verbesserung gegenüber bisherigen besten Ergebnissen auf CIFAR-10
Nähe zur Backpropagation-Leistung: Hopfield-Resnet13 liegt auf CIFAR-10 nur 0,14% unter Backpropagation
Erfolgreiches Training tiefer Netzwerke: Erstes erfolgreiches Training von EP-Netzwerken mit über 12 Schichten

Ablationsstudien

Bedeutung von Residualverbindungen

Experimente zeigen, dass tiefe Netzwerke ohne Residualverbindungen einen stagnierenden Trainingsverlust aufweisen, während Netzwerke mit Residualverbindungen erfolgreich konvergieren.

Vergleich von Aktivierungsfunktionen

ReLU_6 zeigt die beste Leistung
ReLU_1 (hard-sigmoid) zeigt zweitbeste Leistung
Zufällig initialisierte ReLU_α mit α∈0,10 zeigt mittlere Leistung

Trainingszeit-Analyse

Hopfield-Resnet13 benötigt über 30 Stunden für 300 Epochen Training
Große Zeitverschwendung bei GPU-Kernel-Start und CPU-GPU-Synchronisation
Optimierungspotenzial vorhanden

Speichernutzung

CEP-Training verbraucht ähnlich viel Speicher wie Backpropagation
Hopfield-Resnet13 (Batch-Größe 128): 1612 MiB
Entsprechendes Resnet13: 1324 MiB

Gewichtsverteilungsanalyse

Charakteristiken der Gewichtsverteilung von mit CEP trainiertem Netzwerk:

Kleinere Gewichtswerte: Absolutwert und Varianz sind kleiner als bei mit Backpropagation trainiertem Netzwerk
Gewichte in tiefen Schichten gegen Null: Mit zunehmender Tiefe nähern sich Gewichte null an
Residualverbindungen lindern das Problem: Der Anteil nahe-null Gewichte in Sprungverbindungsschichten ist deutlich niedriger

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Technischer Durchbruch: Erstes erfolgreiches Skalieren von EP auf 13-schichtige tiefe Netzwerke
Leistungsverbesserung: Erhebliche Überlegenheit gegenüber früheren EP-Methoden auf mehreren Datensätzen
Architektur-Innovation: Die Kombination von Residualverbindungen und beschnittener ReLU löst das Tiefenskalierungsproblem effektiv

Einschränkungen

Recheneffizienz: Trainingszeit ist immer noch erheblich länger als Backpropagation
Hardware-Abhängigkeit: Speziell optimierte Hardware ist erforderlich, um Vorteile vollständig zu nutzen
Leistungslücke: Auf komplexen Datensätzen (wie CIFAR-100) existiert immer noch eine Leistungslücke
Tiefenbeschränkung: Obwohl verbessert, nicht vergleichbar mit modernen tiefen Netzwerken

Zukünftige Richtungen

Moderne Hopfield-Netzwerke: Integration mit modernen Hopfield-Netzwerken für Sequenzlernen
Hardware-Optimierung: Entwicklung speziell für EP optimierter neuromorpher Hardware
Algorithmus-Optimierung: Weitere Reduzierung der Trainingszeit und Effizienzverbesserung
Theoretische Analyse: Tieferes Verständnis der einzigartigen Trainingseigenschaften von EP

Tiefgreifende Bewertung

Stärken

Wichtiger Durchbruch: Erstes erfolgreiches Skalieren von EP auf tiefe Netzwerke, löst langjähriges Skalierungsproblem
Praktische Innovation: Kombination von Residualverbindungen und beschnittener ReLU ist einfach und effektiv
Umfassende Validierung: Ausreichende experimentelle Validierung auf mehreren Datensätzen
Tiefgreifende Analyse: Bietet tiefgreifende Analyseerkenntnisse wie Gewichtsverteilung
Open-Source-Code: Bereitstellung vollständiger Implementierungscode verbessert Reproduzierbarkeit

Mängel

Recheneffizienz: Übermäßig lange Trainingszeit begrenzt praktische Anwendungen
Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum Residualverbindungen effektiv sind
Datensatz-Einschränkung: Validierung hauptsächlich auf relativ einfachen Datensätzen
Fehlende Hardware-Optimierung: Unzureichende Nutzung der Parallelrechenfähigkeiten moderner GPUs

Einfluss

Akademischer Beitrag: Bietet wichtige Architektur-Innovation für das EP-Forschungsgebiet
Praktischer Wert: Bietet praktischere Deep-Learning-Methoden für neuromorphes Computing
Forschungsinspiration: Legt Grundlagen für nachfolgende EP-Tiefnetzwerk-Forschung

Anwendungsszenarien

Neuromorphe Hardware: Besonders geeignet für Implementierung auf speziellen neuromorphen Chips
Edge-Computing: Geeignet für Edge-Geräte, die Online-Lernen benötigen
Bioinspiriertes Computing: Bietet Richtung für Konstruktion biologisch plausiblerer KI-Systeme
Energieeffiziente Anwendungen: Bietet Vorteile in Szenarien mit extremen Energieeffizienz-Anforderungen

Literaturverzeichnis

Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Diese Arbeit hat einen wichtigen Durchbruch bei der Erweiterung der Gleichgewichtspropagation auf tiefe Netzwerke erzielt. Durch geschicktes Architektur-Design hat sie die Praktikabilität der EP-Methode erheblich verbessert und leistet einen wertvollen Beitrag zur Entwicklung von neuromorphem Computing und bioinspirierten Lernalgorithmen.