2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

Skalierung der Gleichgewichtspropagation auf tiefere neuronale Netzwerkarchitekturen

Grundinformationen

  • Papier-ID: 2509.26003
  • Titel: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
  • Autoren: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
  • Klassifizierung: cs.NE (Neural and Evolutionary Computing), cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
  • Papierlink: https://arxiv.org/abs/2509.26003

Zusammenfassung

Die Gleichgewichtspropagation (Equilibrium Propagation) wurde als biologisch plausible Alternative zum Backpropagation-Algorithmus vorgeschlagen. Die lokale Natur der Gradientenberechnung in Kombination mit der Verwendung konvergenter RNNs zur Erreichung eines Gleichgewichtszustands macht dieses Verfahren sehr geeignet für die Implementierung auf neuromorphen Hardwareplattformen. Bisherige Forschungen zur Gleichgewichtspropagation waren jedoch auf Netzwerke mit dichten Schichten oder relativ kleine Architekturen beschränkt, die erhebliche Genauigkeitslücken im Vergleich zu ähnlich großen Feedforward-Netzwerken aufweisen, die mit Backpropagation trainiert werden. Diese Arbeit führt die Hopfield-Resnet-Architektur ein, die Residualverbindungen in Hopfield-Netzwerken integriert und beschnittene ReLU als Aktivierungsfunktion verwendet. Die vorgeschlagenen Architekturverbesserungen ermöglichen es dem Netzwerk, fast doppelt so viele Schichten wie in früheren Arbeiten zu trainieren. Beispielsweise erreicht Hopfield-Resnet13 auf CIFAR-10 eine Genauigkeit von 93,92%, was etwa 3,5% über den bisherigen besten Ergebnissen liegt und mit der Leistung von mit Backpropagation trainiertem Resnet13 vergleichbar ist.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die Skalierungsproblematik der Gleichgewichtspropagation (EP) in tiefen neuronalen Netzwerken. Dies manifestiert sich konkret als:

  1. Tiefenbeschränkung: Bestehende EP-Methoden können nur flache Netzwerke (≤6 Schichten) effektiv trainieren
  2. Leistungslücke: Mit EP trainierte Netzwerke weisen erhebliche Leistungsunterschiede zu gleichgroßen mit Backpropagation trainierten Netzwerken auf
  3. Anforderung biologischer Plausibilität: Die biologischen Plausibilitätsvorteile der EP-Methode müssen erhalten bleiben

Bedeutungsanalyse

Die Bedeutung dieses Problems zeigt sich in:

  1. Biologische Plausibilität: Backpropagation wird als biologisch implausibel angesehen, da die Gradientenberechnung nicht-lokal ist
  2. Hardwarekompatibilität: Die EP-Methode eignet sich besser für die Implementierung auf neuromorphen Hardwareplattformen mit höherer Energieeffizienz
  3. Potenzial für Online-Lernen: EP unterstützt On-Device-Lernen, geeignet für Edge-Computing-Szenarien

Einschränkungen bestehender Methoden

  1. Architektur-Einschränkungen: Frühere Forschungen waren auf kleine Netzwerke wie VGG5 beschränkt
  2. Gradienten-Verzerrung: Theoretisch erforderlich sind infinitesimale Nudging-Parameter β, was in praktischen Anwendungen zu Verzerrungen führt
  3. Konvergenzschwierigkeiten: Tiefe Netzwerke können schwer einen stabilen Gleichgewichtszustand erreichen
  4. Aktivierungsfunktions-Einschränkungen: Bestehende Aktivierungsfunktionen zeigen schlechte Leistung in tiefen Netzwerken

Kernbeiträge

  1. Einführung der beschnittenen ReLU-Aktivierungsfunktion: Vereinfacht die Energiefunktion und Gradientenberechnung, verbessert die Trainingsstabilität tiefer Netzwerke
  2. Einführung der Hopfield-Resnet-Architektur: Ermöglicht es der EP-Methode durch Residualverbindungen, erfolgreich tiefe Netzwerke mit über 12 Schichten zu trainieren
  3. Erhebliche Leistungsverbesserung: Erreicht 93,92% Genauigkeit auf CIFAR-10, nahe an der Backpropagation-Leistung
  4. Validierung über mehrere Datensätze: Verifiziert die Wirksamkeit der Methode auf CIFAR-10, CIFAR-100 und Fashion-MNIST

Methodische Details

Aufgabendefinition

Diese Arbeit untersucht, wie die Gleichgewichtspropagation-Methode zum Trainieren tiefer Faltungsneuronaler Netzwerke für Bildklassifizierungsaufgaben verwendet wird. Die Eingabe ist ein Bild x, die Ausgabe ist ein Klassenlabel y, mit der Einschränkung, dass die biologische Plausibilität und die lokalen Gradienten-Berechnungseigenschaften der EP-Methode erhalten bleiben.

Grundlegende Theorie der Gleichgewichtspropagation

Die EP-Methode basiert auf statischen konvergenten RNNs, wobei die Netzwerkzustandsentwicklung folgt:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

wobei Φ die Energiefunktion ist, s der Neuronenzustand und θ die Netzwerkparameter.

Das EP-Training umfasst zwei Phasen:

  1. Freie Phase: Entwicklung basierend nur auf der Energiefunktion
  2. Schwach fixierte Phase: Hinzufügen einer Störung proportional zum Gradienten der Verlustfunktion

Die Gradientenberechnungsformel lautet:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnet-Architektur-Design

Integration von Residualverbindungen

Der Hopfield-Resnet-Block enthält drei Faltungsoperationen:

  • Hauptpfad: zwei 3×3-Faltungen
  • Sprungverbindung: eine 1×1-Faltung

Die Neuronenzustands-Aktualisierungsgleichung wird modifiziert zu:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

wobei pre(n) und post(n) alle Vorgänger- und Nachfolgerzustände darstellen, die direkt mit Zustand n interagieren.

Architektur-Details des Netzwerks

  • 4 Hopfield-Resnet-Blöcke + 1 vollständig verbundene Schicht
  • Insgesamt 13 trainierbare Parameter-Gruppen (12 Faltungsschichten + 1 vollständig verbundene Schicht)
  • 9 aktualisierbare Neuronenzustände

Beschnittene ReLU-Aktivierungsfunktion

Einführung der ReLU_α-Aktivierungsfunktion, die die Ausgabe auf den Bereich 0, α begrenzt:

  • Verhindert explosives Wachstum der Energiefunktion
  • Im Experiment wurde ReLU_6 (α=6) für optimale Leistung verwendet
  • Einfachere Berechnung im Vergleich zu traditionellen Sigmoid/Tanh-Funktionen

Zentrierte Gleichgewichtspropagation (CEP)

Verwendung des CEP-Algorithmus zur Reduzierung der Gradienten-Schätzverzerrung:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Experimentelle Einrichtung

Datensätze

  • CIFAR-10: 32×32 Farbbilder, 10 Klassen, 50.000 Trainingsmuster
  • CIFAR-100: 32×32 Farbbilder, 100 Klassen, 50.000 Trainingsmuster
  • Fashion-MNIST: 28×28 Graustufenbilder, 10 Klassen, 60.000 Trainingsmuster

Bewertungsmetriken

Genauigkeit auf dem Testdatensatz als primäre Bewertungsmetrik

Vergleichsmethoden

  • Baseline-Methode: Tiefes Faltungs-Hopfield-Netzwerk (DCHN) mit VGG5-Architektur
  • Backpropagation-Baseline: Entsprechende Feedforward-Netzwerk-Architektur

Implementierungsdetails

  • Optimierer: Nesterov-beschleunigter Gradientenoptimierer
  • Nudging-Parameter β: Empirisch abgestimmt auf 0,1, 0,4-Bereich
  • Zeitschritte: 120 Schritte in der freien Phase, je 50 Schritte in der fixierten Phase (±β)
  • Hardware: NVIDIA RTX 4090 und 6000 Ada GPU
  • Framework: PyTorch

Experimentelle Ergebnisse

Hauptergebnisse

DatensatzModellarchitekturBisheriges Beste (%)Diese Arbeit (%)Backpropagation (%)
CIFAR-10VGG590,392,8492,11
CIFAR-10Hopfield-Resnet13-93,9293,78
CIFAR-100VGG568,470,7872,54
CIFAR-100Hopfield-Resnet13-71,0575,12
F-MNISTVGG593,5394,34-
F-MNISTHopfield-Resnet13-94,15-

Wichtigste Erkenntnisse

  1. Erhebliche Leistungsverbesserung: 3,5% Verbesserung gegenüber bisherigen besten Ergebnissen auf CIFAR-10
  2. Nähe zur Backpropagation-Leistung: Hopfield-Resnet13 liegt auf CIFAR-10 nur 0,14% unter Backpropagation
  3. Erfolgreiches Training tiefer Netzwerke: Erstes erfolgreiches Training von EP-Netzwerken mit über 12 Schichten

Ablationsstudien

Bedeutung von Residualverbindungen

Experimente zeigen, dass tiefe Netzwerke ohne Residualverbindungen einen stagnierenden Trainingsverlust aufweisen, während Netzwerke mit Residualverbindungen erfolgreich konvergieren.

Vergleich von Aktivierungsfunktionen

  • ReLU_6 zeigt die beste Leistung
  • ReLU_1 (hard-sigmoid) zeigt zweitbeste Leistung
  • Zufällig initialisierte ReLU_α mit α∈0,10 zeigt mittlere Leistung

Trainingszeit-Analyse

  • Hopfield-Resnet13 benötigt über 30 Stunden für 300 Epochen Training
  • Große Zeitverschwendung bei GPU-Kernel-Start und CPU-GPU-Synchronisation
  • Optimierungspotenzial vorhanden

Speichernutzung

  • CEP-Training verbraucht ähnlich viel Speicher wie Backpropagation
  • Hopfield-Resnet13 (Batch-Größe 128): 1612 MiB
  • Entsprechendes Resnet13: 1324 MiB

Gewichtsverteilungsanalyse

Charakteristiken der Gewichtsverteilung von mit CEP trainiertem Netzwerk:

  1. Kleinere Gewichtswerte: Absolutwert und Varianz sind kleiner als bei mit Backpropagation trainiertem Netzwerk
  2. Gewichte in tiefen Schichten gegen Null: Mit zunehmender Tiefe nähern sich Gewichte null an
  3. Residualverbindungen lindern das Problem: Der Anteil nahe-null Gewichte in Sprungverbindungsschichten ist deutlich niedriger

Verwandte Arbeiten

Biologisch plausible Lernalgorithmen

  • Vorwärtspropagation: Vermeidung der Nicht-Lokalität der Backpropagation
  • Vorhersagekodierung: Lernen basierend auf dem Prinzip der freien Energie
  • Kontrastive Hebbian-Lernregeln: Theoretische Grundlage von EP

Entwicklung der Gleichgewichtspropagation

  • Ursprüngliche EP: Scellier & Bengio (2017) präsentierten die Grundtheorie
  • CEP: Reduzierung der Gradienten-Verzerrung durch ±β
  • HEP: Weitere Reduzierung der Verzerrung durch mehrere Gleichgewichtspunkte in der komplexen Ebene
  • Faltungs-Erweiterung: Erweiterung von EP auf Faltungsnetzwerke

Hardware-Implementierung

Bisherige Forschungen haben EP auf neuromorphen Hardwareplattformen wie Memristor-Crossbar-Arrays implementiert und das Potenzial für On-Device-Lernen demonstriert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technischer Durchbruch: Erstes erfolgreiches Skalieren von EP auf 13-schichtige tiefe Netzwerke
  2. Leistungsverbesserung: Erhebliche Überlegenheit gegenüber früheren EP-Methoden auf mehreren Datensätzen
  3. Architektur-Innovation: Die Kombination von Residualverbindungen und beschnittener ReLU löst das Tiefenskalierungsproblem effektiv

Einschränkungen

  1. Recheneffizienz: Trainingszeit ist immer noch erheblich länger als Backpropagation
  2. Hardware-Abhängigkeit: Speziell optimierte Hardware ist erforderlich, um Vorteile vollständig zu nutzen
  3. Leistungslücke: Auf komplexen Datensätzen (wie CIFAR-100) existiert immer noch eine Leistungslücke
  4. Tiefenbeschränkung: Obwohl verbessert, nicht vergleichbar mit modernen tiefen Netzwerken

Zukünftige Richtungen

  1. Moderne Hopfield-Netzwerke: Integration mit modernen Hopfield-Netzwerken für Sequenzlernen
  2. Hardware-Optimierung: Entwicklung speziell für EP optimierter neuromorpher Hardware
  3. Algorithmus-Optimierung: Weitere Reduzierung der Trainingszeit und Effizienzverbesserung
  4. Theoretische Analyse: Tieferes Verständnis der einzigartigen Trainingseigenschaften von EP

Tiefgreifende Bewertung

Stärken

  1. Wichtiger Durchbruch: Erstes erfolgreiches Skalieren von EP auf tiefe Netzwerke, löst langjähriges Skalierungsproblem
  2. Praktische Innovation: Kombination von Residualverbindungen und beschnittener ReLU ist einfach und effektiv
  3. Umfassende Validierung: Ausreichende experimentelle Validierung auf mehreren Datensätzen
  4. Tiefgreifende Analyse: Bietet tiefgreifende Analyseerkenntnisse wie Gewichtsverteilung
  5. Open-Source-Code: Bereitstellung vollständiger Implementierungscode verbessert Reproduzierbarkeit

Mängel

  1. Recheneffizienz: Übermäßig lange Trainingszeit begrenzt praktische Anwendungen
  2. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum Residualverbindungen effektiv sind
  3. Datensatz-Einschränkung: Validierung hauptsächlich auf relativ einfachen Datensätzen
  4. Fehlende Hardware-Optimierung: Unzureichende Nutzung der Parallelrechenfähigkeiten moderner GPUs

Einfluss

  1. Akademischer Beitrag: Bietet wichtige Architektur-Innovation für das EP-Forschungsgebiet
  2. Praktischer Wert: Bietet praktischere Deep-Learning-Methoden für neuromorphes Computing
  3. Forschungsinspiration: Legt Grundlagen für nachfolgende EP-Tiefnetzwerk-Forschung

Anwendungsszenarien

  1. Neuromorphe Hardware: Besonders geeignet für Implementierung auf speziellen neuromorphen Chips
  2. Edge-Computing: Geeignet für Edge-Geräte, die Online-Lernen benötigen
  3. Bioinspiriertes Computing: Bietet Richtung für Konstruktion biologisch plausiblerer KI-Systeme
  4. Energieeffiziente Anwendungen: Bietet Vorteile in Szenarien mit extremen Energieeffizienz-Anforderungen

Literaturverzeichnis

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Diese Arbeit hat einen wichtigen Durchbruch bei der Erweiterung der Gleichgewichtspropagation auf tiefe Netzwerke erzielt. Durch geschicktes Architektur-Design hat sie die Praktikabilität der EP-Methode erheblich verbessert und leistet einen wertvollen Beitrag zur Entwicklung von neuromorphem Computing und bioinspirierten Lernalgorithmen.