2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

Scalare la Propagazione dell'Equilibrio verso Architetture di Reti Neurali Più Profonde

Informazioni Fondamentali

  • ID Articolo: 2509.26003
  • Titolo: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
  • Autori: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
  • Classificazione: cs.NE (Neural and Evolutionary Computing), cs.LG (Machine Learning)
  • Data di Pubblicazione: 13 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2509.26003

Riassunto

La Propagazione dell'Equilibrio (Equilibrium Propagation) è stata proposta come alternativa biologicamente plausibile all'algoritmo di retropropagazione. La natura locale del calcolo dei gradienti, combinata con l'utilizzo di RNN convergenti per raggiungere uno stato di equilibrio, rende questo metodo particolarmente adatto all'implementazione su hardware neuromorfo. Tuttavia, la ricerca precedente sulla propagazione dell'equilibrio è stata limitata a reti contenenti strati densi o architetture relativamente piccole, che presentano significativi divari di accuratezza rispetto a reti feedforward di dimensioni simili addestrate con retropropagazione. Questo lavoro introduce l'architettura Hopfield-Resnet, che integra connessioni residue in reti di Hopfield e utilizza ReLU troncato come funzione di attivazione. I miglioramenti architetturali proposti consentono alla rete di addestrare un numero di strati quasi doppio rispetto ai lavori precedenti. Ad esempio, Hopfield-Resnet13 raggiunge un'accuratezza del 93,92% su CIFAR-10, circa il 3,5% superiore ai risultati precedenti migliori e comparabile alle prestazioni di Resnet13 addestrato con retropropagazione.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la scalabilità del metodo di Propagazione dell'Equilibrio (EP) nelle reti neurali profonde. Ciò si manifesta specificamente in:

  1. Limitazione di Profondità: I metodi EP esistenti possono addestrare efficacemente solo reti poco profonde (≤6 strati)
  2. Divario di Prestazioni: Le reti addestrate con EP presentano un divario di prestazioni significativo rispetto a reti della stessa dimensione addestrate con retropropagazione
  3. Requisito di Plausibilità Biologica: Necessità di mantenere i vantaggi di plausibilità biologica del metodo EP

Analisi dell'Importanza

L'importanza di questo problema emerge da:

  1. Plausibilità Biologica: La retropropagazione è considerata biologicamente implausibile poiché il calcolo dei gradienti è non-locale
  2. Compatibilità Hardware: Il metodo EP è più adatto all'implementazione su hardware neuromorfo, con maggiore efficienza energetica
  3. Potenziale di Apprendimento Online: EP supporta l'apprendimento on-device, appropriato per scenari di edge computing

Limitazioni dei Metodi Esistenti

  1. Limitazioni Architetturali: La ricerca precedente è limitata a piccole reti come VGG5
  2. Distorsione del Gradiente: Teoricamente richiede un parametro di nudging β infinitesimale, introducendo distorsione nelle applicazioni pratiche
  3. Difficoltà di Convergenza: Le reti profonde hanno difficoltà a raggiungere uno stato di equilibrio stabile
  4. Limitazioni della Funzione di Attivazione: Le funzioni di attivazione esistenti mostrano prestazioni scadenti nelle reti profonde

Contributi Principali

  1. Proposta della Funzione di Attivazione ReLU Troncato: Semplifica la funzione di energia e il calcolo dei gradienti, migliorando la stabilità dell'addestramento nelle reti profonde
  2. Introduzione dell'Architettura Hopfield-Resnet: Consente al metodo EP di addestrare con successo reti profonde con oltre 12 strati attraverso connessioni residue
  3. Miglioramento Significativo delle Prestazioni: Raggiunge un'accuratezza del 93,92% su CIFAR-10, prossima alle prestazioni della retropropagazione
  4. Validazione Multi-Dataset: Verifica l'efficacia del metodo su CIFAR-10, CIFAR-100 e Fashion-MNIST

Dettagli del Metodo

Definizione del Compito

Questo articolo studia come utilizzare il metodo di propagazione dell'equilibrio per addestrare reti neurali convoluzionali profonde per compiti di classificazione di immagini. L'input è un'immagine x, l'output è un'etichetta di classe y, con il vincolo di mantenere la plausibilità biologica del metodo EP e le caratteristiche di calcolo dei gradienti locali.

Teoria Fondamentale della Propagazione dell'Equilibrio

Il metodo EP si basa su RNN statici convergenti, con l'evoluzione dello stato della rete che segue:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

dove Φ è la funzione di energia, s è lo stato dei neuroni, θ sono i parametri della rete.

L'addestramento EP comprende due fasi:

  1. Fase Libera: Evoluzione basata solo sulla funzione di energia
  2. Fase di Bloccaggio Debole: Aggiunta di un termine di perturbazione proporzionale al gradiente della funzione di perdita

La formula di calcolo del gradiente è:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Progettazione dell'Architettura Hopfield-Resnet

Integrazione delle Connessioni Residue

Il blocco Hopfield-Resnet contiene tre operazioni di convoluzione:

  • Percorso principale: due convoluzioni 3×3
  • Connessione di scavalcamento: una convoluzione 1×1

L'equazione di aggiornamento dello stato dei neuroni è modificata in:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

dove pre(n) e post(n) rappresentano tutti gli stati precedenti e successivi che interagiscono direttamente con lo stato n.

Dettagli dell'Architettura di Rete

  • 4 blocchi Hopfield-Resnet + 1 strato completamente connesso
  • Totale di 13 gruppi di parametri addestrabili (12 strati convoluzionali + 1 strato completamente connesso)
  • 9 stati di neuroni aggiornabili

Funzione di Attivazione ReLU Troncato

Viene proposta la funzione di attivazione ReLU_α, che limita l'output nell'intervallo 0, α:

  • Previene la crescita esplosiva della funzione di energia
  • Negli esperimenti, ReLU_6 (α=6) ottiene le migliori prestazioni
  • Calcolo più semplice rispetto alle funzioni sigmoid/tanh tradizionali

Propagazione dell'Equilibrio Centrata (CEP)

Viene adottato l'algoritmo CEP per ridurre la distorsione nella stima del gradiente:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Configurazione Sperimentale

Dataset

  • CIFAR-10: Immagini a colori 32×32, 10 classi, 50.000 campioni di addestramento
  • CIFAR-100: Immagini a colori 32×32, 100 classi, 50.000 campioni di addestramento
  • Fashion-MNIST: Immagini in scala di grigi 28×28, 10 classi, 60.000 campioni di addestramento

Metriche di Valutazione

L'accuratezza sul set di test è utilizzata come metrica di valutazione principale

Metodi di Confronto

  • Metodo di Base: Rete di Hopfield Convoluzionale Profonda (DCHN) con architettura VGG5
  • Base di Retropropagazione: Architetture di rete feedforward corrispondenti

Dettagli di Implementazione

  • Ottimizzatore: Ottimizzatore del Gradiente Accelerato di Nesterov
  • Parametro di Nudging β: Sintonizzato empiricamente nell'intervallo 0,1, 0,4
  • Passi Temporali: 120 passi nella fase libera, 50 passi ciascuno nella fase di bloccaggio (±β)
  • Hardware: GPU NVIDIA RTX 4090 e 6000 Ada
  • Framework: PyTorch

Risultati Sperimentali

Risultati Principali

DatasetArchitettura ModelloMigliore Precedente (%)Questo Lavoro (%)Retropropagazione (%)
CIFAR-10VGG590,392,8492,11
CIFAR-10Hopfield-Resnet13-93,9293,78
CIFAR-100VGG568,470,7872,54
CIFAR-100Hopfield-Resnet13-71,0575,12
F-MNISTVGG593,5394,34-
F-MNISTHopfield-Resnet13-94,15-

Scoperte Chiave

  1. Miglioramento Significativo delle Prestazioni: Aumento del 3,5% rispetto ai risultati precedenti migliori su CIFAR-10
  2. Prestazioni Prossime alla Retropropagazione: Hopfield-Resnet13 su CIFAR-10 è inferiore alla retropropagazione solo dello 0,14%
  3. Addestramento Riuscito di Reti Profonde: Primo addestramento riuscito di reti EP con oltre 12 strati

Esperimenti di Ablazione

Importanza delle Connessioni Residue

Gli esperimenti mostrano che le reti profonde senza connessioni residue mantengono la perdita di addestramento stagnante, mentre le reti con connessioni residue convergono con successo.

Confronto delle Funzioni di Attivazione

  • ReLU_6 mostra le migliori prestazioni
  • ReLU_1 (hard-sigmoid) ha prestazioni secondarie
  • ReLU_α con α inizializzato casualmente in 0,10 mostra prestazioni intermedie

Analisi del Tempo di Addestramento

  • L'addestramento di Hopfield-Resnet13 per 300 epoch richiede oltre 30 ore
  • Una grande quantità di tempo è consumata dall'avvio del kernel GPU e dalla sincronizzazione CPU-GPU
  • Esiste spazio per l'ottimizzazione

Utilizzo della Memoria

  • L'utilizzo della memoria nell'addestramento CEP è comparabile alla retropropagazione
  • Hopfield-Resnet13 (dimensione batch 128): 1612 MiB
  • Resnet13 corrispondente: 1324 MiB

Analisi della Distribuzione dei Pesi

Caratteristiche della distribuzione dei pesi della rete addestrata con CEP:

  1. Valori di Peso Più Piccoli: Sia il valore assoluto che la varianza sono inferiori alle reti addestrate con retropropagazione
  2. Pesi degli Strati Profondi Tendenti a Zero: Con l'aumentare della profondità, i pesi si avvicinano gradualmente a zero
  3. Mitigazione delle Connessioni Residue: La proporzione di pesi quasi-zero negli strati di connessione di scavalcamento è significativamente ridotta

Lavori Correlati

Algoritmi di Apprendimento Biologicamente Plausibili

  • Propagazione in Avanti: Evita la non-località della retropropagazione
  • Codifica Predittiva: Apprendimento basato sul principio dell'energia libera
  • Apprendimento Hebbiano Contrastivo: Fondamento teorico di EP

Evoluzione della Propagazione dell'Equilibrio

  • EP Originale: Teoria fondamentale proposta da Scellier & Bengio (2017)
  • CEP: Riduzione della distorsione del gradiente attraverso ±β
  • HEP: Ulteriore riduzione della distorsione utilizzando multipli punti di equilibrio nel piano complesso
  • Estensione Convoluzionale: Estensione di EP alle reti convoluzionali

Implementazione Hardware

La ricerca ha già dimostrato l'implementazione di EP su hardware neuromorfo come crossbar di memristori, mostrando il potenziale dell'apprendimento on-device.

Conclusioni e Discussione

Conclusioni Principali

  1. Avanzamento Tecnologico: Primo successo nell'estensione di EP a reti profonde di 13 strati
  2. Miglioramento delle Prestazioni: Superamento significativo dei metodi EP precedenti su più dataset
  3. Innovazione Architetturale: La combinazione di connessioni residue e ReLU troncato risolve efficacemente il problema dell'estensione della profondità

Limitazioni

  1. Efficienza Computazionale: Il tempo di addestramento rimane significativamente più lungo della retropropagazione
  2. Dipendenza Hardware: È necessario hardware specializzato e ottimizzato per sfruttare pienamente i vantaggi
  3. Divario di Prestazioni: Rimane un divario di prestazioni su dataset complessi (come CIFAR-100)
  4. Limitazione di Profondità: Sebbene migliorato, rimane ancora inferiore alle reti profonde moderne

Direzioni Future

  1. Reti di Hopfield Moderne: Integrazione con reti di Hopfield moderne per l'apprendimento di sequenze
  2. Ottimizzazione Hardware: Sviluppo di hardware neuromorfo specializzato adattato a EP
  3. Ottimizzazione Algoritmica: Ulteriore riduzione del tempo di addestramento e miglioramento dell'efficienza
  4. Analisi Teorica: Comprensione più profonda della natura dei meccanismi di addestramento unici di EP

Valutazione Approfondita

Punti di Forza

  1. Avanzamento Importante: Primo successo nell'estensione di EP a reti profonde, risolvendo il problema di scalabilità di lunga data
  2. Innovazione Pratica: La combinazione di connessioni residue e ReLU troncato è semplice ed efficace
  3. Verifica Completa: Verifica sperimentale sufficiente su più dataset
  4. Analisi Approfondita: Fornisce analisi approfondite come la distribuzione dei pesi
  5. Codice Open Source: Fornisce implementazione completa, migliorando la riproducibilità

Insufficienze

  1. Efficienza Computazionale: Il tempo di addestramento eccessivo limita l'applicazione pratica
  2. Analisi Teorica Insufficiente: Manca una spiegazione teorica del motivo per cui le connessioni residue sono efficaci
  3. Limitazione dei Dataset: Verifica principalmente su dataset relativamente semplici
  4. Mancanza di Ottimizzazione Hardware: Non sfrutta pienamente le capacità di calcolo parallelo delle GPU moderne

Impatto

  1. Contributo Accademico: Fornisce innovazione architettonica importante al campo di EP
  2. Valore Pratico: Fornisce metodi di apprendimento profondo più pratici per il calcolo neuromorfo
  3. Ispirazione per la Ricerca: Pone le fondamenta per la ricerca successiva su reti profonde EP

Scenari Applicabili

  1. Hardware Neuromorfo: Particolarmente adatto all'implementazione su chip neuromorfi specializzati
  2. Edge Computing: Appropriato per dispositivi edge che richiedono apprendimento online
  3. Calcolo Bioispirato: Fornisce direzione per la costruzione di sistemi AI più biologicamente plausibili
  4. Applicazioni a Bassa Potenza: Vantaggioso in scenari con requisiti di efficienza energetica estremi

Bibliografia

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Questo articolo ha raggiunto un importante avanzamento nell'estensione della propagazione dell'equilibrio a reti profonde, migliorando significativamente l'applicabilità pratica del metodo EP attraverso una progettazione architettonica ingegnosa, fornendo contributi preziosi allo sviluppo del calcolo neuromorfo e degli algoritmi di apprendimento bioispirato.