2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan

Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.

academic

Scalare la Propagazione dell'Equilibrio verso Architetture di Reti Neurali Più Profonde

Informazioni Fondamentali

ID Articolo: 2509.26003
Titolo: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Autori: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
Classificazione: cs.NE (Neural and Evolutionary Computing), cs.LG (Machine Learning)
Data di Pubblicazione: 13 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2509.26003

Riassunto

La Propagazione dell'Equilibrio (Equilibrium Propagation) è stata proposta come alternativa biologicamente plausibile all'algoritmo di retropropagazione. La natura locale del calcolo dei gradienti, combinata con l'utilizzo di RNN convergenti per raggiungere uno stato di equilibrio, rende questo metodo particolarmente adatto all'implementazione su hardware neuromorfo. Tuttavia, la ricerca precedente sulla propagazione dell'equilibrio è stata limitata a reti contenenti strati densi o architetture relativamente piccole, che presentano significativi divari di accuratezza rispetto a reti feedforward di dimensioni simili addestrate con retropropagazione. Questo lavoro introduce l'architettura Hopfield-Resnet, che integra connessioni residue in reti di Hopfield e utilizza ReLU troncato come funzione di attivazione. I miglioramenti architetturali proposti consentono alla rete di addestrare un numero di strati quasi doppio rispetto ai lavori precedenti. Ad esempio, Hopfield-Resnet13 raggiunge un'accuratezza del 93,92% su CIFAR-10, circa il 3,5% superiore ai risultati precedenti migliori e comparabile alle prestazioni di Resnet13 addestrato con retropropagazione.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è la scalabilità del metodo di Propagazione dell'Equilibrio (EP) nelle reti neurali profonde. Ciò si manifesta specificamente in:

Limitazione di Profondità: I metodi EP esistenti possono addestrare efficacemente solo reti poco profonde (≤6 strati)
Divario di Prestazioni: Le reti addestrate con EP presentano un divario di prestazioni significativo rispetto a reti della stessa dimensione addestrate con retropropagazione
Requisito di Plausibilità Biologica: Necessità di mantenere i vantaggi di plausibilità biologica del metodo EP

Analisi dell'Importanza

L'importanza di questo problema emerge da:

Plausibilità Biologica: La retropropagazione è considerata biologicamente implausibile poiché il calcolo dei gradienti è non-locale
Compatibilità Hardware: Il metodo EP è più adatto all'implementazione su hardware neuromorfo, con maggiore efficienza energetica
Potenziale di Apprendimento Online: EP supporta l'apprendimento on-device, appropriato per scenari di edge computing

Limitazioni dei Metodi Esistenti

Limitazioni Architetturali: La ricerca precedente è limitata a piccole reti come VGG5
Distorsione del Gradiente: Teoricamente richiede un parametro di nudging β infinitesimale, introducendo distorsione nelle applicazioni pratiche
Difficoltà di Convergenza: Le reti profonde hanno difficoltà a raggiungere uno stato di equilibrio stabile
Limitazioni della Funzione di Attivazione: Le funzioni di attivazione esistenti mostrano prestazioni scadenti nelle reti profonde

Contributi Principali

Proposta della Funzione di Attivazione ReLU Troncato: Semplifica la funzione di energia e il calcolo dei gradienti, migliorando la stabilità dell'addestramento nelle reti profonde
Introduzione dell'Architettura Hopfield-Resnet: Consente al metodo EP di addestrare con successo reti profonde con oltre 12 strati attraverso connessioni residue
Miglioramento Significativo delle Prestazioni: Raggiunge un'accuratezza del 93,92% su CIFAR-10, prossima alle prestazioni della retropropagazione
Validazione Multi-Dataset: Verifica l'efficacia del metodo su CIFAR-10, CIFAR-100 e Fashion-MNIST

Dettagli del Metodo

Definizione del Compito

Questo articolo studia come utilizzare il metodo di propagazione dell'equilibrio per addestrare reti neurali convoluzionali profonde per compiti di classificazione di immagini. L'input è un'immagine x, l'output è un'etichetta di classe y, con il vincolo di mantenere la plausibilità biologica del metodo EP e le caratteristiche di calcolo dei gradienti locali.

Teoria Fondamentale della Propagazione dell'Equilibrio

Il metodo EP si basa su RNN statici convergenti, con l'evoluzione dello stato della rete che segue:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

dove Φ è la funzione di energia, s è lo stato dei neuroni, θ sono i parametri della rete.

L'addestramento EP comprende due fasi:

Fase Libera: Evoluzione basata solo sulla funzione di energia
Fase di Bloccaggio Debole: Aggiunta di un termine di perturbazione proporzionale al gradiente della funzione di perdita

La formula di calcolo del gradiente è:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Progettazione dell'Architettura Hopfield-Resnet

Integrazione delle Connessioni Residue

Il blocco Hopfield-Resnet contiene tre operazioni di convoluzione:

Percorso principale: due convoluzioni 3×3
Connessione di scavalcamento: una convoluzione 1×1

L'equazione di aggiornamento dello stato dei neuroni è modificata in:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

dove pre(n) e post(n) rappresentano tutti gli stati precedenti e successivi che interagiscono direttamente con lo stato n.

Dettagli dell'Architettura di Rete

4 blocchi Hopfield-Resnet + 1 strato completamente connesso
Totale di 13 gruppi di parametri addestrabili (12 strati convoluzionali + 1 strato completamente connesso)
9 stati di neuroni aggiornabili

Funzione di Attivazione ReLU Troncato

Viene proposta la funzione di attivazione ReLU_α, che limita l'output nell'intervallo 0, α:

Previene la crescita esplosiva della funzione di energia
Negli esperimenti, ReLU_6 (α=6) ottiene le migliori prestazioni
Calcolo più semplice rispetto alle funzioni sigmoid/tanh tradizionali

Propagazione dell'Equilibrio Centrata (CEP)

Viene adottato l'algoritmo CEP per ridurre la distorsione nella stima del gradiente:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Configurazione Sperimentale

Dataset

CIFAR-10: Immagini a colori 32×32, 10 classi, 50.000 campioni di addestramento
CIFAR-100: Immagini a colori 32×32, 100 classi, 50.000 campioni di addestramento
Fashion-MNIST: Immagini in scala di grigi 28×28, 10 classi, 60.000 campioni di addestramento

Metriche di Valutazione

L'accuratezza sul set di test è utilizzata come metrica di valutazione principale

Metodi di Confronto

Metodo di Base: Rete di Hopfield Convoluzionale Profonda (DCHN) con architettura VGG5
Base di Retropropagazione: Architetture di rete feedforward corrispondenti

Dettagli di Implementazione

Ottimizzatore: Ottimizzatore del Gradiente Accelerato di Nesterov
Parametro di Nudging β: Sintonizzato empiricamente nell'intervallo 0,1, 0,4
Passi Temporali: 120 passi nella fase libera, 50 passi ciascuno nella fase di bloccaggio (±β)
Hardware: GPU NVIDIA RTX 4090 e 6000 Ada
Framework: PyTorch

Risultati Sperimentali

Risultati Principali

Dataset	Architettura Modello	Migliore Precedente (%)	Questo Lavoro (%)	Retropropagazione (%)
CIFAR-10	VGG5	90,3	92,84	92,11
CIFAR-10	Hopfield-Resnet13	-	93,92	93,78
CIFAR-100	VGG5	68,4	70,78	72,54
CIFAR-100	Hopfield-Resnet13	-	71,05	75,12
F-MNIST	VGG5	93,53	94,34	-
F-MNIST	Hopfield-Resnet13	-	94,15	-

Scoperte Chiave

Miglioramento Significativo delle Prestazioni: Aumento del 3,5% rispetto ai risultati precedenti migliori su CIFAR-10
Prestazioni Prossime alla Retropropagazione: Hopfield-Resnet13 su CIFAR-10 è inferiore alla retropropagazione solo dello 0,14%
Addestramento Riuscito di Reti Profonde: Primo addestramento riuscito di reti EP con oltre 12 strati

Esperimenti di Ablazione

Importanza delle Connessioni Residue

Gli esperimenti mostrano che le reti profonde senza connessioni residue mantengono la perdita di addestramento stagnante, mentre le reti con connessioni residue convergono con successo.

Confronto delle Funzioni di Attivazione

ReLU_6 mostra le migliori prestazioni
ReLU_1 (hard-sigmoid) ha prestazioni secondarie
ReLU_α con α inizializzato casualmente in 0,10 mostra prestazioni intermedie

Analisi del Tempo di Addestramento

L'addestramento di Hopfield-Resnet13 per 300 epoch richiede oltre 30 ore
Una grande quantità di tempo è consumata dall'avvio del kernel GPU e dalla sincronizzazione CPU-GPU
Esiste spazio per l'ottimizzazione

Utilizzo della Memoria

L'utilizzo della memoria nell'addestramento CEP è comparabile alla retropropagazione
Hopfield-Resnet13 (dimensione batch 128): 1612 MiB
Resnet13 corrispondente: 1324 MiB

Analisi della Distribuzione dei Pesi

Caratteristiche della distribuzione dei pesi della rete addestrata con CEP:

Valori di Peso Più Piccoli: Sia il valore assoluto che la varianza sono inferiori alle reti addestrate con retropropagazione
Pesi degli Strati Profondi Tendenti a Zero: Con l'aumentare della profondità, i pesi si avvicinano gradualmente a zero
Mitigazione delle Connessioni Residue: La proporzione di pesi quasi-zero negli strati di connessione di scavalcamento è significativamente ridotta

Lavori Correlati

Algoritmi di Apprendimento Biologicamente Plausibili

Propagazione in Avanti: Evita la non-località della retropropagazione
Codifica Predittiva: Apprendimento basato sul principio dell'energia libera
Apprendimento Hebbiano Contrastivo: Fondamento teorico di EP

Evoluzione della Propagazione dell'Equilibrio

EP Originale: Teoria fondamentale proposta da Scellier & Bengio (2017)
CEP: Riduzione della distorsione del gradiente attraverso ±β
HEP: Ulteriore riduzione della distorsione utilizzando multipli punti di equilibrio nel piano complesso
Estensione Convoluzionale: Estensione di EP alle reti convoluzionali

Implementazione Hardware

La ricerca ha già dimostrato l'implementazione di EP su hardware neuromorfo come crossbar di memristori, mostrando il potenziale dell'apprendimento on-device.

Conclusioni e Discussione

Conclusioni Principali

Avanzamento Tecnologico: Primo successo nell'estensione di EP a reti profonde di 13 strati
Miglioramento delle Prestazioni: Superamento significativo dei metodi EP precedenti su più dataset
Innovazione Architetturale: La combinazione di connessioni residue e ReLU troncato risolve efficacemente il problema dell'estensione della profondità

Limitazioni

Efficienza Computazionale: Il tempo di addestramento rimane significativamente più lungo della retropropagazione
Dipendenza Hardware: È necessario hardware specializzato e ottimizzato per sfruttare pienamente i vantaggi
Divario di Prestazioni: Rimane un divario di prestazioni su dataset complessi (come CIFAR-100)
Limitazione di Profondità: Sebbene migliorato, rimane ancora inferiore alle reti profonde moderne

Direzioni Future

Reti di Hopfield Moderne: Integrazione con reti di Hopfield moderne per l'apprendimento di sequenze
Ottimizzazione Hardware: Sviluppo di hardware neuromorfo specializzato adattato a EP
Ottimizzazione Algoritmica: Ulteriore riduzione del tempo di addestramento e miglioramento dell'efficienza
Analisi Teorica: Comprensione più profonda della natura dei meccanismi di addestramento unici di EP

Valutazione Approfondita

Punti di Forza

Avanzamento Importante: Primo successo nell'estensione di EP a reti profonde, risolvendo il problema di scalabilità di lunga data
Innovazione Pratica: La combinazione di connessioni residue e ReLU troncato è semplice ed efficace
Verifica Completa: Verifica sperimentale sufficiente su più dataset
Analisi Approfondita: Fornisce analisi approfondite come la distribuzione dei pesi
Codice Open Source: Fornisce implementazione completa, migliorando la riproducibilità

Insufficienze

Efficienza Computazionale: Il tempo di addestramento eccessivo limita l'applicazione pratica
Analisi Teorica Insufficiente: Manca una spiegazione teorica del motivo per cui le connessioni residue sono efficaci
Limitazione dei Dataset: Verifica principalmente su dataset relativamente semplici
Mancanza di Ottimizzazione Hardware: Non sfrutta pienamente le capacità di calcolo parallelo delle GPU moderne

Impatto

Contributo Accademico: Fornisce innovazione architettonica importante al campo di EP
Valore Pratico: Fornisce metodi di apprendimento profondo più pratici per il calcolo neuromorfo
Ispirazione per la Ricerca: Pone le fondamenta per la ricerca successiva su reti profonde EP

Scenari Applicabili

Hardware Neuromorfo: Particolarmente adatto all'implementazione su chip neuromorfi specializzati
Edge Computing: Appropriato per dispositivi edge che richiedono apprendimento online
Calcolo Bioispirato: Fornisce direzione per la costruzione di sistemi AI più biologicamente plausibili
Applicazioni a Bassa Potenza: Vantaggioso in scenari con requisiti di efficienza energetica estremi

Bibliografia

Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Questo articolo ha raggiunto un importante avanzamento nell'estensione della propagazione dell'equilibrio a reti profonde, migliorando significativamente l'applicabilità pratica del metodo EP attraverso una progettazione architettonica ingegnosa, fornendo contributi preziosi allo sviluppo del calcolo neuromorfo e degli algoritmi di apprendimento bioispirato.