Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic
Scalare la Propagazione dell'Equilibrio verso Architetture di Reti Neurali Più Profonde
La Propagazione dell'Equilibrio (Equilibrium Propagation) è stata proposta come alternativa biologicamente plausibile all'algoritmo di retropropagazione. La natura locale del calcolo dei gradienti, combinata con l'utilizzo di RNN convergenti per raggiungere uno stato di equilibrio, rende questo metodo particolarmente adatto all'implementazione su hardware neuromorfo. Tuttavia, la ricerca precedente sulla propagazione dell'equilibrio è stata limitata a reti contenenti strati densi o architetture relativamente piccole, che presentano significativi divari di accuratezza rispetto a reti feedforward di dimensioni simili addestrate con retropropagazione. Questo lavoro introduce l'architettura Hopfield-Resnet, che integra connessioni residue in reti di Hopfield e utilizza ReLU troncato come funzione di attivazione. I miglioramenti architetturali proposti consentono alla rete di addestrare un numero di strati quasi doppio rispetto ai lavori precedenti. Ad esempio, Hopfield-Resnet13 raggiunge un'accuratezza del 93,92% su CIFAR-10, circa il 3,5% superiore ai risultati precedenti migliori e comparabile alle prestazioni di Resnet13 addestrato con retropropagazione.
Il problema centrale affrontato da questa ricerca è la scalabilità del metodo di Propagazione dell'Equilibrio (EP) nelle reti neurali profonde. Ciò si manifesta specificamente in:
Limitazione di Profondità: I metodi EP esistenti possono addestrare efficacemente solo reti poco profonde (≤6 strati)
Divario di Prestazioni: Le reti addestrate con EP presentano un divario di prestazioni significativo rispetto a reti della stessa dimensione addestrate con retropropagazione
Requisito di Plausibilità Biologica: Necessità di mantenere i vantaggi di plausibilità biologica del metodo EP
Proposta della Funzione di Attivazione ReLU Troncato: Semplifica la funzione di energia e il calcolo dei gradienti, migliorando la stabilità dell'addestramento nelle reti profonde
Introduzione dell'Architettura Hopfield-Resnet: Consente al metodo EP di addestrare con successo reti profonde con oltre 12 strati attraverso connessioni residue
Miglioramento Significativo delle Prestazioni: Raggiunge un'accuratezza del 93,92% su CIFAR-10, prossima alle prestazioni della retropropagazione
Validazione Multi-Dataset: Verifica l'efficacia del metodo su CIFAR-10, CIFAR-100 e Fashion-MNIST
Questo articolo studia come utilizzare il metodo di propagazione dell'equilibrio per addestrare reti neurali convoluzionali profonde per compiti di classificazione di immagini. L'input è un'immagine x, l'output è un'etichetta di classe y, con il vincolo di mantenere la plausibilità biologica del metodo EP e le caratteristiche di calcolo dei gradienti locali.
Gli esperimenti mostrano che le reti profonde senza connessioni residue mantengono la perdita di addestramento stagnante, mentre le reti con connessioni residue convergono con successo.
La ricerca ha già dimostrato l'implementazione di EP su hardware neuromorfo come crossbar di memristori, mostrando il potenziale dell'apprendimento on-device.
Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.
Questo articolo ha raggiunto un importante avanzamento nell'estensione della propagazione dell'equilibrio a reti profonde, migliorando significativamente l'applicabilità pratica del metodo EP attraverso una progettazione architettonica ingegnosa, fornendo contributi preziosi allo sviluppo del calcolo neuromorfo e degli algoritmi di apprendimento bioispirato.