Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic
Масштабирование распространения равновесия на более глубокие архитектуры нейронных сетей
Распространение равновесия (Equilibrium Propagation) предложено в качестве биологически обоснованной альтернативы алгоритму обратного распространения. Локальная природа вычисления градиентов в сочетании с использованием сходящихся рекуррентных нейронных сетей для достижения состояния равновесия делает этот метод весьма пригодным для реализации на нейроморфном оборудовании. Однако предыдущие исследования распространения равновесия ограничивались сетями с плотными слоями или относительно небольшими архитектурами, которые демонстрировали значительный разрыв в точности по сравнению с аналогичными по размеру прямыми сетями, обученными методом обратного распространения. В данной работе представлена архитектура Hopfield-Resnet, которая интегрирует остаточные соединения в сети Хопфилда и использует усеченный ReLU в качестве функции активации. Предложенные улучшения архитектуры позволяют сети обучаться с количеством слоев, почти в два раза превышающим количество, о котором сообщалось в предыдущих работах. Например, Hopfield-Resnet13 достигает точности 93,92% на CIFAR-10, что примерно на 3,5% выше предыдущего лучшего результата и сопоставимо с производительностью Resnet13, обученной методом обратного распространения.
Основная проблема, которую решает данное исследование, заключается в масштабируемости метода распространения равновесия (EP) в глубоких нейронных сетях. Конкретно это проявляется в:
Ограничение глубины: существующие методы EP могут эффективно обучать только неглубокие сети (≤6 слоев)
Разрыв производительности: сети, обученные EP, демонстрируют значительно худшую производительность по сравнению с сетями аналогичного размера, обученными методом обратного распространения
Требование биологической обоснованности: необходимо сохранить преимущества биологической обоснованности метода EP
В данной работе исследуется, как использовать метод распространения равновесия для обучения глубоких сверточных нейронных сетей для задачи классификации изображений. Входные данные — изображение x, выходные данные — метка класса y, с ограничением сохранения биологической обоснованности метода EP и локальности вычисления градиентов.
Эксперименты показывают, что глубокие сети без остаточных соединений остаются в состоянии стагнации потерь при обучении, тогда как сети с остаточными соединениями успешно сходятся.
Проведены исследования по реализации EP на нейроморфном оборудовании, таком как мемристорные кроссбары, демонстрирующие потенциал обучения на устройстве.
Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.
Данная статья достигла важного прорыва в расширении распространения равновесия на глубокие сети. Благодаря тщательному проектированию архитектуры значительно повышена практичность метода EP, что вносит ценный вклад в развитие нейроморфных вычислений и биологически вдохновленных алгоритмов обучения.