2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan

Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.

academic

Масштабирование распространения равновесия на более глубокие архитектуры нейронных сетей

Основная информация

ID статьи: 2509.26003
Название: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
Авторы: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
Классификация: cs.NE (Neural and Evolutionary Computing), cs.LG (Machine Learning)
Дата публикации: 13 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2509.26003

Аннотация

Распространение равновесия (Equilibrium Propagation) предложено в качестве биологически обоснованной альтернативы алгоритму обратного распространения. Локальная природа вычисления градиентов в сочетании с использованием сходящихся рекуррентных нейронных сетей для достижения состояния равновесия делает этот метод весьма пригодным для реализации на нейроморфном оборудовании. Однако предыдущие исследования распространения равновесия ограничивались сетями с плотными слоями или относительно небольшими архитектурами, которые демонстрировали значительный разрыв в точности по сравнению с аналогичными по размеру прямыми сетями, обученными методом обратного распространения. В данной работе представлена архитектура Hopfield-Resnet, которая интегрирует остаточные соединения в сети Хопфилда и использует усеченный ReLU в качестве функции активации. Предложенные улучшения архитектуры позволяют сети обучаться с количеством слоев, почти в два раза превышающим количество, о котором сообщалось в предыдущих работах. Например, Hopfield-Resnet13 достигает точности 93,92% на CIFAR-10, что примерно на 3,5% выше предыдущего лучшего результата и сопоставимо с производительностью Resnet13, обученной методом обратного распространения.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в масштабируемости метода распространения равновесия (EP) в глубоких нейронных сетях. Конкретно это проявляется в:

Ограничение глубины: существующие методы EP могут эффективно обучать только неглубокие сети (≤6 слоев)
Разрыв производительности: сети, обученные EP, демонстрируют значительно худшую производительность по сравнению с сетями аналогичного размера, обученными методом обратного распространения
Требование биологической обоснованности: необходимо сохранить преимущества биологической обоснованности метода EP

Анализ важности

Значимость этой проблемы проявляется в:

Биологическая обоснованность: обратное распространение считается биологически необоснованным, так как вычисление градиентов в нем нелокально
Совместимость с оборудованием: метод EP лучше подходит для реализации на нейроморфном оборудовании с более высокой энергоэффективностью
Потенциал обучения в реальном времени: EP поддерживает обучение на устройстве, что подходит для граничных вычислений

Ограничения существующих методов

Ограничения архитектуры: предыдущие исследования ограничивались небольшими сетями, такими как VGG5
Смещение градиента: теоретически требуется бесконечно малый параметр nudging β, что на практике вводит смещение
Трудности сходимости: глубокие сети с трудом достигают стабильного состояния равновесия
Ограничения функций активации: существующие функции активации плохо работают в глубоких сетях

Основные вклады

Предложена функция активации усеченный ReLU: упрощает вычисление энергетической функции и градиентов, повышает стабильность обучения глубоких сетей
Введена архитектура Hopfield-Resnet: благодаря остаточным соединениям метод EP может успешно обучать сети глубиной более 12 слоев
Значительное улучшение производительности: достигнута точность 93,92% на CIFAR-10, близкая к производительности обратного распространения
Проверка на нескольких наборах данных: метод подтвержден на CIFAR-10, CIFAR-100 и Fashion-MNIST

Подробное описание метода

Определение задачи

В данной работе исследуется, как использовать метод распространения равновесия для обучения глубоких сверточных нейронных сетей для задачи классификации изображений. Входные данные — изображение x, выходные данные — метка класса y, с ограничением сохранения биологической обоснованности метода EP и локальности вычисления градиентов.

Теоретические основы распространения равновесия

Метод EP основан на статических сходящихся рекуррентных нейронных сетях, эволюция состояния сети подчиняется:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

где Φ — энергетическая функция, s — состояние нейронов, θ — параметры сети.

Обучение EP включает два этапа:

Свободный этап: эволюция, основанная только на энергетической функции
Этап слабого зажима: добавление возмущения, пропорционального градиенту функции потерь

Формула вычисления градиента:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Проектирование архитектуры Hopfield-Resnet

Интеграция остаточных соединений

Блок Hopfield-Resnet содержит три операции свертки:

Основной путь: две свертки 3×3
Пропускное соединение: одна свертка 1×1

Уравнение обновления состояния нейрона модифицировано следующим образом:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

где pre(n) и post(n) обозначают все предыдущие и последующие состояния, непосредственно взаимодействующие с состоянием n.

Детали архитектуры сети

4 блока Hopfield-Resnet + 1 полносвязный слой
Всего 13 групп обучаемых параметров (12 сверточных слоев + 1 полносвязный слой)
9 обновляемых состояний нейронов

Функция активации усеченный ReLU

Предложена функция активации ReLU_α, которая ограничивает выход в диапазоне 0, α:

Предотвращает экспоненциальный рост энергетической функции
В экспериментах использовалась ReLU_6 (α=6) для получения оптимальной производительности
Вычисления проще по сравнению с традиционными функциями sigmoid/tanh

Центрированное распространение равновесия (CEP)

Применяется алгоритм CEP для снижения смещения оценки градиента:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

Экспериментальная установка

Наборы данных

CIFAR-10: цветные изображения 32×32, 10 классов, 50 000 обучающих образцов
CIFAR-100: цветные изображения 32×32, 100 классов, 50 000 обучающих образцов
Fashion-MNIST: изображения в оттенках серого 28×28, 10 классов, 60 000 обучающих образцов

Метрики оценки

В качестве основной метрики оценки используется точность на тестовом наборе

Методы сравнения

Базовый метод: глубокая сверточная сеть Хопфилда (DCHN) с архитектурой VGG5
Базовое обратное распространение: соответствующая архитектура прямой сети

Детали реализации

Оптимизатор: оптимизатор ускоренного градиента Нестерова
Параметр Nudging β: эмпирически настроен в диапазоне 0,1, 0,4
Количество временных шагов: 120 шагов на свободном этапе, по 50 шагов на этапе зажима (±β)
Оборудование: GPU NVIDIA RTX 4090 и 6000 Ada
Фреймворк: PyTorch

Результаты экспериментов

Основные результаты

Набор данных	Архитектура модели	Предыдущий лучший результат (%)	Данная работа (%)	Обратное распространение (%)
CIFAR-10	VGG5	90,3	92,84	92,11
CIFAR-10	Hopfield-Resnet13	-	93,92	93,78
CIFAR-100	VGG5	68,4	70,78	72,54
CIFAR-100	Hopfield-Resnet13	-	71,05	75,12
F-MNIST	VGG5	93,53	94,34	-
F-MNIST	Hopfield-Resnet13	-	94,15	-

Ключевые находки

Значительное улучшение производительности: улучшение на 3,5% по сравнению с предыдущим лучшим результатом на CIFAR-10
Приближение к производительности обратного распространения: Hopfield-Resnet13 на CIFAR-10 отстает от обратного распространения только на 0,14%
Успешное обучение глубоких сетей: впервые успешно обучена сеть EP глубиной более 12 слоев

Абляционные исследования

Важность остаточных соединений

Эксперименты показывают, что глубокие сети без остаточных соединений остаются в состоянии стагнации потерь при обучении, тогда как сети с остаточными соединениями успешно сходятся.

Сравнение функций активации

ReLU_6 показывает лучшую производительность
ReLU_1 (hard-sigmoid) показывает вторую лучшую производительность
ReLU_α со случайной инициализацией α∈0,10 показывает среднюю производительность

Анализ времени обучения

Обучение Hopfield-Resnet13 на 300 эпохах требует более 30 часов
Значительное время расходуется на запуск GPU kernel и синхронизацию CPU-GPU
Существует пространство для оптимизации

Использование памяти

Использование памяти при обучении CEP сопоставимо с обратным распространением
Hopfield-Resnet13 (размер пакета 128): 1612 МБ
Соответствующий Resnet13: 1324 МБ

Анализ распределения весов

Характеристики распределения весов сети, обученной методом CEP:

Меньшие значения весов: абсолютные значения и дисперсия меньше, чем в сетях, обученных методом обратного распространения
Веса глубоких слоев стремятся к нулю: с увеличением глубины веса постепенно приближаются к нулю
Остаточные соединения смягчают эффект: доля весов, близких к нулю, в слоях пропускного соединения значительно ниже

Связанные работы

Биологически обоснованные алгоритмы обучения

Прямое распространение: избегает нелокальности обратного распространения
Предсказывающее кодирование: обучение на основе принципа свободной энергии
Контрастное обучение Хебба: теоретическая основа EP

История развития распространения равновесия

Исходный EP: Scellier & Bengio (2017) предложили фундаментальную теорию
CEP: снижение смещения градиента через ±β
HEP: дальнейшее снижение смещения с использованием нескольких точек равновесия на комплексной плоскости
Расширение на свертки: расширение EP на сверточные сети

Реализация на оборудовании

Проведены исследования по реализации EP на нейроморфном оборудовании, таком как мемристорные кроссбары, демонстрирующие потенциал обучения на устройстве.

Заключение и обсуждение

Основные выводы

Технический прорыв: впервые успешно расширен EP на сети глубиной 13 слоев
Улучшение производительности: значительное превосходство над предыдущими методами EP на нескольких наборах данных
Архитектурные инновации: комбинация остаточных соединений и усеченного ReLU эффективно решает проблему расширения глубины

Ограничения

Вычислительная эффективность: время обучения остается значительно больше, чем при обратном распространении
Зависимость от оборудования: требуется специально оптимизированное оборудование для полного использования преимуществ
Разрыв производительности: на сложных наборах данных (например, CIFAR-100) остается разрыв производительности
Ограничение глубины: хотя и улучшено, но все еще не соответствует современным глубоким сетям

Направления будущих исследований

Современные сети Хопфилда: интеграция с современными сетями Хопфилда для последовательного обучения
Оптимизация оборудования: разработка специализированного нейроморфного оборудования, адаптированного для EP
Оптимизация алгоритма: дальнейшее снижение времени обучения и повышение эффективности
Теоретический анализ: глубокое понимание природы уникального механизма обучения EP

Глубокая оценка

Преимущества

Важный прорыв: впервые успешно расширен EP на глубокие сети, решена давняя проблема масштабируемости
Практические инновации: комбинация остаточных соединений и усеченного ReLU проста и эффективна
Полная проверка: достаточная экспериментальная проверка на нескольких наборах данных
Глубокий анализ: предоставлены глубокие аналитические выводы, такие как распределение весов
Открытый исходный код: предоставлен полный код реализации, повышающий воспроизводимость

Недостатки

Вычислительная эффективность: чрезмерно длительное время обучения ограничивает практическое применение
Недостаточный теоретический анализ: отсутствует теоретическое объяснение того, почему остаточные соединения эффективны
Ограничение наборов данных: проверка в основном на относительно простых наборах данных
Отсутствие оптимизации оборудования: недостаточное использование возможностей параллельных вычислений современных GPU

Влияние

Академический вклад: предоставляет важные архитектурные инновации для области EP
Практическая ценность: предоставляет более практичный метод глубокого обучения для нейроморфных вычислений
Исследовательское вдохновение: закладывает основу для последующих исследований глубоких сетей EP

Применимые сценарии

Нейроморфное оборудование: особенно подходит для реализации на специализированных нейроморфных чипах
Граничные вычисления: подходит для граничных устройств, требующих обучения в реальном времени
Биологически вдохновленные вычисления: предоставляет направление для построения более биологически обоснованных систем ИИ
Приложения с низким энергопотреблением: имеет преимущества в сценариях с экстремальными требованиями к энергоэффективности

Библиография

Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

Данная статья достигла важного прорыва в расширении распространения равновесия на глубокие сети. Благодаря тщательному проектированию архитектуры значительно повышена практичность метода EP, что вносит ценный вклад в развитие нейроморфных вычислений и биологически вдохновленных алгоритмов обучения.