2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

基本信息

  • 论文ID: 2509.26003
  • 标题: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
  • 作者: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
  • 分类: cs.NE (Neural and Evolutionary Computing), cs.LG (Machine Learning)
  • 发表时间: 2025年10月13日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2509.26003

摘要

平衡传播(Equilibrium Propagation)被提出作为反向传播算法的生物学合理替代方案。其梯度计算的局部性质,结合使用收敛RNN达到平衡状态,使这种方法非常适合在神经形态硬件上实现。然而,以往关于平衡传播的研究仅限于包含密集层或相对较小架构的网络,这些网络与使用反向传播训练的类似规模前馈网络相比存在显著的准确率差距。本工作引入了Hopfield-Resnet架构,在Hopfield网络中集成残差连接,并使用裁剪ReLU作为激活函数。所提出的架构增强使得网络能够训练近乎两倍于先前工作报告的层数。例如,Hopfield-Resnet13在CIFAR-10上达到93.92%的准确率,比之前的最佳结果高约3.5%,与使用反向传播训练的Resnet13性能相当。

研究背景与动机

问题定义

本研究要解决的核心问题是平衡传播(EP)方法在深度神经网络中的可扩展性问题。具体表现为:

  1. 深度限制:现有EP方法仅能有效训练浅层网络(≤6层)
  2. 性能差距:EP训练的网络与反向传播训练的同规模网络存在显著性能差距
  3. 生物学合理性需求:需要保持EP方法的生物学合理性优势

重要性分析

该问题的重要性体现在:

  1. 生物学合理性:反向传播被认为生物学上不合理,因为其梯度计算是非局部的
  2. 硬件适配性:EP方法更适合神经形态硬件实现,具有更高能效
  3. 在线学习潜力:EP支持设备端学习,适合边缘计算场景

现有方法局限性

  1. 架构限制:以往研究局限于VGG5等小型网络
  2. 梯度偏差:理论上要求无穷小的nudging参数β,实际应用中引入偏差
  3. 收敛困难:深层网络难以达到稳定平衡状态
  4. 激活函数限制:现有激活函数在深层网络中表现不佳

核心贡献

  1. 提出裁剪ReLU激活函数:简化能量函数和梯度计算,提高深层网络训练稳定性
  2. 引入Hopfield-Resnet架构:通过残差连接使EP方法能够成功训练超过12层的深度网络
  3. 显著性能提升:在CIFAR-10上达到93.92%准确率,接近反向传播性能
  4. 多数据集验证:在CIFAR-10、CIFAR-100和Fashion-MNIST上验证了方法的有效性

方法详解

任务定义

本文研究如何使用平衡传播方法训练深度卷积神经网络进行图像分类任务。输入为图像x,输出为类别标签y,约束条件是保持EP方法的生物学合理性和局部梯度计算特性。

平衡传播基础理论

EP方法基于静态收敛RNN,网络状态演化遵循:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

其中Φ是能量函数,s是神经元状态,θ是网络参数。

EP训练包含两个阶段:

  1. 自由阶段:仅基于能量函数演化
  2. 弱钳制阶段:添加与损失函数梯度成比例的扰动项

梯度计算公式为:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnet架构设计

残差连接集成

Hopfield-Resnet块包含三个卷积操作:

  • 主路径:两个3×3卷积
  • 跳跃连接:一个1×1卷积

神经元状态更新方程修改为:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

其中pre(n)和post(n)表示与状态n直接交互的所有前置和后置状态。

网络架构细节

  • 4个Hopfield-Resnet块 + 1个全连接层
  • 总计13组可训练参数(12个卷积层 + 1个全连接层)
  • 9个可更新的神经元状态

裁剪ReLU激活函数

提出ReLU_α激活函数,将输出限制在0, α范围内:

  • 防止能量函数爆炸增长
  • 实验中采用ReLU_6 (α=6)获得最佳性能
  • 相比传统sigmoid/tanh函数,计算更简单

中心化平衡传播(CEP)

采用CEP算法减少梯度估计偏差:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

实验设置

数据集

  • CIFAR-10: 32×32彩色图像,10类,50,000训练样本
  • CIFAR-100: 32×32彩色图像,100类,50,000训练样本
  • Fashion-MNIST: 28×28灰度图像,10类,60,000训练样本

评价指标

使用测试集准确率作为主要评价指标

对比方法

  • 基线方法: VGG5架构的深度卷积Hopfield网络(DCHN)
  • 反向传播基线: 对应的前馈网络架构

实现细节

  • 优化器: Nesterov加速梯度优化器
  • Nudging参数β: 经验调优至0.1, 0.4范围
  • 时间步数: 自由阶段120步,钳制阶段各50步(±β)
  • 硬件: NVIDIA RTX 4090和6000 Ada GPU
  • 框架: PyTorch

实验结果

主要结果

数据集模型架构先前最佳(%)本工作(%)反向传播(%)
CIFAR-10VGG590.392.8492.11
CIFAR-10Hopfield-Resnet13-93.9293.78
CIFAR-100VGG568.470.7872.54
CIFAR-100Hopfield-Resnet13-71.0575.12
F-MNISTVGG593.5394.34-
F-MNISTHopfield-Resnet13-94.15-

关键发现

  1. 显著性能提升: CIFAR-10上比先前最佳结果提高3.5%
  2. 接近反向传播性能: Hopfield-Resnet13在CIFAR-10上仅比反向传播低0.14%
  3. 深度网络成功训练: 首次成功训练超过12层的EP网络

消融实验

残差连接的重要性

实验显示没有残差连接的深层网络训练损失保持停滞,而有残差连接的网络能够成功收敛。

激活函数对比

  • ReLU_6表现最佳
  • ReLU_1(hard-sigmoid)性能次之
  • 随机初始化α∈0,10的ReLU_α性能居中

训练时间分析

  • Hopfield-Resnet13训练300个epoch需要超过30小时
  • 大量时间消耗在GPU kernel启动和CPU-GPU同步上
  • 存在优化空间

内存使用

  • CEP训练内存使用与反向传播相当
  • Hopfield-Resnet13(批大小128): 1612 MiB
  • 对应Resnet13: 1324 MiB

权重分布分析

CEP训练的网络权重分布特点:

  1. 权重值更小: 绝对值和方差都比反向传播训练的网络小
  2. 深层权重趋零: 随着深度增加,权重逐渐接近零
  3. 残差连接缓解: 跳跃连接层的近零权重比例显著降低

相关工作

生物学合理的学习算法

  • 前向传播: 避免反向传播的非局部性
  • 预测编码: 基于自由能原理的学习
  • 对比Hebbian学习: EP的理论基础

平衡传播发展历程

  • 原始EP: Scellier & Bengio (2017)提出基础理论
  • CEP: 通过±β减少梯度偏差
  • HEP: 使用复平面上的多点平衡进一步减少偏差
  • 卷积扩展: 将EP扩展到卷积网络

硬件实现

已有研究在忆阻器交叉开关等神经形态硬件上实现EP,展示了设备端学习潜力。

结论与讨论

主要结论

  1. 技术突破: 首次成功将EP扩展到13层深度网络
  2. 性能提升: 在多个数据集上显著超越先前EP方法
  3. 架构创新: 残差连接和裁剪ReLU的结合有效解决了深度扩展问题

局限性

  1. 计算效率: 训练时间仍显著长于反向传播
  2. 硬件依赖: 需要专门优化的硬件才能充分发挥优势
  3. 性能差距: 在复杂数据集(如CIFAR-100)上仍存在性能差距
  4. 深度限制: 虽有改善但仍不如现代深度网络

未来方向

  1. 现代Hopfield网络: 与序列学习的现代Hopfield网络结合
  2. 硬件优化: 开发专门适配EP的神经形态硬件
  3. 算法优化: 进一步减少训练时间和提高效率
  4. 理论分析: 深入理解EP独特训练机制的性质

深度评价

优点

  1. 重要突破: 首次成功将EP扩展到深度网络,解决了长期存在的可扩展性问题
  2. 实用创新: 残差连接和裁剪ReLU的组合简单有效
  3. 全面验证: 在多个数据集上进行了充分的实验验证
  4. 深入分析: 提供了权重分布等深入的分析洞察
  5. 开源代码: 提供了完整的实现代码,增强可复现性

不足

  1. 计算效率: 训练时间过长限制了实际应用
  2. 理论分析不足: 缺乏对残差连接为何有效的理论解释
  3. 数据集限制: 主要在相对简单的数据集上验证
  4. 硬件优化缺失: 未充分利用现有GPU的并行计算能力

影响力

  1. 学术贡献: 为EP领域提供了重要的架构创新
  2. 实用价值: 为神经形态计算提供了更实用的深度学习方法
  3. 研究启发: 为后续EP深度网络研究奠定了基础

适用场景

  1. 神经形态硬件: 特别适合在专门的神经形态芯片上实现
  2. 边缘计算: 适合需要在线学习的边缘设备
  3. 生物启发计算: 为构建更生物学合理的AI系统提供方向
  4. 低功耗应用: 在对能效要求极高的场景中具有优势

参考文献

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

本论文在平衡传播深度网络扩展方面取得了重要突破,通过巧妙的架构设计显著提升了EP方法的实用性,为神经形态计算和生物启发学习算法的发展做出了有价值的贡献。