2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan

Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.

academic

深いニューラルネットワークアーキテクチャへの平衡伝播のスケーリング

基本情報

論文ID: 2509.26003
タイトル: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
著者: Sankar Vinayak E P (IIT Madras)、Gopalakrishnan Srinivasan (IIT Madras)
分類: cs.NE (ニューラルおよび進化計算)、cs.LG (機械学習)
発表日: 2025年10月13日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2509.26003

要約

平衡伝播(Equilibrium Propagation)は逆伝播アルゴリズムの生物学的に妥当な代替案として提案されている。勾配計算の局所性と収束RNNを用いた平衡状態の達成により、このアプローチはニューロモルフィックハードウェア上での実装に非常に適している。しかし、平衡伝播に関する先行研究は密集層または比較的小規模なアーキテクチャを含むネットワークに限定されており、逆伝播で訓練された同規模のフィードフォワードネットワークと比較して精度に大きな差がある。本研究ではHopfield-Resnetアーキテクチャを導入し、Hopfieldネットワークに残差接続を統合し、クリップされたReLUを活性化関数として使用する。提案されたアーキテクチャの拡張により、ネットワークは先行研究で報告された層数のほぼ2倍を訓練できるようになる。例えば、Hopfield-Resnet13はCIFAR-10で93.92%の精度を達成し、先行研究の最良結果より約3.5%高く、逆伝播で訓練されたResnet13の性能と同等である。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、平衡伝播(EP)法の深いニューラルネットワークにおけるスケーラビリティの問題である。具体的には以下の通りである:

深さの制限: 既存のEP法は浅いネットワーク(≤6層)のみを効果的に訓練できる
性能ギャップ: EP訓練されたネットワークと逆伝播訓練された同規模ネットワークの間に顕著な性能差がある
生物学的妥当性の必要性: EP法の生物学的妥当性の利点を保持する必要がある

重要性分析

この問題の重要性は以下に示される:

生物学的妥当性: 逆伝播は勾配計算が非局所的であるため生物学的に妥当でないと考えられている
ハードウェア適応性: EP法はニューロモルフィックハードウェア実装に適しており、より高いエネルギー効率を持つ
オンライン学習の可能性: EPはデバイス上学習をサポートし、エッジコンピューティングシナリオに適している

既存手法の限界

アーキテクチャの制限: 先行研究はVGG5などの小規模ネットワークに限定されている
勾配バイアス: 理論的には無限小のnudgingパラメータβが必要だが、実際の応用ではバイアスが導入される
収束の困難: 深いネットワークは安定した平衡状態に達しにくい
活性化関数の制限: 既存の活性化関数は深いネットワークでは性能が低い

中核的貢献

クリップされたReLU活性化関数の提案: エネルギー関数と勾配計算を簡素化し、深いネットワーク訓練の安定性を向上させる
Hopfield-Resnetアーキテクチャの導入: 残差接続によりEP法が12層を超える深いネットワークの訓練に成功できるようにする
顕著な性能向上: CIFAR-10で93.92%の精度を達成し、逆伝播の性能に近づく
複数データセットでの検証: CIFAR-10、CIFAR-100、Fashion-MNISTで手法の有効性を検証

手法の詳細

タスク定義

本論文は平衡伝播法を使用して画像分類タスク用の深い畳み込みニューラルネットワークを訓練する方法を研究している。入力は画像x、出力はクラスラベルyであり、制約条件はEP法の生物学的妥当性と局所勾配計算特性を保持することである。

平衡伝播の基礎理論

EP法は静的収束RNNに基づいており、ネットワーク状態の進化は以下に従う:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

ここでΦはエネルギー関数、sはニューロン状態、θはネットワークパラメータである。

EP訓練は2つの段階から構成される:

自由段階: エネルギー関数のみに基づく進化
弱クランプ段階: 損失関数の勾度に比例する摂動項を追加

勾配計算式は以下の通りである:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnetアーキテクチャ設計

残差接続の統合

Hopfield-Resnetブロックは3つの畳み込み操作を含む:

メインパス: 2つの3×3畳み込み
スキップ接続: 1つの1×1畳み込み

ニューロン状態更新方程式は以下のように修正される:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

ここでpre(n)とpost(n)は状態nと直接相互作用するすべての前置および後置状態を表す。

ネットワークアーキテクチャの詳細

4つのHopfield-Resnetブロック + 1つの全結合層
合計13組の訓練可能パラメータ(12個の畳み込み層 + 1個の全結合層)
9つの更新可能なニューロン状態

クリップされたReLU活性化関数

ReLU_α活性化関数を提案し、出力を0, α範囲に制限する:

エネルギー関数の爆発的増加を防止
実験ではReLU_6 (α=6)で最良の性能を達成
従来のシグモイド/tanh関数と比較して計算がより簡単

中心化平衡伝播(CEP)

CEPアルゴリズムを採用して勾度推定バイアスを低減する:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

実験設定

データセット

CIFAR-10: 32×32カラー画像、10クラス、50,000訓練サンプル
CIFAR-100: 32×32カラー画像、100クラス、50,000訓練サンプル
Fashion-MNIST: 28×28グレースケール画像、10クラス、60,000訓練サンプル

評価指標

テストセット精度を主要な評価指標として使用

比較手法

ベースライン手法: VGG5アーキテクチャの深い畳み込みHopfieldネットワーク(DCHN)
逆伝播ベースライン: 対応するフィードフォワードネットワークアーキテクチャ

実装の詳細

最適化器: Nesterov加速勾配最適化器
Nudgingパラメータβ: 経験的に0.1, 0.4範囲に調整
時間ステップ数: 自由段階120ステップ、クランプ段階各50ステップ(±β)
ハードウェア: NVIDIA RTX 4090および6000 Ada GPU
フレームワーク: PyTorch

実験結果

主要結果

データセット	モデルアーキテクチャ	先行最良(%)	本研究(%)	逆伝播(%)
CIFAR-10	VGG5	90.3	92.84	92.11
CIFAR-10	Hopfield-Resnet13	-	93.92	93.78
CIFAR-100	VGG5	68.4	70.78	72.54
CIFAR-100	Hopfield-Resnet13	-	71.05	75.12
F-MNIST	VGG5	93.53	94.34	-
F-MNIST	Hopfield-Resnet13	-	94.15	-

主要な知見

顕著な性能向上: CIFAR-10で先行最良結果より3.5%向上
逆伝播性能に接近: Hopfield-Resnet13はCIFAR-10で逆伝播より0.14%低いのみ
深いネットワークの訓練成功: 初めて12層を超えるEPネットワークの訓練に成功

アブレーション実験

残差接続の重要性

実験は残差接続のない深いネットワークの訓練損失が停滞したままであることを示し、残差接続のあるネットワークは成功裏に収束できることを示している。

活性化関数の比較

ReLU_6が最良の性能を示す
ReLU_1(hard-sigmoid)が次点
ランダムに初期化されたα∈0,10のReLU_αは中程度の性能

訓練時間分析

Hopfield-Resnet13の300エポック訓練には30時間以上が必要
大量の時間がGPU kernel起動とCPU-GPU同期に消費される
最適化の余地がある

メモリ使用量

CEP訓練のメモリ使用量は逆伝播と同等
Hopfield-Resnet13(バッチサイズ128): 1612 MiB
対応するResnet13: 1324 MiB

重み分布分析

CEP訓練されたネットワークの重み分布の特性:

より小さい重み値: 絶対値と分散の両方が逆伝播訓練されたネットワークより小さい
深層の重みがゼロに近づく: 深さが増すにつれて重みは徐々にゼロに近づく
残差接続による緩和: スキップ接続層のゼロに近い重みの割合が大幅に低下

結論と考察

主要な結論

技術的突破: 初めてEPを13層の深いネットワークに成功裏に拡張
性能向上: 複数のデータセットで先行EP手法を大幅に上回る
アーキテクチャ革新: 残差接続とクリップされたReLUの組み合わせが深さ拡張問題を効果的に解決

限界

計算効率: 訓練時間は依然として逆伝播より大幅に長い
ハードウェア依存: 利点を十分に発揮するには専門的に最適化されたハードウェアが必要
性能ギャップ: 複雑なデータセット(CIFAR-100など)では依然として性能ギャップが存在
深さの制限: 改善されたが現代の深いネットワークほどではない

今後の方向性

現代Hopfieldネットワーク: シーケンス学習の現代Hopfieldネットワークとの統合
ハードウェア最適化: EP適応型ニューロモルフィックハードウェアの開発
アルゴリズム最適化: 訓練時間の短縮と効率の向上
理論分析: EPの独特な訓練メカニズムの性質の深い理解

深い評価

利点

重要な突破: 初めてEPを深いネットワークに成功裏に拡張し、長年存在したスケーラビリティ問題を解決
実用的革新: 残差接続とクリップされたReLUの組み合わせはシンプルで効果的
包括的検証: 複数のデータセットで十分な実験検証を実施
深い分析: 重み分布などの深い分析洞察を提供
オープンソースコード: 完全な実装コードを提供し、再現性を向上

不足

計算効率: 訓練時間が長すぎて実用的応用を制限
理論分析の不足: 残差接続が有効である理由の理論的説明が不足
データセット制限: 主に比較的シンプルなデータセットで検証
ハードウェア最適化の欠落: 既存GPUの並列計算能力を十分に活用していない

影響力

学術的貢献: EP分野に重要なアーキテクチャ革新を提供
実用的価値: ニューロモルフィック計算に実用的な深い学習手法を提供
研究への刺激: 後続のEP深いネットワーク研究の基礎を確立

適用シナリオ

ニューロモルフィックハードウェア: 特に専門的なニューロモルフィックチップ上での実装に適している
エッジコンピューティング: オンライン学習が必要なエッジデバイスに適している
生物学的に触発された計算: より生物学的に妥当なAIシステムの構築に方向性を提供
低消費電力アプリケーション: エネルギー効率に極めて高い要件があるシナリオで利点がある

参考文献

Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

本論文は平衡伝播の深いネットワーク拡張において重要な突破を達成し、巧妙なアーキテクチャ設計を通じてEP法の実用性を大幅に向上させ、ニューロモルフィック計算と生物学的に触発された学習アルゴリズムの発展に価値ある貢献をしている。