2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

深いニューラルネットワークアーキテクチャへの平衡伝播のスケーリング

基本情報

  • 論文ID: 2509.26003
  • タイトル: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
  • 著者: Sankar Vinayak E P (IIT Madras)、Gopalakrishnan Srinivasan (IIT Madras)
  • 分類: cs.NE (ニューラルおよび進化計算)、cs.LG (機械学習)
  • 発表日: 2025年10月13日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2509.26003

要約

平衡伝播(Equilibrium Propagation)は逆伝播アルゴリズムの生物学的に妥当な代替案として提案されている。勾配計算の局所性と収束RNNを用いた平衡状態の達成により、このアプローチはニューロモルフィックハードウェア上での実装に非常に適している。しかし、平衡伝播に関する先行研究は密集層または比較的小規模なアーキテクチャを含むネットワークに限定されており、逆伝播で訓練された同規模のフィードフォワードネットワークと比較して精度に大きな差がある。本研究ではHopfield-Resnetアーキテクチャを導入し、Hopfieldネットワークに残差接続を統合し、クリップされたReLUを活性化関数として使用する。提案されたアーキテクチャの拡張により、ネットワークは先行研究で報告された層数のほぼ2倍を訓練できるようになる。例えば、Hopfield-Resnet13はCIFAR-10で93.92%の精度を達成し、先行研究の最良結果より約3.5%高く、逆伝播で訓練されたResnet13の性能と同等である。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、平衡伝播(EP)法の深いニューラルネットワークにおけるスケーラビリティの問題である。具体的には以下の通りである:

  1. 深さの制限: 既存のEP法は浅いネットワーク(≤6層)のみを効果的に訓練できる
  2. 性能ギャップ: EP訓練されたネットワークと逆伝播訓練された同規模ネットワークの間に顕著な性能差がある
  3. 生物学的妥当性の必要性: EP法の生物学的妥当性の利点を保持する必要がある

重要性分析

この問題の重要性は以下に示される:

  1. 生物学的妥当性: 逆伝播は勾配計算が非局所的であるため生物学的に妥当でないと考えられている
  2. ハードウェア適応性: EP法はニューロモルフィックハードウェア実装に適しており、より高いエネルギー効率を持つ
  3. オンライン学習の可能性: EPはデバイス上学習をサポートし、エッジコンピューティングシナリオに適している

既存手法の限界

  1. アーキテクチャの制限: 先行研究はVGG5などの小規模ネットワークに限定されている
  2. 勾配バイアス: 理論的には無限小のnudgingパラメータβが必要だが、実際の応用ではバイアスが導入される
  3. 収束の困難: 深いネットワークは安定した平衡状態に達しにくい
  4. 活性化関数の制限: 既存の活性化関数は深いネットワークでは性能が低い

中核的貢献

  1. クリップされたReLU活性化関数の提案: エネルギー関数と勾配計算を簡素化し、深いネットワーク訓練の安定性を向上させる
  2. Hopfield-Resnetアーキテクチャの導入: 残差接続によりEP法が12層を超える深いネットワークの訓練に成功できるようにする
  3. 顕著な性能向上: CIFAR-10で93.92%の精度を達成し、逆伝播の性能に近づく
  4. 複数データセットでの検証: CIFAR-10、CIFAR-100、Fashion-MNISTで手法の有効性を検証

手法の詳細

タスク定義

本論文は平衡伝播法を使用して画像分類タスク用の深い畳み込みニューラルネットワークを訓練する方法を研究している。入力は画像x、出力はクラスラベルyであり、制約条件はEP法の生物学的妥当性と局所勾配計算特性を保持することである。

平衡伝播の基礎理論

EP法は静的収束RNNに基づいており、ネットワーク状態の進化は以下に従う:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

ここでΦはエネルギー関数、sはニューロン状態、θはネットワークパラメータである。

EP訓練は2つの段階から構成される:

  1. 自由段階: エネルギー関数のみに基づく進化
  2. 弱クランプ段階: 損失関数の勾度に比例する摂動項を追加

勾配計算式は以下の通りである:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnetアーキテクチャ設計

残差接続の統合

Hopfield-Resnetブロックは3つの畳み込み操作を含む:

  • メインパス: 2つの3×3畳み込み
  • スキップ接続: 1つの1×1畳み込み

ニューロン状態更新方程式は以下のように修正される:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

ここでpre(n)とpost(n)は状態nと直接相互作用するすべての前置および後置状態を表す。

ネットワークアーキテクチャの詳細

  • 4つのHopfield-Resnetブロック + 1つの全結合層
  • 合計13組の訓練可能パラメータ(12個の畳み込み層 + 1個の全結合層)
  • 9つの更新可能なニューロン状態

クリップされたReLU活性化関数

ReLU_α活性化関数を提案し、出力を0, α範囲に制限する:

  • エネルギー関数の爆発的増加を防止
  • 実験ではReLU_6 (α=6)で最良の性能を達成
  • 従来のシグモイド/tanh関数と比較して計算がより簡単

中心化平衡伝播(CEP)

CEPアルゴリズムを採用して勾度推定バイアスを低減する:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

実験設定

データセット

  • CIFAR-10: 32×32カラー画像、10クラス、50,000訓練サンプル
  • CIFAR-100: 32×32カラー画像、100クラス、50,000訓練サンプル
  • Fashion-MNIST: 28×28グレースケール画像、10クラス、60,000訓練サンプル

評価指標

テストセット精度を主要な評価指標として使用

比較手法

  • ベースライン手法: VGG5アーキテクチャの深い畳み込みHopfieldネットワーク(DCHN)
  • 逆伝播ベースライン: 対応するフィードフォワードネットワークアーキテクチャ

実装の詳細

  • 最適化器: Nesterov加速勾配最適化器
  • Nudgingパラメータβ: 経験的に0.1, 0.4範囲に調整
  • 時間ステップ数: 自由段階120ステップ、クランプ段階各50ステップ(±β)
  • ハードウェア: NVIDIA RTX 4090および6000 Ada GPU
  • フレームワーク: PyTorch

実験結果

主要結果

データセットモデルアーキテクチャ先行最良(%)本研究(%)逆伝播(%)
CIFAR-10VGG590.392.8492.11
CIFAR-10Hopfield-Resnet13-93.9293.78
CIFAR-100VGG568.470.7872.54
CIFAR-100Hopfield-Resnet13-71.0575.12
F-MNISTVGG593.5394.34-
F-MNISTHopfield-Resnet13-94.15-

主要な知見

  1. 顕著な性能向上: CIFAR-10で先行最良結果より3.5%向上
  2. 逆伝播性能に接近: Hopfield-Resnet13はCIFAR-10で逆伝播より0.14%低いのみ
  3. 深いネットワークの訓練成功: 初めて12層を超えるEPネットワークの訓練に成功

アブレーション実験

残差接続の重要性

実験は残差接続のない深いネットワークの訓練損失が停滞したままであることを示し、残差接続のあるネットワークは成功裏に収束できることを示している。

活性化関数の比較

  • ReLU_6が最良の性能を示す
  • ReLU_1(hard-sigmoid)が次点
  • ランダムに初期化されたα∈0,10のReLU_αは中程度の性能

訓練時間分析

  • Hopfield-Resnet13の300エポック訓練には30時間以上が必要
  • 大量の時間がGPU kernel起動とCPU-GPU同期に消費される
  • 最適化の余地がある

メモリ使用量

  • CEP訓練のメモリ使用量は逆伝播と同等
  • Hopfield-Resnet13(バッチサイズ128): 1612 MiB
  • 対応するResnet13: 1324 MiB

重み分布分析

CEP訓練されたネットワークの重み分布の特性:

  1. より小さい重み値: 絶対値と分散の両方が逆伝播訓練されたネットワークより小さい
  2. 深層の重みがゼロに近づく: 深さが増すにつれて重みは徐々にゼロに近づく
  3. 残差接続による緩和: スキップ接続層のゼロに近い重みの割合が大幅に低下

関連研究

生物学的に妥当な学習アルゴリズム

  • 前向き伝播: 逆伝播の非局所性を回避
  • 予測符号化: 自由エネルギー原理に基づく学習
  • 対比Hebbian学習: EPの理論的基礎

平衡伝播の発展過程

  • 原始EP: Scellier & Bengio (2017)が基礎理論を提案
  • CEP: ±βを通じて勾度バイアスを低減
  • HEP: 複素平面上の複数点平衡を使用してバイアスをさらに低減
  • 畳み込み拡張: EPを畳み込みネットワークに拡張

ハードウェア実装

メモリスタ交差スイッチなどのニューロモルフィックハードウェア上でのEP実装に関する研究があり、デバイス上学習の可能性を示している。

結論と考察

主要な結論

  1. 技術的突破: 初めてEPを13層の深いネットワークに成功裏に拡張
  2. 性能向上: 複数のデータセットで先行EP手法を大幅に上回る
  3. アーキテクチャ革新: 残差接続とクリップされたReLUの組み合わせが深さ拡張問題を効果的に解決

限界

  1. 計算効率: 訓練時間は依然として逆伝播より大幅に長い
  2. ハードウェア依存: 利点を十分に発揮するには専門的に最適化されたハードウェアが必要
  3. 性能ギャップ: 複雑なデータセット(CIFAR-100など)では依然として性能ギャップが存在
  4. 深さの制限: 改善されたが現代の深いネットワークほどではない

今後の方向性

  1. 現代Hopfieldネットワーク: シーケンス学習の現代Hopfieldネットワークとの統合
  2. ハードウェア最適化: EP適応型ニューロモルフィックハードウェアの開発
  3. アルゴリズム最適化: 訓練時間の短縮と効率の向上
  4. 理論分析: EPの独特な訓練メカニズムの性質の深い理解

深い評価

利点

  1. 重要な突破: 初めてEPを深いネットワークに成功裏に拡張し、長年存在したスケーラビリティ問題を解決
  2. 実用的革新: 残差接続とクリップされたReLUの組み合わせはシンプルで効果的
  3. 包括的検証: 複数のデータセットで十分な実験検証を実施
  4. 深い分析: 重み分布などの深い分析洞察を提供
  5. オープンソースコード: 完全な実装コードを提供し、再現性を向上

不足

  1. 計算効率: 訓練時間が長すぎて実用的応用を制限
  2. 理論分析の不足: 残差接続が有効である理由の理論的説明が不足
  3. データセット制限: 主に比較的シンプルなデータセットで検証
  4. ハードウェア最適化の欠落: 既存GPUの並列計算能力を十分に活用していない

影響力

  1. 学術的貢献: EP分野に重要なアーキテクチャ革新を提供
  2. 実用的価値: ニューロモルフィック計算に実用的な深い学習手法を提供
  3. 研究への刺激: 後続のEP深いネットワーク研究の基礎を確立

適用シナリオ

  1. ニューロモルフィックハードウェア: 特に専門的なニューロモルフィックチップ上での実装に適している
  2. エッジコンピューティング: オンライン学習が必要なエッジデバイスに適している
  3. 生物学的に触発された計算: より生物学的に妥当なAIシステムの構築に方向性を提供
  4. 低消費電力アプリケーション: エネルギー効率に極めて高い要件があるシナリオで利点がある

参考文献

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

本論文は平衡伝播の深いネットワーク拡張において重要な突破を達成し、巧妙なアーキテクチャ設計を通じてEP法の実用性を大幅に向上させ、ニューロモルフィック計算と生物学的に触発された学習アルゴリズムの発展に価値ある貢献をしている。