2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan

Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.

academic

더 깊은 신경망 아키텍처로 평형 전파 확장

기본 정보

논문 ID: 2509.26003
제목: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
저자: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
분류: cs.NE (신경 및 진화 컴퓨팅), cs.LG (기계학습)
발표 시간: 2025년 10월 13일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2509.26003

초록

평형 전파(Equilibrium Propagation)는 역전파 알고리즘의 생물학적으로 타당한 대안으로 제안되었습니다. 수렴하는 RNN을 사용하여 평형 상태에 도달하는 것과 결합된 그래디언트 계산의 국소적 특성으로 인해, 이 방법은 신경형태 하드웨어에서의 구현에 매우 적합합니다. 그러나 평형 전파에 관한 이전 연구는 밀집층을 포함하거나 상대적으로 작은 아키텍처를 가진 네트워크에만 국한되었으며, 이는 역전파로 훈련된 유사 규모의 피드포워드 네트워크와 비교하여 상당한 정확도 격차를 보입니다. 본 연구는 Hopfield-Resnet 아키텍처를 도입하여 Hopfield 네트워크에 잔차 연결을 통합하고 클리핑된 ReLU를 활성화 함수로 사용합니다. 제안된 아키텍처 개선으로 인해 네트워크는 이전 연구에서 보고된 층 수의 거의 2배를 훈련할 수 있습니다. 예를 들어, Hopfield-Resnet13은 CIFAR-10에서 93.92%의 정확도를 달성하여 이전의 최고 결과보다 약 3.5% 높으며, 역전파로 훈련된 Resnet13의 성능과 동등합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 평형 전파(EP) 방법의 깊은 신경망에서의 확장성 문제입니다. 구체적으로 다음과 같이 나타납니다:

깊이 제한: 기존 EP 방법은 얕은 네트워크(≤6층)만 효과적으로 훈련할 수 있음
성능 격차: EP로 훈련된 네트워크와 역전파로 훈련된 동일 규모 네트워크 간의 상당한 성능 격차
생물학적 타당성 요구: EP 방법의 생물학적 타당성 장점을 유지할 필요성

중요성 분석

이 문제의 중요성은 다음과 같이 나타납니다:

생물학적 타당성: 역전파는 그래디언트 계산이 비국소적이기 때문에 생물학적으로 타당하지 않은 것으로 간주됨
하드웨어 적응성: EP 방법은 신경형태 하드웨어 구현에 더 적합하며 더 높은 에너지 효율성을 가짐
온라인 학습 잠재력: EP는 기기 내 학습을 지원하여 엣지 컴퓨팅 시나리오에 적합

기존 방법의 한계

아키텍처 제한: 이전 연구는 VGG5 같은 소규모 네트워크로 제한됨
그래디언트 편향: 이론적으로 무한소 nudging 매개변수 β를 요구하며, 실제 응용에서 편향 도입
수렴 어려움: 깊은 네트워크는 안정적인 평형 상태에 도달하기 어려움
활성화 함수 제한: 기존 활성화 함수는 깊은 네트워크에서 성능이 좋지 않음

핵심 기여

클리핑된 ReLU 활성화 함수 제안: 에너지 함수 및 그래디언트 계산을 단순화하고 깊은 네트워크 훈련 안정성 개선
Hopfield-Resnet 아키텍처 도입: 잔차 연결을 통해 EP 방법이 12층 이상의 깊은 네트워크를 성공적으로 훈련할 수 있도록 함
현저한 성능 향상: CIFAR-10에서 93.92% 정확도 달성, 역전파 성능에 근접
다중 데이터셋 검증: CIFAR-10, CIFAR-100 및 Fashion-MNIST에서 방법의 유효성 검증

방법 상세 설명

작업 정의

본 논문은 평형 전파 방법을 사용하여 이미지 분류 작업을 위한 깊은 합성곱 신경망을 훈련하는 방법을 연구합니다. 입력은 이미지 x이고 출력은 클래스 레이블 y이며, 제약 조건은 EP 방법의 생물학적 타당성과 국소 그래디언트 계산 특성을 유지하는 것입니다.

평형 전파 기초 이론

EP 방법은 정적 수렴 RNN을 기반으로 하며, 네트워크 상태 진화는 다음을 따릅니다:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

여기서 Φ는 에너지 함수, s는 뉴런 상태, θ는 네트워크 매개변수입니다.

EP 훈련은 두 단계로 구성됩니다:

자유 단계: 에너지 함수만을 기반으로 진화
약한 클램핑 단계: 손실 함수 그래디언트에 비례하는 섭동 항 추가

그래디언트 계산 공식:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnet 아키텍처 설계

잔차 연결 통합

Hopfield-Resnet 블록은 세 개의 합성곱 연산을 포함합니다:

주 경로: 두 개의 3×3 합성곱
스킵 연결: 하나의 1×1 합성곱

뉴런 상태 업데이트 방정식은 다음과 같이 수정됩니다:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

여기서 pre(n)과 post(n)은 상태 n과 직접 상호작용하는 모든 전단계 및 후단계 상태를 나타냅니다.

네트워크 아키텍처 세부사항

4개의 Hopfield-Resnet 블록 + 1개의 완전 연결층
총 13개의 훈련 가능한 매개변수 그룹(12개의 합성곱층 + 1개의 완전 연결층)
9개의 업데이트 가능한 뉴런 상태

클리핑된 ReLU 활성화 함수

ReLU_α 활성화 함수를 제안하여 출력을 0, α 범위로 제한합니다:

에너지 함수의 폭발적 증가 방지
실험에서 ReLU_6 (α=6)을 사용하여 최고 성능 달성
기존 sigmoid/tanh 함수와 비교하여 계산이 더 간단함

중심화 평형 전파(CEP)

CEP 알고리즘을 채택하여 그래디언트 추정 편향을 감소시킵니다:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

실험 설정

데이터셋

CIFAR-10: 32×32 컬러 이미지, 10개 클래스, 50,000개 훈련 샘플
CIFAR-100: 32×32 컬러 이미지, 100개 클래스, 50,000개 훈련 샘플
Fashion-MNIST: 28×28 그레이스케일 이미지, 10개 클래스, 60,000개 훈련 샘플

평가 지표

테스트 세트 정확도를 주요 평가 지표로 사용

비교 방법

기준 방법: VGG5 아키텍처의 깊은 합성곱 Hopfield 네트워크(DCHN)
역전파 기준: 해당하는 피드포워드 네트워크 아키텍처

구현 세부사항

최적화기: Nesterov 가속 그래디언트 최적화기
Nudging 매개변수 β: 경험적으로 0.1, 0.4 범위로 조정
시간 단계: 자유 단계 120단계, 클램핑 단계 각 50단계(±β)
하드웨어: NVIDIA RTX 4090 및 6000 Ada GPU
프레임워크: PyTorch

실험 결과

주요 결과

데이터셋	모델 아키텍처	이전 최고(%)	본 연구(%)	역전파(%)
CIFAR-10	VGG5	90.3	92.84	92.11
CIFAR-10	Hopfield-Resnet13	-	93.92	93.78
CIFAR-100	VGG5	68.4	70.78	72.54
CIFAR-100	Hopfield-Resnet13	-	71.05	75.12
F-MNIST	VGG5	93.53	94.34	-
F-MNIST	Hopfield-Resnet13	-	94.15	-

주요 발견

현저한 성능 향상: CIFAR-10에서 이전 최고 결과보다 3.5% 향상
역전파 성능에 근접: Hopfield-Resnet13은 CIFAR-10에서 역전파보다 단 0.14% 낮음
깊은 네트워크 성공적 훈련: 12층 이상의 EP 네트워크를 처음으로 성공적으로 훈련

절제 실험

잔차 연결의 중요성

실험은 잔차 연결이 없는 깊은 네트워크의 훈련 손실이 정체 상태를 유지하는 반면, 잔차 연결이 있는 네트워크는 성공적으로 수렴할 수 있음을 보여줍니다.

활성화 함수 비교

ReLU_6이 최고 성능 달성
ReLU_1(hard-sigmoid)이 차선의 성능
α∈0,10의 무작위 초기화된 ReLU_α가 중간 성능

훈련 시간 분석

Hopfield-Resnet13 훈련 300 에포크에 30시간 이상 소요
상당한 시간이 GPU 커널 시작 및 CPU-GPU 동기화에 소비됨
최적화 여지 존재

메모리 사용

CEP 훈련 메모리 사용은 역전파와 동등함
Hopfield-Resnet13(배치 크기 128): 1612 MiB
해당 Resnet13: 1324 MiB

가중치 분포 분석

CEP로 훈련된 네트워크의 가중치 분포 특성:

더 작은 가중치 값: 절댓값과 분산 모두 역전파로 훈련된 네트워크보다 작음
깊은층 가중치 영점 수렴: 깊이가 증가함에 따라 가중치가 점진적으로 0에 접근
잔차 연결 완화: 스킵 연결층의 영점 근처 가중치 비율이 현저히 감소

결론 및 논의

주요 결론

기술적 돌파: 처음으로 EP를 13층 깊이 네트워크로 성공적으로 확장
성능 향상: 여러 데이터셋에서 이전 EP 방법을 현저히 초과
아키텍처 혁신: 잔차 연결과 클리핑된 ReLU의 결합이 깊이 확장 문제를 효과적으로 해결

한계

계산 효율성: 훈련 시간이 여전히 역전파보다 현저히 김
하드웨어 의존성: 장점을 충분히 발휘하려면 특별히 최적화된 하드웨어 필요
성능 격차: 복잡한 데이터셋(예: CIFAR-100)에서 여전히 성능 격차 존재
깊이 제한: 개선되었지만 현대 깊은 네트워크만큼은 아님

향후 방향

현대 Hopfield 네트워크: 시퀀스 학습의 현대 Hopfield 네트워크와 결합
하드웨어 최적화: EP에 특별히 적응된 신경형태 하드웨어 개발
알고리즘 최적화: 훈련 시간 추가 감소 및 효율성 향상
이론 분석: EP의 독특한 훈련 메커니즘의 특성에 대한 심층 이해

심층 평가

장점

중요한 돌파: 처음으로 EP를 깊은 네트워크로 확장하여 오래된 확장성 문제 해결
실용적 혁신: 잔차 연결과 클리핑된 ReLU의 조합이 간단하고 효과적
포괄적 검증: 여러 데이터셋에서 충분한 실험 검증
심층 분석: 가중치 분포 등 심층적인 분석 통찰력 제공
오픈소스 코드: 완전한 구현 코드 제공으로 재현성 향상

부족한 점

계산 효율성: 과도한 훈련 시간이 실제 응용을 제한
이론 분석 부족: 잔차 연결이 효과적인 이유에 대한 이론적 설명 부족
데이터셋 제한: 주로 상대적으로 간단한 데이터셋에서 검증
하드웨어 최적화 부재: 기존 GPU의 병렬 계산 능력을 충분히 활용하지 못함

영향력

학술 기여: EP 분야에 중요한 아키텍처 혁신 제공
실용적 가치: 신경형태 컴퓨팅을 위한 더 실용적인 깊은 학습 방법 제공
연구 영감: 후속 EP 깊은 네트워크 연구의 기초 마련

적용 시나리오

신경형태 하드웨어: 특별한 신경형태 칩에서의 구현에 특히 적합
엣지 컴퓨팅: 온라인 학습이 필요한 엣지 디바이스에 적합
생물 영감 컴퓨팅: 더 생물학적으로 타당한 AI 시스템 구축을 위한 방향 제시
저전력 응용: 에너지 효율성이 극도로 중요한 시나리오에서 장점 보유

참고문헌

Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

본 논문은 평형 전파 깊은 네트워크 확장 분야에서 중요한 돌파를 이루었으며, 영리한 아키텍처 설계를 통해 EP 방법의 실용성을 현저히 향상시켰고, 신경형태 컴퓨팅과 생물 영감 학습 알고리즘의 발전에 가치 있는 기여를 했습니다.