2025-11-17T01:31:12.954580

Large Language Models Inference Engines based on Spiking Neural Networks

Balaji, Madireddy, Balaprakash

Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.

academic

스파이킹 신경망 기반 대규모 언어모델 추론 엔진

기본 정보

논문 ID: 2510.00133
제목: Large Language Models Inference Engines based on Spiking Neural Networks
저자: Adarsha Balaji (Argonne National Laboratory), Sandeep Madireddy (Argonne National Laboratory), Prasanna Balaprakash (Oak Ridge National Laboratory)
분류: cs.LG (기계학습)
발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.00133v3

초록

Transformer 아키텍처 기반의 기초 모델은 범용 언어 모델링 및 재료 과학, 기후 과학 등 과학 분야에서 현재 최첨단 기술이다. 그러나 이러한 모델의 훈련과 배포는 입력 시퀀스 길이에 대해 이차 시간 및 공간 복잡도를 가지므로 계산상 매우 도전적이다. 본 논문은 스파이킹 신경망(SNN)을 사용하여 Transformer 모델을 설계하는 방법을 탐색한다. 기존의 대리 학습 방법은 대규모 SNN 훈련이 비효율적이고 시간이 많이 걸리며, 기존 Transformer 모델을 동등한 SNN으로 변환하는 기술은 확장성이 부족하다. 이를 위해 저자들은 기존 변환 방법과 감독 미세조정을 결합하여 SNN 기반 Transformer 추론 엔진을 설계하는 NeuTransformer 방법을 제안한다. 이 방법은 다음을 포함한다: (1) 자기주의 메커니즘을 스파이킹 기반 자기주의(SSA)로 교체, (2) 피드포워드 블록을 동등한 SNN으로 변환, (3) SNN 대리 학습 알고리즘을 사용하여 SSA 블록 미세조정. 실험 결과, 변환된 GPT-2 소형 모델은 코사인 유사도에서 5-12% 손실, 혼란도 9.7% 감소, SSA 블록이 ASA 블록 대비 64.71%-85.28% 에너지 소비 감소를 달성했다.

연구 배경 및 동기

핵심 문제

계산 복잡도 문제: Transformer 모델의 자기주의 메커니즘은 O(n²)의 시간 및 공간 복잡도를 가지며, 여기서 n은 시퀀스 길이이다. 이로 인해 긴 시퀀스 처리 시 계산 및 메모리 요구사항이 급격히 증가한다.
에너지 소비 문제: 기존 Transformer 모델은 훈련 및 추론을 위해 비용이 많이 드는 GPU 또는 맞춤형 가속기가 필요하며, 에너지 소비가 매우 크다.
SNN 훈련의 어려움: 기존 SNN 훈련 방법은 두 가지 주요 제한이 있다:
- 역전파 학습 규칙을 사용한 대규모 SNN의 직접 훈련은 비효율적이다
- ANN-SNN 변환 방법은 최적 성능을 달성하기 위해 많은 스파이킹 시간 단계가 필요하여 추론 지연이 증가한다

연구 동기

저자들은 스파이킹 신경망의 생물학적 영감을 받은 특성과 이벤트 기반 계산의 장점을 활용하여 신경형태 하드웨어에서 효율적으로 실행될 수 있는 Transformer 모델을 설계하고자 한다. 이를 통해 데이터 효율적이고 에너지 소비가 적으며 자원 절약적인 대규모 언어모델 추론을 실현하는 것을 목표로 한다.

핵심 기여

NeuTransformer 방법 제안: 훈련된 Transformer 모델에서 SNN 기반 Transformer를 설계하는 방법으로, 감독 미세조정을 결합하여 모델 성능을 향상시킨다.
희소 스파이킹 계산 자기주의 메커니즘 설계: 기존 자기주의의 에너지 소비가 크고 지연이 많은 행렬 곱셈 및 소프트맥스 연산을 희소 스파이킹 기반 계산으로 대체한다.
대규모 SNN 기반 LLM 구현: GPT-2 및 그 변형을 SNN 버전으로 성공적으로 변환했으며, 저자들의 지식으로는 GPT-2 Large가 현재 매개변수 수가 가장 많은 SNN 기반 Transformer 모델이다.
포괄적 성능 평가: 응용 정확도, 코사인 유사도, 혼란도, 바이트당 비트 등 여러 차원에서 모델 성능을 평가하고 에너지 소비 및 처리량 성능을 분석한다.

방법론 상세 설명

작업 정의

사전 훈련된 Transformer 모델을 동등한 스파이킹 신경망 버전으로 변환하면서 수용 가능한 성능 손실을 유지하고 상당한 에너지 소비 감소 및 하드웨어 효율성 향상을 실현한다.

모델 아키텍처

1. 스파이킹 뉴런 모델

고정 임계값과 조정 가능한 막 전위 감쇠 특성을 가진 적분 발화(IF) 뉴런 사용:

S(t) = {
  1,   if Vmem ≥ 1
  -1,  if Vmem ≤ -1  
  0,   otherwise
}

여기서 Vmem은 막 전위이고, S(t)는 뉴런이 출력한 스파이크 활성화이다.

2. 스파이킹 자기주의(SSA) 메커니즘

기존 자기주의 메커니즘:

ASA(Q,K,V) = softmax(Q·K^T)V

스파이킹 자기주의 메커니즘:

AttentionScore(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)

주요 혁신 포인트:

N비트 행렬 곱셈을 AND 연산 및 누산기로 대체
점곱 연산을 열 수준 Hadamard 곱으로 대체
소프트맥스 함수를 LIF 뉴런 활성화로 대체

3. 스파이킹 피드포워드 층 변환

ANN-SNN 변환 원리에 기반하여 ReLU 활성화 피드포워드 층을 IF 뉴런으로 변환:

ReLU 함수: ReLU(y) = max(0, y)
IF 뉴런: τm ∂Vmem/∂t = -Vmem(t) + R*I(t)

가중치 정규화:

s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm

NeuTransformer 3단계 변환 프로세스

자기주의 블록 교체: ASA를 SSA로 교체하고 훈련된 가중치 유지
피드포워드 블록 변환: ReLU/GeLU 피드포워드 층을 SNN 동등 버전으로 변환
SSA 블록 미세조정: 대리 기울기 학습 알고리즘을 사용하여 SSA 블록 가중치 미세조정

미세조정 목적 함수

ASA와 SSA 주의 점수 간의 평균 제곱 오차 최소화:

Σ(i=1 to d_model) (ASA_as - SSA_as)²

실험 설정

데이터셋

Shakespeare 데이터셋: 40,000줄의 셰익스피어 극본 텍스트 포함
OpenWebText 데이터셋: OpenAI WebText 데이터셋의 오픈소스 재현 버전

모델 규모

GPT-2 Small: 1억 1,700만 매개변수
GPT-2 Medium: 3억 4,500만 매개변수
GPT-2 Large: 7억 6,300만 매개변수

평가 지표

문자 정확도: ANN과 SNN이 생성한 문자의 문자별 비교
코사인 유사도: 다차원 공간의 두 0이 아닌 벡터 사이의 각도 코사인 값
혼란도(Perplexity): 언어모델 품질을 측정하는 지표
바이트당 비트(BpB): 다음 토큰을 예측하는 데 필요한 평균 비트 수

하드웨어 플랫폼

계산 자원: Argonne 국립연구소 LCRC의 Swing HPC 클러스터
구성: 6개 노드, 노드당 2×AMD EPYC 7742 프로세서, 8×NVIDIA A100 GPU
평가 플랫폼: NVIDIA A100 GPU 및 Graphcore IPU 플랫폼

실험 결과

주요 성능 결과

모델	매개변수	코사인 유사도	문자 정확도	ANN 혼란도	SNN 혼란도
GPT-2-Small	1.17억	0.88	84.9%	17.11	21.81
GPT-2-Medium	3.45억	0.83	75.4%	14.43	19.73
GPT-2-Large	7.63억	0.74	71.8%	12.67	18.10

에너지 소비 분석 결과

SSA 블록의 ASA 블록 대비 추정 에너지 소비 감소:

GPT-2 Small: 85.28%
GPT-2 Medium: 85.22%
GPT-2 Large: 64.71%

처리량 평가

Graphcore 플랫폼에서 SNN 버전은 대부분의 구성에서 기준 ANN보다 우수한 처리량 성능을 보였으며, 특히 불규칙하고 희소한 데이터 접근 처리 시 장점이 명확하다.

주요 발견

규모 효과: 모델 규모가 증가함에 따라 SNN 버전의 성능 손실이 점진적으로 증가한다
에너지 효율 장점: 모든 규모의 모델에서 상당한 에너지 소비 감소를 달성했다
하드웨어 적응성: SNN은 MIMD 처리 아키텍처에서 우수한 성능을 보이며, 특히 희소 스파이킹 워크로드에 적합하다

결론 및 논의

주요 결론

가능성 검증: GPT-2 시리즈 모델을 SNN 버전으로 성공적으로 변환하여 대규모 SNN 기반 LLM의 가능성을 증명했다
성능 트레이드오프: 수용 가능한 성능 손실 범위 내에서 상당한 에너지 소비 감소를 달성했다
규모 제한: 모델 매개변수가 3억 개를 초과할 때 성능 저하가 수용 가능한 범위를 벗어난다는 것을 발견했다

제한사항

규모 병목: 대규모 모델의 성능 저하 문제가 여전히 해결이 필요하다
변환 정확도: 피드포워드 블록의 불완전한 변환이 전체 성능에 영향을 미친다
미세조정 제한: 대리 기울기 학습의 깊은 SNN에 대한 제한성

향후 방향

대규모 SNN의 훈련 및 변환 방법 개선
대리 기울기 학습 알고리즘 최적화
더욱 효율적인 스파이킹 인코딩 및 디코딩 전략 탐색
실제 신경형태 하드웨어에서의 성능 검증

심층 평가

장점

높은 혁신성: 대규모 SNN 기반 언어모델을 처음 구현하며 기술 경로가 새롭다
높은 실용 가치: 상당한 에너지 소비 감소는 실제 응용에 중요한 의미를 가진다
포괄적 평가: 여러 차원에서 모델 성능을 평가하며 실험 설계가 엄밀하다
명확한 작성: 기술 설명이 상세하고 방법론이 명확하게 서술되어 있다

부족한 점

명확한 규모 제한: 대규모 모델의 성능 저하가 심각하여 방법의 적용성을 제한한다
이론 분석 부족: 성능 저하 원인에 대한 심층 이론 분석이 부족하다
하드웨어 검증 제한: 주로 추정에 기반하며 실제 신경형태 하드웨어에서의 검증이 부족하다
비교 실험 부족: 다른 SNN 기반 방법과의 직접 비교가 적다

영향력

학술 기여: SNN의 대규모 언어모델 적용에 새로운 방향을 개척했다
실용 전망: 저전력 AI 추론을 위한 새로운 기술 경로를 제공한다
재현성: 방법 설명이 상세하여 재현성이 우수하다

적용 시나리오

엣지 컴퓨팅: 자원이 제한된 모바일 기기 및 IoT 시나리오
저전력 추론: 에너지 소비에 민감한 응용 시나리오
신경형태 컴퓨팅: 전문 신경형태 하드웨어 플랫폼

참고문헌

논문은 해당 분야의 중요한 연구를 인용하고 있으며, 다음을 포함한다:

Transformer 원본 논문 (Vaswani et al., 2017)
SNN 변환 방법의 고전 연구 (Rueckauer et al., 2016; Diehl & Cook, 2015)
최근 SNN 기반 Transformer 연구 (Li et al., 2024; Zhou et al., 2023)
대리 기울기 학습 방법 (Eshraghian et al., 2023)

요약: 본 논문은 대규모 언어모델을 스파이킹 신경망 버전으로 변환하는 혁신적인 방법을 제안하며, 수용 가능한 성능을 유지하면서 상당한 에너지 소비 감소를 달성한다. 규모 제한 등의 문제가 있음에도 불구하고, 저전력 AI 추론 및 신경형태 컴퓨팅 분야에 가치 있는 기술 기여를 제공한다.