2025-11-17T01:31:12.954580

Large Language Models Inference Engines based on Spiking Neural Networks

Balaji, Madireddy, Balaprakash

Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.

academic

スパイキングニューラルネットワークに基づく大規模言語モデル推論エンジン

基本情報

論文ID: 2510.00133
タイトル: Large Language Models Inference Engines based on Spiking Neural Networks
著者: Adarsha Balaji (アルゴンヌ国立研究所)、Sandeep Madireddy (アルゴンヌ国立研究所)、Prasanna Balaprakash (オークリッジ国立研究所)
分類: cs.LG (機械学習)
発表日時: 2025年10月14日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.00133v3

要約

Transformerアーキテクチャに基づく基盤モデルは、汎用言語モデリングおよび材料科学、気候科学などの科学分野において現在の最先端技術である。しかし、これらのモデルの訓練と展開は計算上極めて困難であり、その時間および空間計算量が入力シーケンス長に対して二次関数的に増加するためである。本論文では、スパイキングニューラルネットワーク(SNN)を用いてTransformerモデルを設計することを検討している。既存の代理学習方法は大規模SNNの訓練が非効率で時間がかかり、既存のTransformerモデルを等価なSNNに変換する技術はスケーラビリティに欠ける。これに対して、著者らはNeuTransformerメソッドを提案し、既存の変換方法と教師あり微調整を組み合わせることでSNNベースのTransformer推論エンジンを設計している。本メソッドには以下が含まれる:(1)自己注意機構をスパイク型自己注意(SSA)に置き換える、(2)フィードフォワードブロックを等価なSNNに変換する、(3)SNN代理学習アルゴリズムを用いてSSAブロックを微調整する。実験結果から、変換されたGPT-2小モデルはコサイン類似度で5-12%の損失を示し、困惑度は9.7%低下し、SSAブロックはASAブロックと比較して64.71%-85.28%の消費電力削減を実現している。

研究背景と動機

核心的な問題

計算複雑性の問題モデルの自己注意機構はO(n²)の時間および空間計算量を有し、nはシーケンス長である。これにより、長いシーケンスを処理する際の計算およびメモリ要件が急速に増加する。
消費電力の問題:従来のTransformerモデルは訓練と推論のために高価なGPUまたはカスタム加速器を必要とし、消費電力が膨大である。
SNN訓練の困難性:既存のSNN訓練方法には2つの主要な制限がある:
- 大規模SNNの直接訓練は逆伝播学習規則を使用する場合、効率が低い
- ANN-SNN変換方法は最適性能を達成するために多数のスパイク時間ステップを必要とし、推論遅延が増加する

研究動機

著者らは、スパイキングニューラルネットワークの生物学的にインスパイアされた特性とイベント駆動計算の利点を活用して、ニューロモルフィックハードウェア上で効率的に実行できるTransformerモデルを設計することを目指している。これにより、データ効率的で低消費電力、リソース節約型の大規模言語モデル推論を実現する。

核心的な貢献

NeuTransformerメソッドの提案:訓練済みTransformerモデルからSNNベースのTransformerを設計するメソッドであり、教師あり微調整を組み合わせてモデル性能を向上させる。
疎なスパイク計算の自己注意機構の設計:従来の自己注意における高消費電力および高遅延の行列乗算とsoftmax操作を、疎なスパイク型計算に置き換える。
大規模SNN-based LLMの実装およびその変種をSNNバージョンに正常に変換し、著者らの知る限りGPT-2 Largeは現在最大のパラメータ数を持つSNNベースのTransformerモデルである。
包括的な性能評価:アプリケーション精度、コサイン類似度、困惑度、ビット/バイトなど複数の次元からモデル性能を評価し、消費電力とスループット性能を分析する。

方法の詳細

タスク定義

訓練済みTransformerモデルを等価なスパイキングニューラルネットワークバージョンに変換し、同時に許容可能な性能損失を維持しながら、顕著な消費電力削減とハードウェア効率の向上を実現する。

モデルアーキテクチャ

1. スパイキングニューロンモデル

固定閾値と調整可能な膜電位減衰特性を有する積分発火(IF)ニューロンを使用する:

S(t) = {
  1,   if Vmem ≥ 1
  -1,  if Vmem ≤ -1  
  0,   otherwise
}

ここでVmemは膜電位、S(t)はニューロンが出力するスパイク活性化である。

2. スパイク型自己注意(SSA)機構

従来の自己注意機構:

ASA(Q,K,V) = softmax(Q·K^T)V

スパイク型自己注意機構:

AttentionScore(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)

主要な革新点:

N-ビット行列乗算をAND操作と累積器に置き換える
ドット積操作を列レベルのHadamard積に置き換える
softmax関数をLIFニューロン活性化に置き換える

3. スパイク型フィードフォワード層の変換

ANN-SNN変換原理に基づき、ReLU活性化を有するフィードフォワード層をIF神経元に変換する:

ReLU関数: ReLU(y) = max(0, y)
IFニューロン: τm ∂Vmem/∂t = -Vmem(t) + R*I(t)

重み正規化:

s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm

NeuTransformer 3段階変換フロー

自己注意ブロックの置き換えをSSAに置き換え、訓練済み重みを保持する
フィードフォワードブロックの変換/GeLUフィードフォワード層をSNN等価バージョンに変換する
SSAブロックの微調整:代理勾配学習アルゴリズムを使用してSSAブロック重みを微調整する

微調整目的関数

ASAおよびSSA注意スコア間の平均二乗誤差を最小化する:

Σ(i=1 to d_model) (ASA_as - SSA_as)²

実験設定

データセット

Shakespeareデータセット:シェイクスピア劇作品テキスト40,000行を含む
OpenWebTextデータセット WebTextデータセットのオープンソース再現版

モデルスケール

GPT-2 Small:117Mパラメータ
GPT-2 Medium:345Mパラメータ
GPT-2 Large:763Mパラメータ

評価指標

文字精度およびSNNが生成する文字の文字単位比較
コサイン類似度:多次元空間における2つの非ゼロベクトル間の角度のコサイン値
困惑度(Perplexity):言語モデルの品質を測定する指標
ビット/バイト(BpB):次のトークンを予測するのに必要な平均ビット数

ハードウェアプラットフォーム

計算リソース:アルゴンヌ国立研究所LCRCのSwing HPCクラスタ
構成:6ノード、ノードあたり2×AMD EPYC 7742プロセッサ、8×NVIDIA A100 GPU
評価プラットフォーム A100 GPUおよびGraphcore IPUプラットフォーム

実験結果

主要な性能結果

モデル	パラメータ数	コサイン類似度	文字精度	ANN困惑度	SNN困惑度
GPT-2-Small	117M	0.88	84.9%	17.11	21.81
GPT-2-Medium	345M	0.83	75.4%	14.43	19.73
GPT-2-Large	763M	0.74	71.8%	12.67	18.10

消費電力分析結果

SSAブロックのASAブロック比較での推定消費電力削減:

GPT-2 Small:85.28%
GPT-2 Medium:85.22%
GPT-2 Large:64.71%

スループット評価

Graphcoreプラットフォーム上では、SNN版は多くの構成でベースラインANNを上回るスループット性能を示し、特に不規則で疎なデータアクセスを処理する際に顕著な利点がある。

主要な発見

スケール効果:モデルスケールが大きくなるにつれて、SNN版の性能損失が段階的に増加する
エネルギー効率の利点:すべてのスケールのモデルが顕著な消費電力削減を実現している
ハードウェア適応性はMIMDプロセッシングアーキテクチャ上で優れた性能を示し、疎なスパイク工作負荷に特に適している

結論と考察

主要な結論

実現可能性の検証シリーズモデルをSNN版に正常に変換し、大規模SNN-based LLMの実現可能性を証明した
性能トレードオフ:許容可能な性能損失下で顕著な消費電力削減を実現した
スケール制限:モデルパラメータが300Mを超える場合、性能低下が許容閾値を超えることが判明した

制限事項

スケールボトルネック:大規模モデルの性能低下問題はまだ解決が必要である
変換精度:フィードフォワードブロックの不完全な変換が全体的な性能に影響する
微調整の制限:代理勾配学習は深いSNNでの制限がある

今後の方向性

大規模SNNの訓練および変換方法の改善
代理勾配学習アルゴリズムの最適化
より効率的なスパイク符号化および復号化戦略の探索
実際のニューロモルフィックハードウェア上での性能検証

深い評価

利点

革新性が強い:大規模SNN-based言語モデルを初めて実装し、技術ルートが新規である
実用価値が高い:顕著な消費電力削減は実際の応用に重要な意義を有する
評価が包括的:複数の次元からモデル性能を評価し、実験設計が厳密である
執筆が明確:技術説明が詳細で、方法論述が明確である

不足点

スケール制限が明白:大規模モデルの性能低下が深刻で、方法の適用性を制限している
理論分析が不足:性能低下の原因に対する深い理論分析が欠けている
ハードウェア検証が限定的:主に推定に基づいており、実際のニューロモルフィックハードウェア上での検証が欠けている
比較実験が不十分:他のSNN-based方法との直接比較が少ない

影響力

学術的貢献在大規模言語モデルへの応用に新しい方向を開拓した
実用的見通し:低消費電力AI推論に新しい技術パスを提供した
再現可能性:方法説明が詳細で、良好な再現可能性を有する

適用シーン

エッジコンピューティング:リソース制限のあるモバイルデバイスおよびIoTシーン
低消費電力推論:消費電力に敏感なアプリケーションシーン
ニューロモルフィック計算:専用のニューロモルフィックハードウェアプラットフォーム

参考文献

論文は本分野の重要な研究を引用しており、以下を含む:

Transformer原論文 (Vaswani et al., 2017)
SNN変換方法の古典的研究 (Rueckauer et al., 2016; Diehl & Cook, 2015)
最近のSNN-based Transformer研究 (Li et al., 2024; Zhou et al., 2023)
代理勾配学習方法 (Eshraghian et al., 2023)

総括:本論文は大規模言語モデルをスパイキングニューラルネットワーク版に変換する革新的な方法を提案し、許容可能な性能を維持しながら顕著な消費電力削減を実現している。スケール制限などの問題が存在するが、低消費電力AI推論およびニューロモルフィック計算分野に価値のある技術的貢献を提供している。