2025-11-17T01:31:12.954580

Large Language Models Inference Engines based on Spiking Neural Networks

Balaji, Madireddy, Balaprakash
Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.
academic

Motori di Inferenza per Modelli Linguistici di Grandi Dimensioni basati su Reti Neurali Spike

Informazioni Fondamentali

  • ID Articolo: 2510.00133
  • Titolo: Large Language Models Inference Engines based on Spiking Neural Networks
  • Autori: Adarsha Balaji (Argonne National Laboratory), Sandeep Madireddy (Argonne National Laboratory), Prasanna Balaprakash (Oak Ridge National Laboratory)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.00133v3

Riassunto

I modelli fondamentali basati sull'architettura Transformer rappresentano lo stato dell'arte attuale nella modellazione linguistica generale e in diversi campi scientifici come la scienza dei materiali e la climatologia. Tuttavia, l'addestramento e la distribuzione di questi modelli presentano sfide computazionali significative, poiché la loro complessità temporale e spaziale è quadratica rispetto alla lunghezza della sequenza di input. Questo articolo esplora l'utilizzo di reti neurali spike (SNN) per progettare modelli Transformer. I metodi di apprendimento per proxy esistenti per l'addestramento di SNN su larga scala sono inefficienti e dispendiosi in termini di tempo, mentre le tecniche per convertire modelli Transformer esistenti in SNN equivalenti mancano di scalabilità. A tal fine, gli autori propongono il metodo NeuTransformer, che progetta motori di inferenza Transformer basati su SNN attraverso il fine-tuning supervisionato combinato con metodi di conversione esistenti. Il metodo comprende: (1) la sostituzione del meccanismo di auto-attenzione con auto-attenzione basata su spike (SSA), (2) la conversione dei blocchi feed-forward in SNN equivalenti, (3) il fine-tuning dei blocchi SSA utilizzando algoritmi di apprendimento per proxy SNN. Gli esperimenti dimostrano che il modello GPT-2 piccolo convertito subisce una perdita del 5-12% in similarità del coseno, una riduzione della perplessità del 9,7%, e i blocchi SSA raggiungono una riduzione del consumo energetico del 64,71%-85,28% rispetto ai blocchi ASA.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Problema della Complessità Computazionale: Il meccanismo di auto-attenzione nei modelli Transformer presenta una complessità temporale e spaziale di O(n²), dove n è la lunghezza della sequenza. Questo causa un aumento drastico dei requisiti computazionali e di memoria nel trattamento di sequenze lunghe.
  2. Problema del Consumo Energetico: I modelli Transformer tradizionali richiedono GPU costosi o acceleratori personalizzati per l'addestramento e l'inferenza, con un consumo energetico enorme.
  3. Difficoltà nell'Addestramento di SNN: I metodi di addestramento SNN esistenti presentano due limitazioni principali:
    • L'addestramento diretto di SNN su larga scala utilizzando regole di apprendimento di retropropagazione è inefficiente
    • I metodi di conversione ANN-SNN richiedono un gran numero di passi temporali spike per raggiungere prestazioni ottimali, causando un aumento della latenza di inferenza

Motivazione della Ricerca

Gli autori mirano a sfruttare le caratteristiche ispirate biologicamente delle reti neurali spike e i vantaggi del calcolo guidato da eventi per progettare modelli Transformer che possono essere eseguiti efficientemente su hardware neuromorfo, realizzando così modelli linguistici di grandi dimensioni efficienti in termini di dati, a basso consumo energetico e parsimoniosi nelle risorse per l'inferenza.

Contributi Fondamentali

  1. Proposta del Metodo NeuTransformer: Un metodo per progettare Transformer basati su SNN da modelli Transformer addestrati, combinando il fine-tuning supervisionato per migliorare le prestazioni del modello.
  2. Progettazione di Meccanismo di Auto-Attenzione con Calcolo Spike Sparso: Sostituzione del calcolo tradizionale di auto-attenzione con moltiplicazioni matriciali e operazioni softmax ad alta latenza e consumo energetico con calcolo sparso basato su spike.
  3. Implementazione di LLM basato su SNN su Larga Scala: Conversione riuscita di GPT-2 e delle sue varianti in versioni SNN. Secondo gli autori, GPT-2 Large è il modello Transformer basato su SNN con il maggior numero di parametri fino ad oggi.
  4. Valutazione Completa delle Prestazioni: Valutazione delle prestazioni del modello da molteplici dimensioni incluse accuratezza applicativa, similarità del coseno, perplessità, bit per byte, e analisi delle prestazioni di consumo energetico e throughput.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Convertire un modello Transformer pre-addestrato in una versione equivalente di rete neurale spike, mantenendo al contempo una perdita di prestazioni accettabile e realizzando una riduzione significativa del consumo energetico e un miglioramento dell'efficienza hardware.

Architettura del Modello

1. Modello di Neurone Spike

Utilizzo di neuroni integrate-and-fire (IF) con soglia fissa e caratteristiche di decadimento del potenziale di membrana regolabili:

S(t) = {
  1,   se Vmem ≥ 1
  -1,  se Vmem ≤ -1  
  0,   altrimenti
}

Dove Vmem è il potenziale di membrana e S(t) è l'attivazione spike dell'output del neurone.

2. Meccanismo di Auto-Attenzione Spike (SSA)

Meccanismo di auto-attenzione tradizionale:

ASA(Q,K,V) = softmax(Q·K^T)V

Meccanismo di auto-attenzione spike:

AttentionScore(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)

Punti di innovazione chiave:

  • Sostituzione della moltiplicazione matriciale a N bit con operazioni AND e accumulatori
  • Sostituzione dell'operazione di prodotto scalare con prodotto di Hadamard a livello di colonna
  • Sostituzione della funzione softmax con attivazione di neurone LIF

3. Conversione del Livello Feed-Forward Spike

Basato sui principi di conversione ANN-SNN, conversione del livello feed-forward con attivazione ReLU in neuroni IF:

  • Funzione ReLU: ReLU(y) = max(0, y)
  • Neurone IF: τm ∂Vmem/∂t = -Vmem(t) + R*I(t)

Normalizzazione dei Pesi:

s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm

Processo di Conversione NeuTransformer in Tre Fasi

  1. Sostituzione del Blocco di Auto-Attenzione: Sostituzione di ASA con SSA, mantenimento dei pesi addestrati
  2. Conversione del Blocco Feed-Forward: Conversione del livello feed-forward ReLU/GeLU in versione SNN equivalente
  3. Fine-Tuning del Blocco SSA: Fine-tuning dei pesi del blocco SSA utilizzando algoritmo di apprendimento con gradiente per proxy

Funzione Obiettivo di Fine-Tuning

Minimizzazione dell'errore quadratico medio tra i punteggi di attenzione ASA e SSA:

Σ(i=1 to d_model) (ASA_as - SSA_as)²

Configurazione Sperimentale

Dataset

  • Dataset Shakespeare: Contiene 40.000 righe di testo di drammi shakespeariani
  • Dataset OpenWebText: Versione open-source della riproduzione del dataset OpenAI WebText

Scala del Modello

  • GPT-2 Small: 117M parametri
  • GPT-2 Medium: 345M parametri
  • GPT-2 Large: 763M parametri

Metriche di Valutazione

  • Accuratezza dei Caratteri: Confronto carattere per carattere tra i caratteri generati da ANN e SNN
  • Similarità del Coseno: Valore del coseno dell'angolo tra due vettori non nulli nello spazio multidimensionale
  • Perplessità: Metrica per misurare la qualità di un modello linguistico
  • Bit per Byte (BpB): Numero medio di bit necessari per prevedere il token successivo

Piattaforma Hardware

  • Risorse Computazionali: Cluster HPC Swing presso l'LCRC del Laboratorio Nazionale di Argonne
  • Configurazione: 6 nodi, 2×processori AMD EPYC 7742 per nodo, 8×GPU NVIDIA A100
  • Piattaforma di Valutazione: GPU NVIDIA A100 e piattaforma Graphcore IPU

Risultati Sperimentali

Risultati Principali delle Prestazioni

ModelloParametriSimilarità del CosenoAccuratezza dei CaratteriPerplessità ANNPerplessità SNN
GPT-2-Small117M0.8884.9%17.1121.81
GPT-2-Medium345M0.8375.4%14.4319.73
GPT-2-Large763M0.7471.8%12.6718.10

Risultati dell'Analisi del Consumo Energetico

Riduzione stimata del consumo energetico del blocco SSA rispetto al blocco ASA:

  • GPT-2 Small: 85.28%
  • GPT-2 Medium: 85.22%
  • GPT-2 Large: 64.71%

Valutazione del Throughput

Sulla piattaforma Graphcore, la versione SNN mostra prestazioni di throughput superiori alla baseline ANN nella maggior parte delle configurazioni, con vantaggi particolarmente evidenti nel trattamento di accessi ai dati irregolari e sparsi.

Scoperte Chiave

  1. Effetto di Scala: Con l'aumento della scala del modello, la perdita di prestazioni della versione SNN aumenta gradualmente
  2. Vantaggi di Efficienza Energetica: Tutti i modelli di tutte le scale realizzano una riduzione significativa del consumo energetico
  3. Adattabilità Hardware: Le SNN mostrano prestazioni eccellenti su architetture di elaborazione MIMD, particolarmente adatte ai carichi di lavoro spike sparsi

Lavori Correlati

Ricerca su Transformer basati su SNN

  • Spikformer (Li et al., 2024): Primo Transformer basato su SNN implementato con successo su compiti di visione
  • Spikingformer (Zhou et al., 2023): Versione migliorata con connessioni di scorciatoia pre-attivate
  • SGLFormer (Zhang et al., 2024): Combinazione di blocchi Transformer locali e globali

Metodi di Conversione ANN-SNN

  • I lavori iniziali si concentravano principalmente su reti di piccola scala per compiti di visione
  • L'applicazione dei metodi esistenti ai modelli linguistici di grandi dimensioni è limitata

Vantaggi di Questo Lavoro

Rispetto ai metodi esistenti, NeuTransformer evita il costo computazionale dell'addestramento da zero di SNN, realizzando la costruzione di LLM basati su SNN su larga scala attraverso una strategia di conversione più fine-tuning.

Conclusioni e Discussione

Conclusioni Principali

  1. Verifica della Fattibilità: Conversione riuscita della serie GPT-2 in versioni SNN, dimostrando la fattibilità di LLM basati su SNN su larga scala
  2. Compromesso di Prestazioni: Realizzazione di una riduzione significativa del consumo energetico con una perdita di prestazioni accettabile
  3. Limitazioni di Scala: Scoperta che quando i parametri del modello superano i 300M, il degrado delle prestazioni supera la soglia accettabile

Limitazioni

  1. Collo di Bottiglia di Scala: Il problema del degrado delle prestazioni nei modelli su larga scala richiede ancora una soluzione
  2. Precisione di Conversione: La conversione imperfetta dei blocchi feed-forward influisce sulle prestazioni complessive
  3. Limitazioni di Fine-Tuning: Limitazioni dell'apprendimento con gradiente per proxy su SNN profonde

Direzioni Future

  1. Miglioramento dei metodi di addestramento e conversione di SNN su larga scala
  2. Ottimizzazione degli algoritmi di apprendimento con gradiente per proxy
  3. Esplorazione di strategie di codifica e decodifica spike più efficienti
  4. Verifica delle prestazioni su hardware neuromorfo reale

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima implementazione di modelli linguistici basati su SNN su larga scala, con percorso tecnico innovativo
  2. Alto Valore Pratico: La riduzione significativa del consumo energetico ha importanza cruciale per applicazioni pratiche
  3. Valutazione Completa: Valutazione delle prestazioni del modello da molteplici dimensioni con progettazione sperimentale rigorosa
  4. Scrittura Chiara: Descrizione tecnica dettagliata e esposizione metodologica chiara

Insufficienze

  1. Limitazioni di Scala Evidenti: Grave degrado delle prestazioni nei modelli di grandi dimensioni, limitando l'applicabilità del metodo
  2. Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita delle cause del degrado delle prestazioni
  3. Verifica Hardware Limitata: Principalmente basata su stime, con verifica limitata su hardware neuromorfo reale
  4. Esperimenti Comparativi Insufficienti: Confronti diretti limitati con altri metodi basati su SNN

Impatto

  1. Contributo Accademico: Apre una nuova direzione per l'applicazione di SNN nei modelli linguistici su larga scala
  2. Prospettive Pratiche: Fornisce un nuovo percorso tecnologico per l'inferenza AI a basso consumo energetico
  3. Riproducibilità: La descrizione dettagliata del metodo garantisce una buona riproducibilità

Scenari Applicabili

  1. Calcolo Edge: Scenari su dispositivi mobili e IoT con risorse limitate
  2. Inferenza a Basso Consumo Energetico: Scenari applicativi sensibili al consumo energetico
  3. Calcolo Neuromorfo: Piattaforme hardware neuromorfe specializzate

Bibliografia

L'articolo cita importanti lavori in questo campo, inclusi:

  • Articolo originale su Transformer (Vaswani et al., 2017)
  • Lavori classici sui metodi di conversione SNN (Rueckauer et al., 2016; Diehl & Cook, 2015)
  • Ricerca recente su Transformer basati su SNN (Li et al., 2024; Zhou et al., 2023)
  • Metodi di apprendimento con gradiente per proxy (Eshraghian et al., 2023)

Sintesi: Questo articolo propone un metodo innovativo per convertire modelli linguistici di grandi dimensioni in versioni di reti neurali spike, realizzando una riduzione significativa del consumo energetico mantenendo prestazioni accettabili. Sebbene presenti limitazioni di scala, fornisce contributi tecnologici preziosi nei campi dell'inferenza AI a basso consumo energetico e del calcolo neuromorfo.