2025-11-17T01:31:12.954580

Large Language Models Inference Engines based on Spiking Neural Networks

Balaji, Madireddy, Balaprakash

Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.

academic

Moteurs d'Inférence de Grands Modèles de Langage basés sur les Réseaux de Neurones Impulsionnels

Informations Fondamentales

ID de l'article : 2510.00133
Titre : Large Language Models Inference Engines based on Spiking Neural Networks
Auteurs : Adarsha Balaji (Argonne National Laboratory), Sandeep Madireddy (Argonne National Laboratory), Prasanna Balaprakash (Oak Ridge National Laboratory)
Classification : cs.LG (Apprentissage Automatique)
Date de Publication : 14 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.00133v3

Résumé

Les modèles fondamentaux basés sur l'architecture Transformer constituent l'état de l'art actuel en modélisation générale du langage ainsi que dans les domaines scientifiques tels que la science des matériaux et la climatologie. Cependant, l'entraînement et le déploiement de ces modèles présentent des défis computationnels majeurs, car leur complexité temporelle et spatiale est quadratique par rapport à la longueur de la séquence d'entrée. Cet article explore l'utilisation des réseaux de neurones impulsionnels (SNNs) pour concevoir des modèles Transformer. Les méthodes d'apprentissage par substitution existantes pour entraîner des SNNs à grande échelle sont inefficaces et chronophages, tandis que les techniques de conversion des modèles Transformer existants en SNNs équivalents manquent de scalabilité. À cet effet, les auteurs proposent la méthode NeuTransformer, qui conçoit des moteurs d'inférence Transformer basés sur SNN par ajustement fin supervisé combiné aux méthodes de conversion existantes. Cette méthode comprend : (1) le remplacement du mécanisme d'auto-attention par une auto-attention basée sur les impulsions (SSA), (2) la conversion des blocs de rétroaction en SNNs équivalents, (3) l'ajustement fin des blocs SSA à l'aide d'algorithmes d'apprentissage par substitution SNN. Les expériences montrent que le petit modèle GPT-2 converti subit une perte de 5-12% en similarité cosinus, une réduction de 9,7% de la perplexité, et les blocs SSA réalisent une réduction de consommation énergétique de 64,71%-85,28% par rapport aux blocs ASA.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Problème de Complexité Computationnelle : Le mécanisme d'auto-attention des modèles Transformer présente une complexité temporelle et spatiale O(n²), où n est la longueur de la séquence, ce qui entraîne une augmentation drastique des exigences de calcul et de mémoire lors du traitement de longues séquences.
Problème de Consommation Énergétique : Les modèles Transformer traditionnels nécessitent des GPUs coûteux ou des accélérateurs personnalisés pour l'entraînement et l'inférence, avec une consommation énergétique considérable.
Difficultés d'Entraînement des SNNs : Les méthodes d'entraînement des SNNs existantes présentent deux limitations principales :
- L'entraînement direct de SNNs à grande échelle utilisant les règles d'apprentissage par rétropropagation est inefficace
- Les méthodes de conversion ANN-SNN nécessitent un grand nombre d'étapes temporelles impulsionnelles pour atteindre les performances optimales, entraînant une augmentation de la latence d'inférence

Motivation de la Recherche

Les auteurs visent à exploiter les caractéristiques inspirées par la biologie et les avantages du calcul événementiel des réseaux de neurones impulsionnels pour concevoir des modèles Transformer pouvant s'exécuter efficacement sur du matériel neuromorphe, réalisant ainsi une inférence de grands modèles de langage efficace en données, à faible consommation énergétique et économe en ressources.

Contributions Fondamentales

Proposition de la Méthode NeuTransformer : Une méthode pour concevoir des Transformers basés sur SNN à partir de modèles Transformer entraînés, combinant l'ajustement fin supervisé pour améliorer les performances du modèle.
Conception d'un Mécanisme d'Auto-Attention avec Calcul Impulsionnel Creux : Remplacement des opérations de multiplication matricielle et softmax à forte consommation énergétique et latence dans l'auto-attention traditionnelle par un calcul creux basé sur les impulsions.
Implémentation de Grands Modèles de Langage basés sur SNN : Conversion réussie de GPT-2 et de ses variantes en versions SNN, GPT-2 Large étant, selon les auteurs, le plus grand modèle Transformer basé sur SNN en termes de nombre de paramètres.
Évaluation Complète des Performances : Évaluation des performances du modèle selon plusieurs dimensions incluant la précision applicative, la similarité cosinus, la perplexité, les bits par octet, ainsi que l'analyse de la consommation énergétique et du débit.

Détails de la Méthode

Définition de la Tâche

Conversion d'un modèle Transformer pré-entraîné en une version équivalente de réseau de neurones impulsionnel, tout en maintenant une perte de performance acceptable et en réalisant une réduction significative de la consommation énergétique et une amélioration de l'efficacité matérielle.

Architecture du Modèle

1. Modèle de Neurone Impulsionnel

Utilisation de neurones d'intégration-décharge (IF) avec seuil fixe et caractéristiques de décroissance du potentiel membranaire ajustables :

S(t) = {
  1,   si Vmem ≥ 1
  -1,  si Vmem ≤ -1  
  0,   autrement
}

où Vmem est le potentiel membranaire et S(t) est l'activation impulsionnelle de sortie du neurone.

2. Mécanisme d'Auto-Attention Impulsionnel (SSA)

Mécanisme d'auto-attention traditionnel :

ASA(Q,K,V) = softmax(Q·K^T)V

Mécanisme d'auto-attention impulsionnel :

AttentionScore(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)

Points clés d'innovation :

Remplacement de la multiplication matricielle N-bits par des opérations AND et des accumulateurs
Remplacement de l'opération de produit scalaire par un produit de Hadamard au niveau des colonnes
Remplacement de la fonction softmax par l'activation de neurone LIF

3. Conversion de la Couche Avant-Arrière Impulsionnelle

Basée sur le principe de conversion ANN-SNN, conversion de la couche avant-arrière avec activation ReLU en neurone IF :

Fonction ReLU : ReLU(y) = max(0, y)
Neurone IF : τm ∂Vmem/∂t = -Vmem(t) + R*I(t)

Normalisation des Poids :

s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm

Processus de Conversion NeuTransformer en Trois Étapes

Remplacement des Blocs d'Auto-Attention : Remplacement d'ASA par SSA, conservation des poids entraînés
Conversion des Blocs Avant-Arrière : Conversion des couches avant-arrière ReLU/GeLU en version SNN équivalente
Ajustement Fin des Blocs SSA : Ajustement fin des poids des blocs SSA à l'aide d'algorithmes d'apprentissage par gradient de substitution

Fonction Objectif d'Ajustement Fin

Minimisation de l'erreur quadratique moyenne entre les scores d'attention ASA et SSA :

Σ(i=1 à d_model) (ASA_as - SSA_as)²

Configuration Expérimentale

Ensembles de Données

Ensemble de Données Shakespeare : Contenant 40 000 lignes de texte de pièces de théâtre de Shakespeare
Ensemble de Données OpenWebText : Version open-source de reproduction de l'ensemble de données OpenAI WebText

Échelles de Modèles

GPT-2 Small : 117M paramètres
GPT-2 Medium : 345M paramètres
GPT-2 Large : 763M paramètres

Indicateurs d'Évaluation

Précision des Caractères : Comparaison caractère par caractère des caractères générés par ANN et SNN
Similarité Cosinus : Cosinus de l'angle entre deux vecteurs non nuls dans un espace multidimensionnel
Perplexité : Indicateur mesurant la qualité d'un modèle de langage
Bits par Octet (BpB) : Nombre moyen de bits nécessaires pour prédire le prochain token

Plateforme Matérielle

Ressources Informatiques : Cluster HPC Swing du LCRC du Laboratoire National d'Argonne
Configuration : 6 nœuds, 2×processeurs AMD EPYC 7742 par nœud, 8×GPUs NVIDIA A100
Plateforme d'Évaluation : GPUs NVIDIA A100 et plateforme Graphcore IPU

Résultats Expérimentaux

Résultats Principaux de Performance

Modèle	Nombre de Paramètres	Similarité Cosinus	Précision des Caractères	Perplexité ANN	Perplexité SNN
GPT-2-Small	117M	0,88	84,9%	17,11	21,81
GPT-2-Medium	345M	0,83	75,4%	14,43	19,73
GPT-2-Large	763M	0,74	71,8%	12,67	18,10

Résultats de l'Analyse Énergétique

Réduction estimée de la consommation énergétique des blocs SSA par rapport aux blocs ASA :

GPT-2 Small : 85,28%
GPT-2 Medium : 85,22%
GPT-2 Large : 64,71%

Évaluation du Débit

Sur la plateforme Graphcore, la version SNN démontre des performances de débit supérieures à la ligne de base ANN dans la plupart des configurations, avec des avantages particulièrement marqués lors du traitement d'accès aux données irréguliers et creux.

Conclusions Clés

Effet d'Échelle : La perte de performance de la version SNN augmente progressivement avec la taille du modèle
Avantages d'Efficacité Énergétique : Tous les modèles de toutes tailles réalisent une réduction significative de la consommation énergétique
Adaptabilité Matérielle : Les SNNs démontrent d'excellentes performances sur les architectures de traitement MIMD, particulièrement adaptées aux charges de travail impulsionnelles creuses

Travaux Connexes

Recherche sur les Transformers basés sur SNN

Spikformer (Li et al., 2024) : Première implémentation réussie de Transformer basé sur SNN pour les tâches de vision
Spikingformer (Zhou et al., 2023) : Version améliorée utilisant des connexions de raccourci pré-activées
SGLFormer (Zhang et al., 2024) : Combinaison de blocs Transformer locaux et globaux

Méthodes de Conversion ANN-SNN

Les travaux antérieurs se concentraient principalement sur les petits réseaux pour les tâches de vision
L'application des méthodes existantes aux grands modèles de langage est limitée

Avantages de cet Article

Par rapport aux méthodes existantes, NeuTransformer évite les frais computationnels de l'entraînement de SNNs à partir de zéro, réalisant la construction de grands modèles de langage basés sur SNN par une stratégie de conversion et d'ajustement fin.

Conclusions et Discussion

Conclusions Principales

Vérification de Faisabilité : Conversion réussie de la série de modèles GPT-2 en versions SNN, prouvant la faisabilité des grands modèles de langage basés sur SNN
Compromis de Performance : Réalisation d'une réduction significative de la consommation énergétique avec une perte de performance acceptable
Limitations d'Échelle : Découverte que lorsque les paramètres du modèle dépassent 300M, la dégradation des performances dépasse les seuils acceptables

Limitations

Goulot d'Étranglement d'Échelle : Le problème de dégradation des performances des modèles à grande échelle nécessite toujours une solution
Précision de Conversion : La conversion imparfaite des blocs avant-arrière affecte les performances globales
Limitations d'Ajustement Fin : Limitations de l'apprentissage par gradient de substitution sur les SNNs profonds

Directions Futures

Amélioration des méthodes d'entraînement et de conversion des SNNs à grande échelle
Optimisation des algorithmes d'apprentissage par gradient de substitution
Exploration de stratégies d'encodage et de décodage impulsionnel plus efficaces
Vérification des performances sur du matériel neuromorphe réel

Évaluation Approfondie

Points Forts

Innovation Forte : Première implémentation d'un modèle de langage basé sur SNN à grande échelle, approche technique novatrice
Valeur Pratique Élevée : La réduction significative de la consommation énergétique revêt une importance majeure pour les applications pratiques
Évaluation Complète : Évaluation des performances du modèle selon plusieurs dimensions, conception expérimentale rigoureuse
Rédaction Claire : Description technique détaillée, exposition méthodologique claire

Insuffisances

Limitations d'Échelle Évidentes : Dégradation sévère des performances des grands modèles, limitant l'applicabilité de la méthode
Analyse Théorique Insuffisante : Manque d'analyse théorique approfondie des causes de la dégradation des performances
Vérification Matérielle Limitée : Principalement basée sur des estimations, manque de vérification sur du matériel neuromorphe réel
Expériences Comparatives Insuffisantes : Comparaisons directes limitées avec d'autres méthodes basées sur SNN

Impact

Contribution Académique : Ouverture d'une nouvelle direction pour l'application des SNNs aux grands modèles de langage
Perspectives Pratiques : Fourniture d'une nouvelle voie technologique pour l'inférence d'IA à faible puissance
Reproductibilité : Description détaillée de la méthode, bonne reproductibilité

Scénarios Applicables

Informatique de Périphérie : Scénarios de dispositifs mobiles et IoT aux ressources limitées
Inférence à Faible Puissance : Scénarios d'applications sensibles à la consommation énergétique
Calcul Neuromorphe : Plateformes matérielles neuromorphes spécialisées

Références

L'article cite les travaux importants du domaine, notamment :

Article original sur Transformer (Vaswani et al., 2017)
Travaux classiques sur les méthodes de conversion SNN (Rueckauer et al., 2016 ; Diehl & Cook, 2015)
Recherches récentes sur les Transformers basés sur SNN (Li et al., 2024 ; Zhou et al., 2023)
Méthodes d'apprentissage par gradient de substitution (Eshraghian et al., 2023)

Résumé : Cet article propose une méthode innovante pour convertir des grands modèles de langage en versions de réseaux de neurones impulsionnels, réalisant une réduction significative de la consommation énergétique tout en maintenant une performance acceptable. Malgré des problèmes tels que les limitations d'échelle, il fournit une contribution technologique précieuse aux domaines de l'inférence d'IA à faible puissance et du calcul neuromorphe.