2025-11-17T01:31:12.954580

Large Language Models Inference Engines based on Spiking Neural Networks

Balaji, Madireddy, Balaprakash
Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.
academic

Motores de Inferencia de Modelos de Lenguaje Grande basados en Redes Neuronales de Picos

Información Básica

  • ID del Artículo: 2510.00133
  • Título: Large Language Models Inference Engines based on Spiking Neural Networks
  • Autores: Adarsha Balaji (Argonne National Laboratory), Sandeep Madireddy (Argonne National Laboratory), Prasanna Balaprakash (Oak Ridge National Laboratory)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.00133v3

Resumen

Los modelos fundamentales basados en la arquitectura Transformer constituyen la tecnología de vanguardia actual en modelado de lenguaje general y en campos científicos como la ciencia de materiales y la ciencia del clima. Sin embargo, el entrenamiento e implementación de estos modelos presenta desafíos computacionales significativos, ya que su complejidad temporal y espacial mantiene una relación cuadrática con la longitud de la secuencia de entrada. Este artículo explora el uso de redes neuronales de picos (SNNs) para diseñar modelos Transformer. Los métodos de aprendizaje por sustitución existentes entrenan SNNs a gran escala de manera ineficiente y requieren mucho tiempo, mientras que las técnicas para convertir modelos Transformer existentes en SNNs equivalentes carecen de escalabilidad. Para abordar esto, los autores proponen el método NeuTransformer, que diseña motores de inferencia Transformer basados en SNN mediante ajuste fino supervisado combinado con métodos de conversión existentes. El método incluye: (1) reemplazar el mecanismo de autoatención con autoatención basada en picos (SSA), (2) convertir bloques de alimentación hacia adelante en SNNs equivalentes, (3) ajustar bloques SSA mediante algoritmos de aprendizaje por sustitución de SNN. Los experimentos demuestran que el modelo GPT-2 pequeño convertido experimenta una pérdida de similitud de coseno del 5-12%, una reducción de perplejidad del 9,7%, y los bloques SSA logran una reducción de consumo energético del 64,71%-85,28% en comparación con bloques ASA.

Antecedentes de Investigación y Motivación

Problemas Centrales

  1. Problema de Complejidad Computacional: El mecanismo de autoatención del modelo Transformer posee una complejidad temporal y espacial de O(n²), donde n es la longitud de la secuencia. Esto causa un aumento drástico en los requisitos computacionales y de memoria al procesar secuencias largas.
  2. Problema de Consumo Energético: Los modelos Transformer tradicionales requieren GPUs costosas o aceleradores personalizados para entrenamiento e inferencia, con un consumo energético considerable.
  3. Dificultades en el Entrenamiento de SNNs: Los métodos de entrenamiento de SNN existentes presentan dos limitaciones principales:
    • El entrenamiento directo de SNNs a gran escala utilizando reglas de aprendizaje de retropropagación es ineficiente
    • Los métodos de conversión ANN-SNN requieren un gran número de pasos de tiempo de picos para lograr rendimiento óptimo, lo que aumenta la latencia de inferencia

Motivación de la Investigación

Los autores buscan aprovechar las características inspiradas biológicamente de las redes neuronales de picos y las ventajas del cálculo dirigido por eventos para diseñar modelos Transformer que se ejecuten eficientemente en hardware neuromorfo, logrando así inferencia de modelos de lenguaje grande que sea eficiente en datos, de bajo consumo energético y que conserve recursos.

Contribuciones Principales

  1. Propuesta del Método NeuTransformer: Un método para diseñar Transformers basados en SNN a partir de modelos Transformer entrenados, combinando ajuste fino supervisado para mejorar el rendimiento del modelo.
  2. Diseño de Mecanismo de Autoatención con Cálculo de Picos Disperso: Reemplazar los cálculos tradicionales de autoatención con computación dispersa basada en picos, sustituyendo las operaciones de multiplicación matricial y softmax de alto consumo energético y latencia.
  3. Implementación de LLM Basado en SNN a Gran Escala: Conversión exitosa de GPT-2 y sus variantes a versiones SNN. Según los autores, GPT-2 Large es el modelo Transformer basado en SNN con mayor cantidad de parámetros hasta la fecha.
  4. Evaluación Integral del Rendimiento: Evaluación del rendimiento del modelo desde múltiples dimensiones incluyendo precisión de aplicación, similitud de coseno, perplejidad, bits por byte, y análisis de consumo energético y rendimiento de throughput.

Explicación Detallada del Método

Definición de la Tarea

Convertir un modelo Transformer preentrenado a una versión equivalente de red neuronal de picos, manteniendo una pérdida de rendimiento aceptable mientras se logra una reducción significativa del consumo energético y una mejora en la eficiencia del hardware.

Arquitectura del Modelo

1. Modelo de Neurona de Picos

Se utiliza una neurona de integración-disparo (IF) con umbral fijo y características de atenuación de potencial de membrana ajustables:

S(t) = {
  1,   si Vmem ≥ 1
  -1,  si Vmem ≤ -1  
  0,   en caso contrario
}

Donde Vmem es el potencial de membrana y S(t) es la activación de picos de salida de la neurona.

2. Mecanismo de Autoatención de Picos (SSA)

Mecanismo de autoatención tradicional:

ASA(Q,K,V) = softmax(Q·K^T)V

Mecanismo de autoatención de picos:

PuntuaciónAtención(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)

Puntos clave de innovación:

  • Reemplazar multiplicación matricial de N bits con operaciones AND y acumuladores
  • Reemplazar operaciones de producto punto con producto Hadamard a nivel de columna
  • Reemplazar función softmax con activación de neurona LIF

3. Conversión de Capa de Alimentación Hacia Adelante de Picos

Basado en principios de conversión ANN-SNN, convertir capas de alimentación hacia adelante con activación ReLU a neuronas IF:

  • Función ReLU: ReLU(y) = max(0, y)
  • Neurona IF: τm ∂Vmem/∂t = -Vmem(t) + R*I(t)

Normalización de Pesos:

s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm

Proceso de Conversión NeuTransformer en Tres Pasos

  1. Reemplazar Bloques de Autoatención: Reemplazar ASA con SSA, manteniendo los pesos entrenados
  2. Convertir Bloques de Alimentación Hacia Adelante: Convertir capas de alimentación hacia adelante ReLU/GeLU a versiones equivalentes de SNN
  3. Ajuste Fino de Bloques SSA: Ajustar los pesos de bloques SSA utilizando algoritmos de aprendizaje de gradiente sustituto

Función Objetivo de Ajuste Fino

Minimizar el error cuadrático medio entre puntuaciones de atención ASA y SSA:

Σ(i=1 a d_model) (ASA_as - SSA_as)²

Configuración Experimental

Conjuntos de Datos

  • Conjunto de Datos Shakespeare: Contiene 40,000 líneas de texto de obras de teatro de Shakespeare
  • Conjunto de Datos OpenWebText: Versión de código abierto del conjunto de datos OpenAI WebText

Escala de Modelos

  • GPT-2 Small: 117M parámetros
  • GPT-2 Medium: 345M parámetros
  • GPT-2 Large: 763M parámetros

Métricas de Evaluación

  • Precisión de Caracteres: Comparación carácter por carácter de caracteres generados por ANN y SNN
  • Similitud de Coseno: Valor del coseno del ángulo entre dos vectores no nulos en espacio multidimensional
  • Perplejidad: Métrica que mide la calidad de un modelo de lenguaje
  • Bits por Byte (BpB): Número promedio de bits requeridos para predecir el siguiente token

Plataforma de Hardware

  • Recursos Computacionales: Clúster HPC Swing del LCRC del Laboratorio Nacional de Argonne
  • Configuración: 6 nodos, 2×procesadores AMD EPYC 7742 por nodo, 8×GPUs NVIDIA A100
  • Plataforma de Evaluación: GPU NVIDIA A100 y plataforma Graphcore IPU

Resultados Experimentales

Resultados Principales de Rendimiento

ModeloParámetrosSimilitud de CosenoPrecisión de CaracteresPerplejidad ANNPerplejidad SNN
GPT-2-Small117M0,8884,9%17,1121,81
GPT-2-Medium345M0,8375,4%14,4319,73
GPT-2-Large763M0,7471,8%12,6718,10

Resultados del Análisis de Consumo Energético

Reducción de consumo energético estimado de bloques SSA en comparación con bloques ASA:

  • GPT-2 Small: 85,28%
  • GPT-2 Medium: 85,22%
  • GPT-2 Large: 64,71%

Evaluación de Rendimiento

En la plataforma Graphcore, la versión SNN muestra rendimiento de throughput superior al ANN de referencia en la mayoría de configuraciones, con ventajas particularmente evidentes al procesar acceso a datos irregular y disperso.

Hallazgos Clave

  1. Efecto de Escala: La pérdida de rendimiento de la versión SNN aumenta gradualmente con el tamaño del modelo
  2. Ventaja de Eficiencia Energética: Todos los modelos de diferentes escalas logran una reducción significativa del consumo energético
  3. Adaptabilidad de Hardware: Los SNNs muestran excelente rendimiento en arquitecturas de procesamiento MIMD, siendo particularmente adecuados para cargas de trabajo de picos dispersos

Trabajo Relacionado

Investigación de Transformer Basado en SNN

  • Spikformer (Li et al., 2024): Primera implementación de Transformer basado en SNN en tareas de visión
  • Spikingformer (Zhou et al., 2023): Versión mejorada utilizando conexiones de atajo con preactivación
  • SGLFormer (Zhang et al., 2024): Combinación de bloques Transformer locales y globales

Métodos de Conversión ANN-SNN

  • Los trabajos anteriores se enfocaban principalmente en redes pequeñas para tareas de visión
  • La aplicación de métodos existentes en modelos de lenguaje grande está limitada

Ventajas de Este Trabajo

En comparación con métodos existentes, NeuTransformer evita el costo computacional del entrenamiento de SNN desde cero, logrando la construcción de LLM basado en SNN a gran escala mediante una estrategia de conversión más ajuste fino.

Conclusiones y Discusión

Conclusiones Principales

  1. Verificación de Viabilidad: Conversión exitosa de modelos de la serie GPT-2 a versiones SNN, demostrando la viabilidad de LLM basado en SNN a gran escala
  2. Compensación de Rendimiento: Lograr una reducción significativa del consumo energético con una pérdida de rendimiento aceptable
  3. Limitación de Escala: Se descubre que cuando los parámetros del modelo superan 300M, la degradación del rendimiento excede los umbrales aceptables

Limitaciones

  1. Cuello de Botella de Escala: El problema de degradación del rendimiento en modelos a gran escala aún requiere solución
  2. Precisión de Conversión: La conversión imperfecta de bloques de alimentación hacia adelante afecta el rendimiento general
  3. Limitaciones de Ajuste Fino: Limitaciones del aprendizaje de gradiente sustituto en SNNs profundos

Direcciones Futuras

  1. Mejorar métodos de entrenamiento y conversión de SNNs a gran escala
  2. Optimizar algoritmos de aprendizaje de gradiente sustituto
  3. Explorar estrategias más eficientes de codificación y decodificación de picos
  4. Validar el rendimiento en hardware neuromorfo real

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera implementación de modelo de lenguaje basado en SNN a gran escala, con ruta técnica novedosa
  2. Alto Valor Práctico: La reducción significativa del consumo energético tiene importancia considerable para aplicaciones prácticas
  3. Evaluación Integral: Evaluación del rendimiento del modelo desde múltiples dimensiones con diseño experimental riguroso
  4. Escritura Clara: Descripción técnica detallada y exposición metodológica clara

Deficiencias

  1. Limitación de Escala Evidente: Degradación severa del rendimiento en modelos grandes, limitando la aplicabilidad del método
  2. Análisis Teórico Insuficiente: Falta análisis teórico profundo sobre las causas de la degradación del rendimiento
  3. Validación de Hardware Limitada: Principalmente basado en estimaciones, carece de validación en hardware neuromorfo real
  4. Experimentos Comparativos Insuficientes: Comparación directa limitada con otros métodos basados en SNN

Impacto

  1. Contribución Académica: Abre una nueva dirección para la aplicación de SNNs en modelos de lenguaje a gran escala
  2. Perspectiva Práctica: Proporciona una nueva ruta tecnológica para inferencia de IA de bajo consumo energético
  3. Reproducibilidad: Descripción detallada del método con buena reproducibilidad

Escenarios de Aplicación

  1. Computación de Borde: Dispositivos móviles y escenarios IoT con recursos limitados
  2. Inferencia de Bajo Consumo Energético: Escenarios de aplicación sensibles al consumo energético
  3. Computación Neuromorfa: Plataformas de hardware neuromorfo especializadas

Referencias

El artículo cita trabajos importantes en el campo, incluyendo:

  • Artículo original de Transformer (Vaswani et al., 2017)
  • Trabajos clásicos en métodos de conversión SNN (Rueckauer et al., 2016; Diehl & Cook, 2015)
  • Investigación reciente en Transformer basado en SNN (Li et al., 2024; Zhou et al., 2023)
  • Métodos de aprendizaje de gradiente sustituto (Eshraghian et al., 2023)

Resumen: Este artículo propone un método innovador para convertir modelos de lenguaje grande a versiones de redes neuronales de picos, logrando una reducción significativa del consumo energético mientras se mantiene un rendimiento aceptable. Aunque existen problemas como limitaciones de escala, proporciona contribuciones técnicas valiosas para los campos de inferencia de IA de bajo consumo energético y computación neuromorfa.