Large Language Models Inference Engines based on Spiking Neural Networks
Balaji, Madireddy, Balaprakash
Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.
academic
Motores de Inferencia de Modelos de Lenguaje Grande basados en Redes Neuronales de Picos
Los modelos fundamentales basados en la arquitectura Transformer constituyen la tecnología de vanguardia actual en modelado de lenguaje general y en campos científicos como la ciencia de materiales y la ciencia del clima. Sin embargo, el entrenamiento e implementación de estos modelos presenta desafíos computacionales significativos, ya que su complejidad temporal y espacial mantiene una relación cuadrática con la longitud de la secuencia de entrada. Este artículo explora el uso de redes neuronales de picos (SNNs) para diseñar modelos Transformer. Los métodos de aprendizaje por sustitución existentes entrenan SNNs a gran escala de manera ineficiente y requieren mucho tiempo, mientras que las técnicas para convertir modelos Transformer existentes en SNNs equivalentes carecen de escalabilidad. Para abordar esto, los autores proponen el método NeuTransformer, que diseña motores de inferencia Transformer basados en SNN mediante ajuste fino supervisado combinado con métodos de conversión existentes. El método incluye: (1) reemplazar el mecanismo de autoatención con autoatención basada en picos (SSA), (2) convertir bloques de alimentación hacia adelante en SNNs equivalentes, (3) ajustar bloques SSA mediante algoritmos de aprendizaje por sustitución de SNN. Los experimentos demuestran que el modelo GPT-2 pequeño convertido experimenta una pérdida de similitud de coseno del 5-12%, una reducción de perplejidad del 9,7%, y los bloques SSA logran una reducción de consumo energético del 64,71%-85,28% en comparación con bloques ASA.
Problema de Complejidad Computacional: El mecanismo de autoatención del modelo Transformer posee una complejidad temporal y espacial de O(n²), donde n es la longitud de la secuencia. Esto causa un aumento drástico en los requisitos computacionales y de memoria al procesar secuencias largas.
Problema de Consumo Energético: Los modelos Transformer tradicionales requieren GPUs costosas o aceleradores personalizados para entrenamiento e inferencia, con un consumo energético considerable.
Dificultades en el Entrenamiento de SNNs: Los métodos de entrenamiento de SNN existentes presentan dos limitaciones principales:
El entrenamiento directo de SNNs a gran escala utilizando reglas de aprendizaje de retropropagación es ineficiente
Los métodos de conversión ANN-SNN requieren un gran número de pasos de tiempo de picos para lograr rendimiento óptimo, lo que aumenta la latencia de inferencia
Los autores buscan aprovechar las características inspiradas biológicamente de las redes neuronales de picos y las ventajas del cálculo dirigido por eventos para diseñar modelos Transformer que se ejecuten eficientemente en hardware neuromorfo, logrando así inferencia de modelos de lenguaje grande que sea eficiente en datos, de bajo consumo energético y que conserve recursos.
Propuesta del Método NeuTransformer: Un método para diseñar Transformers basados en SNN a partir de modelos Transformer entrenados, combinando ajuste fino supervisado para mejorar el rendimiento del modelo.
Diseño de Mecanismo de Autoatención con Cálculo de Picos Disperso: Reemplazar los cálculos tradicionales de autoatención con computación dispersa basada en picos, sustituyendo las operaciones de multiplicación matricial y softmax de alto consumo energético y latencia.
Implementación de LLM Basado en SNN a Gran Escala: Conversión exitosa de GPT-2 y sus variantes a versiones SNN. Según los autores, GPT-2 Large es el modelo Transformer basado en SNN con mayor cantidad de parámetros hasta la fecha.
Evaluación Integral del Rendimiento: Evaluación del rendimiento del modelo desde múltiples dimensiones incluyendo precisión de aplicación, similitud de coseno, perplejidad, bits por byte, y análisis de consumo energético y rendimiento de throughput.
Convertir un modelo Transformer preentrenado a una versión equivalente de red neuronal de picos, manteniendo una pérdida de rendimiento aceptable mientras se logra una reducción significativa del consumo energético y una mejora en la eficiencia del hardware.
En la plataforma Graphcore, la versión SNN muestra rendimiento de throughput superior al ANN de referencia en la mayoría de configuraciones, con ventajas particularmente evidentes al procesar acceso a datos irregular y disperso.
Efecto de Escala: La pérdida de rendimiento de la versión SNN aumenta gradualmente con el tamaño del modelo
Ventaja de Eficiencia Energética: Todos los modelos de diferentes escalas logran una reducción significativa del consumo energético
Adaptabilidad de Hardware: Los SNNs muestran excelente rendimiento en arquitecturas de procesamiento MIMD, siendo particularmente adecuados para cargas de trabajo de picos dispersos
En comparación con métodos existentes, NeuTransformer evita el costo computacional del entrenamiento de SNN desde cero, logrando la construcción de LLM basado en SNN a gran escala mediante una estrategia de conversión más ajuste fino.
Verificación de Viabilidad: Conversión exitosa de modelos de la serie GPT-2 a versiones SNN, demostrando la viabilidad de LLM basado en SNN a gran escala
Compensación de Rendimiento: Lograr una reducción significativa del consumo energético con una pérdida de rendimiento aceptable
Limitación de Escala: Se descubre que cuando los parámetros del modelo superan 300M, la degradación del rendimiento excede los umbrales aceptables
El artículo cita trabajos importantes en el campo, incluyendo:
Artículo original de Transformer (Vaswani et al., 2017)
Trabajos clásicos en métodos de conversión SNN (Rueckauer et al., 2016; Diehl & Cook, 2015)
Investigación reciente en Transformer basado en SNN (Li et al., 2024; Zhou et al., 2023)
Métodos de aprendizaje de gradiente sustituto (Eshraghian et al., 2023)
Resumen: Este artículo propone un método innovador para convertir modelos de lenguaje grande a versiones de redes neuronales de picos, logrando una reducción significativa del consumo energético mientras se mantiene un rendimiento aceptable. Aunque existen problemas como limitaciones de escala, proporciona contribuciones técnicas valiosas para los campos de inferencia de IA de bajo consumo energético y computación neuromorfa.