2025-11-17T01:31:12.954580

Large Language Models Inference Engines based on Spiking Neural Networks

Balaji, Madireddy, Balaprakash
Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.
academic

स्पाइकिंग न्यूरल नेटवर्क पर आधारित बड़े भाषा मॉडल अनुमान इंजन

मूल जानकारी

  • पेपर ID: 2510.00133
  • शीर्षक: स्पाइकिंग न्यूरल नेटवर्क पर आधारित बड़े भाषा मॉडल अनुमान इंजन
  • लेखक: अदर्श बालाजी (आर्गोन राष्ट्रीय प्रयोगशाला), संदीप मधिरेड्डी (आर्गोन राष्ट्रीय प्रयोगशाला), प्रसन्ना बालप्रकाश (ओक रिज राष्ट्रीय प्रयोगशाला)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.00133v3

सारांश

ट्रांसफॉर्मर आर्किटेक्चर पर आधारित मूल मॉडल सामान्य भाषा मॉडलिंग और सामग्री विज्ञान, जलवायु विज्ञान जैसे वैज्ञानिक क्षेत्रों में वर्तमान अत्याधुनिक तकनीक हैं। हालांकि, इन मॉडलों का प्रशिक्षण और तैनाती कम्प्यूटेशनल रूप से अत्यंत चुनौतीपूर्ण है, क्योंकि इनकी समय और स्थान जटिलता इनपुट अनुक्रम की लंबाई के साथ द्विघात संबंध रखती है। यह पेपर स्पाइकिंग न्यूरल नेटवर्क (SNNs) का उपयोग करके ट्रांसफॉर्मर मॉडल डिजाइन करने की खोज करता है। मौजूदा प्रॉक्सी लर्निंग विधियां बड़े पैमाने पर SNNs को प्रशिक्षित करने में अक्षम और समय-गहन हैं, जबकि मौजूदा ट्रांसफॉर्मर मॉडलों को समकक्ष SNN में परिवर्तित करने की तकनीकें स्केलेबिलिटी की कमी रखती हैं। इसके लिए, लेखकों ने NeuTransformer विधि का प्रस्ताव दिया है, जो मौजूदा रूपांतरण विधियों के साथ पर्यवेक्षित सूक्ष्म-ट्यूनिंग को जोड़कर SNN-आधारित ट्रांसफॉर्मर अनुमान इंजन डिजाइन करता है। इस विधि में शामिल हैं: (1) स्व-ध्यान तंत्र को स्पाइक-आधारित स्व-ध्यान (SSA) से बदलना, (2) फीडफॉरवर्ड ब्लॉक को समकक्ष SNN में परिवर्तित करना, (3) SNN प्रॉक्सी लर्निंग एल्गोरिदम का उपयोग करके SSA ब्लॉक को सूक्ष्म-ट्यून करना। प्रयोगों से पता चलता है कि रूपांतरित GPT-2 छोटे मॉडल में कोसाइन समानता पर 5-12% नुकसान होता है, भ्रम में 9.7% की कमी होती है, और SSA ब्लॉक ASA ब्लॉक की तुलना में 64.71%-85.28% ऊर्जा खपत में कमी प्राप्त करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

  1. कम्प्यूटेशनल जटिलता समस्या: ट्रांसफॉर्मर मॉडल के स्व-ध्यान तंत्र में O(n²) की समय और स्थान जटिलता होती है, जहां n अनुक्रम की लंबाई है, जिससे लंबे अनुक्रमों को संसाधित करते समय कम्प्यूटेशनल और मेमोरी आवश्यकताएं तेजी से बढ़ती हैं।
  2. ऊर्जा खपत समस्या: पारंपरिक ट्रांसफॉर्मर मॉडलों को प्रशिक्षण और अनुमान के लिए महंगे GPU या कस्टम एक्सेलेरेटर की आवश्यकता होती है, जिससे ऊर्जा खपत बहुत अधिक होती है।
  3. SNN प्रशिक्षण कठिनाई: मौजूदा SNN प्रशिक्षण विधियों में दो मुख्य सीमाएं हैं:
    • बड़े पैमाने पर SNN को सीधे प्रशिक्षित करना बैकप्रोपेगेशन लर्निंग नियमों का उपयोग करके अक्षम है
    • ANN-SNN रूपांतरण विधियों को इष्टतम प्रदर्शन प्राप्त करने के लिए बड़ी संख्या में स्पाइक समय चरणों की आवश्यकता होती है, जिससे अनुमान विलंब बढ़ता है

अनुसंधान प्रेरणा

लेखकों का लक्ष्य स्पाइकिंग न्यूरल नेटवर्क की जैविक-प्रेरित विशेषताओं और ईवेंट-संचालित कम्प्यूटिंग लाभों का उपयोग करके ऐसे ट्रांसफॉर्मर मॉडल डिजाइन करना है जो न्यूरोमॉर्फिक हार्डवेयर पर कुशलतापूर्वक निष्पादित हो सकें, जिससे डेटा-कुशल, कम ऊर्जा खपत वाले और संसाधन-बचत वाले बड़े भाषा मॉडल अनुमान प्राप्त हो सकें।

मुख्य योगदान

  1. NeuTransformer विधि का प्रस्ताव: प्रशिक्षित ट्रांसफॉर्मर मॉडल से SNN-आधारित ट्रांसफॉर्मर डिजाइन करने की एक विधि, जो मॉडल प्रदर्शन को बढ़ाने के लिए पर्यवेक्षित सूक्ष्म-ट्यूनिंग को जोड़ती है।
  2. विरल स्पाइक कम्प्यूटिंग के लिए स्व-ध्यान तंत्र डिजाइन: पारंपरिक स्व-ध्यान में उच्च ऊर्जा खपत और विलंब वाले मैट्रिक्स गुणन और softmax संचालन को विरल स्पाइक-आधारित कम्प्यूटिंग से बदलना।
  3. बड़े पैमाने पर SNN-आधारित LLM का कार्यान्वयन: GPT-2 और इसके वेरिएंट को SNN संस्करण में सफलतापूर्वक परिवर्तित करना, लेखकों के ज्ञान के अनुसार, GPT-2 Large वर्तमान में सबसे बड़े पैरामीटर वाला SNN-आधारित ट्रांसफॉर्मर मॉडल है।
  4. व्यापक प्रदर्शन मूल्यांकन: अनुप्रयोग सटीकता, कोसाइन समानता, भ्रम, प्रति बाइट बिट्स आदि कई आयामों से मॉडल प्रदर्शन का मूल्यांकन करना, और ऊर्जा खपत और थ्रूपुट प्रदर्शन का विश्लेषण करना।

विधि विवरण

कार्य परिभाषा

प्रशिक्षित ट्रांसफॉर्मर मॉडल को समकक्ष स्पाइकिंग न्यूरल नेटवर्क संस्करण में परिवर्तित करना, जबकि स्वीकार्य प्रदर्शन नुकसान बनाए रखना, और ऊर्जा खपत में उल्लेखनीय कमी और हार्डवेयर दक्षता में सुधार प्राप्त करना।

मॉडल आर्किटेक्चर

1. स्पाइकिंग न्यूरॉन मॉडल

निश्चित थ्रेसहोल्ड और समायोज्य झिल्ली संभावित क्षय विशेषताओं के साथ एकीकृत-और-फायर (IF) न्यूरॉन का उपयोग:

S(t) = {
  1,   यदि Vmem ≥ 1
  -1,  यदि Vmem ≤ -1  
  0,   अन्यथा
}

जहां Vmem झिल्ली संभावना है, S(t) न्यूरॉन द्वारा आउटपुट की गई स्पाइक सक्रियता है।

2. स्पाइकिंग स्व-ध्यान (SSA) तंत्र

पारंपरिक स्व-ध्यान तंत्र:

ASA(Q,K,V) = softmax(Q·K^T)V

स्पाइकिंग स्व-ध्यान तंत्र:

AttentionScore(AS) = LIF((Q⊗K^T)_Columnwise)
SSA(Q,K,V) = (AS ⊗ V)

मुख्य नवाचार बिंदु:

  • N-बिट मैट्रिक्स गुणन को AND संचालन और संचायक से बदलना
  • बिंदु उत्पाद संचालन को स्तंभ-स्तरीय Hadamard उत्पाद से बदलना
  • softmax फ़ंक्शन को LIF न्यूरॉन सक्रियता से बदलना

3. स्पाइकिंग फीडफॉरवर्ड परत रूपांतरण

ANN-SNN रूपांतरण सिद्धांत के आधार पर, ReLU सक्रियता वाली फीडफॉरवर्ड परत को IF न्यूरॉन में परिवर्तित करना:

  • ReLU फ़ंक्शन: ReLU(y) = max(0, y)
  • IF न्यूरॉन: τm ∂Vmem/∂t = -Vmem(t) + R*I(t)

वजन सामान्यीकरण:

s^l_norm = max(a^l)
W̃^l ← W^l / s^l_norm

NeuTransformer तीन-चरणीय रूपांतरण प्रवाह

  1. स्व-ध्यान ब्लॉक को बदलना: ASA को SSA से बदलना, प्रशिक्षित वजन को बनाए रखना
  2. फीडफॉरवर्ड ब्लॉक को परिवर्तित करना: ReLU/GeLU फीडफॉरवर्ड परत को SNN समकक्ष संस्करण में परिवर्तित करना
  3. SSA ब्लॉक को सूक्ष्म-ट्यून करना: प्रॉक्सी ग्रेडिएंट लर्निंग एल्गोरिदम का उपयोग करके SSA ब्लॉक वजन को सूक्ष्म-ट्यून करना

सूक्ष्म-ट्यूनिंग उद्देश्य फ़ंक्शन

ASA और SSA ध्यान स्कोर के बीच माध्य वर्ग त्रुटि को कम करना:

Σ(i=1 से d_model) (ASA_as - SSA_as)²

प्रयोगात्मक सेटअप

डेटासेट

  • Shakespeare डेटासेट: 40,000 पंक्तियों वाली शेक्सपियर नाटक पाठ
  • OpenWebText डेटासेट: OpenAI WebText डेटासेट का खुला स्रोत पुनरुत्पादन

मॉडल पैमाना

  • GPT-2 Small: 117M पैरामीटर
  • GPT-2 Medium: 345M पैरामीटर
  • GPT-2 Large: 763M पैरामीटर

मूल्यांकन मेट्रिक्स

  • वर्ण सटीकता: ANN और SNN द्वारा उत्पन्न वर्णों की वर्ण-दर-वर्ण तुलना
  • कोसाइन समानता: बहु-आयामी स्थान में दो गैर-शून्य वेक्टर के बीच कोण की कोसाइन
  • भ्रम (Perplexity): भाषा मॉडल की गुणवत्ता को मापने वाला मेट्रिक
  • प्रति बाइट बिट्स (BpB): अगले टोकन की भविष्यवाणी के लिए आवश्यक औसत बिट्स

हार्डवेयर प्लेटफॉर्म

  • कम्प्यूटेशनल संसाधन: आर्गोन राष्ट्रीय प्रयोगशाला के LCRC का Swing HPC क्लस्टर
  • कॉन्फ़िगरेशन: 6 नोड्स, प्रत्येक नोड में 2×AMD EPYC 7742 प्रोसेसर, 8×NVIDIA A100 GPU
  • मूल्यांकन प्लेटफॉर्म: NVIDIA A100 GPU और Graphcore IPU प्लेटफॉर्म

प्रयोगात्मक परिणाम

मुख्य प्रदर्शन परिणाम

मॉडलपैरामीटरकोसाइन समानतावर्ण सटीकताANN भ्रमSNN भ्रम
GPT-2-Small117M0.8884.9%17.1121.81
GPT-2-Medium345M0.8375.4%14.4319.73
GPT-2-Large763M0.7471.8%12.6718.10

ऊर्जा खपत विश्लेषण परिणाम

SSA ब्लॉक की तुलना में ASA ब्लॉक की अनुमानित ऊर्जा खपत में कमी:

  • GPT-2 Small: 85.28%
  • GPT-2 Medium: 85.22%
  • GPT-2 Large: 64.71%

थ्रूपुट मूल्यांकन

Graphcore प्लेटफॉर्म पर, SNN संस्करण अधिकांश कॉन्फ़िगरेशन में बेसलाइन ANN से बेहतर थ्रूपुट प्रदर्शन दिखाता है, विशेष रूप से अनियमित और विरल डेटा एक्सेस को संभालते समय स्पष्ट लाभ होता है।

मुख्य निष्कर्ष

  1. पैमाना प्रभाव: मॉडल पैमाने के बढ़ने के साथ, SNN संस्करण का प्रदर्शन नुकसान धीरे-धीरे बढ़ता है
  2. ऊर्जा दक्षता लाभ: सभी पैमानों के मॉडल ऊर्जा खपत में उल्लेखनीय कमी प्राप्त करते हैं
  3. हार्डवेयर अनुकूलता: SNN MIMD प्रोसेसिंग आर्किटेक्चर पर उत्कृष्ट प्रदर्शन करते हैं, विशेष रूप से विरल स्पाइक कार्यभार के लिए उपयुक्त हैं

संबंधित कार्य

SNN-आधारित ट्रांसफॉर्मर अनुसंधान

  • Spikformer (Li et al., 2024): दृष्टि कार्यों पर SNN-आधारित ट्रांसफॉर्मर का पहला कार्यान्वयन
  • Spikingformer (Zhou et al., 2023): सुधारा गया संस्करण, पूर्व-सक्रियण शॉर्टकट कनेक्शन का उपयोग करता है
  • SGLFormer (Zhang et al., 2024): स्थानीय और वैश्विक ट्रांसफॉर्मर ब्लॉक को जोड़ता है

ANN-SNN रूपांतरण विधियां

  • प्रारंभिक कार्य मुख्य रूप से दृष्टि कार्यों के छोटे पैमाने के नेटवर्क पर केंद्रित थे
  • मौजूदा विधियों का बड़े पैमाने पर भाषा मॉडल पर अनुप्रयोग सीमित है

इस पेपर के लाभ

मौजूदा विधियों की तुलना में, NeuTransformer SNN को शुरुआत से प्रशिक्षित करने की कम्प्यूटेशनल लागत से बचता है, रूपांतरण + सूक्ष्म-ट्यूनिंग रणनीति के माध्यम से बड़े पैमाने पर SNN-आधारित LLM के निर्माण को प्राप्त करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. व्यवहार्यता सत्यापन: GPT-2 श्रृंखला मॉडलों को SNN संस्करण में सफलतापूर्वक परिवर्तित करना, बड़े पैमाने पर SNN-आधारित LLM की व्यवहार्यता को प्रमाणित करता है
  2. प्रदर्शन व्यापार: स्वीकार्य प्रदर्शन नुकसान में ऊर्जा खपत में उल्लेखनीय कमी प्राप्त करना
  3. पैमाना सीमा: जब मॉडल पैरामीटर 300M से अधिक हो जाते हैं, तो प्रदर्शन गिरावट स्वीकार्य सीमा से अधिक हो जाती है

सीमाएं

  1. पैमाना बाधा: बड़े पैमाने पर मॉडल की प्रदर्शन गिरावट समस्या अभी भी समाधान की आवश्यकता है
  2. रूपांतरण सटीकता: फीडफॉरवर्ड ब्लॉक का अपूर्ण रूपांतरण समग्र प्रदर्शन को प्रभावित करता है
  3. सूक्ष्म-ट्यूनिंग सीमा: प्रॉक्सी ग्रेडिएंट लर्निंग की गहरे SNN पर सीमाएं हैं

भविष्य की दिशाएं

  1. बड़े पैमाने पर SNN की प्रशिक्षण और रूपांतरण विधियों में सुधार
  2. प्रॉक्सी ग्रेडिएंट लर्निंग एल्गोरिदम को अनुकूलित करना
  3. अधिक कुशल स्पाइक एन्कोडिंग और डिकोडिंग रणनीतियों की खोज करना
  4. वास्तविक न्यूरोमॉर्फिक हार्डवेयर पर प्रदर्शन को सत्यापित करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: बड़े पैमाने पर SNN-आधारित भाषा मॉडल का पहला कार्यान्वयन, नई तकनीकी मार्ग
  2. उच्च व्यावहारिक मूल्य: ऊर्जा खपत में उल्लेखनीय कमी व्यावहारिक अनुप्रयोगों के लिए महत्वपूर्ण है
  3. व्यापक मूल्यांकन: कई आयामों से मॉडल प्रदर्शन का मूल्यांकन, कठोर प्रयोगात्मक डिजाइन
  4. स्पष्ट लेखन: विस्तृत तकनीकी विवरण, स्पष्ट पद्धति विवरण

कमियां

  1. स्पष्ट पैमाना सीमा: बड़े मॉडल प्रदर्शन गिरावट गंभीर है, विधि की प्रयोज्यता को सीमित करता है
  2. अपर्याप्त सैद्धांतिक विश्लेषण: प्रदर्शन गिरावट के कारणों का गहन सैद्धांतिक विश्लेषण की कमी
  3. सीमित हार्डवेयर सत्यापन: मुख्य रूप से अनुमान पर आधारित, वास्तविक न्यूरोमॉर्फिक हार्डवेयर पर सत्यापन की कमी
  4. अपर्याप्त तुलनात्मक प्रयोग: अन्य SNN-आधारित विधियों के साथ प्रत्यक्ष तुलना कम है

प्रभाव

  1. शैक्षणिक योगदान: बड़े पैमाने पर भाषा मॉडल में SNN के अनुप्रयोग के लिए नई दिशा खोलता है
  2. व्यावहारिक संभावनाएं: कम-शक्ति AI अनुमान के लिए नई तकनीकी मार्ग प्रदान करता है
  3. पुनरुत्पादनीयता: विस्तृत विधि विवरण, अच्छी पुनरुत्पादनीयता

लागू परिदृश्य

  1. एज कम्प्यूटिंग: संसाधन-सीमित मोबाइल डिवाइस और IoT परिदृश्य
  2. कम-शक्ति अनुमान: ऊर्जा-संवेदनशील अनुप्रयोग परिदृश्य
  3. न्यूरोमॉर्फिक कम्प्यूटिंग: विशेष न्यूरोमॉर्फिक हार्डवेयर प्लेटफॉर्म

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • ट्रांसफॉर्मर मूल पेपर (Vaswani et al., 2017)
  • SNN रूपांतरण विधि के शास्त्रीय कार्य (Rueckauer et al., 2016; Diehl & Cook, 2015)
  • हाल के SNN-आधारित ट्रांसफॉर्मर अनुसंधान (Li et al., 2024; Zhou et al., 2023)
  • प्रॉक्सी ग्रेडिएंट लर्निंग विधियां (Eshraghian et al., 2023)

सारांश: यह पेपर बड़े पैमाने पर भाषा मॉडलों को स्पाइकिंग न्यूरल नेटवर्क संस्करण में परिवर्तित करने की एक नवीन विधि प्रस्तावित करता है, स्वीकार्य प्रदर्शन बनाए रखते हुए ऊर्जा खपत में उल्लेखनीय कमी प्राप्त करता है। पैमाना सीमा जैसी समस्याओं के बावजूद, यह कम-शक्ति AI अनुमान और न्यूरोमॉर्फिक कम्प्यूटिंग क्षेत्र में मूल्यवान तकनीकी योगदान प्रदान करता है।