Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.
- पेपर ID: 2507.07763
- शीर्षक: गहन तंत्रिका नेटवर्क के प्रदर्शन में सुधार नमूनाकरण के माध्यम से
- लेखक: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
- वर्गीकरण: cond-mat.dis-nn
- प्रकाशन तिथि: 27 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
- संस्थान: Purdue University Elmore School of Electrical and Computer Engineering
- पेपर लिंक: https://arxiv.org/abs/2507.07763
यह पेपर संभाव्य न्यूरॉन्स (p-bits) की ऊर्जा-कुशल नमूनाकरण विधि को बोल्ट्जमैन मशीनों से जनरेटिव AI क्षेत्र तक विस्तारित करने की संभावना की खोज करता है। वर्तमान गहन तंत्रिका नेटवर्क मुख्य रूप से बहु-बिट नियतात्मक न्यूरॉन्स का उपयोग करते हैं और नमूनाकरण तंत्र की कमी है, इस समस्या को संबोधित करते हुए, पेपर पहले साबित करता है कि संभाव्य नेटवर्क द्वारा उत्पन्न कई नमूने बेहतर सटीकता प्राप्त कर सकते हैं। आगे, यह एक मुख्य प्रश्न प्रस्तुत करता है: सटीकता बढ़ाने के लिए, अधिक नमूने उत्पन्न करना या एकल नियतात्मक नमूने की बिट संख्या बढ़ाना, कौन सी विधि ऊर्जा खपत में अधिक अनुकूल है? पेपर एक सरल ऊर्जा खपत व्यापार-बंद अनुमान अभिव्यक्ति प्रदान करता है और विभिन्न एल्गोरिदम और आर्किटेक्चर के प्रायोगिक परिणामों के माध्यम से इसे सत्यापित करता है।
- ऊर्जा संकट: जनरेटिव AI की ऊर्जा खपत लागत निषेधात्मक स्तर तक पहुंच गई है, ऊर्जा-कुशल अनुकूलन समाधान की तत्काल आवश्यकता है
- तकनीकी अंतर: बोल्ट्जमैन मशीनों में संभाव्य न्यूरॉन्स (p-bits) ने महत्वपूर्ण ऊर्जा-दक्षता लाभ साबित किए हैं, लेकिन फीडफॉरवर्ड गहन तंत्रिका नेटवर्क अभी भी मुख्य रूप से बहु-बिट नियतात्मक न्यूरॉन्स का उपयोग करते हैं
- नमूनाकरण की कमी: वर्तमान मुख्यधारा के DNN आर्किटेक्चर में नमूनाकरण तंत्र की कमी है, जो संभाव्य अनुमान में इसकी क्षमता को सीमित करता है
- p-bits अनुप्रयोग का विस्तार: Ising कंप्यूटिंग में सत्यापित p-bits ऊर्जा-दक्षता लाभ को मशीन लर्निंग क्षेत्र तक विस्तारित करना
- ऊर्जा-सटीकता व्यापार-बंद: नमूनाकरण संख्या और बिट सटीकता के बीच ऊर्जा खपत व्यापार-बंद संबंध का व्यवस्थित विश्लेषण
- एकीकृत मूल्यांकन ढांचा: एक सामान्य ऊर्जा खपत मूल्यांकन ढांचा स्थापित करना जो विभिन्न संभाव्य DNN कार्यान्वयन योजनाओं पर लागू हो
- संभाव्य DNN (p-DNN) ढांचा प्रस्तावित किया: p-bits को फीडफॉरवर्ड गहन तंत्रिका नेटवर्क में एकीकृत करना, नमूनाकरण-आधारित अनुमान को लागू करना
- नमूना-जागरूक प्रशिक्षण विधि विकसित की: बहु-नमूना औसत प्रशिक्षण रणनीति के माध्यम से, संभाव्य नेटवर्क के प्रदर्शन में महत्वपूर्ण सुधार
- ऊर्जा विश्लेषण ढांचा स्थापित किया: एक सामान्य मौलिक संचालन ऊर्जा खपत मॉडल प्रस्तावित करना, विभिन्न आर्किटेक्चर और एल्गोरिदम के ऊर्जा व्यापार-बंद का मूल्यांकन कर सकता है
- व्यावहारिक व्यवहार्यता सत्यापित की: FPGA कार्यान्वयन के माध्यम से सैद्धांतिक विश्लेषण की सटीकता सत्यापित करना, विधि की व्यावहारिक मूल्य साबित करना
- मात्रात्मक अंतर्दृष्टि प्रदान की: साबित करना कि केवल 2 नमूने नियतात्मक आधारभूत को पार कर सकते हैं, 10 नमूने 3-बिट नियतात्मक मॉडल की सटीकता से मेल खा सकते हैं
यह पेपर अनुसंधान करता है कि गहन तंत्रिका नेटवर्क में संभाव्य नमूनाकरण तंत्र कैसे पेश किया जाए, बेहतर ऊर्जा-सटीकता व्यापार-बंद को लागू करने के लिए। विशेष रूप से शामिल हैं:
- इनपुट: पारंपरिक बहु-बिट नियतात्मक DNN
- आउटपुट: p-bits पर आधारित संभाव्य DNN, कई नमूने उत्पन्न कर सकता है और औसत के माध्यम से प्रदर्शन में सुधार कर सकता है
- बाधाएं: सटीकता को बनाए रखने या सुधारने की शर्त के तहत, समग्र ऊर्जा-दक्षता को अनुकूलित करना
पेपर p-DNN की मूल संचालन इकाई को परिभाषित करता है (चित्र 1), इसका ऊर्जा खपत मॉडल है:
ϵEO=nbwϵwM+(n+1)baϵaM+ϵS(n,ba,bw)+ϵN
जहां:
- ϵwM,ϵaM: वजन और सक्रियण मेमोरी एक्सेस ऊर्जा खपत
- ϵS: सिनैप्टिक कंप्यूटिंग ऊर्जा खपत
- ϵN: न्यूरॉन ऊर्जा खपत
- n: फैन-इन कनेक्शन संख्या
- bw,ba: वजन और सक्रियण बिट संख्या
T नमूनों के मामले में, ऊर्जा खपत मॉडल संशोधित है:
ϵEO=nbwϵwM+T[(n+1)baϵaM+ϵS(n,ba,bw)+ϵN]
यह दर्शाता है कि जब वजन लोडिंग ऊर्जा खपत प्रमुख हो, तो बहु-नमूनों की सीमांत लागत कम होती है।
- फॉरवर्ड पास: प्रत्येक परत सक्रियण फ़ंक्शन में यादृच्छिकता जोड़ना, कई नमूने उत्पन्न करना
- हानि गणना: बहु-नमूना औसत परिणाम के आधार पर हानि की गणना करना
- बैकवर्ड पास: यादृच्छिक सक्रियण के ग्रेडिएंट को संभालने के लिए सीधे-माध्यम अनुमानक का उपयोग करना
पारंपरिक गुणा-संचय (MAC) संचालन को संचय (AC) संचालन में सरल बनाना:
- नियतात्मक: w1x1+w2x2+...+wnxn (गुणा की आवश्यकता)
- संभाव्य: वजन उपसमुच्चय का चयनात्मक संचय (केवल जोड़ की आवश्यकता)
b=sign(tanh(W)−rand{−1,+1}) रूप का संभाव्य सक्रियण अपनाना, जहां यादृच्छिक संख्या नमूनाकरण की यादृच्छिकता प्रदान करती है।
पहले से प्रशिक्षित नियतात्मक मॉडल में शोर जोड़ना, पुनः प्रशिक्षण के बिना नमूनाकरण लाभ प्राप्त करना।
- CIFAR-10: छवि वर्गीकरण कार्य के लिए, 50,000 प्रशिक्षण छवियां, 10,000 परीक्षण छवियां
- CelebA: चेहरे की छवि पीढ़ी के लिए, 162,770 प्रशिक्षण छवियां, 64×64×3 तक स्केल की गई
- MNIST: FPGA सत्यापन प्रयोग के लिए अंक पीढ़ी कार्य
- वर्गीकरण कार्य: सटीकता (Accuracy)
- पीढ़ी कार्य: Fréchet Inception Distance (FID)
- ऊर्जा मेट्रिक्स: प्रति अनुमान ऊर्जा खपत (J/inference), ऊर्जा लाभ अनुपात
- 32-बिट नियतात्मक DNN आधारभूत
- विभिन्न बिट संख्या के परिमाणित मॉडल (1-बिट, 3-बिट आदि)
- यादृच्छिक बिट स्ट्रीम विधि
- अनुकूलक: ADAM अनुकूलक
- सीखने की दर: 1e-3 (वर्गीकरण), 1e-4 (पीढ़ी)
- प्रशिक्षण युग: 1000 epochs
- बैच आकार: 64
- वजन आरंभीकरण: Glorot आरंभीकरण
- 1 नमूना: p-DNN 32-बिट नियतात्मक आधारभूत सटीकता से मेल खा सकता है
- 2 नमूने: नियतात्मक आधारभूत प्रदर्शन को पार करता है
- 10 नमूने: 3-बिट नियतात्मक मॉडल की सटीकता स्तर तक पहुंचता है
- नमूना-जागरूक प्रशिक्षण: उत्पन्न छवि गुणवत्ता में महत्वपूर्ण सुधार, FID स्कोर 32-बिट आधारभूत के करीब
- प्रशिक्षण-परीक्षण मिलान: प्रशिक्षण और परीक्षण समान नमूना संख्या का उपयोग करते समय सर्वोत्तम परिणाम
- क्रमिक सुधार: नमूना संख्या बढ़ने के साथ छवि गुणवत्ता में निरंतर सुधार
- मेमोरी प्रमुख: DNN की ऊर्जा खपत मुख्य रूप से मेमोरी एक्सेस द्वारा निर्धारित होती है, कंप्यूटिंग ऊर्जा खपत अनुपात छोटा है
- नमूनाकरण लाभ: DRAM परिदृश्य में, 1 नमूना जोड़ने से केवल 0.7% ऊर्जा खपत बढ़ती है, लेकिन 2% सटीकता सुधार कर सकती है
- समग्र लाभ: 1% सटीकता सहनशीलता के तहत, p-DNN 32-बिट DNN की तुलना में 2 गुना से अधिक ऊर्जा खपत में कमी प्राप्त कर सकता है
- Sigmoid vs Tanh: दोनों सक्रियण फ़ंक्शन संभाव्य मॉडल में समान प्रदर्शन करते हैं
- नियतात्मक अंतर: Tanh नियतात्मक मॉडल खराब प्रदर्शन करता है, संभाव्य मॉडल की मजबूती को उजागर करता है
- पुनः प्रशिक्षण की आवश्यकता नहीं: सरल शोर इंजेक्शन 2 नमूनों पर प्रदर्शन सुधार प्राप्त कर सकता है
- एकरस सुधार: प्रदर्शन सुधार एकरस है, विधि की स्थिरता साबित करता है
- ऊर्जा सत्यापन: मापी गई ऊर्जा खपत सैद्धांतिक भविष्यवाणी के साथ अत्यधिक सुसंगत है (2.5x vs 2.3x लाभ)
- हार्डवेयर दक्षता: MAC संबंधित CLB LUT उपयोग 2.9 गुना कम हो गया
- RNG ओवरहेड: यादृच्छिक संख्या जनरेटर की ऊर्जा खपत और क्षेत्र ओवरहेड पूरे सिस्टम में नगण्य है
- बोल्ट्जमैन मशीन अनुप्रयोग: p-bits अनुकूलन और नमूनाकरण समस्याओं में महत्वपूर्ण ऊर्जा-दक्षता लाभ साबित हुए हैं
- हार्डवेयर कार्यान्वयन: s-MTJ, Zener डायोड आदि पर आधारित भौतिक p-bits कार्यान्वयन
- आर्किटेक्चर पुनः उपयोग: मौजूदा BM हार्डवेयर सीधे p-DNN कार्यान्वयन के लिए उपयोग किया जा सकता है
- वजन परिमाणीकरण: वजन सटीकता को 4-बिट या उससे भी कम तक कम करने के लिए पहले से बहुत सारे काम हैं
- सक्रियण परिमाणीकरण: सक्रियण परिमाणीकरण अपेक्षाकृत कठिन है, आमतौर पर प्रदर्शन हानि के बिना 8-बिट से कम तक जाना मुश्किल है
- बाइनरी नेटवर्क: BinaryConnect, Binarized Neural Networks आदि 1-बिट नेटवर्क विधियां
- बिट स्ट्रीम कंप्यूटिंग: यादृच्छिक बिट स्ट्रीम का उपयोग करके निरंतर संकेतों का प्रतिनिधित्व करने की पारंपरिक विधि
- मौलिक अंतर: p-DNN की नमूनाकरण तंत्र सिद्धांत में यादृच्छिक बिट स्ट्रीम से भिन्न है
- व्यवहार्यता सत्यापन: संभाव्य नमूनाकरण DNN प्रदर्शन को प्रभावी ढंग से सुधार सकता है, कम नमूने महत्वपूर्ण लाभ प्राप्त कर सकते हैं
- ऊर्जा लाभ: आधुनिक AI सिस्टम में मेमोरी-प्रमुख परिदृश्य में, नमूनाकरण की कंप्यूटिंग लागत लगभग नगण्य है
- रनटाइम समायोजन योग्य: p-DNN रनटाइम पर नमूना संख्या को गतिशील रूप से समायोजित कर सकता है, ऊर्जा खपत और सटीकता के बीच लचीले ढंग से संतुलन बना सकता है
- हार्डवेयर अनुकूल: मौजूदा p-bit हार्डवेयर आर्किटेक्चर सीधे p-DNN कार्यान्वयन का समर्थन कर सकता है
- नमूना आवश्यकता: कुछ कार्यों को आदर्श प्रदर्शन प्राप्त करने के लिए बड़ी संख्या में नमूनों की आवश्यकता हो सकती है
- प्रशिक्षण जटिलता: नमूना-जागरूक प्रशिक्षण प्रशिक्षण प्रक्रिया की जटिलता बढ़ाता है
- मेमोरी निर्भरता: ऊर्जा लाभ बहुत हद तक मेमोरी एक्सेस लागत की प्रमुखता पर निर्भर है
- अनुप्रयोग सीमा: मुख्य रूप से दृश्य कार्यों को सत्यापित किया गया है, अन्य क्षेत्रों में प्रयोज्यता को आगे सत्यापन की आवश्यकता है
- बड़ी भाषा मॉडल अनुप्रयोग: p-DNN को LLM जैसे बड़े पैमाने के मॉडल तक विस्तारित करना
- एनालॉग कार्यान्वयन: एनालॉग सर्किट पर आधारित p-bit कार्यान्वयन की खोज करना ऊर्जा खपत को और कम करने के लिए
- इन-मेमोरी कंप्यूटिंग एकीकरण: इन-मेमोरी कंप्यूटिंग आर्किटेक्चर के साथ संयोजन, ऊर्जा-दक्षता लाभ को अधिकतम करना
- उन्नत नमूनाकरण रणनीति: सरल औसत से परे नमूना संयोजन विधि विकसित करना
- मजबूत नवाचार: पहली बार p-bits को फीडफॉरवर्ड DNN में व्यवस्थित रूप से पेश करना, अनुसंधान की एक नई दिशा खोलना
- ठोस सिद्धांत: पूर्ण ऊर्जा विश्लेषण ढांचा प्रदान करना, बहुत मजबूत सामान्यता और विस्तारशीलता के साथ
- पर्याप्त प्रयोग: वर्गीकरण, पीढ़ी आदि कई कार्यों को शामिल करना, और FPGA सत्यापन के माध्यम से व्यावहारिक व्यवहार्यता सत्यापित करना
- उच्च व्यावहारिक मूल्य: वर्तमान AI ऊर्जा संकट पृष्ठभूमि में, व्यावहारिक अनुकूलन समाधान प्रदान करना
- गहन विश्लेषण: मेमोरी बनाम कंप्यूटिंग ऊर्जा व्यापार-बंद का गहन विश्लेषण, महत्वपूर्ण अंतर्दृष्टि प्रदान करना
- पैमाने की सीमा: प्रयोग मुख्य रूप से अपेक्षाकृत छोटे मॉडल पर किए गए हैं, बड़े पैमाने के मॉडल का प्रदर्शन सत्यापन की प्रतीक्षा में है
- कार्य कवरेज: मुख्य रूप से दृश्य कार्यों पर केंद्रित, NLP आदि अन्य क्षेत्रों में प्रयोज्यता अस्पष्ट है
- तुलना आधारभूत: नवीनतम परिमाणीकरण और संपीड़न विधियों के साथ तुलना पर्याप्त नहीं है
- सैद्धांतिक विश्लेषण: इस बात का अभाव कि कम नमूने महत्वपूर्ण सुधार क्यों प्राप्त कर सकते हैं, इसके गहन सैद्धांतिक व्याख्या
- शैक्षणिक मूल्य: संभाव्य कंप्यूटिंग और गहन शिक्षा के संयोजन के लिए नई सोच और विधि प्रदान करना
- इंजीनियरिंग महत्व: AI हार्डवेयर डिजाइन में महत्वपूर्ण मार्गदर्शन महत्व, विशेष रूप से ऊर्जा-दक्षता अनुकूलन में
- औद्योगिक संभावनाएं: एज कंप्यूटिंग और मोबाइल डिवाइस AI अनुप्रयोगों में व्यापक अनुप्रयोग संभावनाएं
- संसाधन-सीमित वातावरण: मोबाइल डिवाइस, IoT डिवाइस आदि ऊर्जा-संवेदनशील परिदृश्य
- वास्तविक समय अनुमान: विलंबता और सटीकता के बीच लचीले ढंग से संतुलन की आवश्यकता वाले अनुप्रयोग
- बड़े पैमाने पर तैनाती: डेटा सेंटर आदि बड़ी संख्या में अनुरोधों को संभालने की आवश्यकता वाले परिदृश्य
- एज कंप्यूटिंग: नेटवर्क बैंडविड्थ और कंप्यूटिंग संसाधन दोनों सीमित एज डिवाइस
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Li et al. 2025 ISSCC: 65nm ASIC का QMC कार्यान्वयन
- Hubara et al.: परिमाणित तंत्रिका नेटवर्क का अग्रणी कार्य
- Courbariaux et al.: बाइनरी तंत्रिका नेटवर्क BinaryConnect
- Jacob et al.: पूर्णांक परिमाणीकरण प्रशिक्षण विधि
समग्र मूल्यांकन: यह संभाव्य कंप्यूटिंग और गहन शिक्षा के अंतरविषय क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो महत्वपूर्ण योगदान देता है। पेपर न केवल एक नवीन तकनीकी समाधान प्रस्तावित करता है, बल्कि एक पूर्ण सैद्धांतिक विश्लेषण ढांचा और प्रायोगिक सत्यापन भी प्रदान करता है, जिसमें बहुत मजबूत शैक्षणिक मूल्य और व्यावहारिक महत्व है। हालांकि कुछ पहलुओं में सुधार की गुंजाइश है, लेकिन कुल मिलाकर यह क्षेत्र में एक महत्वपूर्ण प्रगति है।