2025-11-13T15:25:11.338171

Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks

Athanasiadis, Tampouratzis, Papaefstathiou
The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.
academic

ऊर्जा-कुशल FPGA फ्रेमवर्क गैर-परिमाणित कनवोल्यूशनल न्यूरल नेटवर्क के लिए

बुनियादी जानकारी

  • पेपर ID: 2510.13362
  • शीर्षक: ऊर्जा-कुशल FPGA फ्रेमवर्क गैर-परिमाणित कनवोल्यूशनल न्यूरल नेटवर्क के लिए
  • लेखक: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
  • संस्थान: ¹थेसालोनिकी का अरिस्टोटल विश्वविद्यालय, ²अंतर्राष्ट्रीय हेलेनिक विश्वविद्यालय
  • वर्गीकरण: cs.AR (कंप्यूटर आर्किटेक्चर)
  • पेपर लिंक: https://arxiv.org/abs/2510.13362

सारांश

कृत्रिम बुद्धिमत्ता अनुप्रयोगों में वास्तविक समय प्रसंस्करण की आवश्यकता के बढ़ते साथ, विशेष रूप से कनवोल्यूशनल न्यूरल नेटवर्क (CNN) से संबंधित अनुप्रयोगों में, कुशल कम्प्यूटिंग समाधानों की मांग तेजी से बढ़ रही है। पारंपरिक प्रोसेसर प्रदर्शन, विद्युत खपत और विलंबता को संतुलित करने में अक्सर कम प्रदर्शन करते हैं, विशेष रूप से एम्बेडेड सिस्टम और एज कंप्यूटिंग प्लेटफॉर्म पर। फील्ड-प्रोग्रामेबल गेट ऐरे (FPGA) एक आशाजनक विकल्प प्रदान करते हैं जो उच्च प्रदर्शन, ऊर्जा दक्षता और पुनर्कॉन्फ़िगरेबिलिटी को जोड़ता है। इस पेपर में प्रस्तावित फ्रेमवर्क FPGA पर CNN की जटिल कम्प्यूटिंग आवश्यकताओं को संभालता है, जबकि सभी तंत्रिका नेटवर्क मापदंडों की पूर्ण सटीकता बनाए रखता है। यह फ्रेमवर्क व्यापक रूप से उपयोग किए जाने वाले Darknet CNN डिज़ाइन फ्रेमवर्क पर आधारित है, जो डिज़ाइनरों को Darknet के समान इनपुट का उपयोग करके CPU और FPGA युक्त विषम सिस्टम में CNN को कुशलतापूर्वक लागू करने की अनुमति देता है। परिमाणन का समर्थन करने वाले FPGA फ्रेमवर्क की तुलना में, यह समाधान तंत्रिका नेटवर्क की सटीकता को कम किए बिना समान प्रदर्शन और/या ऊर्जा दक्षता प्रदान करने का लक्ष्य रखता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है कि FPGA पर गैर-परिमाणित कनवोल्यूशनल न्यूरल नेटवर्क को कुशलतापूर्वक कैसे लागू किया जाए, पूर्ण सटीकता मापदंडों को बनाए रखते हुए उच्च प्रदर्शन और ऊर्जा दक्षता प्राप्त करते हुए।

समस्या की महत्ता

  1. वास्तविक समय प्रसंस्करण की बढ़ती मांग: AI अनुप्रयोग, विशेष रूप से CNN अनुप्रयोग वास्तविक समय प्रसंस्करण की बढ़ती मांग करते हैं
  2. पारंपरिक प्रोसेसर की सीमाएं: पारंपरिक CPU प्रदर्शन, विद्युत खपत और विलंबता के संतुलन में कमी दिखाते हैं
  3. एम्बेडेड और एज कंप्यूटिंग चुनौतियां: संसाधन-सीमित उपकरणों को अधिक कुशल कम्प्यूटिंग समाधान की आवश्यकता है

मौजूदा विधियों की सीमाएं

  1. परिमाणन विधियों की सटीकता हानि: मौजूदा FPGA फ्रेमवर्क मुख्य रूप से परिमाणित मॉडल पर ध्यान केंद्रित करते हैं, जो संसाधन उपयोग और विद्युत खपत को कम करते हैं, लेकिन अक्सर सटीकता की कीमत पर
  2. डिज़ाइन जटिलता: उपयोग में आसान और कुशल डिज़ाइन प्रवाह की कमी
  3. प्रदर्शन और सटीकता व्यापार-बंद: पूर्ण सटीकता बनाए रखते हुए उच्च प्रदर्शन और ऊर्जा दक्षता प्राप्त करना कठिन है

अनुसंधान प्रेरणा

एक ऐसा फ्रेमवर्क विकसित करना जो FPGA पर गैर-परिमाणित CNN को लागू कर सके, मॉडल की उच्च सटीकता को बनाए रखते हुए और उत्कृष्ट प्रदर्शन और ऊर्जा दक्षता प्राप्त करते हुए।

मुख्य योगदान

  1. सटीकता संरक्षण: परिमाणन से बचकर और पूर्ण सटीकता को बनाए रखकर, फ्रेमवर्क CNN मॉडल की सटीकता को संरक्षित करने का लक्ष्य रखता है
  2. उच्च डिज़ाइन उत्पादकता और लचीलापन: व्यापक रूप से उपयोग किए जाने वाले DarkNet CNN डिज़ाइन फ्रेमवर्क पर आधारित, शुद्ध C/C++ कार्यान्वयन, छोटे से बड़े FPGA की पूरी श्रृंखला का समर्थन
  3. उच्च प्रदर्शन: किसी भी FPGA की समानता का पूरी तरह से उपयोग करके CNN अनुमान प्रक्रिया को त्वरित करता है, समय पर कुशल प्रसंस्करण सुनिश्चित करता है
  4. ऊर्जा दक्षता अनुकूलन: FPGA पर CNN अनुमान की विद्युत खपत दक्षता के लिए अनुकूलित, विद्युत-संवेदनशील अनुप्रयोगों के लिए उपयुक्त

विधि विवरण

कार्य परिभाषा

इस पेपर में अनुसंधान का कार्य FPGA पर कुशल गैर-परिमाणित CNN अनुमान को लागू करना है, इनपुट CNN मॉडल कॉन्फ़िगरेशन फ़ाइल (Darknet प्रारूप के समान) है, आउटपुट CPU-FPGA विषम सिस्टम पर उच्च-प्रदर्शन CNN कार्यान्वयन है।

फ्रेमवर्क आर्किटेक्चर

चित्र 1 के अनुसार, फ्रेमवर्क निम्नलिखित आर्किटेक्चर डिज़ाइन अपनाता है:

  1. इनपुट प्रसंस्करण: नई cfg फ़ाइल को टूल में आयात करना
  2. पूर्व-प्रसंस्करण: OpenMP का उपयोग करके समानांतर पूर्व-प्रसंस्करण
  3. पार्सर: नेटवर्क संरचना को पार्स करना, कनवोल्यूशन परत, डीकनवोल्यूशन परत और अन्य परतों की पहचान करना
  4. कम्प्यूटिंग इंजन: मुख्य घटक के रूप में नवीन HLS कम्प्यूटिंग इंजन
  5. समानांतर प्रसंस्करण: OpenMP का उपयोग करके समानांतर प्रसंस्करण
  6. FPGA कार्यान्वयन: अंत में FPGA पर तंत्रिका नेटवर्क को लागू करना

नवीन HLS कम्प्यूटिंग इंजन

मुख्य डिज़ाइन अवधारणा

नवीन कम्प्यूटिंग इंजन उच्च-स्तरीय संश्लेषण (HLS) तकनीक का उपयोग करता है, जो एक एकल घड़ी चक्र में कई गणितीय संचालन निष्पादित कर सकता है, अपेक्षाकृत उच्च थ्रूपुट और प्रदर्शन प्राप्त करता है।

तकनीकी कार्यान्वयन विवरण

चित्र 2 के अनुसार, HLS FPGA कर्नेल मुख्य रूप से मैट्रिक्स गुणन कार्य को संभालता है, जो लगभग सभी CNN कार्यान्वयन की नींव है:

  1. मेमोरी अनुकूलन: आंतरिक BRAM को HLS स्ट्रीम के साथ जोड़कर चिप पर मेमोरी एक्सेस पैटर्न को अनुकूलित करना
  2. स्ट्रीम प्रसंस्करण तंत्र:
    • प्रसंस्करण तत्वों के बीच निरंतर डेटा प्रवाह को लागू करना, BRAM में मध्यवर्ती भंडारण की आवश्यकता नहीं
    • विलंबता और संसाधन ओवरहेड को कम करना
    • पाइपलाइन निष्पादन का समर्थन करना और समानता को बढ़ाना
    • उत्पादक और उपभोक्ता प्रक्रियाओं के बीच सीधे डेटा स्थानांतरण
  3. बहु-मेमोरी चैनल उपयोग:
    • आधुनिक FPGA से जुड़े कई मेमोरी बैंक और समर्पित चैनलों का उपयोग करना
    • उपयुक्त HLS निर्देश सम्मिलित करना, डेटा स्थानांतरण को पैरामीटरयोग्य संख्या में मेमोरी बैंक/चैनलों में आवंटित करना
    • प्रत्येक मेमोरी इंटरफेस की उपलब्ध बैंडविड्थ का पूरी तरह से उपयोग करना
  4. उच्च बैंडविड्थ डेटा स्थानांतरण: CPU और FPGA के बीच डेटा स्थानांतरण पूर्ण डेटा चौड़ाई (512-बिट) प्रति घड़ी चक्र में होता है, प्रसंस्करण तत्वों और मेमोरी उप-प्रणाली के बीच उच्च थ्रूपुट संचार सुनिश्चित करता है

तकनीकी नवाचार बिंदु

  1. पूर्ण सटीकता संरक्षण: मौजूदा परिमाणन विधियों के विपरीत, यह फ्रेमवर्क सभी मापदंडों की पूर्ण सटीकता बनाए रखता है
  2. स्ट्रीम प्रसंस्करण अनुकूलन: नवीन स्ट्रीम प्रसंस्करण तंत्र BRAM पर निर्भरता को कम करता है, संसाधन उपयोग दक्षता में सुधार करता है
  3. बहु-चैनल मेमोरी एक्सेस: आधुनिक FPGA की बहु-मेमोरी चैनल विशेषताओं का पूरी तरह से उपयोग करना
  4. Darknet-आधारित डिज़ाइन प्रवाह: परिचित और उपयोग में आसान डिज़ाइन इंटरफेस प्रदान करना

प्रयोगात्मक सेटअप

हार्डवेयर प्लेटफॉर्म

  • उच्च-अंत FPGA: AMD Alveo U55C
  • एम्बेडेड FPGA: Kria KR260
  • तुलनात्मक CPU: Intel Xeon E5-2620 v4 (8-कोर) और ARM Cortex-A53 (4-कोर)
  • तुलनात्मक GPU: NVIDIA T4

परीक्षण कॉन्फ़िगरेशन

  • मैट्रिक्स आयाम: M=2048, K=4096, N=16384
  • डेटा प्रकार: FP32 (32-बिट फ्लोटिंग पॉइंट)
  • परीक्षण उद्देश्य: गैर-शिखर प्रदर्शन मैट्रिक्स आयाम चुनना विधि की लचीलापन प्रदर्शित करने के लिए

मूल्यांकन मेट्रिक्स

  1. प्रदर्शन: GFLOPS (प्रति सेकंड अरब फ्लोटिंग-पॉइंट संचालन)
  2. ऊर्जा दक्षता: GFLOPS/Watt
  3. त्वरण अनुपात: संदर्भ कार्यान्वयन और CPU समानांतर कार्यान्वयन के सापेक्ष प्रदर्शन सुधार

प्रयोगात्मक परिणाम

मुख्य प्रदर्शन परिणाम

एम्बेडेड FPGA (Kria KR260)

  • संदर्भ कार्यान्वयन के सापेक्ष: 2 परिमाण का प्रदर्शन सुधार
  • ARM 4-कोर CPU के सापेक्ष: 9 गुना प्रदर्शन सुधार
  • ऊर्जा दक्षता सुधार: सर्वश्रेष्ठ CPU समानांतर कार्यान्वयन की तुलना में 9 गुना

उच्च-अंत FPGA (Alveo U55C)

  • संदर्भ कार्यान्वयन के सापेक्ष: लगभग 3 परिमाण का प्रदर्शन सुधार
  • Intel Xeon CPU के सापेक्ष: 10 गुना प्रदर्शन सुधार
  • ऊर्जा दक्षता सुधार: सर्वश्रेष्ठ CPU समानांतर कार्यान्वयन की तुलना में 34 गुना
  • NVIDIA T4 GPU के सापेक्ष: 3 गुना ऊर्जा दक्षता सुधार (हालांकि T4 अधिक उन्नत 12nm प्रक्रिया का उपयोग करता है, जबकि U55C 16nm है)

मुख्य निष्कर्ष

  1. महत्वपूर्ण प्रदर्शन सुधार: सभी परीक्षण प्लेटफॉर्म पर परिमाण के क्रम में प्रदर्शन सुधार प्राप्त किया गया
  2. उत्कृष्ट ऊर्जा दक्षता प्रदर्शन: विशेष रूप से Alveo U55C पर 34 गुना ऊर्जा दक्षता सुधार प्राप्त किया गया
  3. तकनीकी लाभ: प्रक्रिया प्रौद्योगिकी में नुकसान के बावजूद, GPU की ऊर्जा दक्षता को पार किया
  4. सामंजस्य सत्यापन: विभिन्न मैट्रिक्स आयामों के प्रयोग परिणाम चित्र 3 द्वारा दिखाए गए परिणामों के साथ पूरी तरह से सुसंगत हैं

संबंधित कार्य

पेपर निम्नलिखित संबंधित कार्यों का संदर्भ देता है:

  1. Xu et al. (2024): FLARE - पुनर्कॉन्फ़िगरेबल संरचना के साथ FPGA-आधारित पूर्ण सटीकता कम-विद्युत CNN त्वरक
  2. Chen et al. (2021): FPGA के लिए n-बिट परिमाणित तंत्रिका नेटवर्क सीखने की फ्रेमवर्क
  3. Latotzke et al. (2022): FPGA पर उच्च-थ्रूपुट मिश्रित-सटीकता CNN त्वरक डिज़ाइन

इस पेपर का संबंधित कार्य से मुख्य अंतर गैर-परिमाणित कार्यान्वयन पर ध्यान केंद्रित करना है, पूर्ण सटीकता बनाए रखते हुए उच्च प्रदर्शन और ऊर्जा दक्षता प्राप्त करना।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. मुख्य आवश्यकताओं का सफल समाधान: यह अनुसंधान विद्युत-सीमित वातावरण में कुशल CNN कार्यान्वयन की मुख्य आवश्यकताओं को सफलतापूर्वक हल करता है
  2. प्रदर्शन और ऊर्जा दक्षता दोनों पर ध्यान: प्रस्तावित गैर-परिमाणित FPGA CNN फ्रेमवर्क उच्च प्रदर्शन और ऊर्जा दक्षता को सफलतापूर्वक जोड़ता है
  3. सटीकता आश्वासन: नेटवर्क मापदंडों की पूर्ण सटीकता बनाए रखकर उच्च सटीकता प्राप्त करना, संसाधन उपयोग या विद्युत खपत को बाधित किए बिना
  4. प्रयोगात्मक सत्यापन प्रभावकारिता: प्रयोगात्मक परिणाम फ्रेमवर्क की प्रभावकारिता को सत्यापित करते हैं, अनुमान प्रसंस्करण में महत्वपूर्ण त्वरण और विद्युत खपत उपयोग में भारी कमी दिखाते हैं

सीमाएं

  1. परीक्षण सीमा: प्रयोग मुख्य रूप से मैट्रिक्स गुणन संचालन पर केंद्रित हैं, पूर्ण CNN नेटवर्क के परीक्षण परिणाम विस्तार से प्रदर्शित नहीं किए गए हैं
  2. सटीकता सत्यापन: हालांकि सटीकता को बनाए रखने का दावा किया जाता है, लेकिन विशिष्ट सटीकता तुलना डेटा की कमी है
  3. प्रयोज्यता सीमा: फ्रेमवर्क की प्रयोज्यता FPGA संसाधनों और विशिष्ट अनुप्रयोग आवश्यकताओं द्वारा सीमित हो सकती है

भविष्य की दिशा

पेपर विशिष्ट भविष्य अनुसंधान दिशाओं का स्पष्ट रूप से उल्लेख नहीं करता है, लेकिन निम्नलिखित का अनुमान लगाया जा सकता है:

  1. अधिक व्यापक CNN नेटवर्क परीक्षण और सत्यापन
  2. आगे की ऊर्जा दक्षता अनुकूलन
  3. अधिक प्रकार की तंत्रिका नेटवर्क परतों का समर्थन

गहन मूल्यांकन

शक्तियां

  1. तकनीकी नवाचार:
    • पूर्ण सटीकता बनाए रखते हुए उच्च-प्रदर्शन FPGA CNN कार्यान्वयन
    • नवीन HLS कम्प्यूटिंग इंजन डिज़ाइन, स्ट्रीम प्रसंस्करण और बहु-मेमोरी चैनलों का प्रभावी उपयोग
  2. प्रयोगात्मक पर्याप्तता:
    • कई हार्डवेयर प्लेटफॉर्म पर व्यापक परीक्षण
    • CPU और GPU के साथ तुलनात्मक प्रयोग शामिल
    • प्रदर्शन और ऊर्जा दक्षता मेट्रिक्स विस्तार से मापे गए
  3. व्यावहारिक मूल्य:
    • व्यापक रूप से उपयोग किए जाने वाले Darknet फ्रेमवर्क पर आधारित, अपनाना आसान
    • छोटे से बड़े FPGA की पूरी श्रृंखला का समर्थन
    • विद्युत-संवेदनशील अनुप्रयोग परिदृश्यों के लिए उपयुक्त
  4. परिणाम विश्वसनीयता:
    • परिमाण के क्रम में प्रदर्शन सुधार प्राप्त किया गया
    • कई मेट्रिक्स पर उत्कृष्ट प्रदर्शन
    • प्रक्रिया नुकसान के बावजूद GPU ऊर्जा दक्षता को पार किया

कमजोरियां

  1. पूर्ण सत्यापन अपर्याप्त:
    • पूर्ण CNN नेटवर्क के अंत-से-अंत परीक्षण परिणामों की कमी
    • विशिष्ट सटीकता संरक्षण सत्यापन डेटा प्रदान नहीं किया गया
    • मुख्य परीक्षण मैट्रिक्स गुणन स्तर पर केंद्रित
  2. तुलनात्मक बेंचमार्क चयन:
    • संदर्भ कार्यान्वयन पर्याप्त रूप से अनुकूलित नहीं हो सकता है
    • अन्य उन्नत FPGA CNN फ्रेमवर्क के साथ तुलना की कमी
  3. तकनीकी विवरण अपर्याप्त:
    • HLS कार्यान्वयन की विशिष्ट अनुकूलन रणनीति विवरण पर्याप्त नहीं है
    • संसाधन उपयोग दर डेटा अनुपस्थित
    • मेमोरी बैंडविड्थ उपयोग दक्षता विश्लेषण पर्याप्त नहीं है
  4. प्रयोज्यता विश्लेषण:
    • विधि की सीमाओं और प्रयोज्यता सीमा पर पर्याप्त चर्चा नहीं
    • विभिन्न आकार के CNN के लिए स्केलेबिलिटी विश्लेषण अपर्याप्त

प्रभाव मूल्यांकन

  1. शैक्षणिक योगदान:
    • गैर-परिमाणित FPGA CNN कार्यान्वयन के लिए नया समाधान प्रदान करता है
    • सटीकता बनाए रखते हुए उच्च प्रदर्शन प्राप्त करना महत्वपूर्ण सैद्धांतिक मूल्य रखता है
  2. व्यावहारिक मूल्य:
    • परिपक्व टूलचेन पर आधारित, इंजीनियरिंग कार्यान्वयन के लिए सुविधाजनक
    • एज कंप्यूटिंग और एम्बेडेड AI अनुप्रयोगों के लिए उपयुक्त
  3. पुनरुत्पादनीयता:
    • मानक HLS उपकरण और ओपन-सोर्स Darknet फ्रेमवर्क पर आधारित
    • तकनीकी मार्ग अपेक्षाकृत स्पष्ट, निश्चित पुनरुत्पादनीयता है

प्रयोज्य परिदृश्य

  1. एज AI अनुप्रयोग: विद्युत-संवेदनशील और सटीकता के लिए उच्च आवश्यकता वाले परिदृश्य
  2. वास्तविक समय छवि प्रसंस्करण: कम विलंबता उच्च-प्रदर्शन दृश्य प्रसंस्करण कार्य की आवश्यकता
  3. एम्बेडेड सिस्टम: संसाधन-सीमित लेकिन AI क्षमता की आवश्यकता वाले उपकरण
  4. औद्योगिक स्वचालन: विश्वसनीयता और सटीकता के लिए उच्च आवश्यकता वाले औद्योगिक AI अनुप्रयोग

संदर्भ

1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24

2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.

3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.


समग्र मूल्यांकन: यह FPGA CNN त्वरक क्षेत्र में व्यावहारिक मूल्य वाला एक पेपर है, जो पूर्ण सटीकता बनाए रखने वाला नवीन समाधान प्रस्तावित करता है, प्रयोगात्मक परिणाम प्रभावशाली हैं। हालांकि, पेपर में पूर्ण सत्यापन और तकनीकी विवरण विवरण में सुधार की गुंजाइश है। उच्च सटीकता की आवश्यकता वाले AI अनुप्रयोग परिदृश्यों के लिए, यह फ्रेमवर्क महत्वपूर्ण अनुप्रयोग संभावनाएं रखता है।