2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

IoT गेटवे पर सेंसर नोड्स के लिए न्यूरल आर्किटेक्चर की खोज

बुनियादी जानकारी

  • पेपर ID: 2505.23939
  • शीर्षक: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • लेखक: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • वर्गीकरण: cs.LG (मशीन लर्निंग), cs.NI (नेटवर्किंग और इंटरनेट आर्किटेक्चर)
  • प्रकाशन तिथि: 29 मई 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2505.23939

सारांश

यह पेपर एज डिवाइस पर स्वचालित रूप से न्यूरल नेटवर्क डिजाइन करने की एक विधि प्रस्तावित करता है, जो गोपनीयता-संवेदनशील इंटरनेट ऑफ थिंग्स (IoT) अनुप्रयोगों में मशीन लर्निंग को सक्षम बनाता है। यह विधि IoT गेटवे पर चलती है और जुड़े हुए सेंसर नोड्स के लिए न्यूरल नेटवर्क डिजाइन करती है, बिना एकत्र किए गए डेटा को स्थानीय नेटवर्क के बाहर साझा किए। डेटा हमेशा संग्रह स्थान पर रहता है। यह दृष्टिकोण स्वास्थ्य सेवा IoT (HIoT) और औद्योगिक IoT (IIoT) के लिए मशीन लर्निंग को सक्षम करने की क्षमता रखता है, एज पर हार्डवेयर-अनुकूल कस्टम न्यूरल नेटवर्क डिजाइन करके व्यक्तिगत चिकित्सा और उन्नत औद्योगिक सेवाओं के लिए। प्रायोगिक परिणाम दर्शाते हैं कि Visual Wake Words डेटासेट पर, यह विधि अत्याधुनिक परिणाम प्राप्त कर सकती है, और खोज प्रक्रिया Raspberry Pi Zero 2 पर 10 घंटे से कम समय में चलती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा न्यूरल आर्किटेक्चर सर्च (NAS) विधियों को आमतौर पर शक्तिशाली कम्प्यूटेशनल संसाधनों (जैसे GPU क्लस्टर) की आवश्यकता होती है, और डेटा को क्लाउड में प्रसंस्करण के लिए स्थानांतरित करना पड़ता है। यह गोपनीयता-संवेदनशील अनुप्रयोग परिदृश्यों में निम्नलिखित समस्याएं पैदा करता है:

  1. डेटा गोपनीयता समस्या: चिकित्सा डेटा, औद्योगिक डेटा और बायोमेट्रिक डेटा जैसी संवेदनशील जानकारी को क्लाउड सेवाओं के साथ साझा नहीं किया जा सकता या नहीं किया जाना चाहिए
  2. कम्प्यूटेशनल संसाधन सीमा: IoT गेटवे में आमतौर पर सीमित कम्प्यूटेशनल क्षमता और मेमोरी होती है, जो पारंपरिक NAS एल्गोरिदम चलाने में असमर्थ है
  3. वास्तविक समय आवश्यकता: एज डिवाइस को सीमित समय और ऊर्जा बजट के भीतर न्यूरल नेटवर्क डिजाइन पूरा करने की आवश्यकता है

अनुसंधान का महत्व

यह अनुसंधान संसाधन-सीमित IoT वातावरण में गोपनीयता-संरक्षण मशीन लर्निंग मॉडल डिजाइन की समस्या को हल करता है, जिसका महत्वपूर्ण व्यावहारिक अनुप्रयोग मूल्य है:

  • स्वास्थ्य सेवा IoT: प्रत्येक रोगी के लिए व्यक्तिगत हार्डवेयर-अनुकूल न्यूरल नेटवर्क प्रदान करना
  • औद्योगिक IoT: उत्पादन उपकरणों के लिए कस्टम दोष निदान और गुणवत्ता नियंत्रण मॉडल प्रदान करना, साथ ही औद्योगिक गोपनीयता की सुरक्षा करना

मौजूदा विधियों की सीमाएं

पारंपरिक HW-NAS विधियों की मुख्य समस्याएं शामिल हैं:

  • अत्यधिक कम्प्यूटेशनल लागत (जैसे MnasNet को 40,000 GPU घंटे की आवश्यकता है)
  • यह मानना कि खोज प्रक्रिया चलाने वाले प्लेटफॉर्म के संसाधन सीमित नहीं हैं
  • एज डिवाइस पर सीधे चलाने में असमर्थता

मुख्य योगदान

  1. एक नई खोज रणनीति प्रस्तावित की: Raspberry Pi Zero 2 पर खोज समय को 4 दिन से 10 घंटे तक कम किया, साथ ही Visual Wake Words डेटासेट पर अत्याधुनिक परिणाम प्राप्त किए
  2. आत्मनिर्भर तंत्र विकसित किए: IoT गेटवे की उपलब्ध ऊर्जा और समय बजट के अनुसार खोज स्थान को समायोजित करना, जिससे HW-NAS सीमित संसाधनों के तहत निष्पादित हो सके
  3. समय श्रृंखला प्रसंस्करण क्षमता का विस्तार किया: CWRU डेटासेट पर अत्याधुनिक परिणाम प्राप्त किए, Raspberry Pi 4 पर केवल 2 घंटे 52 मिनट में
  4. ओपन सोर्स सॉफ्टवेयर रिलीज किया: एम्बेडेड Linux डिवाइस के लिए डिजाइन किए गए ओपन सोर्स HW-NAS सॉफ्टवेयर प्रदान किया

विधि विवरण

कार्य परिभाषा

एक IoT गेटवे और जुड़े हुए सेंसर नोड्स को देखते हुए, लक्ष्य गेटवे पर स्वचालित रूप से ऐसे न्यूरल नेटवर्क आर्किटेक्चर डिजाइन करना है जो सेंसर नोड्स की हार्डवेयर बाधाओं के अनुकूल हो, साथ ही गेटवे की कम्प्यूटेशनल संसाधन, समय और ऊर्जा सीमा को पूरा करे।

मुख्य अनुकूलन समस्या

यह विधि HW-NAS को एक छह-गुणा बाधा अनुकूलन समस्या के रूप में मॉडल करती है:

एज बाधाएं (सेंसर नोड्स):

  • RAM उपयोग: ϕ_RAM(A) ≤ ξ_RAM
  • फ्लैश मेमोरी: ϕ_Flash(A) ≤ ξ_Flash
  • MAC ऑपरेशन: ϕ_MAC(A) ≤ ξ_MAC

गेटवे बाधाएं:

  • मेमोरी उपयोग: ϕ_MEM(A) ≤ ξ_MEM
  • निष्पादन समय: ϕ_Time(S_α) ≤ ξ_Time
  • ऊर्जा बजट: ϕ_Energy(S_α) ≤ ξ_Energy

खोज स्थान जनरेशन

एल्गोरिदम 1: विस्तारित खोज स्थान जनरेशन

इनपुट: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
आउटपुट: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. दोहराएं:
3.   c ← 0
4.   जबकि A(k,c) व्यवहार्य है:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. जब तक (k,0) व्यवहार्य नहीं है

एल्गोरिदम 2: खोज स्थान छंटाई

समय और ऊर्जा बाधाओं के आधार पर विस्तारित खोज स्थान को छंटाई करना:

  • अधिकतम आर्किटेक्चर के मूल्यांकन समय की ऊपरी सीमा का अनुमान लगाएं t̄
  • ऊर्जा ऊपरी सीमा की गणना करें ē = t̄ × w̄ (अधिकतम शक्ति)
  • आर्किटेक्चर आकार के क्रम में उम्मीदवार आर्किटेक्चर जोड़ें जब तक बाधा सीमा तक न पहुंच जाएं

खोज रणनीति

दोहरी-स्तरीय अनुकूलन एल्गोरिदम

बाहरी लूप: सर्वोत्तम कनवल्शन कर्नल संख्या k की खोज करना आंतरिक लूप: दिए गए k मान के लिए, सर्वोत्तम निर्माण इकाई संख्या c की खोज करना

मुख्य विशेषताएं:

  • न्यूनतम व्यवहार्य समाधान (k=1, c=0) से शुरू करना
  • खोज चरण को समायोजित करने के लिए परिवर्तनशील वृद्धि ⌊k/2^β⌋ का उपयोग करना
  • जब प्रदर्शन में सुधार नहीं हो रहा हो तो खोज चरण को कम करना
  • ग्रेडिएंट-मुक्त अनुकूलन, मेमोरी और कम्प्यूटेशनल आवश्यकताओं को कम करना

नेटवर्क आर्किटेक्चर डिजाइन

इकाई-आधारित खोज स्थान को अपनाया जाता है, जिसमें चार प्रकार की इकाइयां शामिल हैं:

  1. प्रीप्रोसेसिंग इकाई: न्यूनतम-अधिकतम सामान्यीकरण
  2. आधार इकाई: एकल कनवल्शन परत, k कनवल्शन कर्नल
  3. निर्माण इकाई: अधिकतम पूलिंग + कनवल्शन + बैच सामान्यीकरण + ReLU सक्रियण
  4. वर्गीकरणकर्ता इकाई: वैश्विक औसत पूलिंग + पूरी तरह से जुड़ी परत

कनवल्शन कर्नल संख्या सूत्र: n_c = n_ + 2^{1-c}n_, जहां n_0 = k

प्रायोगिक सेटअप

हार्डवेयर प्लेटफॉर्म

IoT गेटवे डिवाइस

डिवाइसSoCRAMपीक पावर
Raspberry Pi 4BCM27114 GiB5.6 W
Raspberry Pi 3BCM28371 GiB4.3 W
Raspberry Pi Zero 2BCM2710A10.5 GiB2.8 W

सेंसर नोड MCU

MCU मॉडलRAMफ्लैशCoreMark
STM32L010RBT620 kiB128 kiB75
STM32U083RCT632 kiB256 kiB134
STM32L412KBU340 kiB128 kiB273

डेटासेट

  1. Visual Wake Words: 123,000 छवियां, व्यक्ति पहचान कार्य
  2. CIFAR-10: 60,000 32×32 रंगीन छवियां, 10-वर्गीय वर्गीकरण
  3. Melanoma Skin Cancer: 10,000 चिकित्सा छवियां, घातक ट्यूमर पहचान
  4. CWRU: रोलिंग बेयरिंग दोष निदान के लिए त्वरणमापी समय श्रृंखला डेटा

मूल्यांकन मेट्रिक्स

  • परीक्षण सटीकता
  • RAM उपयोग (kiB)
  • फ्लैश मेमोरी उपयोग (kiB)
  • MAC ऑपरेशन (मिलियन)
  • अनुमान विलंबता (ms)
  • खोज समय और ऊर्जा खपत

प्रायोगिक परिणाम

मुख्य परिणाम

अति-निम्न-शक्ति माइक्रोकंट्रोलर अनुकूलन

Visual Wake Words डेटासेट पर परिणाम:

लक्ष्य MCUआर्किटेक्चर(k,c)RAMफ्लैशMACपरीक्षण सटीकताविलंबता
L010RBT6(3,4)19 kiB10.8 kiB0.4 MM71%42 ms
U083RCT6(5,5)24.5 kiB22.7 kiB0.9 MM75.2%63.2 ms
L412KBU3(8,3)31 kiB18.8 kiB2 MM78.3%79.1 ms

परिणाम दर्शाते हैं: हार्डवेयर संसाधन बढ़ने के साथ, एल्गोरिदम स्वचालित रूप से बड़े आर्किटेक्चर का चयन करता है, उच्च सटीकता प्राप्त करता है।

अत्याधुनिक विधियों के साथ तुलना

Visual Wake Words डेटासेट पर तुलना परिणाम:

विधिसटीकताRAMफ्लैशMAC
MCUNet87.4%168.5 kiB530.5 kiB6 MM
Micronets76.8%70.5 kiB273.8 kiB3.3 MM
ColabNAS77.6%31.5 kiB20.83 kiB2 MM
NanoNAS77%28.5 kiB23.7 kiB1.3 MM
यह विधि78.3%31 kiB18.8 kiB2 MM

यह विधि न्यूनतम फ्लैश उपयोग बनाए रखते हुए दूसरी सबसे अधिक सटीकता प्राप्त करती है।

संसाधन बाधा के तहत आत्मनिर्भर प्रदर्शन

Raspberry Pi Zero 2 पर STM32L412KBU3 के लिए प्रयोग:

बजटवास्तविक खपतखोज स्थानअन्वेषण दरसटीकताआर्किटेक्चर संसाधन
16.5Wh-9:5116.5Wh-9:51100%51%77.8%28.5kiB RAM
11.0Wh-6:3411.0Wh-6:3033%98%73.1%21.5kiB RAM
5.50Wh-3:175.41Wh-3:1715%95%66%18.5kiB RAM

समय श्रृंखला प्रसंस्करण क्षमता

CWRU डेटासेट पर Chen आदि 54 के साथ तुलना:

विधिखोज लागतआर्किटेक्चर(k,c)RAMफ्लैशMACसटीकताविलंबता
यह विधि6.4Wh-1:52(6,4)13.5 kiB12.9 kiB0.6 MM99.5%34 ms
Chen आदि54n/an/a66.5 kiB163.4 kiB0.2 MM99.3%38.2 ms

यह विधि उच्च सटीकता प्राप्त करते हुए RAM उपयोग को 4.9 गुना और फ्लैश उपयोग को 12.7 गुना कम करती है।

संबंधित कार्य

HW-NAS विकास का इतिहास

  • प्रारंभिक विधियां: MnasNet को 40,000 GPU घंटे की आवश्यकता है
  • अनुकूलित विधियां: MCUNet को 300 GPU घंटे तक कम किया
  • हल्की विधियां: ColabNAS को केवल 4 GPU घंटे की आवश्यकता है
  • एम्बेडेड विधियां: NanoNAS पहली बार एम्बेडेड डिवाइस पर चलाई गई

निष्पादन प्लेटफॉर्म वर्गीकरण

कार्यGPUCPUएम्बेडेड डिवाइस
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
यह विधि✓ (आत्मनिर्भर)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. गोपनीयता संरक्षण: पूरी तरह से स्थानीयकृत न्यूरल नेटवर्क डिजाइन प्राप्त किया, डेटा को संग्रह स्थान से बाहर जाने की आवश्यकता नहीं है
  2. संसाधन दक्षता: संसाधन-सीमित IoT गेटवे पर HW-NAS को सफलतापूर्वक चलाया
  3. उत्कृष्ट प्रदर्शन: कई बेंचमार्क डेटासेट पर अत्याधुनिक परिणाम प्राप्त किए
  4. आत्मनिर्भर क्षमता: उपलब्ध संसाधनों के अनुसार खोज रणनीति को गतिशील रूप से समायोजित कर सकता है

सीमाएं

  1. खोज स्थान सीमा: अपेक्षाकृत सरल इकाई-आधारित खोज स्थान को अपनाया
  2. मूल्यांकन रणनीति: उम्मीदवार आर्किटेक्चर के मूल्यांकन के लिए केवल 3 epoch का उपयोग किया, जो सटीकता को प्रभावित कर सकता है
  3. हार्डवेयर निर्भरता: मुख्य रूप से ARM आर्किटेक्चर के एम्बेडेड डिवाइस के लिए अनुकूलित
  4. कार्य सीमा: मुख्य रूप से छवि वर्गीकरण और सरल समय श्रृंखला कार्यों को सत्यापित किया

भविष्य की दिशाएं

  1. प्रशिक्षण-मुक्त मूल्यांकन: प्रशिक्षण की आवश्यकता के बिना आर्किटेक्चर मूल्यांकन तकनीकों को अपनाकर खोज लागत को और कम करना
  2. अधिक जटिल कार्य: वस्तु पहचान, सिमेंटिक विभाजन आदि अधिक जटिल कार्यों तक विस्तार करना
  3. बहु-उद्देश्य अनुकूलन: सटीकता, विलंबता, ऊर्जा खपत आदि कई उद्देश्यों को एक साथ अनुकूलित करना
  4. संघीय शिक्षा एकीकरण: वितरित गोपनीयता-संरक्षण प्रशिक्षण को लागू करने के लिए संघीय शिक्षा के साथ संयोजन करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: IoT गेटवे पर आत्मनिर्भर HW-NAS को पहली बार लागू किया, महत्वपूर्ण व्यावहारिक समस्या को हल किया
  2. उच्च व्यावहारिक मूल्य: गोपनीयता-संवेदनशील IoT अनुप्रयोगों के लिए व्यवहार्य समाधान प्रदान किया
  3. व्यापक प्रयोग: कई हार्डवेयर प्लेटफॉर्म और डेटासेट पर व्यापक सत्यापन किया
  4. ओपन सोर्स योगदान: पूर्ण ओपन सोर्स कार्यान्वयन प्रदान किया, क्षेत्र के विकास को बढ़ावा दिया

कमियां

  1. विधि जटिलता: समय और ऊर्जा ऊपरी सीमा का पूर्व अनुमान लगाने की आवश्यकता है, तैनाती जटिलता को बढ़ाता है
  2. सामान्यीकरण क्षमता: मुख्य रूप से विशिष्ट ARM आर्किटेक्चर पर सत्यापित, अन्य आर्किटेक्चर की प्रयोज्यता अभी तय होनी बाकी है
  3. अपर्याप्त सैद्धांतिक विश्लेषण: खोज रणनीति अभिसरण के लिए सैद्धांतिक गारंटी की कमी
  4. मूल्यांकन अनाज: 3 epoch का मूल्यांकन पर्याप्त नहीं हो सकता है

प्रभाव

  1. शैक्षणिक मूल्य: एज AI और गोपनीयता-संरक्षण मशीन लर्निंग के लिए नई अनुसंधान दिशा प्रदान की
  2. औद्योगिक अनुप्रयोग: चिकित्सा IoT और औद्योगिक IoT क्षेत्र में सीधे अनुप्रयोग क्षमता है
  3. तकनीकी प्रचार: ओपन सोर्स सॉफ्टवेयर तकनीक के व्यापक अपनाने और आगे विकास में सहायता करता है

लागू परिदृश्य

  1. चिकित्सा IoT: अस्पताल के भीतर रोगी निगरानी और निदान प्रणाली
  2. औद्योगिक IoT: उत्पादन लाइन की गुणवत्ता नियंत्रण और उपकरण निगरानी
  3. स्मार्ट होम: गोपनीयता-संवेदनशील घर निगरानी और नियंत्रण प्रणाली
  4. एज कंप्यूटिंग: संसाधन-सीमित एज डिवाइस पर AI मॉडल तैनाती

संदर्भ

पेपर ने 68 संबंधित संदर्भों का हवाला दिया है, जो न्यूरल आर्किटेक्चर सर्च, एज कंप्यूटिंग, IoT सुरक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह महत्वपूर्ण व्यावहारिक मूल्य वाला एक उच्च-गुणवत्ता वाला पेपर है, जो संसाधन-सीमित IoT वातावरण में गोपनीयता-संरक्षण न्यूरल नेटवर्क डिजाइन की समस्या को सफलतापूर्वक हल करता है। विधि मजबूत नवाचार है, प्रयोग व्यापक हैं, और एज AI और गोपनीयता-संरक्षण मशीन लर्निंग के विकास को बढ़ावा देने में महत्वपूर्ण महत्व है।