2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.

This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.

academic

IoT गेटवे पर सेंसर नोड्स के लिए न्यूरल आर्किटेक्चर की खोज

बुनियादी जानकारी

पेपर ID: 2505.23939
शीर्षक: Searching Neural Architectures for Sensor Nodes on IoT Gateways
लेखक: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
वर्गीकरण: cs.LG (मशीन लर्निंग), cs.NI (नेटवर्किंग और इंटरनेट आर्किटेक्चर)
प्रकाशन तिथि: 29 मई 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2505.23939

सारांश

यह पेपर एज डिवाइस पर स्वचालित रूप से न्यूरल नेटवर्क डिजाइन करने की एक विधि प्रस्तावित करता है, जो गोपनीयता-संवेदनशील इंटरनेट ऑफ थिंग्स (IoT) अनुप्रयोगों में मशीन लर्निंग को सक्षम बनाता है। यह विधि IoT गेटवे पर चलती है और जुड़े हुए सेंसर नोड्स के लिए न्यूरल नेटवर्क डिजाइन करती है, बिना एकत्र किए गए डेटा को स्थानीय नेटवर्क के बाहर साझा किए। डेटा हमेशा संग्रह स्थान पर रहता है। यह दृष्टिकोण स्वास्थ्य सेवा IoT (HIoT) और औद्योगिक IoT (IIoT) के लिए मशीन लर्निंग को सक्षम करने की क्षमता रखता है, एज पर हार्डवेयर-अनुकूल कस्टम न्यूरल नेटवर्क डिजाइन करके व्यक्तिगत चिकित्सा और उन्नत औद्योगिक सेवाओं के लिए। प्रायोगिक परिणाम दर्शाते हैं कि Visual Wake Words डेटासेट पर, यह विधि अत्याधुनिक परिणाम प्राप्त कर सकती है, और खोज प्रक्रिया Raspberry Pi Zero 2 पर 10 घंटे से कम समय में चलती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा न्यूरल आर्किटेक्चर सर्च (NAS) विधियों को आमतौर पर शक्तिशाली कम्प्यूटेशनल संसाधनों (जैसे GPU क्लस्टर) की आवश्यकता होती है, और डेटा को क्लाउड में प्रसंस्करण के लिए स्थानांतरित करना पड़ता है। यह गोपनीयता-संवेदनशील अनुप्रयोग परिदृश्यों में निम्नलिखित समस्याएं पैदा करता है:

डेटा गोपनीयता समस्या: चिकित्सा डेटा, औद्योगिक डेटा और बायोमेट्रिक डेटा जैसी संवेदनशील जानकारी को क्लाउड सेवाओं के साथ साझा नहीं किया जा सकता या नहीं किया जाना चाहिए
कम्प्यूटेशनल संसाधन सीमा: IoT गेटवे में आमतौर पर सीमित कम्प्यूटेशनल क्षमता और मेमोरी होती है, जो पारंपरिक NAS एल्गोरिदम चलाने में असमर्थ है
वास्तविक समय आवश्यकता: एज डिवाइस को सीमित समय और ऊर्जा बजट के भीतर न्यूरल नेटवर्क डिजाइन पूरा करने की आवश्यकता है

अनुसंधान का महत्व

यह अनुसंधान संसाधन-सीमित IoT वातावरण में गोपनीयता-संरक्षण मशीन लर्निंग मॉडल डिजाइन की समस्या को हल करता है, जिसका महत्वपूर्ण व्यावहारिक अनुप्रयोग मूल्य है:

स्वास्थ्य सेवा IoT: प्रत्येक रोगी के लिए व्यक्तिगत हार्डवेयर-अनुकूल न्यूरल नेटवर्क प्रदान करना
औद्योगिक IoT: उत्पादन उपकरणों के लिए कस्टम दोष निदान और गुणवत्ता नियंत्रण मॉडल प्रदान करना, साथ ही औद्योगिक गोपनीयता की सुरक्षा करना

मौजूदा विधियों की सीमाएं

पारंपरिक HW-NAS विधियों की मुख्य समस्याएं शामिल हैं:

अत्यधिक कम्प्यूटेशनल लागत (जैसे MnasNet को 40,000 GPU घंटे की आवश्यकता है)
यह मानना कि खोज प्रक्रिया चलाने वाले प्लेटफॉर्म के संसाधन सीमित नहीं हैं
एज डिवाइस पर सीधे चलाने में असमर्थता

मुख्य योगदान

एक नई खोज रणनीति प्रस्तावित की: Raspberry Pi Zero 2 पर खोज समय को 4 दिन से 10 घंटे तक कम किया, साथ ही Visual Wake Words डेटासेट पर अत्याधुनिक परिणाम प्राप्त किए
आत्मनिर्भर तंत्र विकसित किए: IoT गेटवे की उपलब्ध ऊर्जा और समय बजट के अनुसार खोज स्थान को समायोजित करना, जिससे HW-NAS सीमित संसाधनों के तहत निष्पादित हो सके
समय श्रृंखला प्रसंस्करण क्षमता का विस्तार किया: CWRU डेटासेट पर अत्याधुनिक परिणाम प्राप्त किए, Raspberry Pi 4 पर केवल 2 घंटे 52 मिनट में
ओपन सोर्स सॉफ्टवेयर रिलीज किया: एम्बेडेड Linux डिवाइस के लिए डिजाइन किए गए ओपन सोर्स HW-NAS सॉफ्टवेयर प्रदान किया

विधि विवरण

कार्य परिभाषा

एक IoT गेटवे और जुड़े हुए सेंसर नोड्स को देखते हुए, लक्ष्य गेटवे पर स्वचालित रूप से ऐसे न्यूरल नेटवर्क आर्किटेक्चर डिजाइन करना है जो सेंसर नोड्स की हार्डवेयर बाधाओं के अनुकूल हो, साथ ही गेटवे की कम्प्यूटेशनल संसाधन, समय और ऊर्जा सीमा को पूरा करे।

मुख्य अनुकूलन समस्या

यह विधि HW-NAS को एक छह-गुणा बाधा अनुकूलन समस्या के रूप में मॉडल करती है:

एज बाधाएं (सेंसर नोड्स):

RAM उपयोग: ϕ_RAM(A) ≤ ξ_RAM
फ्लैश मेमोरी: ϕ_Flash(A) ≤ ξ_Flash
MAC ऑपरेशन: ϕ_MAC(A) ≤ ξ_MAC

गेटवे बाधाएं:

मेमोरी उपयोग: ϕ_MEM(A) ≤ ξ_MEM
निष्पादन समय: ϕ_Time(S_α) ≤ ξ_Time
ऊर्जा बजट: ϕ_Energy(S_α) ≤ ξ_Energy

खोज स्थान जनरेशन

एल्गोरिदम 1: विस्तारित खोज स्थान जनरेशन

इनपुट: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
आउटपुट: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. दोहराएं:
3.   c ← 0
4.   जबकि A(k,c) व्यवहार्य है:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. जब तक (k,0) व्यवहार्य नहीं है

एल्गोरिदम 2: खोज स्थान छंटाई

समय और ऊर्जा बाधाओं के आधार पर विस्तारित खोज स्थान को छंटाई करना:

अधिकतम आर्किटेक्चर के मूल्यांकन समय की ऊपरी सीमा का अनुमान लगाएं t̄
ऊर्जा ऊपरी सीमा की गणना करें ē = t̄ × w̄ (अधिकतम शक्ति)
आर्किटेक्चर आकार के क्रम में उम्मीदवार आर्किटेक्चर जोड़ें जब तक बाधा सीमा तक न पहुंच जाएं

खोज रणनीति

दोहरी-स्तरीय अनुकूलन एल्गोरिदम

बाहरी लूप: सर्वोत्तम कनवल्शन कर्नल संख्या k की खोज करना आंतरिक लूप: दिए गए k मान के लिए, सर्वोत्तम निर्माण इकाई संख्या c की खोज करना

मुख्य विशेषताएं:

न्यूनतम व्यवहार्य समाधान (k=1, c=0) से शुरू करना
खोज चरण को समायोजित करने के लिए परिवर्तनशील वृद्धि ⌊k/2^β⌋ का उपयोग करना
जब प्रदर्शन में सुधार नहीं हो रहा हो तो खोज चरण को कम करना
ग्रेडिएंट-मुक्त अनुकूलन, मेमोरी और कम्प्यूटेशनल आवश्यकताओं को कम करना

नेटवर्क आर्किटेक्चर डिजाइन

इकाई-आधारित खोज स्थान को अपनाया जाता है, जिसमें चार प्रकार की इकाइयां शामिल हैं:

प्रीप्रोसेसिंग इकाई: न्यूनतम-अधिकतम सामान्यीकरण
आधार इकाई: एकल कनवल्शन परत, k कनवल्शन कर्नल
निर्माण इकाई: अधिकतम पूलिंग + कनवल्शन + बैच सामान्यीकरण + ReLU सक्रियण
वर्गीकरणकर्ता इकाई: वैश्विक औसत पूलिंग + पूरी तरह से जुड़ी परत

कनवल्शन कर्नल संख्या सूत्र: n_c = n_ + 2^{1-c}n_, जहां n_0 = k

प्रायोगिक सेटअप

हार्डवेयर प्लेटफॉर्म

IoT गेटवे डिवाइस

डिवाइस	SoC	RAM	पीक पावर
Raspberry Pi 4	BCM2711	4 GiB	5.6 W
Raspberry Pi 3	BCM2837	1 GiB	4.3 W
Raspberry Pi Zero 2	BCM2710A1	0.5 GiB	2.8 W

सेंसर नोड MCU

MCU मॉडल	RAM	फ्लैश	CoreMark
STM32L010RBT6	20 kiB	128 kiB	75
STM32U083RCT6	32 kiB	256 kiB	134
STM32L412KBU3	40 kiB	128 kiB	273

डेटासेट

Visual Wake Words: 123,000 छवियां, व्यक्ति पहचान कार्य
CIFAR-10: 60,000 32×32 रंगीन छवियां, 10-वर्गीय वर्गीकरण
Melanoma Skin Cancer: 10,000 चिकित्सा छवियां, घातक ट्यूमर पहचान
CWRU: रोलिंग बेयरिंग दोष निदान के लिए त्वरणमापी समय श्रृंखला डेटा

मूल्यांकन मेट्रिक्स

परीक्षण सटीकता
RAM उपयोग (kiB)
फ्लैश मेमोरी उपयोग (kiB)
MAC ऑपरेशन (मिलियन)
अनुमान विलंबता (ms)
खोज समय और ऊर्जा खपत

प्रायोगिक परिणाम

मुख्य परिणाम

अति-निम्न-शक्ति माइक्रोकंट्रोलर अनुकूलन

Visual Wake Words डेटासेट पर परिणाम:

लक्ष्य MCU	आर्किटेक्चर(k,c)	RAM	फ्लैश	MAC	परीक्षण सटीकता	विलंबता
L010RBT6	(3,4)	19 kiB	10.8 kiB	0.4 MM	71%	42 ms
U083RCT6	(5,5)	24.5 kiB	22.7 kiB	0.9 MM	75.2%	63.2 ms
L412KBU3	(8,3)	31 kiB	18.8 kiB	2 MM	78.3%	79.1 ms

परिणाम दर्शाते हैं: हार्डवेयर संसाधन बढ़ने के साथ, एल्गोरिदम स्वचालित रूप से बड़े आर्किटेक्चर का चयन करता है, उच्च सटीकता प्राप्त करता है।

अत्याधुनिक विधियों के साथ तुलना

Visual Wake Words डेटासेट पर तुलना परिणाम:

विधि	सटीकता	RAM	फ्लैश	MAC
MCUNet	87.4%	168.5 kiB	530.5 kiB	6 MM
Micronets	76.8%	70.5 kiB	273.8 kiB	3.3 MM
ColabNAS	77.6%	31.5 kiB	20.83 kiB	2 MM
NanoNAS	77%	28.5 kiB	23.7 kiB	1.3 MM
यह विधि	78.3%	31 kiB	18.8 kiB	2 MM

यह विधि न्यूनतम फ्लैश उपयोग बनाए रखते हुए दूसरी सबसे अधिक सटीकता प्राप्त करती है।

संसाधन बाधा के तहत आत्मनिर्भर प्रदर्शन

Raspberry Pi Zero 2 पर STM32L412KBU3 के लिए प्रयोग:

बजट	वास्तविक खपत	खोज स्थान	अन्वेषण दर	सटीकता	आर्किटेक्चर संसाधन
16.5Wh-9:51	16.5Wh-9:51	100%	51%	77.8%	28.5kiB RAM
11.0Wh-6:34	11.0Wh-6:30	33%	98%	73.1%	21.5kiB RAM
5.50Wh-3:17	5.41Wh-3:17	15%	95%	66%	18.5kiB RAM

समय श्रृंखला प्रसंस्करण क्षमता

CWRU डेटासेट पर Chen आदि 54 के साथ तुलना:

विधि	खोज लागत	आर्किटेक्चर(k,c)	RAM	फ्लैश	MAC	सटीकता	विलंबता
यह विधि	6.4Wh-1:52	(6,4)	13.5 kiB	12.9 kiB	0.6 MM	99.5%	34 ms
Chen आदि54	n/a	n/a	66.5 kiB	163.4 kiB	0.2 MM	99.3%	38.2 ms

यह विधि उच्च सटीकता प्राप्त करते हुए RAM उपयोग को 4.9 गुना और फ्लैश उपयोग को 12.7 गुना कम करती है।

कार्य	GPU	CPU	एम्बेडेड डिवाइस
MnasNet	✓
MCUNet	✓
ColabNAS	✓
NanoNAS v1		✓
NanoNAS v2			✓
यह विधि			✓ (आत्मनिर्भर)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

गोपनीयता संरक्षण: पूरी तरह से स्थानीयकृत न्यूरल नेटवर्क डिजाइन प्राप्त किया, डेटा को संग्रह स्थान से बाहर जाने की आवश्यकता नहीं है
संसाधन दक्षता: संसाधन-सीमित IoT गेटवे पर HW-NAS को सफलतापूर्वक चलाया
उत्कृष्ट प्रदर्शन: कई बेंचमार्क डेटासेट पर अत्याधुनिक परिणाम प्राप्त किए
आत्मनिर्भर क्षमता: उपलब्ध संसाधनों के अनुसार खोज रणनीति को गतिशील रूप से समायोजित कर सकता है

सीमाएं

खोज स्थान सीमा: अपेक्षाकृत सरल इकाई-आधारित खोज स्थान को अपनाया
मूल्यांकन रणनीति: उम्मीदवार आर्किटेक्चर के मूल्यांकन के लिए केवल 3 epoch का उपयोग किया, जो सटीकता को प्रभावित कर सकता है
हार्डवेयर निर्भरता: मुख्य रूप से ARM आर्किटेक्चर के एम्बेडेड डिवाइस के लिए अनुकूलित
कार्य सीमा: मुख्य रूप से छवि वर्गीकरण और सरल समय श्रृंखला कार्यों को सत्यापित किया

भविष्य की दिशाएं

प्रशिक्षण-मुक्त मूल्यांकन: प्रशिक्षण की आवश्यकता के बिना आर्किटेक्चर मूल्यांकन तकनीकों को अपनाकर खोज लागत को और कम करना
अधिक जटिल कार्य: वस्तु पहचान, सिमेंटिक विभाजन आदि अधिक जटिल कार्यों तक विस्तार करना
बहु-उद्देश्य अनुकूलन: सटीकता, विलंबता, ऊर्जा खपत आदि कई उद्देश्यों को एक साथ अनुकूलित करना
संघीय शिक्षा एकीकरण: वितरित गोपनीयता-संरक्षण प्रशिक्षण को लागू करने के लिए संघीय शिक्षा के साथ संयोजन करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: IoT गेटवे पर आत्मनिर्भर HW-NAS को पहली बार लागू किया, महत्वपूर्ण व्यावहारिक समस्या को हल किया
उच्च व्यावहारिक मूल्य: गोपनीयता-संवेदनशील IoT अनुप्रयोगों के लिए व्यवहार्य समाधान प्रदान किया
व्यापक प्रयोग: कई हार्डवेयर प्लेटफॉर्म और डेटासेट पर व्यापक सत्यापन किया
ओपन सोर्स योगदान: पूर्ण ओपन सोर्स कार्यान्वयन प्रदान किया, क्षेत्र के विकास को बढ़ावा दिया

कमियां

विधि जटिलता: समय और ऊर्जा ऊपरी सीमा का पूर्व अनुमान लगाने की आवश्यकता है, तैनाती जटिलता को बढ़ाता है
सामान्यीकरण क्षमता: मुख्य रूप से विशिष्ट ARM आर्किटेक्चर पर सत्यापित, अन्य आर्किटेक्चर की प्रयोज्यता अभी तय होनी बाकी है
अपर्याप्त सैद्धांतिक विश्लेषण: खोज रणनीति अभिसरण के लिए सैद्धांतिक गारंटी की कमी
मूल्यांकन अनाज: 3 epoch का मूल्यांकन पर्याप्त नहीं हो सकता है

प्रभाव

शैक्षणिक मूल्य: एज AI और गोपनीयता-संरक्षण मशीन लर्निंग के लिए नई अनुसंधान दिशा प्रदान की
औद्योगिक अनुप्रयोग: चिकित्सा IoT और औद्योगिक IoT क्षेत्र में सीधे अनुप्रयोग क्षमता है
तकनीकी प्रचार: ओपन सोर्स सॉफ्टवेयर तकनीक के व्यापक अपनाने और आगे विकास में सहायता करता है

लागू परिदृश्य

चिकित्सा IoT: अस्पताल के भीतर रोगी निगरानी और निदान प्रणाली
औद्योगिक IoT: उत्पादन लाइन की गुणवत्ता नियंत्रण और उपकरण निगरानी
स्मार्ट होम: गोपनीयता-संवेदनशील घर निगरानी और नियंत्रण प्रणाली
एज कंप्यूटिंग: संसाधन-सीमित एज डिवाइस पर AI मॉडल तैनाती

संदर्भ

पेपर ने 68 संबंधित संदर्भों का हवाला दिया है, जो न्यूरल आर्किटेक्चर सर्च, एज कंप्यूटिंग, IoT सुरक्षा और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह महत्वपूर्ण व्यावहारिक मूल्य वाला एक उच्च-गुणवत्ता वाला पेपर है, जो संसाधन-सीमित IoT वातावरण में गोपनीयता-संरक्षण न्यूरल नेटवर्क डिजाइन की समस्या को सफलतापूर्वक हल करता है। विधि मजबूत नवाचार है, प्रयोग व्यापक हैं, और एज AI और गोपनीयता-संरक्षण मशीन लर्निंग के विकास को बढ़ावा देने में महत्वपूर्ण महत्व है।