2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.

This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.

academic

Suche nach neuronalen Architekturen für Sensorknoten auf IoT-Gateways

Grundinformationen

Paper-ID: 2505.23939
Titel: Searching Neural Architectures for Sensor Nodes on IoT Gateways
Autoren: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
Klassifizierung: cs.LG (Maschinelles Lernen), cs.NI (Netzwerk- und Internetarchitektur)
Veröffentlichungsdatum: 29. Mai 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2505.23939

Zusammenfassung

Dieses Papier präsentiert eine Methode zur automatischen Gestaltung neuronaler Netze auf Edge-Geräten, die es ermöglicht, maschinelles Lernen auf datenschutzsensitive IoT-Anwendungen (Internet of Things) anzuwenden. Die Methode läuft auf IoT-Gateways und entwirft neuronale Netze für verbundene Sensorknoten, ohne dass gesammelte Daten außerhalb des lokalen Netzwerks freigegeben werden müssen – die Daten bleiben immer am Erfassungsort. Dieser Ansatz hat das Potenzial, maschinelles Lernen für Healthcare-IoT (HIoT) und Industrial-IoT (IIoT) zu ermöglichen, indem hardwarefreundliche, maßgeschneiderte neuronale Netze am Edge entworfen werden, die für personalisierte Medizin und fortschrittliche Industrieservices genutzt werden. Experimentelle Ergebnisse zeigen, dass die Methode auf dem Visual Wake Words-Datensatz hochmoderne Ergebnisse erreicht, wobei der Suchprozess auf einem Raspberry Pi Zero 2 in weniger als 10 Stunden ausgeführt wird.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende Methoden zur Suche nach neuronalen Architekturen (NAS) erfordern typischerweise leistungsstarke Rechenressourcen (wie GPU-Cluster) und erfordern die Übertragung von Daten in die Cloud zur Verarbeitung. Dies führt in datenschutzsensitiven Anwendungsszenarien zu folgenden Problemen:

Datenschutzbedenken: Sensible Informationen wie medizinische Daten, Industriedaten und biometrische Daten können oder dürfen nicht mit Cloud-Services geteilt werden
Begrenzte Rechenressourcen: IoT-Gateways verfügen typischerweise über begrenzte Rechenleistung und Speicher und können traditionelle NAS-Algorithmen nicht ausführen
Echtzeitanforderungen: Edge-Geräte müssen die Gestaltung neuronaler Netze innerhalb eines begrenzten Zeit- und Energiebudgets abschließen

Forschungsbedeutung

Diese Forschung adressiert das Problem der datenschutzgerechten Gestaltung von Modellen für maschinelles Lernen in ressourcenbeschränkten IoT-Umgebungen und hat wichtige praktische Anwendungswerte:

Healthcare-IoT: Bereitstellung personalisierter, hardwarefreundlicher neuronaler Netze für jeden Patienten
Industrial-IoT: Bereitstellung maßgeschneiderter Modelle zur Fehlerdiagnose und Qualitätskontrolle für Produktionsgeräte, während Industriegeheimnisse geschützt bleiben

Einschränkungen bestehender Methoden

Die Hauptprobleme traditioneller HW-NAS-Methoden sind:

Zu hohe Rechenkosten (z. B. MnasNet benötigt 40.000 GPU-Stunden)
Annahme, dass die Plattform, auf der der Suchprozess läuft, über unbegrenzte Ressourcen verfügt
Unmöglichkeit, direkt auf Edge-Geräten ausgeführt zu werden

Kernbeiträge

Vorschlag einer neuen Suchstrategie: Reduzierung der Suchzeit auf einem Raspberry Pi Zero 2 von 4 Tagen auf 10 Stunden, während gleichzeitig hochmoderne Ergebnisse auf dem Visual Wake Words-Datensatz erreicht werden
Entwicklung adaptiver Mechanismen: Anpassung des Suchraums basierend auf verfügbarer Energie und Zeitbudget des IoT-Gateways, um HW-NAS unter begrenzten Ressourcen ausführbar zu machen
Erweiterung der Zeitreihenverarbeitungsfähigkeiten: Erreichung hochmoderner Ergebnisse auf dem CWRU-Datensatz in nur 2 Stunden 52 Minuten auf einem Raspberry Pi 4
Open-Source-Softwarefreigabe: Bereitstellung von Open-Source-HW-NAS-Software, die für eingebettete Linux-Geräte konzipiert ist

Methodische Details

Aufgabendefinition

Gegeben ein IoT-Gateway und verbundene Sensorknoten ist das Ziel, automatisch auf dem Gateway eine neuronale Netzwerkarchitektur zu entwerfen, die den Hardwarebeschränkungen der Sensorknoten entspricht und gleichzeitig die Rechenressourcen-, Zeit- und Energiebeschränkungen des Gateways erfüllt.

Kernoptimierungsproblem

Die Methode modelliert HW-NAS als ein sechsfach eingeschränktes Optimierungsproblem:

Edge-Beschränkungen (Sensorknoten):

RAM-Nutzung: ϕ_RAM(A) ≤ ξ_RAM
Flash-Speicher: ϕ_Flash(A) ≤ ξ_Flash
MAC-Operationen: ϕ_MAC(A) ≤ ξ_MAC

Gateway-Beschränkungen:

Speichernutzung: ϕ_MEM(A) ≤ ξ_MEM
Ausführungszeit: ϕ_Time(S_α) ≤ ξ_Time
Energiebudget: ϕ_Energy(S_α) ≤ ξ_Energy

Suchraum-Generierung

Algorithmus 1: Erweiterte Suchraum-Generierung

Eingabe: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Ausgabe: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repeat:
3.   c ← 0
4.   while A(k,c) is feasible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. until (k,0) is not feasible

Algorithmus 2: Suchraum-Beschneidung

Beschneidung des erweiterten Suchraums basierend auf Zeit- und Energiebeschränkungen:

Schätzung der oberen Zeitschranke t̄ für die Evaluierung der größten Architektur
Berechnung der Energieobergrenze ē = t̄ × w̄ (maximale Leistung)
Sequenzielles Hinzufügen von Kandidatenarchitekturen nach Größe bis zur Erreichung der Beschränkungsgrenzen

Suchstrategie

Zweischichtiger Optimierungsalgorithmus

Äußere Schleife: Suche nach der optimalen Anzahl von Faltungskernen k Innere Schleife: Bei gegebenem k-Wert Suche nach der optimalen Anzahl von Baueinheiten c

Schlüsselmerkmale:

Start bei der kleinsten durchführbaren Lösung (k=1, c=0)
Verwendung variabler Inkremente ⌊k/2^β⌋ zur Anpassung der Suchschrittweite
Reduzierung der Suchschrittweite, wenn die Leistung nicht mehr verbessert wird
Gradientenfreie Optimierung zur Reduzierung von Speicher- und Rechenanforderungen

Netzwerkarchitektur-Design

Verwendung eines einheitenbasierten Suchraums mit vier Arten von Einheiten:

Vorverarbeitungseinheit: Min-Max-Normalisierung
Basiseinheit: Einzelne Faltungsschicht mit k Faltungskernen
Baueinheit: Max-Pooling + Faltung + Batch-Normalisierung + ReLU-Aktivierung
Klassifizierungseinheit: Globales Durchschnitts-Pooling + vollständig verbundene Schicht

Formel für die Anzahl der Faltungskerne: n_c = n_ + 2^{1-c}n_, wobei n_0 = k

Experimentelle Einrichtung

Hardwareplattformen

IoT-Gateway-Geräte

Gerät	SoC	RAM	Spitzenleistung
Raspberry Pi 4	BCM2711	4 GiB	5,6 W
Raspberry Pi 3	BCM2837	1 GiB	4,3 W
Raspberry Pi Zero 2	BCM2710A1	0,5 GiB	2,8 W

Sensorknoten-Mikrocontroller

MCU-Modell	RAM	Flash	CoreMark
STM32L010RBT6	20 kiB	128 kiB	75
STM32U083RCT6	32 kiB	256 kiB	134
STM32L412KBU3	40 kiB	128 kiB	273

Datensätze

Visual Wake Words: 123.000 Bilder, Personenerkennung
CIFAR-10: 60.000 32×32-Farbbilder, 10-Klassen-Klassifizierung
Melanoma Skin Cancer: 10.000 medizinische Bilder, Erkennung bösartiger Tumore
CWRU: Beschleunigungsmesser-Zeitreihendaten für die Fehlerdiagnose von Wälzlagern

Bewertungsmetriken

Test-Genauigkeit
RAM-Nutzung (kiB)
Flash-Speichernutzung (kiB)
MAC-Operationen (Millionen)
Inferenz-Latenz (ms)
Suchzeit und Energieverbrauch

Experimentelle Ergebnisse

Hauptergebnisse

Anpassungsfähigkeit an ultraniedriger Leistung Mikrocontroller

Ergebnisse auf dem Visual Wake Words-Datensatz:

Ziel-MCU	Architektur(k,c)	RAM	Flash	MAC	Test-Genauigkeit	Latenz
L010RBT6	(3,4)	19 kiB	10,8 kiB	0,4 MM	71%	42 ms
U083RCT6	(5,5)	24,5 kiB	22,7 kiB	0,9 MM	75,2%	63,2 ms
L412KBU3	(8,3)	31 kiB	18,8 kiB	2 MM	78,3%	79,1 ms

Die Ergebnisse zeigen, dass der Algorithmus mit zunehmenden Hardwareressourcen automatisch größere Architekturen auswählt und höhere Genauigkeit erreicht.

Vergleich mit hochmodernen Methoden

Vergleichsergebnisse auf dem Visual Wake Words-Datensatz:

Methode	Genauigkeit	RAM	Flash	MAC
MCUNet	87,4%	168,5 kiB	530,5 kiB	6 MM
Micronets	76,8%	70,5 kiB	273,8 kiB	3,3 MM
ColabNAS	77,6%	31,5 kiB	20,83 kiB	2 MM
NanoNAS	77%	28,5 kiB	23,7 kiB	1,3 MM
Diese Methode	78,3%	31 kiB	18,8 kiB	2 MM

Diese Methode erreicht die zweithöchste Genauigkeit, während gleichzeitig die niedrigste Flash-Nutzung beibehalten wird.

Leistung unter Ressourcenbeschränkungen

Experimente auf dem Raspberry Pi Zero 2 für STM32L412KBU3:

Budget	Tatsächlicher Verbrauch	Suchraum	Explorations-rate	Genauigkeit	Architektur-Ressourcen
16,5Wh-9:51	16,5Wh-9:51	100%	51%	77,8%	28,5kiB RAM
11,0Wh-6:34	11,0Wh-6:30	33%	98%	73,1%	21,5kiB RAM
5,50Wh-3:17	5,41Wh-3:17	15%	95%	66%	18,5kiB RAM

Zeitreihenverarbeitungsfähigkeiten

Vergleich mit Chen et al.54 auf dem CWRU-Datensatz:

Methode	Suchkosten	Architektur(k,c)	RAM	Flash	MAC	Genauigkeit	Latenz
Diese Methode	6,4Wh-1:52	(6,4)	13,5 kiB	12,9 kiB	0,6 MM	99,5%	34 ms
Chen et al.54	n/a	n/a	66,5 kiB	163,4 kiB	0,2 MM	99,3%	38,2 ms

Diese Methode erreicht höhere Genauigkeit, während die RAM-Nutzung um das 4,9-fache und die Flash-Nutzung um das 12,7-fache reduziert wird.

Arbeit	GPU	CPU	Eingebettete Geräte
MnasNet	✓
MCUNet	✓
ColabNAS	✓
NanoNAS v1		✓
NanoNAS v2			✓
Diese Arbeit			✓ (Adaptiv)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Datenschutz: Realisierung eines vollständig lokalisierten Netzwerk-Designs, bei dem Daten den Erfassungsort nicht verlassen
Ressourceneffizienz: Erfolgreiche Ausführung von HW-NAS auf ressourcenbeschränkten IoT-Gateways
Hervorragende Leistung: Erreichung hochmoderner Ergebnisse auf mehreren Benchmark-Datensätzen
Adaptive Fähigkeiten: Dynamische Anpassung der Suchstrategie basierend auf verfügbaren Ressourcen

Einschränkungen

Suchraum-Limitierungen: Verwendung eines relativ einfachen einheitenbasierten Suchraums
Evaluierungsstrategie: Verwendung von nur 3 Epochen zur Evaluierung von Kandidatenarchitekturen, was die Genauigkeit beeinflussen kann
Hardware-Abhängigkeit: Hauptsächlich für ARM-Architektur-basierte eingebettete Geräte optimiert
Aufgaben-Limitierungen: Hauptsächlich Validierung von Bildklassifizierungs- und einfachen Zeitreihenaufgaben

Zukünftige Richtungen

Trainingsfreie Evaluierung: Verwendung von Techniken zur Evaluierung ohne Training zur weiteren Reduzierung der Suchkosten
Komplexere Aufgaben: Erweiterung auf Objekterkennung, semantische Segmentierung und andere komplexere Aufgaben
Multi-Objective-Optimierung: Gleichzeitige Optimierung mehrerer Ziele wie Genauigkeit, Latenz und Energieverbrauch
Föderiertes Lernen Integration: Kombination mit föderiertem Lernen zur Realisierung verteilten datenschutzgerechten Trainings

Tiefgehende Bewertung

Stärken

Starke Innovativität: Erstmalige Realisierung adaptiver HW-NAS auf IoT-Gateways, Lösung eines wichtigen praktischen Problems
Hoher praktischer Wert: Bereitstellung einer praktikablen Lösung für datenschutzsensitive IoT-Anwendungen
Umfassende Experimente: Vollständige Validierung auf mehreren Hardwareplattformen und Datensätzen
Open-Source-Beitrag: Bereitstellung einer vollständigen Open-Source-Implementierung zur Förderung der Entwicklung des Feldes

Mängel

Methodische Komplexität: Notwendigkeit der vorherigen Schätzung von Zeit- und Energieobergrenzen erhöht die Bereitstellungskomplexität
Generalisierungsfähigkeit: Hauptsächlich auf spezifischer ARM-Architektur validiert, Anwendbarkeit auf andere Architekturen unklar
Unzureichende theoretische Analyse: Fehlende theoretische Garantien für die Konvergenz der Suchstrategie
Evaluierungs-Granularität: 3-Epochen-Evaluierung möglicherweise nicht ausreichend

Einfluss

Akademischer Wert: Bereitstellung neuer Forschungsrichtungen für Edge-AI und datenschutzgerechtes maschinelles Lernen
Industrielle Anwendung: Direktes Anwendungspotenzial in Healthcare-IoT und Industrial-IoT
Technologieverbreitung: Open-Source-Software fördert breite Adoption und weitere Entwicklung

Anwendungsszenarien

Healthcare-IoT: Patientenüberwachungs- und Diagnosesysteme in Krankenhäusern
Industrial-IoT: Qualitätskontroll- und Geräteüberwachungssysteme in Produktionslinien
Smart Home: Datenschutzsensitive Heimüberwachungs- und Steuerungssysteme
Edge Computing: KI-Modellbereitstellung auf ressourcenbeschränkten Edge-Geräten

Literaturverzeichnis

Das Papier zitiert 68 relevante Arbeiten, die wichtige Werke aus mehreren Bereichen wie Suche nach neuronalen Architekturen, Edge Computing und IoT-Sicherheit abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigem praktischem Wert, das erfolgreich das Problem der datenschutzgerechten Gestaltung neuronaler Netze in ressourcenbeschränkten IoT-Umgebungen löst. Die Methode ist innovativ, die experimentelle Validierung ist umfassend, und das Papier hat wichtige Bedeutung für die Förderung der Entwicklung von Edge-AI und datenschutzgerechtem maschinellem Lernen.