2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

Suche nach neuronalen Architekturen für Sensorknoten auf IoT-Gateways

Grundinformationen

  • Paper-ID: 2505.23939
  • Titel: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • Autoren: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • Klassifizierung: cs.LG (Maschinelles Lernen), cs.NI (Netzwerk- und Internetarchitektur)
  • Veröffentlichungsdatum: 29. Mai 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2505.23939

Zusammenfassung

Dieses Papier präsentiert eine Methode zur automatischen Gestaltung neuronaler Netze auf Edge-Geräten, die es ermöglicht, maschinelles Lernen auf datenschutzsensitive IoT-Anwendungen (Internet of Things) anzuwenden. Die Methode läuft auf IoT-Gateways und entwirft neuronale Netze für verbundene Sensorknoten, ohne dass gesammelte Daten außerhalb des lokalen Netzwerks freigegeben werden müssen – die Daten bleiben immer am Erfassungsort. Dieser Ansatz hat das Potenzial, maschinelles Lernen für Healthcare-IoT (HIoT) und Industrial-IoT (IIoT) zu ermöglichen, indem hardwarefreundliche, maßgeschneiderte neuronale Netze am Edge entworfen werden, die für personalisierte Medizin und fortschrittliche Industrieservices genutzt werden. Experimentelle Ergebnisse zeigen, dass die Methode auf dem Visual Wake Words-Datensatz hochmoderne Ergebnisse erreicht, wobei der Suchprozess auf einem Raspberry Pi Zero 2 in weniger als 10 Stunden ausgeführt wird.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende Methoden zur Suche nach neuronalen Architekturen (NAS) erfordern typischerweise leistungsstarke Rechenressourcen (wie GPU-Cluster) und erfordern die Übertragung von Daten in die Cloud zur Verarbeitung. Dies führt in datenschutzsensitiven Anwendungsszenarien zu folgenden Problemen:

  1. Datenschutzbedenken: Sensible Informationen wie medizinische Daten, Industriedaten und biometrische Daten können oder dürfen nicht mit Cloud-Services geteilt werden
  2. Begrenzte Rechenressourcen: IoT-Gateways verfügen typischerweise über begrenzte Rechenleistung und Speicher und können traditionelle NAS-Algorithmen nicht ausführen
  3. Echtzeitanforderungen: Edge-Geräte müssen die Gestaltung neuronaler Netze innerhalb eines begrenzten Zeit- und Energiebudgets abschließen

Forschungsbedeutung

Diese Forschung adressiert das Problem der datenschutzgerechten Gestaltung von Modellen für maschinelles Lernen in ressourcenbeschränkten IoT-Umgebungen und hat wichtige praktische Anwendungswerte:

  • Healthcare-IoT: Bereitstellung personalisierter, hardwarefreundlicher neuronaler Netze für jeden Patienten
  • Industrial-IoT: Bereitstellung maßgeschneiderter Modelle zur Fehlerdiagnose und Qualitätskontrolle für Produktionsgeräte, während Industriegeheimnisse geschützt bleiben

Einschränkungen bestehender Methoden

Die Hauptprobleme traditioneller HW-NAS-Methoden sind:

  • Zu hohe Rechenkosten (z. B. MnasNet benötigt 40.000 GPU-Stunden)
  • Annahme, dass die Plattform, auf der der Suchprozess läuft, über unbegrenzte Ressourcen verfügt
  • Unmöglichkeit, direkt auf Edge-Geräten ausgeführt zu werden

Kernbeiträge

  1. Vorschlag einer neuen Suchstrategie: Reduzierung der Suchzeit auf einem Raspberry Pi Zero 2 von 4 Tagen auf 10 Stunden, während gleichzeitig hochmoderne Ergebnisse auf dem Visual Wake Words-Datensatz erreicht werden
  2. Entwicklung adaptiver Mechanismen: Anpassung des Suchraums basierend auf verfügbarer Energie und Zeitbudget des IoT-Gateways, um HW-NAS unter begrenzten Ressourcen ausführbar zu machen
  3. Erweiterung der Zeitreihenverarbeitungsfähigkeiten: Erreichung hochmoderner Ergebnisse auf dem CWRU-Datensatz in nur 2 Stunden 52 Minuten auf einem Raspberry Pi 4
  4. Open-Source-Softwarefreigabe: Bereitstellung von Open-Source-HW-NAS-Software, die für eingebettete Linux-Geräte konzipiert ist

Methodische Details

Aufgabendefinition

Gegeben ein IoT-Gateway und verbundene Sensorknoten ist das Ziel, automatisch auf dem Gateway eine neuronale Netzwerkarchitektur zu entwerfen, die den Hardwarebeschränkungen der Sensorknoten entspricht und gleichzeitig die Rechenressourcen-, Zeit- und Energiebeschränkungen des Gateways erfüllt.

Kernoptimierungsproblem

Die Methode modelliert HW-NAS als ein sechsfach eingeschränktes Optimierungsproblem:

Edge-Beschränkungen (Sensorknoten):

  • RAM-Nutzung: ϕ_RAM(A) ≤ ξ_RAM
  • Flash-Speicher: ϕ_Flash(A) ≤ ξ_Flash
  • MAC-Operationen: ϕ_MAC(A) ≤ ξ_MAC

Gateway-Beschränkungen:

  • Speichernutzung: ϕ_MEM(A) ≤ ξ_MEM
  • Ausführungszeit: ϕ_Time(S_α) ≤ ξ_Time
  • Energiebudget: ϕ_Energy(S_α) ≤ ξ_Energy

Suchraum-Generierung

Algorithmus 1: Erweiterte Suchraum-Generierung

Eingabe: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Ausgabe: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repeat:
3.   c ← 0
4.   while A(k,c) is feasible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. until (k,0) is not feasible

Algorithmus 2: Suchraum-Beschneidung

Beschneidung des erweiterten Suchraums basierend auf Zeit- und Energiebeschränkungen:

  • Schätzung der oberen Zeitschranke t̄ für die Evaluierung der größten Architektur
  • Berechnung der Energieobergrenze ē = t̄ × w̄ (maximale Leistung)
  • Sequenzielles Hinzufügen von Kandidatenarchitekturen nach Größe bis zur Erreichung der Beschränkungsgrenzen

Suchstrategie

Zweischichtiger Optimierungsalgorithmus

Äußere Schleife: Suche nach der optimalen Anzahl von Faltungskernen k Innere Schleife: Bei gegebenem k-Wert Suche nach der optimalen Anzahl von Baueinheiten c

Schlüsselmerkmale:

  • Start bei der kleinsten durchführbaren Lösung (k=1, c=0)
  • Verwendung variabler Inkremente ⌊k/2^β⌋ zur Anpassung der Suchschrittweite
  • Reduzierung der Suchschrittweite, wenn die Leistung nicht mehr verbessert wird
  • Gradientenfreie Optimierung zur Reduzierung von Speicher- und Rechenanforderungen

Netzwerkarchitektur-Design

Verwendung eines einheitenbasierten Suchraums mit vier Arten von Einheiten:

  1. Vorverarbeitungseinheit: Min-Max-Normalisierung
  2. Basiseinheit: Einzelne Faltungsschicht mit k Faltungskernen
  3. Baueinheit: Max-Pooling + Faltung + Batch-Normalisierung + ReLU-Aktivierung
  4. Klassifizierungseinheit: Globales Durchschnitts-Pooling + vollständig verbundene Schicht

Formel für die Anzahl der Faltungskerne: n_c = n_ + 2^{1-c}n_, wobei n_0 = k

Experimentelle Einrichtung

Hardwareplattformen

IoT-Gateway-Geräte

GerätSoCRAMSpitzenleistung
Raspberry Pi 4BCM27114 GiB5,6 W
Raspberry Pi 3BCM28371 GiB4,3 W
Raspberry Pi Zero 2BCM2710A10,5 GiB2,8 W

Sensorknoten-Mikrocontroller

MCU-ModellRAMFlashCoreMark
STM32L010RBT620 kiB128 kiB75
STM32U083RCT632 kiB256 kiB134
STM32L412KBU340 kiB128 kiB273

Datensätze

  1. Visual Wake Words: 123.000 Bilder, Personenerkennung
  2. CIFAR-10: 60.000 32×32-Farbbilder, 10-Klassen-Klassifizierung
  3. Melanoma Skin Cancer: 10.000 medizinische Bilder, Erkennung bösartiger Tumore
  4. CWRU: Beschleunigungsmesser-Zeitreihendaten für die Fehlerdiagnose von Wälzlagern

Bewertungsmetriken

  • Test-Genauigkeit
  • RAM-Nutzung (kiB)
  • Flash-Speichernutzung (kiB)
  • MAC-Operationen (Millionen)
  • Inferenz-Latenz (ms)
  • Suchzeit und Energieverbrauch

Experimentelle Ergebnisse

Hauptergebnisse

Anpassungsfähigkeit an ultraniedriger Leistung Mikrocontroller

Ergebnisse auf dem Visual Wake Words-Datensatz:

Ziel-MCUArchitektur(k,c)RAMFlashMACTest-GenauigkeitLatenz
L010RBT6(3,4)19 kiB10,8 kiB0,4 MM71%42 ms
U083RCT6(5,5)24,5 kiB22,7 kiB0,9 MM75,2%63,2 ms
L412KBU3(8,3)31 kiB18,8 kiB2 MM78,3%79,1 ms

Die Ergebnisse zeigen, dass der Algorithmus mit zunehmenden Hardwareressourcen automatisch größere Architekturen auswählt und höhere Genauigkeit erreicht.

Vergleich mit hochmodernen Methoden

Vergleichsergebnisse auf dem Visual Wake Words-Datensatz:

MethodeGenauigkeitRAMFlashMAC
MCUNet87,4%168,5 kiB530,5 kiB6 MM
Micronets76,8%70,5 kiB273,8 kiB3,3 MM
ColabNAS77,6%31,5 kiB20,83 kiB2 MM
NanoNAS77%28,5 kiB23,7 kiB1,3 MM
Diese Methode78,3%31 kiB18,8 kiB2 MM

Diese Methode erreicht die zweithöchste Genauigkeit, während gleichzeitig die niedrigste Flash-Nutzung beibehalten wird.

Leistung unter Ressourcenbeschränkungen

Experimente auf dem Raspberry Pi Zero 2 für STM32L412KBU3:

BudgetTatsächlicher VerbrauchSuchraumExplorations-rateGenauigkeitArchitektur-Ressourcen
16,5Wh-9:5116,5Wh-9:51100%51%77,8%28,5kiB RAM
11,0Wh-6:3411,0Wh-6:3033%98%73,1%21,5kiB RAM
5,50Wh-3:175,41Wh-3:1715%95%66%18,5kiB RAM

Zeitreihenverarbeitungsfähigkeiten

Vergleich mit Chen et al.54 auf dem CWRU-Datensatz:

MethodeSuchkostenArchitektur(k,c)RAMFlashMACGenauigkeitLatenz
Diese Methode6,4Wh-1:52(6,4)13,5 kiB12,9 kiB0,6 MM99,5%34 ms
Chen et al.54n/an/a66,5 kiB163,4 kiB0,2 MM99,3%38,2 ms

Diese Methode erreicht höhere Genauigkeit, während die RAM-Nutzung um das 4,9-fache und die Flash-Nutzung um das 12,7-fache reduziert wird.

Verwandte Arbeiten

Entwicklung von HW-NAS

  • Frühe Methoden: MnasNet benötigt 40.000 GPU-Stunden
  • Optimierte Methoden: MCUNet reduziert auf 300 GPU-Stunden
  • Leichtgewichtige Methoden: ColabNAS benötigt nur 4 GPU-Stunden
  • Eingebettete Methoden: NanoNAS läuft erstmals auf eingebetteten Geräten

Klassifizierung von Ausführungsplattformen

ArbeitGPUCPUEingebettete Geräte
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
Diese Arbeit✓ (Adaptiv)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Datenschutz: Realisierung eines vollständig lokalisierten Netzwerk-Designs, bei dem Daten den Erfassungsort nicht verlassen
  2. Ressourceneffizienz: Erfolgreiche Ausführung von HW-NAS auf ressourcenbeschränkten IoT-Gateways
  3. Hervorragende Leistung: Erreichung hochmoderner Ergebnisse auf mehreren Benchmark-Datensätzen
  4. Adaptive Fähigkeiten: Dynamische Anpassung der Suchstrategie basierend auf verfügbaren Ressourcen

Einschränkungen

  1. Suchraum-Limitierungen: Verwendung eines relativ einfachen einheitenbasierten Suchraums
  2. Evaluierungsstrategie: Verwendung von nur 3 Epochen zur Evaluierung von Kandidatenarchitekturen, was die Genauigkeit beeinflussen kann
  3. Hardware-Abhängigkeit: Hauptsächlich für ARM-Architektur-basierte eingebettete Geräte optimiert
  4. Aufgaben-Limitierungen: Hauptsächlich Validierung von Bildklassifizierungs- und einfachen Zeitreihenaufgaben

Zukünftige Richtungen

  1. Trainingsfreie Evaluierung: Verwendung von Techniken zur Evaluierung ohne Training zur weiteren Reduzierung der Suchkosten
  2. Komplexere Aufgaben: Erweiterung auf Objekterkennung, semantische Segmentierung und andere komplexere Aufgaben
  3. Multi-Objective-Optimierung: Gleichzeitige Optimierung mehrerer Ziele wie Genauigkeit, Latenz und Energieverbrauch
  4. Föderiertes Lernen Integration: Kombination mit föderiertem Lernen zur Realisierung verteilten datenschutzgerechten Trainings

Tiefgehende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Realisierung adaptiver HW-NAS auf IoT-Gateways, Lösung eines wichtigen praktischen Problems
  2. Hoher praktischer Wert: Bereitstellung einer praktikablen Lösung für datenschutzsensitive IoT-Anwendungen
  3. Umfassende Experimente: Vollständige Validierung auf mehreren Hardwareplattformen und Datensätzen
  4. Open-Source-Beitrag: Bereitstellung einer vollständigen Open-Source-Implementierung zur Förderung der Entwicklung des Feldes

Mängel

  1. Methodische Komplexität: Notwendigkeit der vorherigen Schätzung von Zeit- und Energieobergrenzen erhöht die Bereitstellungskomplexität
  2. Generalisierungsfähigkeit: Hauptsächlich auf spezifischer ARM-Architektur validiert, Anwendbarkeit auf andere Architekturen unklar
  3. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für die Konvergenz der Suchstrategie
  4. Evaluierungs-Granularität: 3-Epochen-Evaluierung möglicherweise nicht ausreichend

Einfluss

  1. Akademischer Wert: Bereitstellung neuer Forschungsrichtungen für Edge-AI und datenschutzgerechtes maschinelles Lernen
  2. Industrielle Anwendung: Direktes Anwendungspotenzial in Healthcare-IoT und Industrial-IoT
  3. Technologieverbreitung: Open-Source-Software fördert breite Adoption und weitere Entwicklung

Anwendungsszenarien

  1. Healthcare-IoT: Patientenüberwachungs- und Diagnosesysteme in Krankenhäusern
  2. Industrial-IoT: Qualitätskontroll- und Geräteüberwachungssysteme in Produktionslinien
  3. Smart Home: Datenschutzsensitive Heimüberwachungs- und Steuerungssysteme
  4. Edge Computing: KI-Modellbereitstellung auf ressourcenbeschränkten Edge-Geräten

Literaturverzeichnis

Das Papier zitiert 68 relevante Arbeiten, die wichtige Werke aus mehreren Bereichen wie Suche nach neuronalen Architekturen, Edge Computing und IoT-Sicherheit abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigem praktischem Wert, das erfolgreich das Problem der datenschutzgerechten Gestaltung neuronaler Netze in ressourcenbeschränkten IoT-Umgebungen löst. Die Methode ist innovativ, die experimentelle Validierung ist umfassend, und das Papier hat wichtige Bedeutung für die Förderung der Entwicklung von Edge-AI und datenschutzgerechtem maschinellem Lernen.