2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

Ricerca di Architetture Neurali per Nodi Sensori su Gateway IoT

Informazioni Fondamentali

  • ID Articolo: 2505.23939
  • Titolo: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • Autori: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • Classificazione: cs.LG (Machine Learning), cs.NI (Networking and Internet Architecture)
  • Data di Pubblicazione: 29 maggio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2505.23939

Riassunto

Questo articolo propone un metodo per la progettazione automatica di reti neurali su dispositivi edge, consentendo l'applicazione del machine learning ad applicazioni IoT sensibili alla privacy. Il metodo viene eseguito su gateway IoT per progettare reti neurali per nodi sensori collegati, senza necessità di condividere i dati raccolti al di fuori della rete locale, mantenendo i dati nel luogo di raccolta. Questo approccio ha il potenziale di abilitare il machine learning per l'Internet delle Cose Medico (HIoT) e l'Internet delle Cose Industriale (IIoT), progettando reti neurali personalizzate e hardware-friendly sull'edge per la medicina personalizzata e servizi industriali avanzati. I risultati sperimentali dimostrano che il metodo raggiunge risultati all'avanguardia sul dataset Visual Wake Words, con il processo di ricerca completato in meno di 10 ore su Raspberry Pi Zero 2.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi tradizionali di Neural Architecture Search (NAS) richiedono tipicamente risorse computazionali potenti (come cluster GPU) e necessitano di trasferire i dati al cloud per l'elaborazione. Ciò presenta i seguenti problemi in scenari applicativi sensibili alla privacy:

  1. Problemi di Privacy dei Dati: Informazioni sensibili come dati medici, dati industriali e dati biometrici non possono o non devono essere condivisi con servizi cloud
  2. Limitazioni delle Risorse Computazionali: I gateway IoT possiedono tipicamente capacità computazionali e memoria limitate, impossibilitate a eseguire algoritmi NAS tradizionali
  3. Requisiti di Tempo Reale: I dispositivi edge devono completare la progettazione della rete neurale entro budget di tempo e consumo energetico limitati

Significato della Ricerca

Questa ricerca affronta il problema della progettazione di modelli di machine learning con protezione della privacy in ambienti IoT con risorse limitate, possedendo importante valore applicativo pratico:

  • IoT Medico: Fornire reti neurali personalizzate e hardware-friendly per ogni paziente
  • IoT Industriale: Fornire modelli personalizzati di diagnostica dei guasti e controllo della qualità per dispositivi di produzione, proteggendo al contempo i segreti industriali

Limitazioni dei Metodi Esistenti

I principali problemi dei metodi tradizionali HW-NAS includono:

  • Costo computazionale eccessivo (ad esempio MnasNet richiede 40.000 ore GPU)
  • Presuppongono che la piattaforma che esegue il processo di ricerca abbia risorse illimitate
  • Impossibilità di esecuzione diretta su dispositivi edge

Contributi Principali

  1. Propone una nuova strategia di ricerca: Riduce il tempo di ricerca da 4 giorni a 10 ore su Raspberry Pi Zero 2, raggiungendo contemporaneamente risultati all'avanguardia sul dataset Visual Wake Words
  2. Sviluppa meccanismi adattivi: Regola lo spazio di ricerca in base al budget energetico e temporale disponibile del gateway IoT, consentendo l'esecuzione di HW-NAS con risorse limitate
  3. Estende le capacità di elaborazione delle serie temporali: Ottiene risultati all'avanguardia sul dataset CWRU, richiedendo solo 2 ore e 52 minuti su Raspberry Pi 4
  4. Rilascio di Software Open Source: Fornisce software HW-NAS open source progettato per dispositivi Linux embedded

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un gateway IoT e nodi sensori collegati, l'obiettivo è progettare automaticamente su gateway un'architettura di rete neurale adatta ai vincoli hardware dei nodi sensori, soddisfacendo contemporaneamente i vincoli di risorse computazionali, tempo e consumo energetico del gateway.

Problema di Ottimizzazione Principale

Il metodo modella HW-NAS come un problema di ottimizzazione con sei vincoli:

Vincoli Edge (nodi sensori):

  • Utilizzo RAM: ϕ_RAM(A) ≤ ξ_RAM
  • Memoria Flash: ϕ_Flash(A) ≤ ξ_Flash
  • Operazioni MAC: ϕ_MAC(A) ≤ ξ_MAC

Vincoli Gateway:

  • Utilizzo Memoria: ϕ_MEM(A) ≤ ξ_MEM
  • Tempo di Esecuzione: ϕ_Time(S_α) ≤ ξ_Time
  • Budget Energetico: ϕ_Energy(S_α) ≤ ξ_Energy

Generazione dello Spazio di Ricerca

Algoritmo 1: Generazione dello Spazio di Ricerca Esteso

Input: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Output: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repeat:
3.   c ← 0
4.   while A(k,c) is feasible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. until (k,0) is not feasible

Algoritmo 2: Potatura dello Spazio di Ricerca

Pota lo spazio di ricerca esteso in base ai vincoli di tempo e consumo energetico:

  • Stima il limite superiore del tempo di valutazione dell'architettura massima t̄
  • Calcola il limite superiore del consumo energetico ē = t̄ × w̄ (potenza massima)
  • Aggiunge candidati architetturali in ordine di dimensione fino al raggiungimento del limite di vincolo

Strategia di Ricerca

Algoritmo di Ottimizzazione a Due Livelli

Ciclo Esterno: Ricerca del numero ottimale di kernel convoluzionali k Ciclo Interno: Dato il valore k, ricerca del numero ottimale di unità costruttive c

Caratteristiche Chiave:

  • Inizia dalla soluzione minima fattibile (k=1, c=0)
  • Utilizza incrementi variabili ⌊k/2^β⌋ per regolare la dimensione del passo di ricerca
  • Riduce la dimensione del passo di ricerca quando le prestazioni non migliorano più
  • Ottimizzazione senza gradienti, riducendo i requisiti di memoria e calcolo

Progettazione dell'Architettura di Rete

Adotta uno spazio di ricerca basato su celle, contenente quattro tipi di celle:

  1. Cella di Preprocessing: Normalizzazione min-max
  2. Cella Base: Singolo strato convoluzionale con k kernel convoluzionali
  3. Cella Costruttiva: Max pooling + convoluzione + normalizzazione batch + attivazione ReLU
  4. Cella Classificatore: Global average pooling + strato completamente connesso

Formula del numero di kernel convoluzionali: n_c = n_ + 2^{1-c}n_, dove n_0 = k

Configurazione Sperimentale

Piattaforme Hardware

Dispositivi Gateway IoT

DispositivoSoCRAMPotenza di Picco
Raspberry Pi 4BCM27114 GiB5.6 W
Raspberry Pi 3BCM28371 GiB4.3 W
Raspberry Pi Zero 2BCM2710A10.5 GiB2.8 W

MCU Nodi Sensori

Modello MCURAMFlashCoreMark
STM32L010RBT620 kiB128 kiB75
STM32U083RCT632 kiB256 kiB134
STM32L412KBU340 kiB128 kiB273

Dataset

  1. Visual Wake Words: 123.000 immagini, compito di rilevamento di persone
  2. CIFAR-10: 60.000 immagini a colori 32×32, classificazione in 10 classi
  3. Melanoma Skin Cancer: 10.000 immagini mediche, rilevamento di tumori maligni
  4. CWRU: Dati di serie temporali dell'accelerometro per diagnostica dei guasti dei cuscinetti volventi

Metriche di Valutazione

  • Accuratezza di Test
  • Utilizzo RAM (kiB)
  • Utilizzo Memoria Flash (kiB)
  • Operazioni MAC (milioni)
  • Latenza di Inferenza (ms)
  • Tempo di Ricerca e Consumo Energetico

Risultati Sperimentali

Risultati Principali

Adattabilità a Microcontrollori Ultra-Basso Consumo

Risultati sul dataset Visual Wake Words:

MCU TargetArchitettura(k,c)RAMFlashMACAccuratezza TestLatenza
L010RBT6(3,4)19 kiB10.8 kiB0.4 MM71%42 ms
U083RCT6(5,5)24.5 kiB22.7 kiB0.9 MM75.2%63.2 ms
L412KBU3(8,3)31 kiB18.8 kiB2 MM78.3%79.1 ms

I risultati dimostrano che con l'aumento delle risorse hardware, l'algoritmo seleziona automaticamente architetture più grandi, ottenendo accuratezze più elevate.

Confronto con Metodi all'Avanguardia

Risultati di confronto sul dataset Visual Wake Words:

MetodoAccuratezzaRAMFlashMAC
MCUNet87.4%168.5 kiB530.5 kiB6 MM
Micronets76.8%70.5 kiB273.8 kiB3.3 MM
ColabNAS77.6%31.5 kiB20.83 kiB2 MM
NanoNAS77%28.5 kiB23.7 kiB1.3 MM
Metodo Proposto78.3%31 kiB18.8 kiB2 MM

Il metodo proposto ottiene la seconda accuratezza più alta mantenendo il consumo di Flash più basso.

Prestazioni Adattive sotto Vincoli di Risorse

Esperimenti su Raspberry Pi Zero 2 per STM32L412KBU3:

BudgetConsumo EffettivoSpazio RicercaTasso EsplorazioneAccuratezzaRisorse Architettura
16.5Wh-9:5116.5Wh-9:51100%51%77.8%28.5kiB RAM
11.0Wh-6:3411.0Wh-6:3033%98%73.1%21.5kiB RAM
5.50Wh-3:175.41Wh-3:1715%95%66%18.5kiB RAM

Capacità di Elaborazione delle Serie Temporali

Confronto con Chen et al.54 sul dataset CWRU:

MetodoCosto RicercaArchitettura(k,c)RAMFlashMACAccuratezzaLatenza
Metodo Proposto6.4Wh-1:52(6,4)13.5 kiB12.9 kiB0.6 MM99.5%34 ms
Chen et al.54n/an/a66.5 kiB163.4 kiB0.2 MM99.3%38.2 ms

Il metodo proposto ottiene accuratezza più elevata riducendo l'utilizzo di RAM di 4.9 volte e l'utilizzo di Flash di 12.7 volte.

Lavori Correlati

Evoluzione di HW-NAS

  • Metodi Iniziali: MnasNet richiede 40.000 ore GPU
  • Metodi Ottimizzati: MCUNet ridotto a 300 ore GPU
  • Metodi Leggeri: ColabNAS richiede solo 4 ore GPU
  • Metodi Embedded: NanoNAS primo a eseguire su dispositivi embedded

Classificazione delle Piattaforme di Esecuzione

LavoroGPUCPUDispositivo Embedded
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
Presente Articolo✓ (Adattivo)

Conclusioni e Discussione

Conclusioni Principali

  1. Protezione della Privacy: Realizza la progettazione completamente localizzata della rete neurale, senza necessità che i dati lascino il luogo di raccolta
  2. Efficienza Risorse: Esecuzione riuscita di HW-NAS su gateway IoT con risorse limitate
  3. Prestazioni Eccellenti: Raggiunge risultati all'avanguardia su molteplici dataset di benchmark
  4. Capacità Adattiva: Regola dinamicamente la strategia di ricerca in base alle risorse disponibili

Limitazioni

  1. Limitazioni dello Spazio di Ricerca: Adotta uno spazio di ricerca basato su celle relativamente semplice
  2. Strategia di Valutazione: Utilizza solo 3 epoch per la valutazione dei candidati architetturali, potenzialmente influenzando l'accuratezza
  3. Dipendenza Hardware: Principalmente ottimizzato per dispositivi embedded con architettura ARM
  4. Limitazioni dei Compiti: Validazione principalmente su compiti di classificazione di immagini e serie temporali semplici

Direzioni Future

  1. Valutazione Senza Addestramento: Adottare tecniche di valutazione dell'architettura senza addestramento per ridurre ulteriormente i costi di ricerca
  2. Compiti Più Complessi: Estendere a compiti più complessi come rilevamento di oggetti e segmentazione semantica
  3. Ottimizzazione Multi-Obiettivo: Ottimizzare simultaneamente accuratezza, latenza, consumo energetico e altri obiettivi
  4. Integrazione di Apprendimento Federato: Combinare con apprendimento federato per realizzare addestramento distribuito con protezione della privacy

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a realizzare HW-NAS adattivo su gateway IoT, risolvendo un importante problema pratico
  2. Alto Valore Pratico: Fornisce una soluzione fattibile per applicazioni IoT sensibili alla privacy
  3. Sperimentazione Completa: Validazione completa su molteplici piattaforme hardware e dataset
  4. Contributo Open Source: Fornisce implementazione open source completa, promuovendo lo sviluppo del settore

Insufficienze

  1. Complessità del Metodo: Richiede stima preliminare dei limiti superiori di tempo e consumo energetico, aumentando la complessità di distribuzione
  2. Capacità di Generalizzazione: Validazione principalmente su architettura ARM specifica, l'applicabilità ad altre architetture rimane da verificare
  3. Analisi Teorica Insufficiente: Manca garanzia teorica sulla convergenza della strategia di ricerca
  4. Granularità di Valutazione: La valutazione con 3 epoch potrebbe non essere sufficientemente completa

Impatto

  1. Valore Accademico: Fornisce nuove direzioni di ricerca per AI edge e machine learning con protezione della privacy
  2. Applicazione Industriale: Possiede potenziale di applicazione diretta nei settori dell'Internet delle Cose Medico e Industriale
  3. Promozione Tecnologica: Il software open source facilita l'adozione diffusa della tecnologia e ulteriore sviluppo

Scenari Applicabili

  1. IoT Medico: Sistemi di monitoraggio dei pazienti e diagnostica ospedaliera
  2. IoT Industriale: Controllo della qualità e monitoraggio dei dispositivi delle linee di produzione
  3. Casa Intelligente: Sistemi di monitoraggio e controllo domestico sensibili alla privacy
  4. Calcolo Edge: Distribuzione di modelli AI su dispositivi edge con risorse limitate

Riferimenti Bibliografici

L'articolo cita 68 lavori correlati, coprendo molteplici settori inclusi Neural Architecture Search, Edge Computing e Sicurezza IoT, fornendo una solida base teorica per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità con importante valore pratico, che risolve con successo il problema della progettazione di reti neurali con protezione della privacy in ambienti IoT con risorse limitate. Il metodo è altamente innovativo, la validazione sperimentale è completa e possiede importante significato nel promuovere lo sviluppo dell'AI edge e del machine learning con protezione della privacy.