2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.

This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.

academic

Ricerca di Architetture Neurali per Nodi Sensori su Gateway IoT

Informazioni Fondamentali

ID Articolo: 2505.23939
Titolo: Searching Neural Architectures for Sensor Nodes on IoT Gateways
Autori: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
Classificazione: cs.LG (Machine Learning), cs.NI (Networking and Internet Architecture)
Data di Pubblicazione: 29 maggio 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2505.23939

Riassunto

Questo articolo propone un metodo per la progettazione automatica di reti neurali su dispositivi edge, consentendo l'applicazione del machine learning ad applicazioni IoT sensibili alla privacy. Il metodo viene eseguito su gateway IoT per progettare reti neurali per nodi sensori collegati, senza necessità di condividere i dati raccolti al di fuori della rete locale, mantenendo i dati nel luogo di raccolta. Questo approccio ha il potenziale di abilitare il machine learning per l'Internet delle Cose Medico (HIoT) e l'Internet delle Cose Industriale (IIoT), progettando reti neurali personalizzate e hardware-friendly sull'edge per la medicina personalizzata e servizi industriali avanzati. I risultati sperimentali dimostrano che il metodo raggiunge risultati all'avanguardia sul dataset Visual Wake Words, con il processo di ricerca completato in meno di 10 ore su Raspberry Pi Zero 2.

Contesto di Ricerca e Motivazione

Definizione del Problema

I metodi tradizionali di Neural Architecture Search (NAS) richiedono tipicamente risorse computazionali potenti (come cluster GPU) e necessitano di trasferire i dati al cloud per l'elaborazione. Ciò presenta i seguenti problemi in scenari applicativi sensibili alla privacy:

Problemi di Privacy dei Dati: Informazioni sensibili come dati medici, dati industriali e dati biometrici non possono o non devono essere condivisi con servizi cloud
Limitazioni delle Risorse Computazionali: I gateway IoT possiedono tipicamente capacità computazionali e memoria limitate, impossibilitate a eseguire algoritmi NAS tradizionali
Requisiti di Tempo Reale: I dispositivi edge devono completare la progettazione della rete neurale entro budget di tempo e consumo energetico limitati

Significato della Ricerca

Questa ricerca affronta il problema della progettazione di modelli di machine learning con protezione della privacy in ambienti IoT con risorse limitate, possedendo importante valore applicativo pratico:

IoT Medico: Fornire reti neurali personalizzate e hardware-friendly per ogni paziente
IoT Industriale: Fornire modelli personalizzati di diagnostica dei guasti e controllo della qualità per dispositivi di produzione, proteggendo al contempo i segreti industriali

Limitazioni dei Metodi Esistenti

I principali problemi dei metodi tradizionali HW-NAS includono:

Costo computazionale eccessivo (ad esempio MnasNet richiede 40.000 ore GPU)
Presuppongono che la piattaforma che esegue il processo di ricerca abbia risorse illimitate
Impossibilità di esecuzione diretta su dispositivi edge

Contributi Principali

Propone una nuova strategia di ricerca: Riduce il tempo di ricerca da 4 giorni a 10 ore su Raspberry Pi Zero 2, raggiungendo contemporaneamente risultati all'avanguardia sul dataset Visual Wake Words
Sviluppa meccanismi adattivi: Regola lo spazio di ricerca in base al budget energetico e temporale disponibile del gateway IoT, consentendo l'esecuzione di HW-NAS con risorse limitate
Estende le capacità di elaborazione delle serie temporali: Ottiene risultati all'avanguardia sul dataset CWRU, richiedendo solo 2 ore e 52 minuti su Raspberry Pi 4
Rilascio di Software Open Source: Fornisce software HW-NAS open source progettato per dispositivi Linux embedded

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un gateway IoT e nodi sensori collegati, l'obiettivo è progettare automaticamente su gateway un'architettura di rete neurale adatta ai vincoli hardware dei nodi sensori, soddisfacendo contemporaneamente i vincoli di risorse computazionali, tempo e consumo energetico del gateway.

Problema di Ottimizzazione Principale

Il metodo modella HW-NAS come un problema di ottimizzazione con sei vincoli:

Vincoli Edge (nodi sensori):

Utilizzo RAM: ϕ_RAM(A) ≤ ξ_RAM
Memoria Flash: ϕ_Flash(A) ≤ ξ_Flash
Operazioni MAC: ϕ_MAC(A) ≤ ξ_MAC

Vincoli Gateway:

Utilizzo Memoria: ϕ_MEM(A) ≤ ξ_MEM
Tempo di Esecuzione: ϕ_Time(S_α) ≤ ξ_Time
Budget Energetico: ϕ_Energy(S_α) ≤ ξ_Energy

Generazione dello Spazio di Ricerca

Algoritmo 1: Generazione dello Spazio di Ricerca Esteso

Input: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Output: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repeat:
3.   c ← 0
4.   while A(k,c) is feasible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. until (k,0) is not feasible

Algoritmo 2: Potatura dello Spazio di Ricerca

Pota lo spazio di ricerca esteso in base ai vincoli di tempo e consumo energetico:

Stima il limite superiore del tempo di valutazione dell'architettura massima t̄
Calcola il limite superiore del consumo energetico ē = t̄ × w̄ (potenza massima)
Aggiunge candidati architetturali in ordine di dimensione fino al raggiungimento del limite di vincolo

Strategia di Ricerca

Algoritmo di Ottimizzazione a Due Livelli

Ciclo Esterno: Ricerca del numero ottimale di kernel convoluzionali k Ciclo Interno: Dato il valore k, ricerca del numero ottimale di unità costruttive c

Caratteristiche Chiave:

Inizia dalla soluzione minima fattibile (k=1, c=0)
Utilizza incrementi variabili ⌊k/2^β⌋ per regolare la dimensione del passo di ricerca
Riduce la dimensione del passo di ricerca quando le prestazioni non migliorano più
Ottimizzazione senza gradienti, riducendo i requisiti di memoria e calcolo

Progettazione dell'Architettura di Rete

Adotta uno spazio di ricerca basato su celle, contenente quattro tipi di celle:

Cella di Preprocessing: Normalizzazione min-max
Cella Base: Singolo strato convoluzionale con k kernel convoluzionali
Cella Costruttiva: Max pooling + convoluzione + normalizzazione batch + attivazione ReLU
Cella Classificatore: Global average pooling + strato completamente connesso

Formula del numero di kernel convoluzionali: n_c = n_ + 2^{1-c}n_, dove n_0 = k

Configurazione Sperimentale

Piattaforme Hardware

Dispositivi Gateway IoT

Dispositivo	SoC	RAM	Potenza di Picco
Raspberry Pi 4	BCM2711	4 GiB	5.6 W
Raspberry Pi 3	BCM2837	1 GiB	4.3 W
Raspberry Pi Zero 2	BCM2710A1	0.5 GiB	2.8 W

MCU Nodi Sensori

Modello MCU	RAM	Flash	CoreMark
STM32L010RBT6	20 kiB	128 kiB	75
STM32U083RCT6	32 kiB	256 kiB	134
STM32L412KBU3	40 kiB	128 kiB	273

Dataset

Visual Wake Words: 123.000 immagini, compito di rilevamento di persone
CIFAR-10: 60.000 immagini a colori 32×32, classificazione in 10 classi
Melanoma Skin Cancer: 10.000 immagini mediche, rilevamento di tumori maligni
CWRU: Dati di serie temporali dell'accelerometro per diagnostica dei guasti dei cuscinetti volventi

Metriche di Valutazione

Accuratezza di Test
Utilizzo RAM (kiB)
Utilizzo Memoria Flash (kiB)
Operazioni MAC (milioni)
Latenza di Inferenza (ms)
Tempo di Ricerca e Consumo Energetico

Risultati Sperimentali

Risultati Principali

Adattabilità a Microcontrollori Ultra-Basso Consumo

Risultati sul dataset Visual Wake Words:

MCU Target	Architettura(k,c)	RAM	Flash	MAC	Accuratezza Test	Latenza
L010RBT6	(3,4)	19 kiB	10.8 kiB	0.4 MM	71%	42 ms
U083RCT6	(5,5)	24.5 kiB	22.7 kiB	0.9 MM	75.2%	63.2 ms
L412KBU3	(8,3)	31 kiB	18.8 kiB	2 MM	78.3%	79.1 ms

I risultati dimostrano che con l'aumento delle risorse hardware, l'algoritmo seleziona automaticamente architetture più grandi, ottenendo accuratezze più elevate.

Confronto con Metodi all'Avanguardia

Risultati di confronto sul dataset Visual Wake Words:

Metodo	Accuratezza	RAM	Flash	MAC
MCUNet	87.4%	168.5 kiB	530.5 kiB	6 MM
Micronets	76.8%	70.5 kiB	273.8 kiB	3.3 MM
ColabNAS	77.6%	31.5 kiB	20.83 kiB	2 MM
NanoNAS	77%	28.5 kiB	23.7 kiB	1.3 MM
Metodo Proposto	78.3%	31 kiB	18.8 kiB	2 MM

Il metodo proposto ottiene la seconda accuratezza più alta mantenendo il consumo di Flash più basso.

Prestazioni Adattive sotto Vincoli di Risorse

Esperimenti su Raspberry Pi Zero 2 per STM32L412KBU3:

Budget	Consumo Effettivo	Spazio Ricerca	Tasso Esplorazione	Accuratezza	Risorse Architettura
16.5Wh-9:51	16.5Wh-9:51	100%	51%	77.8%	28.5kiB RAM
11.0Wh-6:34	11.0Wh-6:30	33%	98%	73.1%	21.5kiB RAM
5.50Wh-3:17	5.41Wh-3:17	15%	95%	66%	18.5kiB RAM

Capacità di Elaborazione delle Serie Temporali

Confronto con Chen et al.54 sul dataset CWRU:

Metodo	Costo Ricerca	Architettura(k,c)	RAM	Flash	MAC	Accuratezza	Latenza
Metodo Proposto	6.4Wh-1:52	(6,4)	13.5 kiB	12.9 kiB	0.6 MM	99.5%	34 ms
Chen et al.54	n/a	n/a	66.5 kiB	163.4 kiB	0.2 MM	99.3%	38.2 ms

Il metodo proposto ottiene accuratezza più elevata riducendo l'utilizzo di RAM di 4.9 volte e l'utilizzo di Flash di 12.7 volte.

Lavori Correlati

Evoluzione di HW-NAS

Metodi Iniziali: MnasNet richiede 40.000 ore GPU
Metodi Ottimizzati: MCUNet ridotto a 300 ore GPU
Metodi Leggeri: ColabNAS richiede solo 4 ore GPU
Metodi Embedded: NanoNAS primo a eseguire su dispositivi embedded

Classificazione delle Piattaforme di Esecuzione

Lavoro	GPU	CPU	Dispositivo Embedded
MnasNet	✓
MCUNet	✓
ColabNAS	✓
NanoNAS v1		✓
NanoNAS v2			✓
Presente Articolo			✓ (Adattivo)

Conclusioni e Discussione

Conclusioni Principali

Protezione della Privacy: Realizza la progettazione completamente localizzata della rete neurale, senza necessità che i dati lascino il luogo di raccolta
Efficienza Risorse: Esecuzione riuscita di HW-NAS su gateway IoT con risorse limitate
Prestazioni Eccellenti: Raggiunge risultati all'avanguardia su molteplici dataset di benchmark
Capacità Adattiva: Regola dinamicamente la strategia di ricerca in base alle risorse disponibili

Limitazioni

Limitazioni dello Spazio di Ricerca: Adotta uno spazio di ricerca basato su celle relativamente semplice
Strategia di Valutazione: Utilizza solo 3 epoch per la valutazione dei candidati architetturali, potenzialmente influenzando l'accuratezza
Dipendenza Hardware: Principalmente ottimizzato per dispositivi embedded con architettura ARM
Limitazioni dei Compiti: Validazione principalmente su compiti di classificazione di immagini e serie temporali semplici

Direzioni Future

Valutazione Senza Addestramento: Adottare tecniche di valutazione dell'architettura senza addestramento per ridurre ulteriormente i costi di ricerca
Compiti Più Complessi: Estendere a compiti più complessi come rilevamento di oggetti e segmentazione semantica
Ottimizzazione Multi-Obiettivo: Ottimizzare simultaneamente accuratezza, latenza, consumo energetico e altri obiettivi
Integrazione di Apprendimento Federato: Combinare con apprendimento federato per realizzare addestramento distribuito con protezione della privacy

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo a realizzare HW-NAS adattivo su gateway IoT, risolvendo un importante problema pratico
Alto Valore Pratico: Fornisce una soluzione fattibile per applicazioni IoT sensibili alla privacy
Sperimentazione Completa: Validazione completa su molteplici piattaforme hardware e dataset
Contributo Open Source: Fornisce implementazione open source completa, promuovendo lo sviluppo del settore

Insufficienze

Complessità del Metodo: Richiede stima preliminare dei limiti superiori di tempo e consumo energetico, aumentando la complessità di distribuzione
Capacità di Generalizzazione: Validazione principalmente su architettura ARM specifica, l'applicabilità ad altre architetture rimane da verificare
Analisi Teorica Insufficiente: Manca garanzia teorica sulla convergenza della strategia di ricerca
Granularità di Valutazione: La valutazione con 3 epoch potrebbe non essere sufficientemente completa

Impatto

Valore Accademico: Fornisce nuove direzioni di ricerca per AI edge e machine learning con protezione della privacy
Applicazione Industriale: Possiede potenziale di applicazione diretta nei settori dell'Internet delle Cose Medico e Industriale
Promozione Tecnologica: Il software open source facilita l'adozione diffusa della tecnologia e ulteriore sviluppo

Scenari Applicabili

IoT Medico: Sistemi di monitoraggio dei pazienti e diagnostica ospedaliera
IoT Industriale: Controllo della qualità e monitoraggio dei dispositivi delle linee di produzione
Casa Intelligente: Sistemi di monitoraggio e controllo domestico sensibili alla privacy
Calcolo Edge: Distribuzione di modelli AI su dispositivi edge con risorse limitate

Riferimenti Bibliografici

L'articolo cita 68 lavori correlati, coprendo molteplici settori inclusi Neural Architecture Search, Edge Computing e Sicurezza IoT, fornendo una solida base teorica per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità con importante valore pratico, che risolve con successo il problema della progettazione di reti neurali con protezione della privacy in ambienti IoT con risorse limitate. Il metodo è altamente innovativo, la validazione sperimentale è completa e possiede importante significato nel promuovere lo sviluppo dell'AI edge e del machine learning con protezione della privacy.