2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.

This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.

academic

Búsqueda de Arquitecturas Neuronales para Nodos Sensores en Puertas de Enlace IoT

Información Básica

ID del Artículo: 2505.23939
Título: Searching Neural Architectures for Sensor Nodes on IoT Gateways
Autores: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
Clasificación: cs.LG (Aprendizaje Automático), cs.NI (Arquitectura de Redes e Internet)
Fecha de Publicación: 29 de mayo de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2505.23939

Resumen

Este artículo propone un método para diseñar automáticamente redes neuronales en dispositivos periféricos, permitiendo que el aprendizaje automático se aplique a aplicaciones de IoT sensibles a la privacidad. El método se ejecuta en puertas de enlace IoT y diseña redes neuronales para nodos sensores conectados sin necesidad de compartir los datos recopilados fuera de la red local; los datos permanecen siempre en el lugar de recopilación. Este enfoque tiene el potencial de habilitar el aprendizaje automático para IoT médico (HIoT) e IoT industrial (IIoT), diseñando redes neuronales personalizadas amigables con el hardware en el perímetro para medicina personalizada y servicios industriales avanzados. Los resultados experimentales demuestran que el método logra resultados de última generación en el conjunto de datos Visual Wake Words, con el proceso de búsqueda ejecutándose en menos de 10 horas en una Raspberry Pi Zero 2.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de búsqueda de arquitecturas neuronales (NAS) generalmente requieren recursos computacionales potentes (como clústeres de GPU) y necesitan transmitir datos a la nube para procesamiento. Esto presenta los siguientes problemas en escenarios de aplicación sensibles a la privacidad:

Problemas de Privacidad de Datos: La información sensible como datos médicos, datos industriales y datos biométricos no puede o no está dispuesta a ser compartida con servicios en la nube
Limitaciones de Recursos Computacionales: Las puertas de enlace IoT típicamente tienen capacidad computacional y memoria limitadas, siendo incapaces de ejecutar algoritmos NAS tradicionales
Requisitos de Tiempo Real: Los dispositivos periféricos necesitan completar el diseño de redes neuronales dentro de presupuestos limitados de tiempo y consumo de energía

Significado de la Investigación

Esta investigación aborda el problema del diseño de modelos de aprendizaje automático que preservan la privacidad en entornos IoT con recursos limitados, con importante valor de aplicación práctica:

IoT Médico: Proporcionar redes neuronales personalizadas amigables con el hardware para cada paciente
IoT Industrial: Proporcionar modelos personalizados de diagnóstico de fallos y control de calidad para equipos de producción, mientras se protegen los secretos industriales

Limitaciones de Métodos Existentes

Los principales problemas de los métodos HW-NAS tradicionales incluyen:

Costo computacional excesivo (por ejemplo, MnasNet requiere 40,000 horas de GPU)
Suposición de que la plataforma que ejecuta el proceso de búsqueda tiene recursos ilimitados
Incapacidad de ejecutarse directamente en dispositivos periféricos

Contribuciones Principales

Propone una nueva estrategia de búsqueda: Reduce el tiempo de búsqueda de 4 días a 10 horas en una Raspberry Pi Zero 2, mientras logra resultados de última generación en el conjunto de datos Visual Wake Words
Desarrolla mecanismos adaptativos: Ajusta el espacio de búsqueda según el presupuesto disponible de energía y tiempo de la puerta de enlace IoT, permitiendo que HW-NAS se ejecute bajo recursos limitados
Extiende capacidades de procesamiento de series temporales: Logra resultados de última generación en el conjunto de datos CWRU, requiriendo solo 2 horas 52 minutos en una Raspberry Pi 4
Lanzamiento de Software de Código Abierto: Proporciona software HW-NAS de código abierto diseñado para dispositivos Linux embebidos

Explicación Detallada del Método

Definición de la Tarea

Dado una puerta de enlace IoT y nodos sensores conectados, el objetivo es diseñar automáticamente en la puerta de enlace una arquitectura de red neuronal adecuada a las restricciones de hardware de los nodos sensores, mientras se satisfacen las limitaciones de recursos computacionales, tiempo y consumo de energía de la puerta de enlace.

Problema de Optimización Central

El método modela HW-NAS como un problema de optimización con seis restricciones:

Restricciones de Perímetro (nodos sensores):

Uso de RAM: ϕ_RAM(A) ≤ ξ_RAM
Memoria Flash: ϕ_Flash(A) ≤ ξ_Flash
Operaciones MAC: ϕ_MAC(A) ≤ ξ_MAC

Restricciones de Puerta de Enlace:

Uso de Memoria: ϕ_MEM(A) ≤ ξ_MEM
Tiempo de Ejecución: ϕ_Time(S_α) ≤ ξ_Time
Presupuesto de Energía: ϕ_Energy(S_α) ≤ ξ_Energy

Generación del Espacio de Búsqueda

Algoritmo 1: Generación Extendida del Espacio de Búsqueda

Entrada: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Salida: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repetir:
3.   c ← 0
4.   mientras A(k,c) sea factible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. hasta que (k,0) no sea factible

Algoritmo 2: Poda del Espacio de Búsqueda

Poda el espacio de búsqueda extendido basándose en restricciones de tiempo y energía:

Estima el límite superior del tiempo de evaluación de la arquitectura máxima t̄
Calcula el límite superior de energía ē = t̄ × w̄ (potencia máxima)
Añade arquitecturas candidatas en orden de tamaño hasta alcanzar los límites de restricción

Estrategia de Búsqueda

Algoritmo de Optimización Bicapa

Bucle Externo: Busca el número óptimo de núcleos de convolución k Bucle Interno: Dado un valor k, busca el número óptimo de unidades de construcción c

Características Clave:

Comienza desde la solución mínima factible (k=1, c=0)
Utiliza incrementos variables ⌊k/2^β⌋ para ajustar el tamaño de paso de búsqueda
Reduce el tamaño de paso de búsqueda cuando el rendimiento deja de mejorar
Optimización sin gradientes, reduciendo requisitos de memoria y computación

Diseño de Arquitectura de Red

Adopta un espacio de búsqueda basado en celdas, que contiene cuatro tipos de celdas:

Celda de Preprocesamiento: Normalización min-max
Celda Base: Capa de convolución única con k núcleos de convolución
Celda de Construcción: Agrupamiento máximo + convolución + normalización por lotes + activación ReLU
Celda Clasificadora: Agrupamiento promedio global + capa completamente conectada

Fórmula del número de núcleos de convolución: n_c = n_ + 2^{1-c}n_, donde n_0 = k

Configuración Experimental

Plataformas de Hardware

Dispositivos de Puerta de Enlace IoT

Dispositivo	SoC	RAM	Potencia Máxima
Raspberry Pi 4	BCM2711	4 GiB	5.6 W
Raspberry Pi 3	BCM2837	1 GiB	4.3 W
Raspberry Pi Zero 2	BCM2710A1	0.5 GiB	2.8 W

MCU de Nodos Sensores

Modelo MCU	RAM	Flash	CoreMark
STM32L010RBT6	20 kiB	128 kiB	75
STM32U083RCT6	32 kiB	256 kiB	134
STM32L412KBU3	40 kiB	128 kiB	273

Conjuntos de Datos

Visual Wake Words: 123,000 imágenes, tarea de detección de personas
CIFAR-10: 60,000 imágenes en color de 32×32, clasificación de 10 clases
Melanoma Skin Cancer: 10,000 imágenes médicas, detección de tumores malignos
CWRU: Datos de series temporales de acelerómetro para diagnóstico de fallos de rodamientos

Métricas de Evaluación

Precisión en prueba
Uso de RAM (kiB)
Uso de memoria Flash (kiB)
Operaciones MAC (millones)
Latencia de inferencia (ms)
Tiempo y consumo de energía de búsqueda

Resultados Experimentales

Resultados Principales

Adaptabilidad a Microcontroladores de Potencia Ultra Baja

Resultados en el conjunto de datos Visual Wake Words:

MCU Objetivo	Arquitectura(k,c)	RAM	Flash	MAC	Precisión en Prueba	Latencia
L010RBT6	(3,4)	19 kiB	10.8 kiB	0.4 MM	71%	42 ms
U083RCT6	(5,5)	24.5 kiB	22.7 kiB	0.9 MM	75.2%	63.2 ms
L412KBU3	(8,3)	31 kiB	18.8 kiB	2 MM	78.3%	79.1 ms

Los resultados demuestran que a medida que aumentan los recursos de hardware, el algoritmo selecciona automáticamente arquitecturas más grandes, logrando mayor precisión.

Comparación con Métodos de Última Generación

Resultados comparativos en el conjunto de datos Visual Wake Words:

Método	Precisión	RAM	Flash	MAC
MCUNet	87.4%	168.5 kiB	530.5 kiB	6 MM
Micronets	76.8%	70.5 kiB	273.8 kiB	3.3 MM
ColabNAS	77.6%	31.5 kiB	20.83 kiB	2 MM
NanoNAS	77%	28.5 kiB	23.7 kiB	1.3 MM
Este Trabajo	78.3%	31 kiB	18.8 kiB	2 MM

Este trabajo logra la segunda precisión más alta mientras mantiene el uso de Flash más bajo.

Rendimiento Adaptativo Bajo Restricciones de Recursos

Experimentos en Raspberry Pi Zero 2 dirigidos a STM32L412KBU3:

Presupuesto	Consumo Real	Espacio de Búsqueda	Tasa de Exploración	Precisión	Recursos de Arquitectura
16.5Wh-9:51	16.5Wh-9:51	100%	51%	77.8%	28.5kiB RAM
11.0Wh-6:34	11.0Wh-6:30	33%	98%	73.1%	21.5kiB RAM
5.50Wh-3:17	5.41Wh-3:17	15%	95%	66%	18.5kiB RAM

Capacidad de Procesamiento de Series Temporales

Comparación en el conjunto de datos CWRU con Chen et al.54:

Método	Costo de Búsqueda	Arquitectura(k,c)	RAM	Flash	MAC	Precisión	Latencia
Este Trabajo	6.4Wh-1:52	(6,4)	13.5 kiB	12.9 kiB	0.6 MM	99.5%	34 ms
Chen et al.54	n/a	n/a	66.5 kiB	163.4 kiB	0.2 MM	99.3%	38.2 ms

Este trabajo logra mayor precisión mientras reduce el uso de RAM en 4.9 veces y el uso de Flash en 12.7 veces.

Trabajo Relacionado

Evolución del Desarrollo de HW-NAS

Métodos Tempranos: MnasNet requiere 40,000 horas de GPU
Métodos Optimizados: MCUNet reduce a 300 horas de GPU
Métodos Ligeros: ColabNAS requiere solo 4 horas de GPU
Métodos Embebidos: NanoNAS ejecuta por primera vez en dispositivos embebidos

Clasificación de Plataformas de Ejecución

Trabajo	GPU	CPU	Dispositivo Embebido
MnasNet	✓
MCUNet	✓
ColabNAS	✓
NanoNAS v1		✓
NanoNAS v2			✓
Este Trabajo			✓ (Adaptativo)

Conclusiones y Discusión

Conclusiones Principales

Protección de Privacidad: Logra diseño de redes neuronales completamente localizado, sin necesidad de que los datos salgan del lugar de recopilación
Eficiencia de Recursos: Ejecuta exitosamente HW-NAS en puertas de enlace IoT con recursos limitados
Rendimiento Excepcional: Logra resultados de última generación en múltiples conjuntos de datos de referencia
Capacidad Adaptativa: Puede ajustar dinámicamente la estrategia de búsqueda según los recursos disponibles

Limitaciones

Limitaciones del Espacio de Búsqueda: Adopta un espacio de búsqueda basado en celdas relativamente simple
Estrategia de Evaluación: Utiliza solo 3 épocas para evaluar arquitecturas candidatas, lo que puede afectar la precisión
Dependencia de Hardware: Principalmente optimizado para dispositivos embebidos de arquitectura ARM
Limitaciones de Tareas: Validación principalmente en tareas de clasificación de imágenes y series temporales simples

Direcciones Futuras

Evaluación sin Entrenamiento: Adoptar técnicas de evaluación de arquitecturas sin necesidad de entrenamiento para reducir aún más el costo de búsqueda
Tareas Más Complejas: Extender a detección de objetos, segmentación semántica y otras tareas más complejas
Optimización Multiobjetivo: Optimizar simultáneamente múltiples objetivos como precisión, latencia y consumo de energía
Integración de Aprendizaje Federado: Combinar con aprendizaje federado para lograr entrenamiento distribuido que preserve la privacidad

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera implementación de HW-NAS adaptativo en puertas de enlace IoT, resolviendo un problema práctico importante
Alto Valor Práctico: Proporciona una solución viable para aplicaciones IoT sensibles a la privacidad
Experimentación Completa: Validación integral en múltiples plataformas de hardware y conjuntos de datos
Contribución de Código Abierto: Proporciona implementación completa de código abierto, promoviendo el desarrollo del campo

Deficiencias

Complejidad del Método: Requiere estimación previa de límites de tiempo y energía, aumentando la complejidad de despliegue
Capacidad de Generalización: Validación principalmente en arquitectura ARM específica, la aplicabilidad a otras arquitecturas requiere verificación
Análisis Teórico Insuficiente: Falta garantías teóricas sobre la convergencia de la estrategia de búsqueda
Granularidad de Evaluación: La evaluación de 3 épocas puede no ser suficientemente exhaustiva

Impacto

Valor Académico: Proporciona nueva dirección de investigación para IA en perímetro y aprendizaje automático que preserva la privacidad
Aplicación Industrial: Tiene potencial de aplicación directa en IoT médico e IoT industrial
Promoción Tecnológica: El software de código abierto facilita la adopción generalizada y desarrollo posterior

Escenarios Aplicables

IoT Médico: Sistemas de monitoreo de pacientes y diagnóstico dentro de hospitales
IoT Industrial: Control de calidad de líneas de producción y monitoreo de equipos
Hogar Inteligente: Sistemas de monitoreo y control del hogar sensibles a la privacidad
Computación Periférica: Despliegue de modelos de IA en dispositivos periféricos con recursos limitados

Referencias

El artículo cita 68 referencias relacionadas, abarcando múltiples campos incluyendo búsqueda de arquitecturas neuronales, computación periférica, seguridad IoT y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad con importante valor práctico que resuelve exitosamente el problema del diseño de redes neuronales que preservan la privacidad en entornos IoT con recursos limitados. El método es altamente innovador, la validación experimental es completa, y tiene importancia significativa para promover el desarrollo de IA periférica y aprendizaje automático que preserva la privacidad.