2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

Búsqueda de Arquitecturas Neuronales para Nodos Sensores en Puertas de Enlace IoT

Información Básica

  • ID del Artículo: 2505.23939
  • Título: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • Autores: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • Clasificación: cs.LG (Aprendizaje Automático), cs.NI (Arquitectura de Redes e Internet)
  • Fecha de Publicación: 29 de mayo de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2505.23939

Resumen

Este artículo propone un método para diseñar automáticamente redes neuronales en dispositivos periféricos, permitiendo que el aprendizaje automático se aplique a aplicaciones de IoT sensibles a la privacidad. El método se ejecuta en puertas de enlace IoT y diseña redes neuronales para nodos sensores conectados sin necesidad de compartir los datos recopilados fuera de la red local; los datos permanecen siempre en el lugar de recopilación. Este enfoque tiene el potencial de habilitar el aprendizaje automático para IoT médico (HIoT) e IoT industrial (IIoT), diseñando redes neuronales personalizadas amigables con el hardware en el perímetro para medicina personalizada y servicios industriales avanzados. Los resultados experimentales demuestran que el método logra resultados de última generación en el conjunto de datos Visual Wake Words, con el proceso de búsqueda ejecutándose en menos de 10 horas en una Raspberry Pi Zero 2.

Antecedentes de Investigación y Motivación

Definición del Problema

Los métodos tradicionales de búsqueda de arquitecturas neuronales (NAS) generalmente requieren recursos computacionales potentes (como clústeres de GPU) y necesitan transmitir datos a la nube para procesamiento. Esto presenta los siguientes problemas en escenarios de aplicación sensibles a la privacidad:

  1. Problemas de Privacidad de Datos: La información sensible como datos médicos, datos industriales y datos biométricos no puede o no está dispuesta a ser compartida con servicios en la nube
  2. Limitaciones de Recursos Computacionales: Las puertas de enlace IoT típicamente tienen capacidad computacional y memoria limitadas, siendo incapaces de ejecutar algoritmos NAS tradicionales
  3. Requisitos de Tiempo Real: Los dispositivos periféricos necesitan completar el diseño de redes neuronales dentro de presupuestos limitados de tiempo y consumo de energía

Significado de la Investigación

Esta investigación aborda el problema del diseño de modelos de aprendizaje automático que preservan la privacidad en entornos IoT con recursos limitados, con importante valor de aplicación práctica:

  • IoT Médico: Proporcionar redes neuronales personalizadas amigables con el hardware para cada paciente
  • IoT Industrial: Proporcionar modelos personalizados de diagnóstico de fallos y control de calidad para equipos de producción, mientras se protegen los secretos industriales

Limitaciones de Métodos Existentes

Los principales problemas de los métodos HW-NAS tradicionales incluyen:

  • Costo computacional excesivo (por ejemplo, MnasNet requiere 40,000 horas de GPU)
  • Suposición de que la plataforma que ejecuta el proceso de búsqueda tiene recursos ilimitados
  • Incapacidad de ejecutarse directamente en dispositivos periféricos

Contribuciones Principales

  1. Propone una nueva estrategia de búsqueda: Reduce el tiempo de búsqueda de 4 días a 10 horas en una Raspberry Pi Zero 2, mientras logra resultados de última generación en el conjunto de datos Visual Wake Words
  2. Desarrolla mecanismos adaptativos: Ajusta el espacio de búsqueda según el presupuesto disponible de energía y tiempo de la puerta de enlace IoT, permitiendo que HW-NAS se ejecute bajo recursos limitados
  3. Extiende capacidades de procesamiento de series temporales: Logra resultados de última generación en el conjunto de datos CWRU, requiriendo solo 2 horas 52 minutos en una Raspberry Pi 4
  4. Lanzamiento de Software de Código Abierto: Proporciona software HW-NAS de código abierto diseñado para dispositivos Linux embebidos

Explicación Detallada del Método

Definición de la Tarea

Dado una puerta de enlace IoT y nodos sensores conectados, el objetivo es diseñar automáticamente en la puerta de enlace una arquitectura de red neuronal adecuada a las restricciones de hardware de los nodos sensores, mientras se satisfacen las limitaciones de recursos computacionales, tiempo y consumo de energía de la puerta de enlace.

Problema de Optimización Central

El método modela HW-NAS como un problema de optimización con seis restricciones:

Restricciones de Perímetro (nodos sensores):

  • Uso de RAM: ϕ_RAM(A) ≤ ξ_RAM
  • Memoria Flash: ϕ_Flash(A) ≤ ξ_Flash
  • Operaciones MAC: ϕ_MAC(A) ≤ ξ_MAC

Restricciones de Puerta de Enlace:

  • Uso de Memoria: ϕ_MEM(A) ≤ ξ_MEM
  • Tiempo de Ejecución: ϕ_Time(S_α) ≤ ξ_Time
  • Presupuesto de Energía: ϕ_Energy(S_α) ≤ ξ_Energy

Generación del Espacio de Búsqueda

Algoritmo 1: Generación Extendida del Espacio de Búsqueda

Entrada: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Salida: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repetir:
3.   c ← 0
4.   mientras A(k,c) sea factible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. hasta que (k,0) no sea factible

Algoritmo 2: Poda del Espacio de Búsqueda

Poda el espacio de búsqueda extendido basándose en restricciones de tiempo y energía:

  • Estima el límite superior del tiempo de evaluación de la arquitectura máxima t̄
  • Calcula el límite superior de energía ē = t̄ × w̄ (potencia máxima)
  • Añade arquitecturas candidatas en orden de tamaño hasta alcanzar los límites de restricción

Estrategia de Búsqueda

Algoritmo de Optimización Bicapa

Bucle Externo: Busca el número óptimo de núcleos de convolución k Bucle Interno: Dado un valor k, busca el número óptimo de unidades de construcción c

Características Clave:

  • Comienza desde la solución mínima factible (k=1, c=0)
  • Utiliza incrementos variables ⌊k/2^β⌋ para ajustar el tamaño de paso de búsqueda
  • Reduce el tamaño de paso de búsqueda cuando el rendimiento deja de mejorar
  • Optimización sin gradientes, reduciendo requisitos de memoria y computación

Diseño de Arquitectura de Red

Adopta un espacio de búsqueda basado en celdas, que contiene cuatro tipos de celdas:

  1. Celda de Preprocesamiento: Normalización min-max
  2. Celda Base: Capa de convolución única con k núcleos de convolución
  3. Celda de Construcción: Agrupamiento máximo + convolución + normalización por lotes + activación ReLU
  4. Celda Clasificadora: Agrupamiento promedio global + capa completamente conectada

Fórmula del número de núcleos de convolución: n_c = n_ + 2^{1-c}n_, donde n_0 = k

Configuración Experimental

Plataformas de Hardware

Dispositivos de Puerta de Enlace IoT

DispositivoSoCRAMPotencia Máxima
Raspberry Pi 4BCM27114 GiB5.6 W
Raspberry Pi 3BCM28371 GiB4.3 W
Raspberry Pi Zero 2BCM2710A10.5 GiB2.8 W

MCU de Nodos Sensores

Modelo MCURAMFlashCoreMark
STM32L010RBT620 kiB128 kiB75
STM32U083RCT632 kiB256 kiB134
STM32L412KBU340 kiB128 kiB273

Conjuntos de Datos

  1. Visual Wake Words: 123,000 imágenes, tarea de detección de personas
  2. CIFAR-10: 60,000 imágenes en color de 32×32, clasificación de 10 clases
  3. Melanoma Skin Cancer: 10,000 imágenes médicas, detección de tumores malignos
  4. CWRU: Datos de series temporales de acelerómetro para diagnóstico de fallos de rodamientos

Métricas de Evaluación

  • Precisión en prueba
  • Uso de RAM (kiB)
  • Uso de memoria Flash (kiB)
  • Operaciones MAC (millones)
  • Latencia de inferencia (ms)
  • Tiempo y consumo de energía de búsqueda

Resultados Experimentales

Resultados Principales

Adaptabilidad a Microcontroladores de Potencia Ultra Baja

Resultados en el conjunto de datos Visual Wake Words:

MCU ObjetivoArquitectura(k,c)RAMFlashMACPrecisión en PruebaLatencia
L010RBT6(3,4)19 kiB10.8 kiB0.4 MM71%42 ms
U083RCT6(5,5)24.5 kiB22.7 kiB0.9 MM75.2%63.2 ms
L412KBU3(8,3)31 kiB18.8 kiB2 MM78.3%79.1 ms

Los resultados demuestran que a medida que aumentan los recursos de hardware, el algoritmo selecciona automáticamente arquitecturas más grandes, logrando mayor precisión.

Comparación con Métodos de Última Generación

Resultados comparativos en el conjunto de datos Visual Wake Words:

MétodoPrecisiónRAMFlashMAC
MCUNet87.4%168.5 kiB530.5 kiB6 MM
Micronets76.8%70.5 kiB273.8 kiB3.3 MM
ColabNAS77.6%31.5 kiB20.83 kiB2 MM
NanoNAS77%28.5 kiB23.7 kiB1.3 MM
Este Trabajo78.3%31 kiB18.8 kiB2 MM

Este trabajo logra la segunda precisión más alta mientras mantiene el uso de Flash más bajo.

Rendimiento Adaptativo Bajo Restricciones de Recursos

Experimentos en Raspberry Pi Zero 2 dirigidos a STM32L412KBU3:

PresupuestoConsumo RealEspacio de BúsquedaTasa de ExploraciónPrecisiónRecursos de Arquitectura
16.5Wh-9:5116.5Wh-9:51100%51%77.8%28.5kiB RAM
11.0Wh-6:3411.0Wh-6:3033%98%73.1%21.5kiB RAM
5.50Wh-3:175.41Wh-3:1715%95%66%18.5kiB RAM

Capacidad de Procesamiento de Series Temporales

Comparación en el conjunto de datos CWRU con Chen et al.54:

MétodoCosto de BúsquedaArquitectura(k,c)RAMFlashMACPrecisiónLatencia
Este Trabajo6.4Wh-1:52(6,4)13.5 kiB12.9 kiB0.6 MM99.5%34 ms
Chen et al.54n/an/a66.5 kiB163.4 kiB0.2 MM99.3%38.2 ms

Este trabajo logra mayor precisión mientras reduce el uso de RAM en 4.9 veces y el uso de Flash en 12.7 veces.

Trabajo Relacionado

Evolución del Desarrollo de HW-NAS

  • Métodos Tempranos: MnasNet requiere 40,000 horas de GPU
  • Métodos Optimizados: MCUNet reduce a 300 horas de GPU
  • Métodos Ligeros: ColabNAS requiere solo 4 horas de GPU
  • Métodos Embebidos: NanoNAS ejecuta por primera vez en dispositivos embebidos

Clasificación de Plataformas de Ejecución

TrabajoGPUCPUDispositivo Embebido
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
Este Trabajo✓ (Adaptativo)

Conclusiones y Discusión

Conclusiones Principales

  1. Protección de Privacidad: Logra diseño de redes neuronales completamente localizado, sin necesidad de que los datos salgan del lugar de recopilación
  2. Eficiencia de Recursos: Ejecuta exitosamente HW-NAS en puertas de enlace IoT con recursos limitados
  3. Rendimiento Excepcional: Logra resultados de última generación en múltiples conjuntos de datos de referencia
  4. Capacidad Adaptativa: Puede ajustar dinámicamente la estrategia de búsqueda según los recursos disponibles

Limitaciones

  1. Limitaciones del Espacio de Búsqueda: Adopta un espacio de búsqueda basado en celdas relativamente simple
  2. Estrategia de Evaluación: Utiliza solo 3 épocas para evaluar arquitecturas candidatas, lo que puede afectar la precisión
  3. Dependencia de Hardware: Principalmente optimizado para dispositivos embebidos de arquitectura ARM
  4. Limitaciones de Tareas: Validación principalmente en tareas de clasificación de imágenes y series temporales simples

Direcciones Futuras

  1. Evaluación sin Entrenamiento: Adoptar técnicas de evaluación de arquitecturas sin necesidad de entrenamiento para reducir aún más el costo de búsqueda
  2. Tareas Más Complejas: Extender a detección de objetos, segmentación semántica y otras tareas más complejas
  3. Optimización Multiobjetivo: Optimizar simultáneamente múltiples objetivos como precisión, latencia y consumo de energía
  4. Integración de Aprendizaje Federado: Combinar con aprendizaje federado para lograr entrenamiento distribuido que preserve la privacidad

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera implementación de HW-NAS adaptativo en puertas de enlace IoT, resolviendo un problema práctico importante
  2. Alto Valor Práctico: Proporciona una solución viable para aplicaciones IoT sensibles a la privacidad
  3. Experimentación Completa: Validación integral en múltiples plataformas de hardware y conjuntos de datos
  4. Contribución de Código Abierto: Proporciona implementación completa de código abierto, promoviendo el desarrollo del campo

Deficiencias

  1. Complejidad del Método: Requiere estimación previa de límites de tiempo y energía, aumentando la complejidad de despliegue
  2. Capacidad de Generalización: Validación principalmente en arquitectura ARM específica, la aplicabilidad a otras arquitecturas requiere verificación
  3. Análisis Teórico Insuficiente: Falta garantías teóricas sobre la convergencia de la estrategia de búsqueda
  4. Granularidad de Evaluación: La evaluación de 3 épocas puede no ser suficientemente exhaustiva

Impacto

  1. Valor Académico: Proporciona nueva dirección de investigación para IA en perímetro y aprendizaje automático que preserva la privacidad
  2. Aplicación Industrial: Tiene potencial de aplicación directa en IoT médico e IoT industrial
  3. Promoción Tecnológica: El software de código abierto facilita la adopción generalizada y desarrollo posterior

Escenarios Aplicables

  1. IoT Médico: Sistemas de monitoreo de pacientes y diagnóstico dentro de hospitales
  2. IoT Industrial: Control de calidad de líneas de producción y monitoreo de equipos
  3. Hogar Inteligente: Sistemas de monitoreo y control del hogar sensibles a la privacidad
  4. Computación Periférica: Despliegue de modelos de IA en dispositivos periféricos con recursos limitados

Referencias

El artículo cita 68 referencias relacionadas, abarcando múltiples campos incluyendo búsqueda de arquitecturas neuronales, computación periférica, seguridad IoT y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad con importante valor práctico que resuelve exitosamente el problema del diseño de redes neuronales que preservan la privacidad en entornos IoT con recursos limitados. El método es altamente innovador, la validación experimental es completa, y tiene importancia significativa para promover el desarrollo de IA periférica y aprendizaje automático que preserva la privacidad.