2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

Searching Neural Architectures for Sensor Nodes on IoT Gateways

基本信息

  • 论文ID: 2505.23939
  • 标题: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • 作者: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • 分类: cs.LG (Machine Learning), cs.NI (Networking and Internet Architecture)
  • 发表时间: 2025年5月29日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2505.23939

摘要

本文提出了一种在边缘设备上自动设计神经网络的方法,使机器学习能够应用于隐私敏感的物联网(IoT)应用中。该方法运行在IoT网关上,为连接的传感器节点设计神经网络,而无需将收集的数据分享到本地网络之外,数据始终保留在收集地点。这种方法有潜力为医疗物联网(HIoT)和工业物联网(IIoT)启用机器学习,在边缘设计硬件友好的定制神经网络,用于个性化医疗和先进工业服务。实验结果表明,在Visual Wake Words数据集上,该方法能够达到最先进的结果,搜索过程在Raspberry Pi Zero 2上运行时间少于10小时。

研究背景与动机

问题定义

现有的神经架构搜索(NAS)方法通常需要强大的计算资源(如GPU集群),且需要将数据传输到云端进行处理。这在隐私敏感的应用场景中存在以下问题:

  1. 数据隐私问题:医疗数据、工业数据和生物识别数据等敏感信息无法或不愿意与云服务共享
  2. 计算资源限制:IoT网关通常具有有限的计算能力和内存,无法运行传统的NAS算法
  3. 实时性要求:边缘设备需要在有限的时间和能耗预算内完成神经网络设计

研究意义

该研究解决了在资源受限的IoT环境中进行隐私保护的机器学习模型设计问题,具有重要的实际应用价值:

  • 医疗IoT:为每个患者提供个性化的硬件友好神经网络
  • 工业IoT:为生产设备提供定制的故障诊断和质量控制模型,同时保护工业机密

现有方法局限性

传统HW-NAS方法的主要问题包括:

  • 计算成本过高(如MnasNet需要40,000 GPU小时)
  • 假设运行搜索过程的平台资源不受限制
  • 无法在边缘设备上直接运行

核心贡献

  1. 提出了一种新的搜索策略:在Raspberry Pi Zero 2上将搜索时间从4天减少到10小时,同时在Visual Wake Words数据集上达到最先进结果
  2. 开发了自适应机制:根据IoT网关的可用能源和时间预算调整搜索空间,使HW-NAS能够在有限资源下执行
  3. 扩展了时间序列处理能力:在CWRU数据集上获得最先进结果,在Raspberry Pi 4上仅需2小时52分钟
  4. 开源软件发布:提供了针对嵌入式Linux设备设计的开源HW-NAS软件

方法详解

任务定义

给定一个IoT网关和连接的传感器节点,目标是在网关上自动设计适合传感器节点硬件约束的神经网络架构,同时满足网关的计算资源、时间和能耗限制。

核心优化问题

该方法将HW-NAS建模为一个六重约束优化问题:

边缘约束(传感器节点):

  • RAM使用量:ϕ_RAM(A) ≤ ξ_RAM
  • Flash内存:ϕ_Flash(A) ≤ ξ_Flash
  • MAC操作数:ϕ_MAC(A) ≤ ξ_MAC

网关约束

  • 内存使用量:ϕ_MEM(A) ≤ ξ_MEM
  • 执行时间:ϕ_Time(S_α) ≤ ξ_Time
  • 能耗预算:ϕ_Energy(S_α) ≤ ξ_Energy

搜索空间生成

算法1:扩展搜索空间生成

输入:ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
输出:Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repeat:
3.   c ← 0
4.   while A(k,c) is feasible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. until (k,0) is not feasible

算法2:搜索空间裁剪

基于时间和能耗约束对扩展搜索空间进行裁剪:

  • 估算最大架构的评估时间上界 t̄
  • 计算能耗上界 ē = t̄ × w̄(最大功耗)
  • 按架构大小顺序添加候选架构直到达到约束边界

搜索策略

双层优化算法

外层循环:搜索最佳卷积核数量k 内层循环:给定k值,搜索最佳构建单元数量c

关键特性:

  • 从最小可行解(k=1, c=0)开始
  • 使用可变增量 ⌊k/2^β⌋ 调整搜索步长
  • 当性能不再提升时减小搜索步长
  • 无梯度优化,降低内存和计算需求

网络架构设计

采用基于单元的搜索空间,包含四种类型的单元:

  1. 预处理单元:min-max标准化
  2. 基础单元:单个卷积层,k个卷积核
  3. 构建单元:最大池化 + 卷积 + 批归一化 + ReLU激活
  4. 分类器单元:全局平均池化 + 全连接层

卷积核数量公式:n_c = n_ + 2^{1-c}n_,其中n_0 = k

实验设置

硬件平台

IoT网关设备

设备SoCRAM峰值功耗
Raspberry Pi 4BCM27114 GiB5.6 W
Raspberry Pi 3BCM28371 GiB4.3 W
Raspberry Pi Zero 2BCM2710A10.5 GiB2.8 W

传感器节点MCU

MCU型号RAMFlashCoreMark
STM32L010RBT620 kiB128 kiB75
STM32U083RCT632 kiB256 kiB134
STM32L412KBU340 kiB128 kiB273

数据集

  1. Visual Wake Words:123,000张图像,人物检测任务
  2. CIFAR-10:60,000张32×32彩色图像,10类分类
  3. Melanoma Skin Cancer:10,000张医学图像,恶性肿瘤检测
  4. CWRU:滚动轴承故障诊断的加速度计时间序列数据

评价指标

  • 测试准确率
  • RAM使用量(kiB)
  • Flash内存使用量(kiB)
  • MAC操作数(百万次)
  • 推理延迟(ms)
  • 搜索时间和能耗

实验结果

主要结果

超低功耗微控制器适应性

在Visual Wake Words数据集上的结果:

目标MCU架构(k,c)RAMFlashMAC测试准确率延迟
L010RBT6(3,4)19 kiB10.8 kiB0.4 MM71%42 ms
U083RCT6(5,5)24.5 kiB22.7 kiB0.9 MM75.2%63.2 ms
L412KBU3(8,3)31 kiB18.8 kiB2 MM78.3%79.1 ms

结果表明:随着硬件资源增加,算法自动选择更大的架构,获得更高的准确率。

与最先进方法对比

在Visual Wake Words数据集上的对比结果:

方法准确率RAMFlashMAC
MCUNet87.4%168.5 kiB530.5 kiB6 MM
Micronets76.8%70.5 kiB273.8 kiB3.3 MM
ColabNAS77.6%31.5 kiB20.83 kiB2 MM
NanoNAS77%28.5 kiB23.7 kiB1.3 MM
本文方法78.3%31 kiB18.8 kiB2 MM

本文方法在保持最低Flash使用量的同时获得第二高的准确率。

资源约束下的自适应性能

在Raspberry Pi Zero 2上针对STM32L412KBU3的实验:

预算实际消耗搜索空间探索率准确率架构资源
16.5Wh-9:5116.5Wh-9:51100%51%77.8%28.5kiB RAM
11.0Wh-6:3411.0Wh-6:3033%98%73.1%21.5kiB RAM
5.50Wh-3:175.41Wh-3:1715%95%66%18.5kiB RAM

时间序列处理能力

在CWRU数据集上与Chen等人54的对比:

方法搜索成本架构(k,c)RAMFlashMAC准确率延迟
本文方法6.4Wh-1:52(6,4)13.5 kiB12.9 kiB0.6 MM99.5%34 ms
Chen等54n/an/a66.5 kiB163.4 kiB0.2 MM99.3%38.2 ms

本文方法在获得更高准确率的同时,RAM使用量减少4.9倍,Flash使用量减少12.7倍。

相关工作

HW-NAS发展历程

  • 早期方法:MnasNet需要40,000 GPU小时
  • 优化方法:MCUNet减少到300 GPU小时
  • 轻量化方法:ColabNAS仅需4 GPU小时
  • 嵌入式方法:NanoNAS首次在嵌入式设备上运行

执行平台分类

工作GPUCPU嵌入式设备
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
本文 (自适应)

结论与讨论

主要结论

  1. 隐私保护:实现了完全本地化的神经网络设计,数据无需离开收集地点
  2. 资源高效:在资源受限的IoT网关上成功运行HW-NAS
  3. 性能优异:在多个基准数据集上达到最先进结果
  4. 自适应能力:能够根据可用资源动态调整搜索策略

局限性

  1. 搜索空间限制:采用相对简单的基于单元的搜索空间
  2. 评估策略:仅使用3个epoch进行候选架构评估,可能影响准确性
  3. 硬件依赖:主要针对ARM架构的嵌入式设备进行优化
  4. 任务局限:主要验证了图像分类和简单时间序列任务

未来方向

  1. 无训练评估:采用无需训练的架构评估技术进一步降低搜索成本
  2. 更复杂任务:扩展到目标检测、语义分割等更复杂任务
  3. 多目标优化:同时优化准确率、延迟、能耗等多个目标
  4. 联邦学习集成:与联邦学习结合实现分布式隐私保护训练

深度评价

优点

  1. 创新性强:首次实现了在IoT网关上的自适应HW-NAS,解决了重要的实际问题
  2. 实用价值高:为隐私敏感的IoT应用提供了可行的解决方案
  3. 实验充分:在多个硬件平台和数据集上进行了全面验证
  4. 开源贡献:提供了完整的开源实现,促进了领域发展

不足

  1. 方法复杂度:需要预先估算时间和能耗上界,增加了部署复杂性
  2. 泛化能力:主要在特定的ARM架构上验证,其他架构的适用性有待验证
  3. 理论分析不足:缺乏对搜索策略收敛性的理论保证
  4. 评估粒度:3个epoch的评估可能不够充分

影响力

  1. 学术价值:为边缘AI和隐私保护机器学习提供了新的研究方向
  2. 产业应用:在医疗IoT和工业IoT领域具有直接的应用潜力
  3. 技术推广:开源软件有助于技术的广泛采用和进一步发展

适用场景

  1. 医疗IoT:医院内部的患者监护和诊断系统
  2. 工业IoT:生产线的质量控制和设备监测
  3. 智能家居:隐私敏感的家庭监控和控制系统
  4. 边缘计算:资源受限的边缘设备上的AI模型部署

参考文献

论文引用了68篇相关文献,涵盖了神经架构搜索、边缘计算、IoT安全等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇具有重要实用价值的高质量论文,成功解决了在资源受限的IoT环境中进行隐私保护的神经网络设计问题。方法创新性强,实验验证充分,对推动边缘AI和隐私保护机器学习的发展具有重要意义。