2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

Поиск нейронных архитектур для узлов датчиков на шлюзах IoT

Основная информация

  • ID статьи: 2505.23939
  • Название: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • Авторы: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • Классификация: cs.LG (Машинное обучение), cs.NI (Сетевые архитектуры и интернет-архитектура)
  • Дата публикации: 29 мая 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2505.23939

Аннотация

В данной работе предлагается метод автоматического проектирования нейронных сетей на граничных устройствах, позволяющий применять машинное обучение к конфиденциальным приложениям Интернета вещей (IoT). Метод работает на шлюзе IoT и проектирует нейронные сети для подключённых узлов датчиков без необходимости совместного использования собранных данных за пределами локальной сети, при этом данные остаются в месте сбора. Этот подход имеет потенциал для внедрения машинного обучения в медицинский IoT (HIoT) и промышленный IoT (IIoT), позволяя проектировать дружественные к оборудованию пользовательские нейронные сети на граничных устройствах для персонализированной медицины и передовых промышленных услуг. Экспериментальные результаты показывают, что метод достигает передовых результатов на наборе данных Visual Wake Words, при этом процесс поиска выполняется менее чем за 10 часов на Raspberry Pi Zero 2.

Исследовательский контекст и мотивация

Определение проблемы

Существующие методы поиска нейронной архитектуры (NAS) обычно требуют мощных вычислительных ресурсов (таких как кластеры GPU) и передачи данных в облако для обработки. Это создаёт следующие проблемы в конфиденциальных сценариях применения:

  1. Проблемы конфиденциальности данных: Конфиденциальная информация, такая как медицинские данные, промышленные данные и биометрические данные, не может или не должна совместно использоваться с облачными сервисами
  2. Ограничения вычислительных ресурсов: Шлюзы IoT обычно имеют ограниченную вычислительную мощность и память, что не позволяет запускать традиционные алгоритмы NAS
  3. Требования реального времени: Граничные устройства должны завершить проектирование нейронной сети в ограниченный период времени и в рамках энергетического бюджета

Научная значимость

Данное исследование решает проблему проектирования моделей машинного обучения с защитой конфиденциальности в ресурсоограниченной среде IoT, имея важное практическое применение:

  • Медицинский IoT: Предоставление персонализированных дружественных к оборудованию нейронных сетей для каждого пациента
  • Промышленный IoT: Разработка пользовательских моделей диагностики неисправностей и контроля качества для производственного оборудования при защите промышленных секретов

Ограничения существующих методов

Основные проблемы традиционных методов HW-NAS включают:

  • Чрезмерно высокие вычислительные затраты (например, MnasNet требует 40 000 часов GPU)
  • Предположение о неограниченных ресурсах платформы, на которой выполняется процесс поиска
  • Невозможность прямого запуска на граничных устройствах

Основные вклады

  1. Предложена новая стратегия поиска: Сокращение времени поиска с 4 дней до 10 часов на Raspberry Pi Zero 2 при достижении передовых результатов на наборе данных Visual Wake Words
  2. Разработаны адаптивные механизмы: Регулировка пространства поиска в соответствии с доступным энергетическим и временным бюджетом шлюза IoT, позволяющая выполнять HW-NAS с ограниченными ресурсами
  3. Расширены возможности обработки временных рядов: Достижение передовых результатов на наборе данных CWRU, требующее всего 2 часа 52 минуты на Raspberry Pi 4
  4. Выпуск открытого программного обеспечения: Предоставление открытого программного обеспечения HW-NAS, разработанного для встроенных устройств Linux

Подробное описание метода

Определение задачи

Учитывая шлюз IoT и подключённые узлы датчиков, целью является автоматическое проектирование на шлюзе архитектуры нейронной сети, подходящей для аппаратных ограничений узлов датчиков, при этом удовлетворяя ограничениям вычислительных ресурсов, времени и энергопотребления шлюза.

Основная задача оптимизации

Метод моделирует HW-NAS как задачу оптимизации с шестью ограничениями:

Ограничения граничных устройств (узлы датчиков):

  • Использование ОЗУ: ϕ_RAM(A) ≤ ξ_RAM
  • Флэш-память: ϕ_Flash(A) ≤ ξ_Flash
  • Операции MAC: ϕ_MAC(A) ≤ ξ_MAC

Ограничения шлюза:

  • Использование памяти: ϕ_MEM(A) ≤ ξ_MEM
  • Время выполнения: ϕ_Time(S_α) ≤ ξ_Time
  • Энергетический бюджет: ϕ_Energy(S_α) ≤ ξ_Energy

Генерация пространства поиска

Алгоритм 1: Расширенная генерация пространства поиска

Вход: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Выход: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. повторять:
3.   c ← 0
4.   пока A(k,c) выполнимо:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. пока (k,0) не выполнимо

Алгоритм 2: Обрезка пространства поиска

Обрезка расширенного пространства поиска на основе ограничений времени и энергопотребления:

  • Оценка верхней границы времени оценки максимальной архитектуры t̄
  • Вычисление верхней границы энергопотребления ē = t̄ × w̄ (максимальная мощность)
  • Последовательное добавление кандидатов архитектур по размеру до достижения границы ограничения

Стратегия поиска

Двухуровневый алгоритм оптимизации

Внешний цикл: Поиск оптимального количества фильтров свёртки k Внутренний цикл: При заданном значении k поиск оптимального количества строительных блоков c

Ключевые характеристики:

  • Начало с минимального выполнимого решения (k=1, c=0)
  • Использование переменного приращения ⌊k/2^β⌋ для регулировки размера шага поиска
  • Уменьшение размера шага поиска при отсутствии улучшения производительности
  • Оптимизация без градиента, снижающая требования к памяти и вычислениям

Проектирование сетевой архитектуры

Использование пространства поиска на основе ячеек, содержащего четыре типа ячеек:

  1. Ячейка предварительной обработки: Нормализация min-max
  2. Базовая ячейка: Один слой свёртки с k фильтрами
  3. Строительная ячейка: Максимальное объединение + свёртка + пакетная нормализация + активация ReLU
  4. Ячейка классификатора: Глобальное среднее объединение + полносвязный слой

Формула количества фильтров: n_c = n_ + 2^{1-c}n_, где n_0 = k

Экспериментальная установка

Аппаратные платформы

Устройства шлюза IoT

УстройствоSoCОЗУПиковая мощность
Raspberry Pi 4BCM27114 ГиБ5,6 Вт
Raspberry Pi 3BCM28371 ГиБ4,3 Вт
Raspberry Pi Zero 2BCM2710A10,5 ГиБ2,8 Вт

Микроконтроллеры узлов датчиков

Модель МКУОЗУФлэшCoreMark
STM32L010RBT620 КиБ128 КиБ75
STM32U083RCT632 КиБ256 КиБ134
STM32L412KBU340 КиБ128 КиБ273

Наборы данных

  1. Visual Wake Words: 123 000 изображений, задача обнаружения людей
  2. CIFAR-10: 60 000 цветных изображений размером 32×32, классификация в 10 классов
  3. Melanoma Skin Cancer: 10 000 медицинских изображений, обнаружение злокачественных опухолей
  4. CWRU: Данные временных рядов акселерометра для диагностики неисправностей подшипников качения

Метрики оценки

  • Точность на тестовом наборе
  • Использование ОЗУ (КиБ)
  • Использование флэш-памяти (КиБ)
  • Количество операций MAC (миллионы)
  • Задержка вывода (мс)
  • Время и энергопотребление поиска

Экспериментальные результаты

Основные результаты

Адаптивность к микроконтроллерам сверхнизкого энергопотребления

Результаты на наборе данных Visual Wake Words:

Целевой МКУАрхитектура (k,c)ОЗУФлэшMACТочность тестаЗадержка
L010RBT6(3,4)19 КиБ10,8 КиБ0,4 ММ71%42 мс
U083RCT6(5,5)24,5 КиБ22,7 КиБ0,9 ММ75,2%63,2 мс
L412KBU3(8,3)31 КиБ18,8 КиБ2 ММ78,3%79,1 мс

Результаты показывают, что с увеличением ресурсов оборудования алгоритм автоматически выбирает более крупные архитектуры, достигая более высокой точности.

Сравнение с передовыми методами

Результаты сравнения на наборе данных Visual Wake Words:

МетодТочностьОЗУФлэшMAC
MCUNet87,4%168,5 КиБ530,5 КиБ6 ММ
Micronets76,8%70,5 КиБ273,8 КиБ3,3 ММ
ColabNAS77,6%31,5 КиБ20,83 КиБ2 ММ
NanoNAS77%28,5 КиБ23,7 КиБ1,3 ММ
Данный метод78,3%31 КиБ18,8 КиБ2 ММ

Предложенный метод достигает вторую по величине точность при сохранении минимального использования флэш-памяти.

Адаптивная производительность при ограничениях ресурсов

Эксперименты на Raspberry Pi Zero 2 для STM32L412KBU3:

БюджетФактическое потреблениеПространство поискаКоэффициент исследованияТочностьРесурсы архитектуры
16,5Вт⋅ч-9:5116,5Вт⋅ч-9:51100%51%77,8%28,5 КиБ ОЗУ
11,0Вт⋅ч-6:3411,0Вт⋅ч-6:3033%98%73,1%21,5 КиБ ОЗУ
5,50Вт⋅ч-3:175,41Вт⋅ч-3:1715%95%66%18,5 КиБ ОЗУ

Возможности обработки временных рядов

Сравнение с методом Chen et al. 54 на наборе данных CWRU:

МетодСтоимость поискаАрхитектура (k,c)ОЗУФлэшMACТочностьЗадержка
Данный метод6,4Вт⋅ч-1:52(6,4)13,5 КиБ12,9 КиБ0,6 ММ99,5%34 мс
Chen et al. 54н/дн/д66,5 КиБ163,4 КиБ0,2 ММ99,3%38,2 мс

Предложенный метод достигает более высокую точность при одновременном сокращении использования ОЗУ в 4,9 раза и флэш-памяти в 12,7 раза.

Связанные работы

Развитие HW-NAS

  • Ранние методы: MnasNet требует 40 000 часов GPU
  • Оптимизированные методы: MCUNet сокращает до 300 часов GPU
  • Облегчённые методы: ColabNAS требует всего 4 часа GPU
  • Встроенные методы: NanoNAS впервые работает на встроенных устройствах

Классификация платформ выполнения

РаботаGPUCPUВстроенное устройство
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
Данная работа (адаптивный)

Заключение и обсуждение

Основные выводы

  1. Защита конфиденциальности: Реализован полностью локализованный процесс проектирования нейронной сети, при котором данные не покидают место сбора
  2. Энергоэффективность: Успешное выполнение HW-NAS на ресурсоограниченных шлюзах IoT
  3. Превосходная производительность: Достижение передовых результатов на нескольких эталонных наборах данных
  4. Адаптивные возможности: Динамическая регулировка стратегии поиска в соответствии с доступными ресурсами

Ограничения

  1. Ограничения пространства поиска: Использование относительно простого пространства поиска на основе ячеек
  2. Стратегия оценки: Использование только 3 эпох для оценки кандидатов архитектур, что может повлиять на точность
  3. Зависимость от оборудования: Оптимизация в основном для встроенных устройств архитектуры ARM
  4. Ограничения задач: Основная проверка на задачах классификации изображений и простых временных рядов

Направления будущих исследований

  1. Оценка без обучения: Применение методов оценки архитектур без обучения для дальнейшего снижения стоимости поиска
  2. Более сложные задачи: Расширение на обнаружение объектов, семантическую сегментацию и другие сложные задачи
  3. Многоцелевая оптимизация: Одновременная оптимизация точности, задержки, энергопотребления и других целей
  4. Интеграция федеративного обучения: Объединение с федеративным обучением для реализации распределённого обучения с защитой конфиденциальности

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые реализована адаптивная HW-NAS на шлюзе IoT, решающая важную практическую проблему
  2. Высокая практическая ценность: Предоставление жизнеспособного решения для конфиденциальных приложений IoT
  3. Полная экспериментальная проверка: Комплексная проверка на нескольких аппаратных платформах и наборах данных
  4. Вклад в открытый исходный код: Предоставление полной реализации с открытым исходным кодом, способствующей развитию области

Недостатки

  1. Сложность метода: Необходимость предварительной оценки верхних границ времени и энергопотребления усложняет развёртывание
  2. Ограниченная обобщаемость: Основная проверка на конкретной архитектуре ARM, применимость к другим архитектурам требует дополнительной проверки
  3. Недостаточный теоретический анализ: Отсутствие теоретических гарантий сходимости стратегии поиска
  4. Недостаточная детализация оценки: Оценка в течение 3 эпох может быть недостаточной

Влияние

  1. Академическая ценность: Предоставление нового направления исследований для граничного ИИ и машинного обучения с защитой конфиденциальности
  2. Промышленное применение: Прямое применение в медицинском IoT и промышленном IoT
  3. Продвижение технологии: Открытое программное обеспечение способствует широкому внедрению и дальнейшему развитию

Применимые сценарии

  1. Медицинский IoT: Системы мониторинга пациентов и диагностики внутри больниц
  2. Промышленный IoT: Контроль качества и мониторинг оборудования на производственных линиях
  3. Умный дом: Системы домашнего мониторинга и управления, чувствительные к конфиденциальности
  4. Граничные вычисления: Развёртывание моделей ИИ на ресурсоограниченных граничных устройствах

Библиография

Статья ссылается на 68 связанных работ, охватывающих поиск нейронной архитектуры, граничные вычисления, безопасность IoT и другие области, обеспечивая прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная статья с важной практической ценностью, успешно решающая проблему проектирования нейронной сети с защитой конфиденциальности в ресурсоограниченной среде IoT. Метод отличается высокой инновационностью, полной экспериментальной проверкой и имеет важное значение для продвижения развития граничного ИИ и машинного обучения с защитой конфиденциальности.