2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.

This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.

academic

Поиск нейронных архитектур для узлов датчиков на шлюзах IoT

Основная информация

ID статьи: 2505.23939
Название: Searching Neural Architectures for Sensor Nodes on IoT Gateways
Авторы: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
Классификация: cs.LG (Машинное обучение), cs.NI (Сетевые архитектуры и интернет-архитектура)
Дата публикации: 29 мая 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2505.23939

Аннотация

В данной работе предлагается метод автоматического проектирования нейронных сетей на граничных устройствах, позволяющий применять машинное обучение к конфиденциальным приложениям Интернета вещей (IoT). Метод работает на шлюзе IoT и проектирует нейронные сети для подключённых узлов датчиков без необходимости совместного использования собранных данных за пределами локальной сети, при этом данные остаются в месте сбора. Этот подход имеет потенциал для внедрения машинного обучения в медицинский IoT (HIoT) и промышленный IoT (IIoT), позволяя проектировать дружественные к оборудованию пользовательские нейронные сети на граничных устройствах для персонализированной медицины и передовых промышленных услуг. Экспериментальные результаты показывают, что метод достигает передовых результатов на наборе данных Visual Wake Words, при этом процесс поиска выполняется менее чем за 10 часов на Raspberry Pi Zero 2.

Исследовательский контекст и мотивация

Определение проблемы

Существующие методы поиска нейронной архитектуры (NAS) обычно требуют мощных вычислительных ресурсов (таких как кластеры GPU) и передачи данных в облако для обработки. Это создаёт следующие проблемы в конфиденциальных сценариях применения:

Проблемы конфиденциальности данных: Конфиденциальная информация, такая как медицинские данные, промышленные данные и биометрические данные, не может или не должна совместно использоваться с облачными сервисами
Ограничения вычислительных ресурсов: Шлюзы IoT обычно имеют ограниченную вычислительную мощность и память, что не позволяет запускать традиционные алгоритмы NAS
Требования реального времени: Граничные устройства должны завершить проектирование нейронной сети в ограниченный период времени и в рамках энергетического бюджета

Научная значимость

Данное исследование решает проблему проектирования моделей машинного обучения с защитой конфиденциальности в ресурсоограниченной среде IoT, имея важное практическое применение:

Медицинский IoT: Предоставление персонализированных дружественных к оборудованию нейронных сетей для каждого пациента
Промышленный IoT: Разработка пользовательских моделей диагностики неисправностей и контроля качества для производственного оборудования при защите промышленных секретов

Ограничения существующих методов

Основные проблемы традиционных методов HW-NAS включают:

Чрезмерно высокие вычислительные затраты (например, MnasNet требует 40 000 часов GPU)
Предположение о неограниченных ресурсах платформы, на которой выполняется процесс поиска
Невозможность прямого запуска на граничных устройствах

Основные вклады

Предложена новая стратегия поиска: Сокращение времени поиска с 4 дней до 10 часов на Raspberry Pi Zero 2 при достижении передовых результатов на наборе данных Visual Wake Words
Разработаны адаптивные механизмы: Регулировка пространства поиска в соответствии с доступным энергетическим и временным бюджетом шлюза IoT, позволяющая выполнять HW-NAS с ограниченными ресурсами
Расширены возможности обработки временных рядов: Достижение передовых результатов на наборе данных CWRU, требующее всего 2 часа 52 минуты на Raspberry Pi 4
Выпуск открытого программного обеспечения: Предоставление открытого программного обеспечения HW-NAS, разработанного для встроенных устройств Linux

Подробное описание метода

Определение задачи

Учитывая шлюз IoT и подключённые узлы датчиков, целью является автоматическое проектирование на шлюзе архитектуры нейронной сети, подходящей для аппаратных ограничений узлов датчиков, при этом удовлетворяя ограничениям вычислительных ресурсов, времени и энергопотребления шлюза.

Основная задача оптимизации

Метод моделирует HW-NAS как задачу оптимизации с шестью ограничениями:

Ограничения граничных устройств (узлы датчиков):

Использование ОЗУ: ϕ_RAM(A) ≤ ξ_RAM
Флэш-память: ϕ_Flash(A) ≤ ξ_Flash
Операции MAC: ϕ_MAC(A) ≤ ξ_MAC

Ограничения шлюза:

Использование памяти: ϕ_MEM(A) ≤ ξ_MEM
Время выполнения: ϕ_Time(S_α) ≤ ξ_Time
Энергетический бюджет: ϕ_Energy(S_α) ≤ ξ_Energy

Генерация пространства поиска

Алгоритм 1: Расширенная генерация пространства поиска

Вход: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
Выход: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. повторять:
3.   c ← 0
4.   пока A(k,c) выполнимо:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. пока (k,0) не выполнимо

Алгоритм 2: Обрезка пространства поиска

Обрезка расширенного пространства поиска на основе ограничений времени и энергопотребления:

Оценка верхней границы времени оценки максимальной архитектуры t̄
Вычисление верхней границы энергопотребления ē = t̄ × w̄ (максимальная мощность)
Последовательное добавление кандидатов архитектур по размеру до достижения границы ограничения

Стратегия поиска

Двухуровневый алгоритм оптимизации

Внешний цикл: Поиск оптимального количества фильтров свёртки k Внутренний цикл: При заданном значении k поиск оптимального количества строительных блоков c

Ключевые характеристики:

Начало с минимального выполнимого решения (k=1, c=0)
Использование переменного приращения ⌊k/2^β⌋ для регулировки размера шага поиска
Уменьшение размера шага поиска при отсутствии улучшения производительности
Оптимизация без градиента, снижающая требования к памяти и вычислениям

Проектирование сетевой архитектуры

Использование пространства поиска на основе ячеек, содержащего четыре типа ячеек:

Ячейка предварительной обработки: Нормализация min-max
Базовая ячейка: Один слой свёртки с k фильтрами
Строительная ячейка: Максимальное объединение + свёртка + пакетная нормализация + активация ReLU
Ячейка классификатора: Глобальное среднее объединение + полносвязный слой

Формула количества фильтров: n_c = n_ + 2^{1-c}n_, где n_0 = k

Экспериментальная установка

Аппаратные платформы

Устройства шлюза IoT

Устройство	SoC	ОЗУ	Пиковая мощность
Raspberry Pi 4	BCM2711	4 ГиБ	5,6 Вт
Raspberry Pi 3	BCM2837	1 ГиБ	4,3 Вт
Raspberry Pi Zero 2	BCM2710A1	0,5 ГиБ	2,8 Вт

Микроконтроллеры узлов датчиков

Модель МКУ	ОЗУ	Флэш	CoreMark
STM32L010RBT6	20 КиБ	128 КиБ	75
STM32U083RCT6	32 КиБ	256 КиБ	134
STM32L412KBU3	40 КиБ	128 КиБ	273

Наборы данных

Visual Wake Words: 123 000 изображений, задача обнаружения людей
CIFAR-10: 60 000 цветных изображений размером 32×32, классификация в 10 классов
Melanoma Skin Cancer: 10 000 медицинских изображений, обнаружение злокачественных опухолей
CWRU: Данные временных рядов акселерометра для диагностики неисправностей подшипников качения

Метрики оценки

Точность на тестовом наборе
Использование ОЗУ (КиБ)
Использование флэш-памяти (КиБ)
Количество операций MAC (миллионы)
Задержка вывода (мс)
Время и энергопотребление поиска

Экспериментальные результаты

Основные результаты

Адаптивность к микроконтроллерам сверхнизкого энергопотребления

Результаты на наборе данных Visual Wake Words:

Целевой МКУ	Архитектура (k,c)	ОЗУ	Флэш	MAC	Точность теста	Задержка
L010RBT6	(3,4)	19 КиБ	10,8 КиБ	0,4 ММ	71%	42 мс
U083RCT6	(5,5)	24,5 КиБ	22,7 КиБ	0,9 ММ	75,2%	63,2 мс
L412KBU3	(8,3)	31 КиБ	18,8 КиБ	2 ММ	78,3%	79,1 мс

Результаты показывают, что с увеличением ресурсов оборудования алгоритм автоматически выбирает более крупные архитектуры, достигая более высокой точности.

Сравнение с передовыми методами

Результаты сравнения на наборе данных Visual Wake Words:

Метод	Точность	ОЗУ	Флэш	MAC
MCUNet	87,4%	168,5 КиБ	530,5 КиБ	6 ММ
Micronets	76,8%	70,5 КиБ	273,8 КиБ	3,3 ММ
ColabNAS	77,6%	31,5 КиБ	20,83 КиБ	2 ММ
NanoNAS	77%	28,5 КиБ	23,7 КиБ	1,3 ММ
Данный метод	78,3%	31 КиБ	18,8 КиБ	2 ММ

Предложенный метод достигает вторую по величине точность при сохранении минимального использования флэш-памяти.

Адаптивная производительность при ограничениях ресурсов

Эксперименты на Raspberry Pi Zero 2 для STM32L412KBU3:

Бюджет	Фактическое потребление	Пространство поиска	Коэффициент исследования	Точность	Ресурсы архитектуры
16,5Вт⋅ч-9:51	16,5Вт⋅ч-9:51	100%	51%	77,8%	28,5 КиБ ОЗУ
11,0Вт⋅ч-6:34	11,0Вт⋅ч-6:30	33%	98%	73,1%	21,5 КиБ ОЗУ
5,50Вт⋅ч-3:17	5,41Вт⋅ч-3:17	15%	95%	66%	18,5 КиБ ОЗУ

Возможности обработки временных рядов

Сравнение с методом Chen et al. 54 на наборе данных CWRU:

Метод	Стоимость поиска	Архитектура (k,c)	ОЗУ	Флэш	MAC	Точность	Задержка
Данный метод	6,4Вт⋅ч-1:52	(6,4)	13,5 КиБ	12,9 КиБ	0,6 ММ	99,5%	34 мс
Chen et al. 54	н/д	н/д	66,5 КиБ	163,4 КиБ	0,2 ММ	99,3%	38,2 мс

Предложенный метод достигает более высокую точность при одновременном сокращении использования ОЗУ в 4,9 раза и флэш-памяти в 12,7 раза.

Связанные работы

Развитие HW-NAS

Ранние методы: MnasNet требует 40 000 часов GPU
Оптимизированные методы: MCUNet сокращает до 300 часов GPU
Облегчённые методы: ColabNAS требует всего 4 часа GPU
Встроенные методы: NanoNAS впервые работает на встроенных устройствах

Классификация платформ выполнения

Работа	GPU	CPU	Встроенное устройство
MnasNet	✓
MCUNet	✓
ColabNAS	✓
NanoNAS v1		✓
NanoNAS v2			✓
Данная работа			✓ (адаптивный)

Заключение и обсуждение

Основные выводы

Защита конфиденциальности: Реализован полностью локализованный процесс проектирования нейронной сети, при котором данные не покидают место сбора
Энергоэффективность: Успешное выполнение HW-NAS на ресурсоограниченных шлюзах IoT
Превосходная производительность: Достижение передовых результатов на нескольких эталонных наборах данных
Адаптивные возможности: Динамическая регулировка стратегии поиска в соответствии с доступными ресурсами

Ограничения

Ограничения пространства поиска: Использование относительно простого пространства поиска на основе ячеек
Стратегия оценки: Использование только 3 эпох для оценки кандидатов архитектур, что может повлиять на точность
Зависимость от оборудования: Оптимизация в основном для встроенных устройств архитектуры ARM
Ограничения задач: Основная проверка на задачах классификации изображений и простых временных рядов

Направления будущих исследований

Оценка без обучения: Применение методов оценки архитектур без обучения для дальнейшего снижения стоимости поиска
Более сложные задачи: Расширение на обнаружение объектов, семантическую сегментацию и другие сложные задачи
Многоцелевая оптимизация: Одновременная оптимизация точности, задержки, энергопотребления и других целей
Интеграция федеративного обучения: Объединение с федеративным обучением для реализации распределённого обучения с защитой конфиденциальности

Глубокая оценка

Преимущества

Высокая инновационность: Впервые реализована адаптивная HW-NAS на шлюзе IoT, решающая важную практическую проблему
Высокая практическая ценность: Предоставление жизнеспособного решения для конфиденциальных приложений IoT
Полная экспериментальная проверка: Комплексная проверка на нескольких аппаратных платформах и наборах данных
Вклад в открытый исходный код: Предоставление полной реализации с открытым исходным кодом, способствующей развитию области

Недостатки

Сложность метода: Необходимость предварительной оценки верхних границ времени и энергопотребления усложняет развёртывание
Ограниченная обобщаемость: Основная проверка на конкретной архитектуре ARM, применимость к другим архитектурам требует дополнительной проверки
Недостаточный теоретический анализ: Отсутствие теоретических гарантий сходимости стратегии поиска
Недостаточная детализация оценки: Оценка в течение 3 эпох может быть недостаточной

Влияние

Академическая ценность: Предоставление нового направления исследований для граничного ИИ и машинного обучения с защитой конфиденциальности
Промышленное применение: Прямое применение в медицинском IoT и промышленном IoT
Продвижение технологии: Открытое программное обеспечение способствует широкому внедрению и дальнейшему развитию

Применимые сценарии

Медицинский IoT: Системы мониторинга пациентов и диагностики внутри больниц
Промышленный IoT: Контроль качества и мониторинг оборудования на производственных линиях
Умный дом: Системы домашнего мониторинга и управления, чувствительные к конфиденциальности
Граничные вычисления: Развёртывание моделей ИИ на ресурсоограниченных граничных устройствах

Библиография

Статья ссылается на 68 связанных работ, охватывающих поиск нейронной архитектуры, граничные вычисления, безопасность IoT и другие области, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья с важной практической ценностью, успешно решающая проблему проектирования нейронной сети с защитой конфиденциальности в ресурсоограниченной среде IoT. Метод отличается высокой инновационностью, полной экспериментальной проверкой и имеет важное значение для продвижения развития граничного ИИ и машинного обучения с защитой конфиденциальности.