2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.

This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.

academic

IoTゲートウェイ上のセンサーノード向けニューラルアーキテクチャ探索

基本情報

論文ID: 2505.23939
タイトル: Searching Neural Architectures for Sensor Nodes on IoT Gateways
著者: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
分類: cs.LG（機械学習）、cs.NI（ネットワークおよびインターネットアーキテクチャ）
発表日: 2025年5月29日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2505.23939

概要

本論文は、エッジデバイス上でニューラルネットワークを自動設計する手法を提案し、プライバシーに配慮したモノのインターネット（IoT）アプリケーションに機械学習を適用することを可能にしています。本手法はIoTゲートウェイ上で実行され、収集されたデータをローカルネットワーク外に共有することなく、接続されたセンサーノード向けのニューラルネットワークを設計します。データは常に収集地点に留まります。この手法は医療IoT（HIoT）および産業IoT（IIoT）に対して機械学習を実現する可能性を持ち、エッジでハードウェア対応のカスタマイズされたニューラルネットワークを設計し、個別化医療および先進的な産業サービスを実現します。実験結果は、Visual Wake Wordsデータセット上で、本手法が最先端の結果を達成でき、探索プロセスがRaspberry Pi Zero 2上で10時間未満で実行されることを示しています。

研究背景と動機

問題定義

既存のニューラルアーキテクチャ探索（NAS）手法は通常、強力な計算リソース（GPUクラスタなど）を必要とし、データをクラウドに転送して処理する必要があります。これはプライバシーに配慮したアプリケーションシナリオにおいて、以下の問題が存在します：

データプライバシーの問題：医療データ、産業データ、生体認証データなどの機密情報は、クラウドサービスと共有することができない、または共有したくない
計算リソースの制限：IoTゲートウェイは通常、限定的な計算能力とメモリを備えており、従来のNASアルゴリズムを実行できない
リアルタイム性の要件：エッジデバイスは限定的な時間とエネルギー予算内でニューラルネットワーク設計を完了する必要がある

研究の意義

本研究は、リソース制限されたIoT環境におけるプライバシー保護機械学習モデル設計の問題を解決し、重要な実用的応用価値を持ちます：

医療IoT：各患者に対して個別化されたハードウェア対応ニューラルネットワークを提供
産業IoT：生産設備に対してカスタマイズされた故障診断および品質管理モデルを提供し、同時に産業機密を保護

既存手法の限界

従来のHW-NAS手法の主な問題は以下の通りです：

計算コストが過度に高い（例：MnasNetは40,000 GPU時間を必要とする）
探索プロセスを実行するプラットフォームのリソースが無制限であると仮定
エッジデバイス上で直接実行できない

主要な貢献

新しい探索戦略の提案：Raspberry Pi Zero 2上で探索時間を4日から10時間に短縮し、同時にVisual Wake Wordsデータセット上で最先端の結果を達成
適応的メカニズムの開発：IoTゲートウェイの利用可能なエネルギーと時間予算に応じて探索空間を調整し、HW-NASが限定的なリソース下で実行可能に
時系列処理能力の拡張：CWRUデータセット上で最先端の結果を獲得し、Raspberry Pi 4上でわずか2時間52分で実行
オープンソースソフトウェアの公開：組み込みLinuxデバイス向けに設計されたオープンソースHW-NASソフトウェアを提供

方法論の詳細

タスク定義

IoTゲートウェイと接続されたセンサーノードが与えられた場合、目標はゲートウェイ上でセンサーノードのハードウェア制約に適したニューラルネットワークアーキテクチャを自動設計し、同時にゲートウェイの計算リソース、時間、エネルギー消費制限を満たすことです。

中核的な最適化問題

本手法はHW-NASを6重制約最適化問題としてモデル化します：

エッジ制約（センサーノード）：

RAM使用量：ϕ_RAM(A) ≤ ξ_RAM
フラッシュメモリ：ϕ_Flash(A) ≤ ξ_Flash
MAC操作数：ϕ_MAC(A) ≤ ξ_MAC

ゲートウェイ制約：

メモリ使用量：ϕ_MEM(A) ≤ ξ_MEM
実行時間：ϕ_Time(S_α) ≤ ξ_Time
エネルギー予算：ϕ_Energy(S_α) ≤ ξ_Energy

探索空間の生成

アルゴリズム1：拡張探索空間生成

入力：ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
出力：Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. repeat:
3.   c ← 0
4.   while A(k,c) is feasible:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. until (k,0) is not feasible

アルゴリズム2：探索空間の刈り込み

時間とエネルギー消費制約に基づいて拡張探索空間を刈り込みます：

最大アーキテクチャの評価時間の上限 t̄ を推定
エネルギー消費の上限 ē = t̄ × w̄（最大電力）を計算
制約境界に達するまでアーキテクチャサイズの順序で候補アーキテクチャを追加

探索戦略

二層最適化アルゴリズム

外層ループ：最適な畳み込みカーネル数kを探索 内層ループ：与えられたk値に対して、最適な構築ユニット数cを探索

主要な特性：

最小実行可能解（k=1, c=0）から開始
可変増分 ⌊k/2^β⌋ を使用して探索ステップサイズを調整
パフォーマンスが改善されなくなったときに探索ステップサイズを縮小
勾配なし最適化により、メモリと計算需要を削減

ネットワークアーキテクチャ設計

ユニットベースの探索空間を採用し、4種類のユニットを含みます：

前処理ユニット：最小最大正規化
基本ユニット：単一の畳み込み層、k個の畳み込みカーネル
構築ユニット：最大プーリング + 畳み込み + バッチ正規化 + ReLU活性化
分類器ユニット：グローバル平均プーリング + 全結合層

畳み込みカーネル数の公式：n_c = n_ + 2^{1-c}n_、ここでn_0 = k

実験設定

ハードウェアプラットフォーム

IoTゲートウェイデバイス

デバイス	SoC	RAM	ピーク電力
Raspberry Pi 4	BCM2711	4 GiB	5.6 W
Raspberry Pi 3	BCM2837	1 GiB	4.3 W
Raspberry Pi Zero 2	BCM2710A1	0.5 GiB	2.8 W

センサーノードMCU

MCUモデル	RAM	フラッシュ	CoreMark
STM32L010RBT6	20 kiB	128 kiB	75
STM32U083RCT6	32 kiB	256 kiB	134
STM32L412KBU3	40 kiB	128 kiB	273

データセット

Visual Wake Words：123,000枚の画像、人物検出タスク
CIFAR-10：60,000枚の32×32カラー画像、10クラス分類
Melanoma Skin Cancer：10,000枚の医学画像、悪性腫瘍検出
CWRU：ローリングベアリング故障診断用の加速度計時系列データ

評価指標

テスト精度
RAM使用量（kiB）
フラッシュメモリ使用量（kiB）
MAC操作数（百万回）
推論遅延（ms）
探索時間とエネルギー消費

実験結果

主要な結果

超低電力マイクロコントローラーへの適応性

Visual Wake Wordsデータセット上の結果：

対象MCU	アーキテクチャ(k,c)	RAM	フラッシュ	MAC	テスト精度	遅延
L010RBT6	(3,4)	19 kiB	10.8 kiB	0.4 MM	71%	42 ms
U083RCT6	(5,5)	24.5 kiB	22.7 kiB	0.9 MM	75.2%	63.2 ms
L412KBU3	(8,3)	31 kiB	18.8 kiB	2 MM	78.3%	79.1 ms

結果は、ハードウェアリソースの増加に伴い、アルゴリズムがより大きなアーキテクチャを自動的に選択し、より高い精度を獲得することを示しています。

最先端手法との比較

Visual Wake Wordsデータセット上の比較結果：

手法	精度	RAM	フラッシュ	MAC
MCUNet	87.4%	168.5 kiB	530.5 kiB	6 MM
Micronets	76.8%	70.5 kiB	273.8 kiB	3.3 MM
ColabNAS	77.6%	31.5 kiB	20.83 kiB	2 MM
NanoNAS	77%	28.5 kiB	23.7 kiB	1.3 MM
本手法	78.3%	31 kiB	18.8 kiB	2 MM

本手法は最小のフラッシュ使用量を維持しながら、2番目に高い精度を獲得しています。

リソース制約下での適応的パフォーマンス

Raspberry Pi Zero 2上でSTM32L412KBU3を対象とした実験：

予算	実際の消費	探索空間	探索率	精度	アーキテクチャリソース
16.5Wh-9:51	16.5Wh-9:51	100%	51%	77.8%	28.5kiB RAM
11.0Wh-6:34	11.0Wh-6:30	33%	98%	73.1%	21.5kiB RAM
5.50Wh-3:17	5.41Wh-3:17	15%	95%	66%	18.5kiB RAM

時系列処理能力

CWRUデータセット上でChenら54との比較：

手法	探索コスト	アーキテクチャ(k,c)	RAM	フラッシュ	MAC	精度	遅延
本手法	6.4Wh-1:52	(6,4)	13.5 kiB	12.9 kiB	0.6 MM	99.5%	34 ms
Chenら54	n/a	n/a	66.5 kiB	163.4 kiB	0.2 MM	99.3%	38.2 ms

本手法はより高い精度を獲得しながら、RAM使用量を4.9倍削減し、フラッシュ使用量を12.7倍削減しています。

研究	GPU	CPU	組み込みデバイス
MnasNet	✓
MCUNet	✓
ColabNAS	✓
NanoNAS v1		✓
NanoNAS v2			✓
本論文			✓ (適応的)

結論と考察

主要な結論

プライバシー保護：完全にローカライズされたニューラルネットワーク設計を実現し、データが収集地点を離れる必要がない
リソース効率：リソース制限されたIoTゲートウェイ上でHW-NASを正常に実行
優れたパフォーマンス：複数のベンチマークデータセット上で最先端の結果を達成
適応能力：利用可能なリソースに応じて探索戦略を動的に調整可能

限界

探索空間の制限：比較的シンプルなユニットベースの探索空間を採用
評価戦略：候補アーキテクチャの評価に3エポックのみを使用し、精度に影響を与える可能性がある
ハードウェア依存性：主にARM アーキテクチャの組み込みデバイス向けに最適化
タスク限定性：主に画像分類と単純な時系列タスクで検証

今後の方向性

無訓練評価：訓練不要なアーキテクチャ評価技術を採用して探索コストをさらに削減
より複雑なタスク：物体検出、意味的セグメンテーションなどのより複雑なタスクに拡張
多目標最適化：精度、遅延、エネルギー消費など複数の目標を同時に最適化
フェデレーテッドラーニング統合：フェデレーテッドラーニングと組み合わせて分散プライバシー保護訓練を実現

深層的評価

利点

革新性が高い：IoTゲートウェイ上での適応的HW-NASを初めて実現し、重要な実用的問題を解決
実用価値が高い：プライバシーに配慮したIoTアプリケーション向けの実行可能なソリューションを提供
実験が充分：複数のハードウェアプラットフォームとデータセット上で包括的な検証を実施
オープンソース貢献：完全なオープンソース実装を提供し、分野の発展を促進

不足点

手法の複雑性：時間とエネルギー消費の上限を事前に推定する必要があり、デプロイメントの複雑性が増加
汎化能力：主に特定のARMアーキテクチャで検証されており、他のアーキテクチャへの適用可能性は検証が必要
理論分析の不足：探索戦略の収束性に関する理論的保証が不足
評価の粒度：3エポックの評価は十分でない可能性がある

影響力

学術的価値：エッジAIおよびプライバシー保護機械学習に新しい研究方向を提供
産業応用：医療IoTおよび産業IoT分野での直接的な応用の可能性
技術推進：オープンソースソフトウェアが技術の広範な採用と継続的な発展を支援

適用シナリオ

医療IoT：病院内の患者監視および診断システム
産業IoT：生産ラインの品質管理および機器監視
スマートホーム：プライバシーに配慮した家庭監視および制御システム
エッジコンピューティング：リソース制限されたエッジデバイス上のAIモデルデプロイメント

参考文献

本論文は68の関連文献を引用しており、ニューラルアーキテクチャ探索、エッジコンピューティング、IoTセキュリティなど複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供しています。

総合評価：これは重要な実用的価値を持つ高品質な論文であり、リソース制限されたIoT環境におけるプライバシー保護ニューラルネットワーク設計の問題を成功裏に解決しています。手法の革新性が高く、実験検証が充分であり、エッジAIおよびプライバシー保護機械学習の発展を推進する上で重要な意義を持ちます。