2025-11-11T13:49:09.555682

Searching Neural Architectures for Sensor Nodes on IoT Gateways

Garavagno, Ragusa, Frisoli et al.
This paper presents an automatic method for the design of Neural Networks (NNs) at the edge, enabling Machine Learning (ML) access even in privacy-sensitive Internet of Things (IoT) applications. The proposed method runs on IoT gateways and designs NNs for connected sensor nodes without sharing the collected data outside the local network, keeping the data in the site of collection. This approach has the potential to enable ML for Healthcare Internet of Things (HIoT) and Industrial Internet of Things (IIoT), designing hardware-friendly and custom NNs at the edge for personalized healthcare and advanced industrial services such as quality control, predictive maintenance, or fault diagnosis. By preventing data from being disclosed to cloud services, this method safeguards sensitive information, including industrial secrets and personal data. The outcomes of a thorough experimental session confirm that -- on the Visual Wake Words dataset -- the proposed approach can achieve state-of-the-art results by exploiting a search procedure that runs in less than 10 hours on the Raspberry Pi Zero 2.
academic

IoT 게이트웨이의 센서 노드를 위한 신경망 아키텍처 탐색

기본 정보

  • 논문 ID: 2505.23939
  • 제목: Searching Neural Architectures for Sensor Nodes on IoT Gateways
  • 저자: Andrea Mattia Garavagno, Edoardo Ragusa, Antonio Frisoli, Paolo Gastaldo
  • 분류: cs.LG (머신러닝), cs.NI (네트워킹 및 인터넷 아키텍처)
  • 발표 시간: 2025년 5월 29일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2505.23939

초록

본 논문은 엣지 디바이스에서 신경망을 자동으로 설계하는 방법을 제안하여, 개인정보 보호가 민감한 IoT(사물인터넷) 애플리케이션에 머신러닝을 적용할 수 있도록 한다. 이 방법은 IoT 게이트웨이에서 실행되며, 수집된 데이터를 로컬 네트워크 외부로 공유하지 않고 연결된 센서 노드를 위한 신경망을 설계한다. 데이터는 수집 지점에 항상 유지된다. 이 접근 방식은 의료 IoT(HIoT)와 산업 IoT(IIoT)를 위한 머신러닝을 가능하게 할 수 있으며, 엣지에서 개인화된 의료 및 고급 산업 서비스를 위한 하드웨어 친화적인 맞춤형 신경망을 설계한다. 실험 결과는 Visual Wake Words 데이터셋에서 최첨단 결과를 달성하며, Raspberry Pi Zero 2에서 실행할 때 탐색 프로세스가 10시간 미만이 소요됨을 보여준다.

연구 배경 및 동기

문제 정의

기존의 신경망 아키텍처 탐색(NAS) 방법은 일반적으로 강력한 계산 리소스(예: GPU 클러스터)를 필요로 하며, 클라우드 처리를 위해 데이터를 전송해야 한다. 이는 개인정보 보호가 민감한 애플리케이션 시나리오에서 다음과 같은 문제를 야기한다:

  1. 데이터 개인정보 보호 문제: 의료 데이터, 산업 데이터 및 생체 인식 데이터 등의 민감한 정보는 클라우드 서비스와 공유할 수 없거나 공유하기를 원하지 않음
  2. 계산 리소스 제한: IoT 게이트웨이는 일반적으로 제한된 계산 능력과 메모리를 가지고 있어 기존 NAS 알고리즘을 실행할 수 없음
  3. 실시간 요구사항: 엣지 디바이스는 제한된 시간 및 에너지 예산 내에서 신경망 설계를 완료해야 함

연구의 의의

본 연구는 리소스가 제한된 IoT 환경에서 개인정보 보호 머신러닝 모델 설계 문제를 해결하며, 중요한 실질적 응용 가치를 가진다:

  • 의료 IoT: 각 환자에게 개인화된 하드웨어 친화적 신경망 제공
  • 산업 IoT: 산업 기밀을 보호하면서 생산 장비에 맞춤형 고장 진단 및 품질 관리 모델 제공

기존 방법의 한계

전통적인 HW-NAS 방법의 주요 문제는 다음을 포함한다:

  • 과도한 계산 비용(예: MnasNet은 40,000 GPU 시간 필요)
  • 탐색 프로세스를 실행하는 플랫폼의 리소스가 무제한이라고 가정
  • 엣지 디바이스에서 직접 실행할 수 없음

핵심 기여

  1. 새로운 탐색 전략 제안: Raspberry Pi Zero 2에서 탐색 시간을 4일에서 10시간으로 단축하면서 Visual Wake Words 데이터셋에서 최첨단 결과 달성
  2. 자응형 메커니즘 개발: IoT 게이트웨이의 사용 가능한 에너지 및 시간 예산에 따라 탐색 공간을 조정하여 제한된 리소스 하에서 HW-NAS 실행 가능
  3. 시계열 처리 능력 확장: CWRU 데이터셋에서 최첨단 결과 획득, Raspberry Pi 4에서 2시간 52분만 소요
  4. 오픈소스 소프트웨어 배포: 임베디드 Linux 디바이스용으로 설계된 오픈소스 HW-NAS 소프트웨어 제공

방법론 상세 설명

작업 정의

IoT 게이트웨이와 연결된 센서 노드가 주어졌을 때, 목표는 게이트웨이의 계산 리소스, 시간 및 에너지 제약을 만족하면서 센서 노드 하드웨어 제약에 적합한 신경망 아키텍처를 게이트웨이에서 자동으로 설계하는 것이다.

핵심 최적화 문제

이 방법은 HW-NAS를 6중 제약 최적화 문제로 모델링한다:

엣지 제약(센서 노드):

  • RAM 사용량: ϕ_RAM(A) ≤ ξ_RAM
  • Flash 메모리: ϕ_Flash(A) ≤ ξ_Flash
  • MAC 연산 수: ϕ_MAC(A) ≤ ξ_MAC

게이트웨이 제약:

  • 메모리 사용량: ϕ_MEM(A) ≤ ξ_MEM
  • 실행 시간: ϕ_Time(S_α) ≤ ξ_Time
  • 에너지 예산: ϕ_Energy(S_α) ≤ ξ_Energy

탐색 공간 생성

알고리즘 1: 확장 탐색 공간 생성

입력: ξ_MEM, ξ_RAM, ξ_Flash, ξ_MAC
출력: Ŝ_α

1. k ← 1, Ŝ_α ← ∅
2. 반복:
3.   c ← 0
4.   A(k,c)가 실행 가능한 동안:
5.     Ŝ_α ← Ŝ_α ∪ (k,c)
6.     c ← c + 1
7.   k ← k + 1
8. (k,0)이 실행 불가능할 때까지

알고리즘 2: 탐색 공간 가지치기

시간 및 에너지 제약에 기반한 확장 탐색 공간 가지치기:

  • 최대 아키텍처의 평가 시간 상한 t̄ 추정
  • 에너지 상한 ē = t̄ × w̄ 계산(최대 전력)
  • 제약 경계에 도달할 때까지 아키텍처 크기 순서대로 후보 아키텍처 추가

탐색 전략

이중층 최적화 알고리즘

외부 루프: 최적 합성곱 커널 수 k 탐색 내부 루프: 주어진 k 값에 대해 최적 구성 단위 수 c 탐색

주요 특성:

  • 최소 실행 가능 해(k=1, c=0)에서 시작
  • 가변 증분 ⌊k/2^β⌋을 사용하여 탐색 단계 조정
  • 성능이 더 이상 향상되지 않을 때 탐색 단계 감소
  • 그래디언트 없는 최적화로 메모리 및 계산 요구사항 감소

신경망 아키텍처 설계

단위 기반 탐색 공간을 채택하며, 4가지 유형의 단위 포함:

  1. 전처리 단위: 최소-최대 정규화
  2. 기본 단위: 단일 합성곱 계층, k개의 합성곱 커널
  3. 구성 단위: 최대 풀링 + 합성곱 + 배치 정규화 + ReLU 활성화
  4. 분류기 단위: 전역 평균 풀링 + 완전 연결 계층

합성곱 커널 수 공식: n_c = n_ + 2^{1-c}n_, 여기서 n_0 = k

실험 설정

하드웨어 플랫폼

IoT 게이트웨이 디바이스

디바이스SoCRAM최대 전력
Raspberry Pi 4BCM27114 GiB5.6 W
Raspberry Pi 3BCM28371 GiB4.3 W
Raspberry Pi Zero 2BCM2710A10.5 GiB2.8 W

센서 노드 MCU

MCU 모델RAMFlashCoreMark
STM32L010RBT620 kiB128 kiB75
STM32U083RCT632 kiB256 kiB134
STM32L412KBU340 kiB128 kiB273

데이터셋

  1. Visual Wake Words: 123,000개 이미지, 사람 감지 작업
  2. CIFAR-10: 60,000개 32×32 컬러 이미지, 10개 클래스 분류
  3. Melanoma Skin Cancer: 10,000개 의료 이미지, 악성 종양 감지
  4. CWRU: 롤링 베어링 고장 진단을 위한 가속도계 시계열 데이터

평가 지표

  • 테스트 정확도
  • RAM 사용량(kiB)
  • Flash 메모리 사용량(kiB)
  • MAC 연산 수(백만 회)
  • 추론 지연 시간(ms)
  • 탐색 시간 및 에너지 소비

실험 결과

주요 결과

초저전력 마이크로컨트롤러 적응성

Visual Wake Words 데이터셋에서의 결과:

대상 MCU아키텍처(k,c)RAMFlashMAC테스트 정확도지연 시간
L010RBT6(3,4)19 kiB10.8 kiB0.4 MM71%42 ms
U083RCT6(5,5)24.5 kiB22.7 kiB0.9 MM75.2%63.2 ms
L412KBU3(8,3)31 kiB18.8 kiB2 MM78.3%79.1 ms

결과는 하드웨어 리소스 증가에 따라 알고리즘이 더 큰 아키텍처를 자동으로 선택하여 더 높은 정확도를 달성함을 보여준다.

최첨단 방법과의 비교

Visual Wake Words 데이터셋에서의 비교 결과:

방법정확도RAMFlashMAC
MCUNet87.4%168.5 kiB530.5 kiB6 MM
Micronets76.8%70.5 kiB273.8 kiB3.3 MM
ColabNAS77.6%31.5 kiB20.83 kiB2 MM
NanoNAS77%28.5 kiB23.7 kiB1.3 MM
본 논문 방법78.3%31 kiB18.8 kiB2 MM

본 논문의 방법은 최소 Flash 사용량을 유지하면서 두 번째로 높은 정확도를 달성한다.

리소스 제약 하의 자응형 성능

Raspberry Pi Zero 2에서 STM32L412KBU3를 대상으로 한 실험:

예산실제 소비탐색 공간탐색률정확도아키텍처 리소스
16.5Wh-9:5116.5Wh-9:51100%51%77.8%28.5kiB RAM
11.0Wh-6:3411.0Wh-6:3033%98%73.1%21.5kiB RAM
5.50Wh-3:175.41Wh-3:1715%95%66%18.5kiB RAM

시계열 처리 능력

CWRU 데이터셋에서 Chen 등54과의 비교:

방법탐색 비용아키텍처(k,c)RAMFlashMAC정확도지연 시간
본 논문 방법6.4Wh-1:52(6,4)13.5 kiB12.9 kiB0.6 MM99.5%34 ms
Chen 등54n/an/a66.5 kiB163.4 kiB0.2 MM99.3%38.2 ms

본 논문의 방법은 더 높은 정확도를 달성하면서 RAM 사용량을 4.9배, Flash 사용량을 12.7배 감소시킨다.

관련 연구

HW-NAS 발전 과정

  • 초기 방법: MnasNet은 40,000 GPU 시간 필요
  • 최적화 방법: MCUNet은 300 GPU 시간으로 감소
  • 경량화 방법: ColabNAS는 4 GPU 시간만 필요
  • 임베디드 방법: NanoNAS는 처음으로 임베디드 디바이스에서 실행

실행 플랫폼 분류

연구GPUCPU임베디드 디바이스
MnasNet
MCUNet
ColabNAS
NanoNAS v1
NanoNAS v2
본 논문✓ (자응형)

결론 및 논의

주요 결론

  1. 개인정보 보호: 완전히 로컬화된 신경망 설계 구현, 데이터가 수집 지점을 벗어날 필요 없음
  2. 리소스 효율성: 리소스가 제한된 IoT 게이트웨이에서 HW-NAS 성공적으로 실행
  3. 우수한 성능: 여러 벤치마크 데이터셋에서 최첨단 결과 달성
  4. 자응형 능력: 사용 가능한 리소스에 따라 탐색 전략을 동적으로 조정 가능

한계

  1. 탐색 공간 제한: 상대적으로 단순한 단위 기반 탐색 공간 채택
  2. 평가 전략: 후보 아키텍처 평가에 3개 에포크만 사용하여 정확성에 영향을 미칠 수 있음
  3. 하드웨어 의존성: 주로 ARM 아키텍처의 임베디드 디바이스에 최적화됨
  4. 작업 제한: 주로 이미지 분류 및 단순 시계열 작업 검증

향후 방향

  1. 무훈련 평가: 훈련이 필요 없는 아키텍처 평가 기술을 채택하여 탐색 비용 추가 감소
  2. 더 복잡한 작업: 객체 감지, 의미론적 분할 등 더 복잡한 작업으로 확장
  3. 다중 목표 최적화: 정확도, 지연 시간, 에너지 소비 등 여러 목표를 동시에 최적화
  4. 연합 학습 통합: 연합 학습과 결합하여 분산 개인정보 보호 훈련 구현

심층 평가

장점

  1. 높은 혁신성: IoT 게이트웨이에서 자응형 HW-NAS를 처음으로 구현하여 중요한 실질적 문제 해결
  2. 높은 실용 가치: 개인정보 보호가 민감한 IoT 애플리케이션에 실행 가능한 솔루션 제공
  3. 충분한 실험: 여러 하드웨어 플랫폼 및 데이터셋에서 포괄적 검증
  4. 오픈소스 기여: 완전한 오픈소스 구현 제공으로 분야 발전 촉진

부족한 점

  1. 방법 복잡성: 시간 및 에너지 상한을 미리 추정해야 하여 배포 복잡성 증가
  2. 일반화 능력: 주로 특정 ARM 아키텍처에서 검증되어 다른 아키텍처의 적용 가능성 미지수
  3. 이론적 분석 부족: 탐색 전략 수렴성에 대한 이론적 보장 부재
  4. 평가 세분성: 3개 에포크의 평가가 충분하지 않을 수 있음

영향력

  1. 학술적 가치: 엣지 AI 및 개인정보 보호 머신러닝을 위한 새로운 연구 방향 제시
  2. 산업 응용: 의료 IoT 및 산업 IoT 분야에서 직접적인 응용 가능성
  3. 기술 보급: 오픈소스 소프트웨어로 기술의 광범위한 채택 및 추가 개발 촉진

적용 시나리오

  1. 의료 IoT: 병원 내 환자 모니터링 및 진단 시스템
  2. 산업 IoT: 생산 라인의 품질 관리 및 장비 모니터링
  3. 스마트 홈: 개인정보 보호가 민감한 가정 모니터링 및 제어 시스템
  4. 엣지 컴퓨팅: 리소스가 제한된 엣지 디바이스에서의 AI 모델 배포

참고문헌

논문은 신경망 아키텍처 탐색, 엣지 컴퓨팅, IoT 보안 등 여러 분야의 중요한 연구를 포함하는 68개의 관련 문헌을 인용하여 견고한 이론적 기초를 제공한다.


종합 평가: 이는 리소스가 제한된 IoT 환경에서 개인정보 보호 신경망 설계 문제를 성공적으로 해결한 높은 품질의 실용적 가치가 있는 논문이다. 방법의 혁신성이 강하고 실험 검증이 충분하며, 엣지 AI 및 개인정보 보호 머신러닝의 발전을 촉진하는 데 중요한 의미를 가진다.