2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, SÃ¡nchez

The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.

academic

Android에서 AI 모델 추론을 위한 하드웨어 최적화

기본 정보

논문 ID: 2511.13453
제목: Hardware optimization on Android for inference of AI models
저자: Iulius Gherasim, Carlos García Sánchez (마드리드 콤플루텐세 대학교)
분류: cs.LG (기계학습), cs.PF (성능)
발표 시간: 2025년 11월 17일 (arXiv 제출)
논문 링크: https://arxiv.org/abs/2511.13453

초록

본 논문은 Android 시스템에서 AI 모델의 하드웨어 최적화 추론 문제를 연구한다. 모바일 컴퓨팅에서 AI 모델의 광범위한 통합(가상 어시스턴트에서 고급 이미지 처리까지)을 고려하여, 연구자들은 두 가지 핵심 작업에 초점을 맞춘다: 객체 검출(YOLO 시리즈)과 이미지 분류(ResNet). 다양한 모델 양자화 방식과 장치 가속기(GPU 및 NPU)의 활용을 평가함으로써, 본 논문의 핵심 목표는 최소 정확도 손실과 최대 추론 가속 간의 최적 균형을 달성하는 구성 조합을 실증적으로 결정하는 것이다.

연구 배경 및 동기

1. 해결해야 할 문제

모바일 장치에서 AI 모델의 광범위한 응용으로 인해, 모델 정확도를 보장하면서 저지연, 고응답성 추론을 실현하는 방법이 핵심 과제가 되었다. 구체적으로는:

모바일 장치의 이질적 하드웨어 아키텍처(CPU, GPU, NPU) 충분히 활용하는 방법
정확도와 속도의 균형을 맞추기 위한 적절한 모델 양자화 방식 선택
다양한 AI 작업(분류 vs 검출)에 대한 실행 구성 최적화

2. 문제의 중요성

에너지 소비: Google은 2019-2021년 간 AI 관련 작업이 총 에너지 소비의 10-15%를 차지하며, 이 중 추론 단계가 에너지의 60%를 소비한다고 추정; Meta는 추론이 AI 에너지 소비의 70%를 차지한다고 보고
증가 추세: Google 에너지 소비 연간 증가율 21%, Meta는 32%에 달함
사용자 경험: 모바일 AI 성능이 핵심 차별화 요소가 되었으며, 엄격한 실시간성 및 정확도 요구사항을 충족해야 함

3. 기존 방법의 한계

초기 솔루션은 주로 GPU 오프로드 계산에 의존했으나, 전용 NPU 가속기를 충분히 활용하지 못함
모바일 장치 이질적 아키텍처에 대한 체계적 최적화 연구 부족
양자화 방식 선택이 다양한 작업 및 하드웨어에 대한 실증적 지침 부족

4. 연구 동기

MLPerf 벤치마크 원칙을 채택하여 상용 Android 장치에서 체계적으로 성능 평가
산업 표준 모델(분류용 ResNet, 검출용 YOLO)을 대표적 평가 대상으로 선택
모바일 AI 추론 최적화의 실증 연구 공백 메우기

핵심 기여

체계적 하드웨어 평가: 상용 Android 장치(Samsung Galaxy Tab S9)에서 CPU, GPU, NPU 세 가지 계산 단위의 AI 추론 작업 성능을 처음으로 체계적으로 평가
양자화 방식 분석: 7가지 양자화 방식(FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic)의 정확도-속도 균형을 다양한 하드웨어에서 포괄적으로 비교
작업 특정 최적화 권장사항:
- ResNet 분류 작업의 경우: NPU + INT8 양자화로 130배 가속 달성, 정확도 손실 <3%
- YOLO 검출 작업의 경우: NPU + FP16 양자화가 최적, INT8로 인한 6.5 mAP 정확도 손실 회피
Pareto 전선 분석: 다목적 최적화 관점 제공, 정확도-지연 공간에서 다양한 구성의 최적 균형점 명확화
실제 발견:
- NPU가 모든 구성에서 최고 성능 발휘, 최대 298배 가속(YOLOv8x)
- 동적 양자화가 NPU에서 실패, 하드웨어 호환성 문제 드러남
- CPU 다중 스레드 확장성 제한(최대 3.4배), 비대칭 코어 아키텍처로 인함

방법 상세 설명

작업 정의

본 연구는 두 가지 핵심 컴퓨터 비전 작업에 초점을 맞춘다:

이미지 분류: 단일 이미지 입력, 클래스 레이블 및 신뢰도 출력(ResNet 시리즈 사용)
객체 검출: 단일 이미지 입력, 다중 경계 상자, 클래스 및 신뢰도 출력(YOLO 시리즈 사용)

목표는 Android 모바일 장치에서 최적의 하드웨어 구성 및 양자화 방식 조합을 찾는 것이다.

실험 아키텍처

하드웨어 플랫폼

장치: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): 8코어 big.LITTLE 구성

3개 소형 코어: ARM Cortex-A510 @ 2.0 GHz
4개 중형 코어: 2×Cortex-A710 + 2×Cortex-A715 @ 2.8 GHz
1개 대형 코어: Cortex-X3 @ 3.36 GHz

GPU: Qualcomm Adreno 740

12개 셰이더 처리 단위 @ 719 MHz
FP32 및 FP16 정밀도 실행 지원

NPU (Hexagon 프로세서):

전용 텐서, 스칼라, 벡터 연산 단위
공유 내부 메모리 아키텍처
Micro Tile Inferencing 기술 지원(모델 레이어를 분할하여 병렬 실행)

소프트웨어 환경

프레임워크: LiteRT (TensorFlow Lite의 브랜드 변경)

CPU/GPU: LiteRT Next 2.0.2
NPU: LiteRT 1.4.0(2.0.2 버전 NPU 파이프라인 문제로 인함)

모델 변환 흐름:

PyTorch 모델 → ONNX 형식 → TFLite 형식

PyTorch 내장 내보내기 도구를 사용하여 ONNX 생성
Katsuya Hyodo의 onnx2tf 패키지를 사용하여 TFLite로 변환
양자화는 onnx2tf 변환 단계에서 완료

양자화 방식 상세 설명

본 연구는 7가지 양자화 구성을 평가했다(표 II 참조):

방식명	I/O 데이터 타입	연산 정밀도	활성화값	가중치
FP32	FP32	FP32	FP32	FP32
FP16	FP32	FP32	FP32	FP16
INT8	FP32	INT8	INT8	INT8
INT16	FP32	INT8	INT16	INT16
FINT8	INT8	INT8	INT8	INT8
FINT16	INT16	INT8	INT16	INT16
DYN	FP32	Mixed	FP32	Mixed

핵심 기술 포인트:

정적 양자화: 가중치가 오프라인으로 목표 데이터 타입(예: INT8)으로 변환되어 고정 저장됨
동적 양자화(DYN): 가중치는 8비트로 저장되지만 활성화값은 런타임에 양자화되어 런타임 오버헤드를 도입하지만 정확도는 더 잘 유지됨
INT16 제한: LiteRT는 최적화된 INT16 커널 구현이 부족하여 성능이 극히 저하됨

기술 혁신 포인트

혼합 프레임워크 방식: 소프트웨어 호환성 제약을 고려하여 LiteRT Next(CPU/GPU)와 표준 LiteRT(NPU)의 혼합 방식을 채택하여 포괄적 평가 보장
체계적 구성 공간 탐색:
- 3가지 하드웨어 × 7가지 양자화 × 다양한 모델 크기
- 5개 ResNet 변형 포함(18/34/50/101/152)
- 5개 YOLOv8 변형 포함(n/s/m/l/x)
- 5개 YOLO11 변형 포함(n/s/m/l/x)
Pareto 최적화 관점: 단일 최적을 추구하지 않고 정확도-지연 균형의 Pareto 전선을 제공하여 다목적 의사결정 지원
프레임워크 변환 손실 정량화: PyTorch에서 LiteRT로의 변환으로 인한 정확도 손실을 명확히 측정(ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)

실험 설정

데이터셋

ResNet 분류: 표준 ImageNet 검증 세트 사용
YOLO 검출: COCO 검증 세트 사용

평가 지표

추론 지연: 평균 추론 시간(밀리초)
가속 배수: FP32 CPU 단일 스레드 기준선 대비 속도 향상 배수
분류 정확도: Top-1 정확률(ResNet)
검출 정확도: mean Average Precision (mAP) @ IoU=0.5:0.95(YOLO)
정확도 손실: FP32 기준선 대비 정확도 하락 백분율

비교 구성

실행 장치:

CPU-SC: CPU 단일 스레드
CPU-MC: CPU 다중 스레드(8코어)
GPU32: GPU FP32 모드
GPU16: GPU FP16 모드
NPU: 신경 처리 단위

양자화 방식: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

구현 세부사항

모델을 실행하고 결과를 기록하는 맞춤형 Android 애플리케이션 개발
각 구성에 대해 여러 번 추론 실행 후 평균값 계산
pycocotools를 사용하여 mAP 계산
표준 top-1 계산 방법을 사용하여 분류 정확률 평가

실험 결과

주요 결과

ResNet 성능 표현

ResNet18 추론 시간(밀리초):

구성	CPU-SC	CPU-MC	GPU32	GPU16	NPU
FP32	79.06	26.34	13.68	5.54	1.20
INT8	23.26	5.63	21.77	22.68	0.61

핵심 발견:

NPU가 FP32에서 65.9배 가속, INT8에서 129.6배 가속 달성
INT16 양자화 성능 극히 저하(>800ms), 후속 분석에서 제외
FINT8 양자화 정확도 재앙적 하락(0.08% Top-1), 역시 제외

ResNet50 성능 분석:

NPU + INT8: 121.5배 가속, 정확도 손실 단 0.41%
GPU16 모드가 GPU32 대비 약 2배 가속 제공
CPU 다중 스레드 최대 가속 3.4배(INT8), 이론적 8배보다 훨씬 낮음

양자화 영향(표 X):

모델	INT8 정확도 손실	DYN 정확도 손실
ResNet18	2.94%	0.10%
ResNet50	0.41%	0.19%
ResNet152	0.20%	0.07%

추세: 더 큰 모델이 INT8 양자화에 더 견고함, 정확도 손실이 2.94%에서 0.20%로 감소

YOLO 성능 표현

YOLOv8n 추론 시간 비교:

NPU가 최고 성능 발휘
FP32: 29배 가속
INT8: 46.8배 가속
지연이 ResNet보다 높음(작업 복잡도 더 높음)

YOLOv8 정확도 손실(표 XII):

모델	INT8 손실(mAP)	DYN 손실(mAP)
YOLOv8n	6.5	0.1
YOLOv8s	6.2	0.0
YOLOv8x	6.1	0.1

핵심 통찰:

INT8이 검출 작업에 상당한 손상(평균 6.5 mAP 손실)
동적 양자화 거의 무손실(≤0.1 mAP)
검출 작업이 더 많은 정보 필요(위치 + 분류), 양자화에 더 민감

YOLO11 vs YOLOv8:

YOLO11이 소형 모델에서 정확도 더 높음
NPU 실행 약간 느림(아키텍처 더 복잡)
동적 양자화가 NPU에서 완전히 실패
INT8 손실 약간 증가하여 평균 7.2 mAP

소거 실험

CPU 다중 스레드 확장성(표 XV)

모델	FP32	FP16	INT8	DYN
ResNet18	3.0×	3.0×	14.0×	10.6×
ResNet50	2.0×	2.0×	9.5×	7.2×
YOLOv8x	2.7×	2.1×	13.4×	10.1×

분석:

INT8이 최고의 다중 스레드 가속 제공
부동소수점 정밀도 확장성 저조(2-3배)
비대칭 코어 아키텍처가 병렬 효율 제한

GPU 정밀도 모드 영향(표 VIII)

ResNet50에서 GPU32 vs GPU16:

양자화 방식이 GPU 속도에 미치는 영향 극미
GPU16 모드가 안정적인 2배 가속 제공
더 큰 모델이 GPU16에서 더 큰 이점

NPU 동적 양자화 실패 분석

동적 양자화 모델에 혼합 정밀도 레이어 포함
NPU가 런타임 데이터 타입 변환 지원 부족
NPU-CPU 데이터 전송 빈번 필요
심각한 성능 저하 초래(ResNet50: INT8의 121.5배 대비 단 2.3배 가속)

Pareto 전선 분석

ResNet Pareto 전선(그림 6):

INT8 구성이 전선 지배: 지연 대폭 감소, 정확도 손실 수용 가능
최적 구성: NPU + INT8, 모든 ResNet 크기에 적용 가능
FP16이 GPU에서 정확도-속도 균형점 제공

YOLO Pareto 전선(그림 7):

FP16 구성이 전선 지배: INT8 정확도 손실 과도
최적 구성: NPU + FP16
YOLO11s가 소형 모델에서 우수한 성능
대형 모델(l/x)에서 YOLOv8과 YOLO11 차이 축소

실험 발견 요약

NPU 절대 우위: 모든 시나리오에서 NPU가 최고 성능 제공, 최대 298배 가속(YOLOv8x + INT8)
작업 특정 양자화 전략:
- 분류 작업(ResNet): INT8 최적
- 검출 작업(YOLO): FP16 최적
하드웨어 특성:
- GPU: 양자화 영향 미미, FP16 모드 핵심
- CPU: 다중 스레드 확장성 제한, INT8이 최고의 병렬성 제공
- NPU: 동적 양자화 미지원, 정적 최적화 필요
모델 크기 효과:
- 큰 모델이 양자화에 더 견고
- GPU가 큰 모델에서 더 높은 가속 비율(YOLOv8x: 39배)
프레임워크 변환 손실: 무시할 수 없는 정확도 하락(1-2%), 최적화 고려에 포함 필요

결론 및 토론

주요 결론

NPU가 최고 실행 장치: CPU 단일 코어 기준선 대비 최대 120배 가속 달성, 저지연 엣지 AI에서의 핵심 역할 확인
최적 양자화는 균형 문제:
- ResNet: INT8 최적, NPU에서 속도 이득이 정확도 손실을 초과
- YOLO: FP16 최적, INT8 정확도 손실(6.5 mAP) 수용 불가
- GPU: 양자화가 속도에 미치는 영향 미미, FP16이 정확도와 속도 균형
모델 성능 및 확장성:
- YOLO11s가 Pareto 전선에서 우수한 성능, FP16 양자화에서 최고의 속도/정확도 절충 제공
- YOLO11이 소형 모델에서 YOLOv8보다 정확도 높음, 복잡도 약간 증가
시스템 제한 식별:
- 동적 양자화가 NPU에서 실패(원생 지원 부족)
- CPU 다중 스레드 확장성 저조(최대 3.4배), 비대칭 코어 아키텍처로 인함
- 프레임워크 변환이 약 1% 정확도 손실 초래

제한사항

단일 하드웨어 플랫폼: Snapdragon 8 Gen 2에서만 테스트, 결론의 다른 SoC에 대한 일반화 가능성 미검증
제한된 작업 범위: 컴퓨터 비전(분류 및 검출)만 포함, NLP, 음성 등 다른 AI 작업 미포함
에너지 소비 분석 부재: 전력 소비 측정 미실시, Pareto 분석에 에너지 효율 차원 미포함
소프트웨어 버전 의존성: NPU가 구형 LiteRT 1.4.0 사용 필요, 성능에 영향 가능
정적 작업 부하: 동적 배치 처리, 모델 전환 등 실제 응용 시나리오 미고려
INT16 평가 불완전: LiteRT 최적화 커널 부족으로 조기 제외, 심층 분석 미실시

향후 방향

에너지 통합: 전력 소비를 포함한 3차원 Pareto 분석(정확도-지연-에너지 효율)
소프트웨어 최적화:
- NPU 동적 양자화 호환성 문제 완화
- 프레임워크 변환 정확도 손실 제거
작업 확장: MLPerf 벤치마크의 다른 작업 연구(NLP, 이미지 분할)
하드웨어 일반화: 다양한 모바일 SoC에서 결론 검증
양자화 인식 훈련: 훈련 시 양자화를 탐색하여 INT8 정확도 손실 감소
실시간 응용: 비디오 스트림, 다중 모델 동시 실행 등 실제 시나리오 평가

심층 평가

장점

실험 설계 엄밀:
- 체계적 구성 공간 탐색(3 하드웨어 × 7 양자화 × 15 모델 변형)
- 명확한 기준선 및 비교 차원
- 다중 측정 후 평균값 계산으로 신뢰성 보장
실용 가치 높음:
- 상용 장치 및 산업 표준 모델 대상
- 실행 가능한 구성 권장사항 제공
- 실제 배포 문제 식별(예: 동적 양자화 실패)
분석 심층:
- Pareto 전선이 다목적 의사결정 지원 제공
- 양자화 프레임워크 변환 손실 정량화
- 하드웨어 특성 드러냄(예: CPU 비대칭 아키텍처 영향)
결과 상세:
- 풍부한 정량 데이터(다수 표)
- 명확한 시각화(Pareto 그래프, 속도 비교 그래프)
- 다양한 모델 크기의 추세 분석
방법 투명성:
- 상세한 하드웨어 사양 설명
- 소프트웨어 버전 및 변환 흐름 설명
- 제한사항 인정(예: 소프트웨어 호환성 문제)

부족한 점

일반화 가능성 제한:
- 단일 하드웨어 플랫폼(Snapdragon 8 Gen 2)
- 다른 모바일 칩(예: Apple A 시리즈, Huawei Kirin)에 대한 결론 적용 가능성 미지
에너지 소비 부재:
- 제목에서 "최적화"를 강조하나 전력 소비 미측정
- 모바일 장치에서 에너지 효율이 속도만큼 중요
- Pareto 분석 불완전
통계적 유의성:
- 신뢰 구간 또는 표준편차 미보고
- 유의성 검정 부재
- 다중 실행의 표본 크기 미명시
비교 부족:
- 다른 양자화 방법(예: 양자화 인식 훈련)과 비교 미실시
- 다른 모바일 AI 프레임워크(예: NCNN, MNN)와 비교 미실시
- 클라우드 추론과의 지연 비교 부재
실제 시나리오 단순화:
- 단일 이미지 추론, 배치 처리 미고려
- 모델 사전 준비, 캐시 효과 미테스트
- Android 시스템 다른 프로세스의 간섭 무시
이론적 설명 약함:
- NPU가 INT8에서 우수한 이유에 대한 아키텍처 수준 설명 부족
- CPU 다중 스레드 확장성 저조의 심층 원인 분석 부족
- 지연 예측 모델 미구축

영향력

분야에 대한 기여:

모바일 AI 추론 최적화의 실증 연구 공백 메우기
모바일 개발자에게 구성 선택 가이드 제공
상용 하드웨어의 실제 성능 특성 드러냄

실용 가치:

Android 애플리케이션 개발에 직접 적용 가능
모델 배포 전략 결정 지원
소프트웨어 프레임워크 개선 방향 식별

재현 가능성:

상용 장치 및 공개 모델 사용
변환 흐름 상세 설명
다만 코드 오픈소스 미언급

예상 영향:

중간 수준 영향력: 특정 플랫폼의 실증 연구
모바일 AI 커뮤니티에 가치 있음
LiteRT 등 프레임워크 NPU 지원 개선 추진 가능

적용 시나리오

최적 적용 대상:

Android 애플리케이션 개발: ResNet 또는 YOLO를 장치에 배포해야 하는 개발자
모델 선택: 정확도와 지연 간 균형 필요 시 의사결정 지원
하드웨어 평가: Snapdragon 8 Gen 2 AI 성능 평가
양자화 전략 선택: 작업 유형에 따라 양자화 방식 선택

부적절한 대상:

다른 모바일 플랫폼: iOS, 다른 Android SoC는 재평가 필요
비시각 작업: NLP, 음성 등은 추가 연구 필요
클라우드 배포: 하드웨어 특성 완전히 다름
실시간 비디오: 연속 프레임 처리 미고려

확장 방향:

본 논문 결론을 바탕으로 에너지 최적화 수행
AutoML 하드웨어 인식 검색의 입력으로 활용
엣지 AI 칩 설계 지침 제공

참고문헌

핵심 인용:

MLPerf 벤치마크: Reddi et al. (2020) - "MLPerf inference benchmark", 본 논문이 채택한 평가 원칙 정의
에너지 소비 연구:
- Google 환경 보고서 (2023): AI가 에너지 소비의 10-15% 차지
- Meta 지속 가능성 보고서 (2023): 추론이 AI 에너지 소비의 70% 차지
ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", ILSVRC 2015 우승
YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

종합 평가: 이는 모바일 AI 추론 최적화에 가치 있는 구성 가이드를 제공하는 견고한 실증 연구 논문이다. 주요 강점은 체계적 실험 설계와 상세한 정량 결과에 있으며, NPU의 우위와 작업 특정 양자화 전략을 명확히 드러낸다. 주요 부족점은 단일 하드웨어 플랫폼으로 제한되고 에너지 분석이 부재한다는 점이다. Android 모바일 개발자 및 엣지 AI 연구자에게 높은 참고 가치가 있으나, 결론은 더 광범위한 하드웨어 및 작업에서 검증이 필요하다. 후속 작업으로 에너지 소비 측정 추가, 다른 플랫폼 및 작업으로 확장, 실험 코드 오픈소스화를 권장한다.