The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
Android에서 AI 모델 추론을 위한 하드웨어 최적화 논문 ID : 2511.13453제목 : Hardware optimization on Android for inference of AI models저자 : Iulius Gherasim, Carlos García Sánchez (마드리드 콤플루텐세 대학교)분류 : cs.LG (기계학습), cs.PF (성능)발표 시간 : 2025년 11월 17일 (arXiv 제출)논문 링크 : https://arxiv.org/abs/2511.13453 본 논문은 Android 시스템에서 AI 모델의 하드웨어 최적화 추론 문제를 연구한다. 모바일 컴퓨팅에서 AI 모델의 광범위한 통합(가상 어시스턴트에서 고급 이미지 처리까지)을 고려하여, 연구자들은 두 가지 핵심 작업에 초점을 맞춘다: 객체 검출(YOLO 시리즈)과 이미지 분류(ResNet). 다양한 모델 양자화 방식과 장치 가속기(GPU 및 NPU)의 활용을 평가함으로써, 본 논문의 핵심 목표는 최소 정확도 손실과 최대 추론 가속 간의 최적 균형을 달성하는 구성 조합을 실증적으로 결정하는 것이다.
모바일 장치에서 AI 모델의 광범위한 응용으로 인해, 모델 정확도를 보장하면서 저지연, 고응답성 추론을 실현하는 방법이 핵심 과제가 되었다. 구체적으로는:
모바일 장치의 이질적 하드웨어 아키텍처(CPU, GPU, NPU) 충분히 활용하는 방법 정확도와 속도의 균형을 맞추기 위한 적절한 모델 양자화 방식 선택 다양한 AI 작업(분류 vs 검출)에 대한 실행 구성 최적화 에너지 소비 : Google은 2019-2021년 간 AI 관련 작업이 총 에너지 소비의 10-15%를 차지하며, 이 중 추론 단계가 에너지의 60%를 소비한다고 추정; Meta는 추론이 AI 에너지 소비의 70%를 차지한다고 보고증가 추세 : Google 에너지 소비 연간 증가율 21%, Meta는 32%에 달함사용자 경험 : 모바일 AI 성능이 핵심 차별화 요소가 되었으며, 엄격한 실시간성 및 정확도 요구사항을 충족해야 함초기 솔루션은 주로 GPU 오프로드 계산에 의존했으나, 전용 NPU 가속기를 충분히 활용하지 못함 모바일 장치 이질적 아키텍처에 대한 체계적 최적화 연구 부족 양자화 방식 선택이 다양한 작업 및 하드웨어에 대한 실증적 지침 부족 MLPerf 벤치마크 원칙을 채택하여 상용 Android 장치에서 체계적으로 성능 평가 산업 표준 모델(분류용 ResNet, 검출용 YOLO)을 대표적 평가 대상으로 선택 모바일 AI 추론 최적화의 실증 연구 공백 메우기 체계적 하드웨어 평가 : 상용 Android 장치(Samsung Galaxy Tab S9)에서 CPU, GPU, NPU 세 가지 계산 단위의 AI 추론 작업 성능을 처음으로 체계적으로 평가양자화 방식 분석 : 7가지 양자화 방식(FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic)의 정확도-속도 균형을 다양한 하드웨어에서 포괄적으로 비교작업 특정 최적화 권장사항 :ResNet 분류 작업의 경우: NPU + INT8 양자화로 130배 가속 달성, 정확도 손실 <3% YOLO 검출 작업의 경우: NPU + FP16 양자화가 최적, INT8로 인한 6.5 mAP 정확도 손실 회피 Pareto 전선 분석 : 다목적 최적화 관점 제공, 정확도-지연 공간에서 다양한 구성의 최적 균형점 명확화실제 발견 :NPU가 모든 구성에서 최고 성능 발휘, 최대 298배 가속(YOLOv8x) 동적 양자화가 NPU에서 실패, 하드웨어 호환성 문제 드러남 CPU 다중 스레드 확장성 제한(최대 3.4배), 비대칭 코어 아키텍처로 인함 본 연구는 두 가지 핵심 컴퓨터 비전 작업에 초점을 맞춘다:
이미지 분류 : 단일 이미지 입력, 클래스 레이블 및 신뢰도 출력(ResNet 시리즈 사용)객체 검출 : 단일 이미지 입력, 다중 경계 상자, 클래스 및 신뢰도 출력(YOLO 시리즈 사용)목표는 Android 모바일 장치에서 최적의 하드웨어 구성 및 양자화 방식 조합을 찾는 것이다.
장치 : Samsung Galaxy Tab S9
SoC : Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)
CPU (Kryo) : 8코어 big.LITTLE 구성
3개 소형 코어: ARM Cortex-A510 @ 2.0 GHz 4개 중형 코어: 2×Cortex-A710 + 2×Cortex-A715 @ 2.8 GHz 1개 대형 코어: Cortex-X3 @ 3.36 GHz GPU : Qualcomm Adreno 740
12개 셰이더 처리 단위 @ 719 MHz FP32 및 FP16 정밀도 실행 지원 NPU (Hexagon 프로세서) :
전용 텐서, 스칼라, 벡터 연산 단위 공유 내부 메모리 아키텍처 Micro Tile Inferencing 기술 지원(모델 레이어를 분할하여 병렬 실행) 프레임워크 : LiteRT (TensorFlow Lite의 브랜드 변경)
CPU/GPU: LiteRT Next 2.0.2 NPU: LiteRT 1.4.0(2.0.2 버전 NPU 파이프라인 문제로 인함) 모델 변환 흐름 :
PyTorch 모델 → ONNX 형식 → TFLite 형식
PyTorch 내장 내보내기 도구를 사용하여 ONNX 생성 Katsuya Hyodo의 onnx2tf 패키지를 사용하여 TFLite로 변환 양자화는 onnx2tf 변환 단계에서 완료 본 연구는 7가지 양자화 구성을 평가했다(표 II 참조):
방식명 I/O 데이터 타입 연산 정밀도 활성화값 가중치 FP32 FP32 FP32 FP32 FP32 FP16 FP32 FP32 FP32 FP16 INT8 FP32 INT8 INT8 INT8 INT16 FP32 INT8 INT16 INT16 FINT8 INT8 INT8 INT8 INT8 FINT16 INT16 INT8 INT16 INT16 DYN FP32 Mixed FP32 Mixed
핵심 기술 포인트 :
정적 양자화 : 가중치가 오프라인으로 목표 데이터 타입(예: INT8)으로 변환되어 고정 저장됨동적 양자화(DYN) : 가중치는 8비트로 저장되지만 활성화값은 런타임에 양자화되어 런타임 오버헤드를 도입하지만 정확도는 더 잘 유지됨INT16 제한 : LiteRT는 최적화된 INT16 커널 구현이 부족하여 성능이 극히 저하됨혼합 프레임워크 방식 : 소프트웨어 호환성 제약을 고려하여 LiteRT Next(CPU/GPU)와 표준 LiteRT(NPU)의 혼합 방식을 채택하여 포괄적 평가 보장체계적 구성 공간 탐색 :3가지 하드웨어 × 7가지 양자화 × 다양한 모델 크기 5개 ResNet 변형 포함(18/34/50/101/152) 5개 YOLOv8 변형 포함(n/s/m/l/x) 5개 YOLO11 변형 포함(n/s/m/l/x) Pareto 최적화 관점 : 단일 최적을 추구하지 않고 정확도-지연 균형의 Pareto 전선을 제공하여 다목적 의사결정 지원프레임워크 변환 손실 정량화 : PyTorch에서 LiteRT로의 변환으로 인한 정확도 손실을 명확히 측정(ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)ResNet 분류 : 표준 ImageNet 검증 세트 사용YOLO 검출 : COCO 검증 세트 사용추론 지연 : 평균 추론 시간(밀리초)가속 배수 : FP32 CPU 단일 스레드 기준선 대비 속도 향상 배수분류 정확도 : Top-1 정확률(ResNet)검출 정확도 : mean Average Precision (mAP) @ IoU=0.5:0.95(YOLO)정확도 손실 : FP32 기준선 대비 정확도 하락 백분율실행 장치 :
CPU-SC: CPU 단일 스레드 CPU-MC: CPU 다중 스레드(8코어) GPU32: GPU FP32 모드 GPU16: GPU FP16 모드 NPU: 신경 처리 단위 양자화 방식 : FP32, FP16, INT8, INT16, FINT8, FINT16, DYN
모델을 실행하고 결과를 기록하는 맞춤형 Android 애플리케이션 개발 각 구성에 대해 여러 번 추론 실행 후 평균값 계산 pycocotools를 사용하여 mAP 계산 표준 top-1 계산 방법을 사용하여 분류 정확률 평가 ResNet18 추론 시간(밀리초) :
구성 CPU-SC CPU-MC GPU32 GPU16 NPU FP32 79.06 26.34 13.68 5.54 1.20 INT8 23.26 5.63 21.77 22.68 0.61
핵심 발견 :
NPU가 FP32에서 65.9배 가속 , INT8에서 129.6배 가속 달성 INT16 양자화 성능 극히 저하(>800ms), 후속 분석에서 제외 FINT8 양자화 정확도 재앙적 하락(0.08% Top-1), 역시 제외 ResNet50 성능 분석 :
NPU + INT8: 121.5배 가속 , 정확도 손실 단 0.41% GPU16 모드가 GPU32 대비 약 2배 가속 제공 CPU 다중 스레드 최대 가속 3.4배 (INT8), 이론적 8배보다 훨씬 낮음 양자화 영향(표 X) :
모델 INT8 정확도 손실 DYN 정확도 손실 ResNet18 2.94% 0.10% ResNet50 0.41% 0.19% ResNet152 0.20% 0.07%
추세 : 더 큰 모델이 INT8 양자화에 더 견고함, 정확도 손실이 2.94%에서 0.20%로 감소
YOLOv8n 추론 시간 비교 :
NPU가 최고 성능 발휘 FP32: 29배 가속 INT8: 46.8배 가속 지연이 ResNet보다 높음(작업 복잡도 더 높음) YOLOv8 정확도 손실(표 XII) :
모델 INT8 손실(mAP) DYN 손실(mAP) YOLOv8n 6.5 0.1 YOLOv8s 6.2 0.0 YOLOv8x 6.1 0.1
핵심 통찰 :
INT8이 검출 작업에 상당한 손상(평균 6.5 mAP 손실) 동적 양자화 거의 무손실(≤0.1 mAP) 검출 작업이 더 많은 정보 필요(위치 + 분류), 양자화에 더 민감 YOLO11 vs YOLOv8 :
YOLO11이 소형 모델에서 정확도 더 높음 NPU 실행 약간 느림(아키텍처 더 복잡) 동적 양자화가 NPU에서 완전히 실패 INT8 손실 약간 증가하여 평균 7.2 mAP 모델 FP32 FP16 INT8 DYN ResNet18 3.0× 3.0× 14.0× 10.6× ResNet50 2.0× 2.0× 9.5× 7.2× YOLOv8x 2.7× 2.1× 13.4× 10.1×
분석 :
INT8이 최고의 다중 스레드 가속 제공 부동소수점 정밀도 확장성 저조(2-3배) 비대칭 코어 아키텍처가 병렬 효율 제한 ResNet50에서 GPU32 vs GPU16:
양자화 방식이 GPU 속도에 미치는 영향 극미 GPU16 모드가 안정적인 2배 가속 제공 더 큰 모델이 GPU16에서 더 큰 이점 동적 양자화 모델에 혼합 정밀도 레이어 포함 NPU가 런타임 데이터 타입 변환 지원 부족 NPU-CPU 데이터 전송 빈번 필요 심각한 성능 저하 초래(ResNet50: INT8의 121.5배 대비 단 2.3배 가속) ResNet Pareto 전선(그림 6) :
INT8 구성이 전선 지배: 지연 대폭 감소, 정확도 손실 수용 가능 최적 구성: NPU + INT8, 모든 ResNet 크기에 적용 가능 FP16이 GPU에서 정확도-속도 균형점 제공 YOLO Pareto 전선(그림 7) :
FP16 구성이 전선 지배: INT8 정확도 손실 과도 최적 구성: NPU + FP16 YOLO11s가 소형 모델에서 우수한 성능 대형 모델(l/x)에서 YOLOv8과 YOLO11 차이 축소 NPU 절대 우위 : 모든 시나리오에서 NPU가 최고 성능 제공, 최대 298배 가속(YOLOv8x + INT8)작업 특정 양자화 전략 :분류 작업(ResNet): INT8 최적 검출 작업(YOLO): FP16 최적 하드웨어 특성 :GPU: 양자화 영향 미미, FP16 모드 핵심 CPU: 다중 스레드 확장성 제한, INT8이 최고의 병렬성 제공 NPU: 동적 양자화 미지원, 정적 최적화 필요 모델 크기 효과 :큰 모델이 양자화에 더 견고 GPU가 큰 모델에서 더 높은 가속 비율(YOLOv8x: 39배) 프레임워크 변환 손실 : 무시할 수 없는 정확도 하락(1-2%), 최적화 고려에 포함 필요MLPerf 벤치마크 : 본 논문이 MLPerf 원칙을 채택하여 ML 추론 시스템을 평가, 임베디드 장치에서 데이터 센터까지, 소프트웨어 프레임워크 및 아키텍처 중립적 평가 실현모바일 AI 프레임워크 진화 :PyTorch, ONNX, TensorFlow: 범용 AI 개발 프레임워크 TensorFlow Lite → LiteRT: 모바일 경량 런타임 LiteRT Next: 가속기 오프로드 원생 지원 이질적 컴퓨팅 패러다임 :Edge-to-Cloud 모델: 엣지 로컬 처리로 지연 최적화, 복잡 작업 클라우드 오프로드 DSA (Domain-Specific Architecture): NPU를 전용 텐서 연산 가속기로 양자화 기술 :훈련 후 양자화(본 논문 채택) 양자화 인식 훈련 혼합 정밀도 전략 체계적 평가 : 상용 Android 장치에서 CPU/GPU/NPU 세 가지 하드웨어를 처음으로 포괄적으로 평가실증적 지침 : 다양한 작업에 대한 구체적 구성 권장사항 제공, 이론 분석이 아님Pareto 관점 : 다목적 최적화 방법, 정확도-속도 균형 공간 드러냄문제 발견 : 동적 양자화 NPU 호환성, CPU 확장성 등 실제 배포 문제 식별산업 관련성 : MLPerf 표준 모델 선택, 결과가 생산 환경에 직접 적용 가능NPU가 최고 실행 장치 : CPU 단일 코어 기준선 대비 최대 120배 가속 달성, 저지연 엣지 AI에서의 핵심 역할 확인최적 양자화는 균형 문제 :ResNet : INT8 최적, NPU에서 속도 이득이 정확도 손실을 초과YOLO : FP16 최적, INT8 정확도 손실(6.5 mAP) 수용 불가GPU : 양자화가 속도에 미치는 영향 미미, FP16이 정확도와 속도 균형모델 성능 및 확장성 :YOLO11s가 Pareto 전선에서 우수한 성능, FP16 양자화에서 최고의 속도/정확도 절충 제공 YOLO11이 소형 모델에서 YOLOv8보다 정확도 높음, 복잡도 약간 증가 시스템 제한 식별 :동적 양자화가 NPU에서 실패(원생 지원 부족) CPU 다중 스레드 확장성 저조(최대 3.4배), 비대칭 코어 아키텍처로 인함 프레임워크 변환이 약 1% 정확도 손실 초래 단일 하드웨어 플랫폼 : Snapdragon 8 Gen 2에서만 테스트, 결론의 다른 SoC에 대한 일반화 가능성 미검증제한된 작업 범위 : 컴퓨터 비전(분류 및 검출)만 포함, NLP, 음성 등 다른 AI 작업 미포함에너지 소비 분석 부재 : 전력 소비 측정 미실시, Pareto 분석에 에너지 효율 차원 미포함소프트웨어 버전 의존성 : NPU가 구형 LiteRT 1.4.0 사용 필요, 성능에 영향 가능정적 작업 부하 : 동적 배치 처리, 모델 전환 등 실제 응용 시나리오 미고려INT16 평가 불완전 : LiteRT 최적화 커널 부족으로 조기 제외, 심층 분석 미실시에너지 통합 : 전력 소비를 포함한 3차원 Pareto 분석(정확도-지연-에너지 효율)소프트웨어 최적화 :NPU 동적 양자화 호환성 문제 완화 프레임워크 변환 정확도 손실 제거 작업 확장 : MLPerf 벤치마크의 다른 작업 연구(NLP, 이미지 분할)하드웨어 일반화 : 다양한 모바일 SoC에서 결론 검증양자화 인식 훈련 : 훈련 시 양자화를 탐색하여 INT8 정확도 손실 감소실시간 응용 : 비디오 스트림, 다중 모델 동시 실행 등 실제 시나리오 평가실험 설계 엄밀 :체계적 구성 공간 탐색(3 하드웨어 × 7 양자화 × 15 모델 변형) 명확한 기준선 및 비교 차원 다중 측정 후 평균값 계산으로 신뢰성 보장 실용 가치 높음 :상용 장치 및 산업 표준 모델 대상 실행 가능한 구성 권장사항 제공 실제 배포 문제 식별(예: 동적 양자화 실패) 분석 심층 :Pareto 전선이 다목적 의사결정 지원 제공 양자화 프레임워크 변환 손실 정량화 하드웨어 특성 드러냄(예: CPU 비대칭 아키텍처 영향) 결과 상세 :풍부한 정량 데이터(다수 표) 명확한 시각화(Pareto 그래프, 속도 비교 그래프) 다양한 모델 크기의 추세 분석 방법 투명성 :상세한 하드웨어 사양 설명 소프트웨어 버전 및 변환 흐름 설명 제한사항 인정(예: 소프트웨어 호환성 문제) 일반화 가능성 제한 :단일 하드웨어 플랫폼(Snapdragon 8 Gen 2) 다른 모바일 칩(예: Apple A 시리즈, Huawei Kirin)에 대한 결론 적용 가능성 미지 에너지 소비 부재 :제목에서 "최적화"를 강조하나 전력 소비 미측정 모바일 장치에서 에너지 효율이 속도만큼 중요 Pareto 분석 불완전 통계적 유의성 :신뢰 구간 또는 표준편차 미보고 유의성 검정 부재 다중 실행의 표본 크기 미명시 비교 부족 :다른 양자화 방법(예: 양자화 인식 훈련)과 비교 미실시 다른 모바일 AI 프레임워크(예: NCNN, MNN)와 비교 미실시 클라우드 추론과의 지연 비교 부재 실제 시나리오 단순화 :단일 이미지 추론, 배치 처리 미고려 모델 사전 준비, 캐시 효과 미테스트 Android 시스템 다른 프로세스의 간섭 무시 이론적 설명 약함 :NPU가 INT8에서 우수한 이유에 대한 아키텍처 수준 설명 부족 CPU 다중 스레드 확장성 저조의 심층 원인 분석 부족 지연 예측 모델 미구축 분야에 대한 기여 :
모바일 AI 추론 최적화의 실증 연구 공백 메우기 모바일 개발자에게 구성 선택 가이드 제공 상용 하드웨어의 실제 성능 특성 드러냄 실용 가치 :
Android 애플리케이션 개발에 직접 적용 가능 모델 배포 전략 결정 지원 소프트웨어 프레임워크 개선 방향 식별 재현 가능성 :
상용 장치 및 공개 모델 사용 변환 흐름 상세 설명 다만 코드 오픈소스 미언급 예상 영향 :
중간 수준 영향력: 특정 플랫폼의 실증 연구 모바일 AI 커뮤니티에 가치 있음 LiteRT 등 프레임워크 NPU 지원 개선 추진 가능 최적 적용 대상 :
Android 애플리케이션 개발 : ResNet 또는 YOLO를 장치에 배포해야 하는 개발자모델 선택 : 정확도와 지연 간 균형 필요 시 의사결정 지원하드웨어 평가 : Snapdragon 8 Gen 2 AI 성능 평가양자화 전략 선택 : 작업 유형에 따라 양자화 방식 선택부적절한 대상 :
다른 모바일 플랫폼 : iOS, 다른 Android SoC는 재평가 필요비시각 작업 : NLP, 음성 등은 추가 연구 필요클라우드 배포 : 하드웨어 특성 완전히 다름실시간 비디오 : 연속 프레임 처리 미고려확장 방향 :
본 논문 결론을 바탕으로 에너지 최적화 수행 AutoML 하드웨어 인식 검색의 입력으로 활용 엣지 AI 칩 설계 지침 제공 핵심 인용 :
MLPerf 벤치마크 : Reddi et al. (2020) - "MLPerf inference benchmark", 본 논문이 채택한 평가 원칙 정의에너지 소비 연구 :Google 환경 보고서 (2023): AI가 에너지 소비의 10-15% 차지 Meta 지속 가능성 보고서 (2023): 추론이 AI 에너지 소비의 70% 차지 ResNet : He et al. (2016) - "Deep Residual Learning for Image Recognition", ILSVRC 2015 우승YOLO : Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"Edge-to-Cloud : Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"종합 평가 : 이는 모바일 AI 추론 최적화에 가치 있는 구성 가이드를 제공하는 견고한 실증 연구 논문이다. 주요 강점은 체계적 실험 설계와 상세한 정량 결과에 있으며, NPU의 우위와 작업 특정 양자화 전략을 명확히 드러낸다. 주요 부족점은 단일 하드웨어 플랫폼으로 제한되고 에너지 분석이 부재한다는 점이다. Android 모바일 개발자 및 엣지 AI 연구자에게 높은 참고 가치가 있으나, 결론은 더 광범위한 하드웨어 및 작업에서 검증이 필요하다. 후속 작업으로 에너지 소비 측정 추가, 다른 플랫폼 및 작업으로 확장, 실험 코드 오픈소스화를 권장한다.