Hardware optimization on Android for inference of AI models
Gherasim, Sánchez
The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
academic
Hardwareoptimierung auf Android für die Inferenz von KI-Modellen
Diese Arbeit untersucht die Hardwareoptimierung für die Inferenz von KI-Modellen auf Android-Systemen. Angesichts der weit verbreiteten Integration von KI-Modellen in der mobilen Datenverarbeitung (von virtuellen Assistenten bis zur fortgeschrittenen Bildverarbeitung) konzentrieren sich die Forscher auf zwei Schlüsselaufgaben: Objekterkennung (YOLO-Serie) und Bildklassifizierung (ResNet). Durch die Bewertung verschiedener Modellquantisierungsschemas und die Nutzung von Gerätebeschleunigern (GPU und NPU) besteht das Kernziel dieser Arbeit darin, empirisch die optimale Konfigurationskombination zu bestimmen, die die beste Balance zwischen minimalem Genauigkeitsverlust und maximaler Inferenzbeschleunigung erreicht.
Mit der weit verbreiteten Anwendung von KI-Modellen auf mobilen Geräten wird es zur Schlüsselherausforderung, wie man unter Gewährleistung der Modellgenauigkeit eine Inferenz mit niedriger Latenz und hoher Reaktionsfähigkeit erreicht. Dies umfasst konkret:
Wie man die heterogene Hardwarearchitektur mobiler Geräte (CPU, GPU, NPU) vollständig nutzt
Wie man ein geeignetes Modellquantisierungsschema auswählt, um Genauigkeit und Geschwindigkeit auszugleichen
Wie man die Ausführungskonfiguration für verschiedene KI-Aufgaben (Klassifizierung vs. Erkennung) optimiert
Energieverbrauch: Google schätzt, dass zwischen 2019 und 2021 KI-bezogene Aufgaben 10-15% des Gesamtenergieverbrauchs ausmachten, wobei die Inferenzphase 60% der Energie verbrauchte; Meta berichtet, dass Inferenz 70% des KI-Energieverbrauchs ausmacht
Wachstumstrend: Googles Energieverbrauch wächst jährlich um 21%, Meta sogar um 32%
Benutzererfahrung: Mobile KI-Leistung ist zum Kernunterscheidungsmerkmal geworden und muss strenge Anforderungen an Echtzeit und Genauigkeit erfüllen
Systematische Hardwarebewertung: Erste systematische Bewertung der Leistung von CPU, GPU und NPU bei KI-Inferenzaufgaben auf kommerziellen Android-Geräten (Samsung Galaxy Tab S9)
Quantisierungsschema-Analyse: Umfassender Vergleich von 7 Quantisierungsschemas (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) auf verschiedener Hardware hinsichtlich Genauigkeits-Geschwindigkeits-Kompromiss
Aufgabenspezifische Optimierungsempfehlungen:
Für ResNet-Klassifizierungsaufgaben: NPU + INT8-Quantisierung erreicht 130× Beschleunigung mit <3% Genauigkeitsverlust
Für YOLO-Erkennungsaufgaben: NPU + FP16-Quantisierung ist optimal und vermeidet den 6,5 mAP-Genauigkeitsverlust durch INT8
Pareto-Frontier-Analyse: Bietet eine Multi-Objective-Optimierungsperspektive und identifiziert optimale Kompromisse zwischen Genauigkeit und Latenz
Praktische Erkenntnisse:
NPU zeigt in allen Konfigurationen die beste Leistung mit bis zu 298× Beschleunigung (YOLOv8x)
Dynamische Quantisierung schlägt auf NPU fehl und offenbart Hardwarekompatibilitätsprobleme
CPU-Multithreading-Skalierbarkeit ist begrenzt (maximal 3,4×), zurückzuführen auf asymmetrische Kernarchitektur
Diese Forschung bewertet 7 Quantisierungskonfigurationen (siehe Tabelle II):
Schema-Name
E/A-Datentyp
Operationspräzision
Aktivierungen
Gewichte
FP32
FP32
FP32
FP32
FP32
FP16
FP32
FP32
FP32
FP16
INT8
FP32
INT8
INT8
INT8
INT16
FP32
INT8
INT16
INT16
FINT8
INT8
INT8
INT8
INT8
FINT16
INT16
INT8
INT16
INT16
DYN
FP32
Gemischt
FP32
Gemischt
Schlüsseltechnische Punkte:
Statische Quantisierung: Gewichte werden offline in den Zieldatentyp (z.B. INT8) konvertiert und fest gespeichert
Dynamische Quantisierung (DYN): Gewichte werden als 8-Bit gespeichert, aber Aktivierungswerte werden erst zur Laufzeit quantisiert, was Laufzeit-Overhead einführt, aber bessere Genauigkeit bewahrt
INT16-Einschränkung: LiteRT mangelt es an optimierten INT16-Kernel-Implementierungen, was zu extrem schlechter Leistung führt
Hybrid-Framework-Ansatz: Angesichts von Softwarekompatibilitätsbeschränkungen wird ein Hybrid-Ansatz mit LiteRT Next (CPU/GPU) und Standard-LiteRT (NPU) verwendet, um eine umfassende Bewertung zu gewährleisten
Systematische Konfigurationsraum-Erkundung:
3 Hardware × 7 Quantisierungen × mehrere Modellgrößen
Umfasst 5 ResNet-Varianten (18/34/50/101/152)
Umfasst 5 YOLOv8-Varianten (n/s/m/l/x)
Umfasst 5 YOLO11-Varianten (n/s/m/l/x)
Pareto-Optimierungsperspektive: Nicht nach einer einzelnen Optimallösung strebend, sondern Bereitstellung der Pareto-Frontier für Genauigkeits-Latenz-Kompromisse zur Unterstützung von Multi-Objective-Entscheidungen
Quantifizierung von Framework-Konvertierungsverlusten: Explizite Messung des Genauigkeitsverlusts durch PyTorch-zu-LiteRT-Konvertierung (ResNet: 0,83-1,77%; YOLO11: 0,2-0,4 mAP)
MLPerf-Benchmark-Tests: Diese Arbeit wendet MLPerf-Prinzipien zur Bewertung von ML-Inferenzsystemen an, von eingebetteten Geräten bis zu Rechenzentren, und ermöglicht softwarerahmen- und architektur-neutrale Bewertungen
Problementdeckung: Identifizierung von Kompatibilitätsproblemen bei dynamischer Quantisierung auf NPU, CPU-Skalierungsproblemen und anderen praktischen Bereitstellungsproblemen
Industrielle Relevanz: Auswahl von MLPerf-Standardmodellen, Ergebnisse direkt auf Produktionsumgebungen anwendbar
NPU ist das beste Ausführungsgerät: Erreicht bis zu 120× Beschleunigung gegenüber CPU-Single-Core-Baseline und bestätigt seine Schlüsselrolle in Low-Latency-Edge-AI
Optimale Quantisierung ist ein Kompromiss:
ResNet: INT8 optimal, Geschwindigkeitsgewinn auf NPU überwiegt Genauigkeitsverlust
YOLO: FP16 optimal, INT8-Genauigkeitsverlust (6,5 mAP) nicht akzeptabel
GPU: Quantisierung hat minimale Geschwindigkeitsauswirkung, FP16 balanciert Genauigkeit und Geschwindigkeit
Modellleistung und Skalierbarkeit:
YOLO11s zeigt hervorragende Leistung auf Pareto-Frontier, bietet beste Geschwindigkeits-/Genauigkeits-Kompromisse bei FP16-Quantisierung
YOLO11 hat höhere Genauigkeit bei kleinen Modellen als YOLOv8, aber leicht erhöhte Komplexität
Systemlimitierungen identifiziert:
Dynamische Quantisierung schlägt auf NPU fehl (fehlende native Unterstützung)
CPU-Multithreading-Skalierbarkeit schlecht (maximal 3,4×), zurückzuführen auf asymmetrische Kernarchitektur
Framework-Konvertierung führt etwa 1% Genauigkeitsverlust ein
MLPerf-Benchmark: Reddi et al. (2020) - "MLPerf inference benchmark", definiert die in dieser Arbeit verwendeten Bewertungsprinzipien
Energieverbrauchsforschung:
Google-Umweltbericht (2023): KI macht 10-15% des Energieverbrauchs aus
Meta-Nachhaltigkeitsbericht (2023): Inferenz macht 70% des KI-Energieverbrauchs aus
ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", ILSVRC 2015 Champion
YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"
Gesamtbewertung: Dies ist eine solide empirische Forschungsarbeit, die wertvolle Konfigurationsrichtlinien für die Optimierung der KI-Inferenz auf mobilen Geräten bietet. Die Hauptstärken liegen in der systematischen Experimentalgestaltung und detaillierten quantitativen Ergebnissen, die klar die Vorteile der NPU und aufgabenspezifische Quantisierungsstrategien offenlegen. Die Hauptmängel sind die begrenzte Verallgemeinerbarkeit auf eine einzelne Hardwareplattform und die fehlende Energieverbrauchsanalyse. Für Android-Mobile-Entwickler und Edge-AI-Forscher hat sie hohen Referenzwert, aber Schlussfolgerungen müssen auf breiterer Hardware und Aufgabenbasis validiert werden. Empfohlen wird, dass zukünftige Arbeiten Energieverbrauchsmessungen ergänzen, auf andere Plattformen und Aufgaben erweitern und experimentellen Code open-sourcen, um die Reproduzierbarkeit zu verbessern.