2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, SÃ¡nchez

The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.

academic

Hardwareoptimierung auf Android für die Inferenz von KI-Modellen

Grundinformationen

Paper-ID: 2511.13453
Titel: Hardware optimization on Android for inference of AI models
Autoren: Iulius Gherasim, Carlos García Sánchez (Complutense University of Madrid)
Klassifizierung: cs.LG (Machine Learning), cs.PF (Performance)
Veröffentlichungsdatum: 17. November 2025 (arXiv-Einreichung)
Paper-Link: https://arxiv.org/abs/2511.13453

Zusammenfassung

Diese Arbeit untersucht die Hardwareoptimierung für die Inferenz von KI-Modellen auf Android-Systemen. Angesichts der weit verbreiteten Integration von KI-Modellen in der mobilen Datenverarbeitung (von virtuellen Assistenten bis zur fortgeschrittenen Bildverarbeitung) konzentrieren sich die Forscher auf zwei Schlüsselaufgaben: Objekterkennung (YOLO-Serie) und Bildklassifizierung (ResNet). Durch die Bewertung verschiedener Modellquantisierungsschemas und die Nutzung von Gerätebeschleunigern (GPU und NPU) besteht das Kernziel dieser Arbeit darin, empirisch die optimale Konfigurationskombination zu bestimmen, die die beste Balance zwischen minimalem Genauigkeitsverlust und maximaler Inferenzbeschleunigung erreicht.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Mit der weit verbreiteten Anwendung von KI-Modellen auf mobilen Geräten wird es zur Schlüsselherausforderung, wie man unter Gewährleistung der Modellgenauigkeit eine Inferenz mit niedriger Latenz und hoher Reaktionsfähigkeit erreicht. Dies umfasst konkret:

Wie man die heterogene Hardwarearchitektur mobiler Geräte (CPU, GPU, NPU) vollständig nutzt
Wie man ein geeignetes Modellquantisierungsschema auswählt, um Genauigkeit und Geschwindigkeit auszugleichen
Wie man die Ausführungskonfiguration für verschiedene KI-Aufgaben (Klassifizierung vs. Erkennung) optimiert

2. Bedeutung des Problems

Energieverbrauch: Google schätzt, dass zwischen 2019 und 2021 KI-bezogene Aufgaben 10-15% des Gesamtenergieverbrauchs ausmachten, wobei die Inferenzphase 60% der Energie verbrauchte; Meta berichtet, dass Inferenz 70% des KI-Energieverbrauchs ausmacht
Wachstumstrend: Googles Energieverbrauch wächst jährlich um 21%, Meta sogar um 32%
Benutzererfahrung: Mobile KI-Leistung ist zum Kernunterscheidungsmerkmal geworden und muss strenge Anforderungen an Echtzeit und Genauigkeit erfüllen

3. Einschränkungen bestehender Methoden

Frühe Lösungen stützten sich hauptsächlich auf GPU-Offloading, nutzten aber spezialisierte NPU-Beschleuniger nicht vollständig
Es fehlt eine systematische Optimierungsforschung für heterogene Architekturen auf mobilen Geräten
Die Auswahl von Quantisierungsschemas mangelt es an empirischer Anleitung für verschiedene Aufgaben und Hardware

4. Forschungsmotivation

Anwendung von MLPerf-Benchmark-Prinzipien zur systematischen Bewertung der Leistung auf kommerziellen Android-Geräten
Auswahl von Industriestandardmodellen (ResNet für Klassifizierung, YOLO für Erkennung) als repräsentative Bewertung
Schließung der Lücke in der empirischen Forschung zur Optimierung der KI-Inferenz auf mobilen Geräten

Kernbeiträge

Systematische Hardwarebewertung: Erste systematische Bewertung der Leistung von CPU, GPU und NPU bei KI-Inferenzaufgaben auf kommerziellen Android-Geräten (Samsung Galaxy Tab S9)
Quantisierungsschema-Analyse: Umfassender Vergleich von 7 Quantisierungsschemas (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) auf verschiedener Hardware hinsichtlich Genauigkeits-Geschwindigkeits-Kompromiss
Aufgabenspezifische Optimierungsempfehlungen:
- Für ResNet-Klassifizierungsaufgaben: NPU + INT8-Quantisierung erreicht 130× Beschleunigung mit <3% Genauigkeitsverlust
- Für YOLO-Erkennungsaufgaben: NPU + FP16-Quantisierung ist optimal und vermeidet den 6,5 mAP-Genauigkeitsverlust durch INT8
Pareto-Frontier-Analyse: Bietet eine Multi-Objective-Optimierungsperspektive und identifiziert optimale Kompromisse zwischen Genauigkeit und Latenz
Praktische Erkenntnisse:
- NPU zeigt in allen Konfigurationen die beste Leistung mit bis zu 298× Beschleunigung (YOLOv8x)
- Dynamische Quantisierung schlägt auf NPU fehl und offenbart Hardwarekompatibilitätsprobleme
- CPU-Multithreading-Skalierbarkeit ist begrenzt (maximal 3,4×), zurückzuführen auf asymmetrische Kernarchitektur

Methodische Details

Aufgabendefinition

Diese Forschung konzentriert sich auf zwei zentrale Computer-Vision-Aufgaben:

Bildklassifizierung: Eingabe eines einzelnen Bildes, Ausgabe von Klassenlabel und Konfidenz (mit ResNet-Serie)
Objekterkennung: Eingabe eines einzelnen Bildes, Ausgabe mehrerer Begrenzungsrahmen, Klassen und Konfidenzen (mit YOLO-Serie)

Das Ziel besteht darin, die optimale Kombination von Hardwarekonfiguration und Quantisierungsschema auf mobilen Android-Geräten zu finden.

Experimentelle Architektur

Hardwareplattform

Gerät: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): 8-Kern big.LITTLE-Konfiguration

3 kleine Kerne: ARM Cortex-A510 @ 2,0 GHz
4 mittlere Kerne: 2×Cortex-A710 + 2×Cortex-A715 @ 2,8 GHz
1 großer Kern: Cortex-X3 @ 3,36 GHz

GPU: Qualcomm Adreno 740

12 Shader-Verarbeitungseinheiten @ 719 MHz
Unterstützt FP32- und FP16-Präzisionsausführung

NPU (Hexagon Processor):

Spezialisierte Tensor-, Skalar- und Vektorberechnungseinheiten
Gemeinsame interne Speicherarchitektur
Unterstützt Micro Tile Inferencing-Technologie (Modellschichten partitionieren und parallel ausführen)

Softwareumgebung

Framework: LiteRT (Rebranding von TensorFlow Lite)

CPU/GPU: LiteRT Next 2.0.2
NPU: LiteRT 1.4.0 (aufgrund von NPU-Pipeline-Problemen in Version 2.0.2)

Modellkonvertierungsprozess:

PyTorch-Modell → ONNX-Format → TFLite-Format

Verwendung von PyTorch-integrierten Exportwerkzeugen zur ONNX-Generierung
Verwendung des onnx2tf-Pakets von Katsuya Hyodo zur TFLite-Konvertierung
Quantisierung wird während der onnx2tf-Konvertierungsphase durchgeführt

Quantisierungsschema-Details

Diese Forschung bewertet 7 Quantisierungskonfigurationen (siehe Tabelle II):

Schema-Name	E/A-Datentyp	Operationspräzision	Aktivierungen	Gewichte
FP32	FP32	FP32	FP32	FP32
FP16	FP32	FP32	FP32	FP16
INT8	FP32	INT8	INT8	INT8
INT16	FP32	INT8	INT16	INT16
FINT8	INT8	INT8	INT8	INT8
FINT16	INT16	INT8	INT16	INT16
DYN	FP32	Gemischt	FP32	Gemischt

Schlüsseltechnische Punkte:

Statische Quantisierung: Gewichte werden offline in den Zieldatentyp (z.B. INT8) konvertiert und fest gespeichert
Dynamische Quantisierung (DYN): Gewichte werden als 8-Bit gespeichert, aber Aktivierungswerte werden erst zur Laufzeit quantisiert, was Laufzeit-Overhead einführt, aber bessere Genauigkeit bewahrt
INT16-Einschränkung: LiteRT mangelt es an optimierten INT16-Kernel-Implementierungen, was zu extrem schlechter Leistung führt

Technische Innovationspunkte

Hybrid-Framework-Ansatz: Angesichts von Softwarekompatibilitätsbeschränkungen wird ein Hybrid-Ansatz mit LiteRT Next (CPU/GPU) und Standard-LiteRT (NPU) verwendet, um eine umfassende Bewertung zu gewährleisten
Systematische Konfigurationsraum-Erkundung:
- 3 Hardware × 7 Quantisierungen × mehrere Modellgrößen
- Umfasst 5 ResNet-Varianten (18/34/50/101/152)
- Umfasst 5 YOLOv8-Varianten (n/s/m/l/x)
- Umfasst 5 YOLO11-Varianten (n/s/m/l/x)
Pareto-Optimierungsperspektive: Nicht nach einer einzelnen Optimallösung strebend, sondern Bereitstellung der Pareto-Frontier für Genauigkeits-Latenz-Kompromisse zur Unterstützung von Multi-Objective-Entscheidungen
Quantifizierung von Framework-Konvertierungsverlusten: Explizite Messung des Genauigkeitsverlusts durch PyTorch-zu-LiteRT-Konvertierung (ResNet: 0,83-1,77%; YOLO11: 0,2-0,4 mAP)

Experimentelle Einrichtung

Datensätze

ResNet-Klassifizierung: Verwendung des Standard-ImageNet-Validierungssatzes
YOLO-Erkennung: Verwendung des COCO-Validierungssatzes

Bewertungsmetriken

Inferenzlatenz: Durchschnittliche Inferenzzeit (Millisekunden)
Beschleunigungsverhältnis: Geschwindigkeitssteigerung relativ zur FP32-CPU-Single-Thread-Baseline
Klassifizierungsgenauigkeit: Top-1-Genauigkeit (ResNet)
Erkennungsgenauigkeit: Mean Average Precision (mAP) @ IoU=0,5:0,95 (YOLO)
Genauigkeitsverlust: Genauigkeitsabfall relativ zur FP32-Baseline in Prozent

Vergleichskonfigurationen

Ausführungsgeräte:

CPU-SC: CPU Single-Thread
CPU-MC: CPU Multi-Thread (8 Kerne)
GPU32: GPU FP32-Modus
GPU16: GPU FP16-Modus
NPU: Neural Processing Unit

Quantisierungsschemas: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Implementierungsdetails

Entwicklung einer benutzerdefinierten Android-Anwendung zur Modellausführung und Ergebniserfassung
Mehrfache Ausführung jeder Konfiguration mit Mittelwertbildung
Verwendung von pycocotools zur mAP-Berechnung
Verwendung der Standard-Top-1-Berechnungsmethode zur Bewertung der Klassifizierungsgenauigkeit

Experimentelle Ergebnisse

Hauptergebnisse

ResNet-Leistung

ResNet18-Inferenzzeit (Millisekunden):

Konfiguration	CPU-SC	CPU-MC	GPU32	GPU16	NPU
FP32	79,06	26,34	13,68	5,54	1,20
INT8	23,26	5,63	21,77	22,68	0,61

Schlüsselergebnisse:

NPU erreicht 65,9× Beschleunigung bei FP32, 129,6× Beschleunigung bei INT8
INT16-Quantisierung zeigt extrem schlechte Leistung (>800ms), wurde aus weiterer Analyse ausgeschlossen
FINT8-Quantisierung zeigt katastrophalen Genauigkeitsverlust auf 0,08% Top-1, wurde ebenfalls ausgeschlossen

ResNet50-Leistungsanalyse:

NPU + INT8: 121,5× Beschleunigung, Genauigkeitsverlust nur 0,41%
GPU16-Modus bietet gegenüber GPU32 etwa 2× Beschleunigung
CPU-Multithreading erreicht maximal 3,4× Beschleunigung (INT8), deutlich unter dem theoretischen 8×

Quantisierungsauswirkungen (Tabelle X):

Modell	INT8-Genauigkeitsverlust	DYN-Genauigkeitsverlust
ResNet18	2,94%	0,10%
ResNet50	0,41%	0,19%
ResNet152	0,20%	0,07%

Trend: Größere Modelle sind robuster gegenüber INT8-Quantisierung, mit Genauigkeitsverlust von 2,94% auf 0,20%

YOLO-Leistung

YOLOv8n-Inferenzzeit-Vergleich:

NPU zeigt beste Leistung
FP32: 29× Beschleunigung
INT8: 46,8× Beschleunigung
Latenz höher als ResNet (höhere Aufgabenkomplexität)

YOLOv8-Genauigkeitsverlust (Tabelle XII):

Modell	INT8-Verlust (mAP)	DYN-Verlust (mAP)
YOLOv8n	6,5	0,1
YOLOv8s	6,2	0,0
YOLOv8x	6,1	0,1

Schlüsseleinsichten:

INT8 schadet Erkennungsaufgaben erheblich (durchschnittlich 6,5 mAP-Verlust)
Dynamische Quantisierung ist nahezu verlustfrei (≤0,1 mAP)
Erkennungsaufgaben benötigen mehr Informationen (Lokalisierung + Klassifizierung) und sind empfindlicher gegenüber Quantisierung

YOLO11 vs. YOLOv8:

YOLO11 hat höhere Genauigkeit bei kleinen Modellen
NPU-Ausführung etwas langsamer (komplexere Architektur)
Dynamische Quantisierung schlägt auf NPU vollständig fehl
INT8-Verlust leicht erhöht auf durchschnittlich 7,2 mAP

Ablationsstudien

CPU-Multithreading-Skalierbarkeit (Tabelle XV)

Modell	FP32	FP16	INT8	DYN
ResNet18	3,0×	3,0×	14,0×	10,6×
ResNet50	2,0×	2,0×	9,5×	7,2×
YOLOv8x	2,7×	2,1×	13,4×	10,1×

Analyse:

INT8 bietet beste Multi-Thread-Beschleunigung
Gleitkomma-Präzision hat schlechte Skalierbarkeit (2-3×)
Asymmetrische Kernarchitektur begrenzt Paralleleffizienz

GPU-Präzisionsmodus-Auswirkungen (Tabelle VIII)

GPU32 vs. GPU16 auf ResNet50:

Quantisierungsschema hat minimale Auswirkung auf GPU-Geschwindigkeit
GPU16-Modus bietet stabile 2× Beschleunigung
Größere Modelle zeigen größere Vorteile im GPU16-Modus

NPU-Dynamische-Quantisierung-Fehleranalyse

Dynamische Quantisierungsmodelle enthalten Schichten mit gemischter Präzision
NPU mangelt es an Unterstützung für Laufzeit-Datentypkonvertierung
Erfordert häufige NPU-CPU-Datenübertragungen
Führt zu schwerwiegender Leistungsverschlechterung (ResNet50: nur 2,3× Beschleunigung vs. 121,5× bei INT8)

Pareto-Frontier-Analyse

ResNet-Pareto-Frontier (Abbildung 6):

INT8-Konfigurationen dominieren die Frontier: Latenz deutlich reduziert, Genauigkeitsverlust akzeptabel
Optimale Konfiguration: NPU + INT8, anwendbar auf alle ResNet-Größen
FP16 auf GPU bietet Genauigkeits-Geschwindigkeits-Kompromiss

YOLO-Pareto-Frontier (Abbildung 7):

FP16-Konfigurationen dominieren die Frontier: INT8-Genauigkeitsverlust zu groß
Optimale Konfiguration: NPU + FP16
YOLO11s zeigt hervorragende Leistung bei kleinen Modellen
Unterschiede zwischen YOLOv8 und YOLO11 bei großen Modellen (l/x) verringern sich

Zusammenfassung der experimentellen Erkenntnisse

NPU-Absolutvorteil: NPU bietet in allen Szenarien beste Leistung mit bis zu 298× Beschleunigung (YOLOv8x + INT8)
Aufgabenspezifische Quantisierungsstrategien:
- Klassifizierungsaufgaben (ResNet): INT8 optimal
- Erkennungsaufgaben (YOLO): FP16 optimal
Hardwaremerkmale:
- GPU: Quantisierung hat minimale Auswirkung, FP16-Modus ist entscheidend
- CPU: Multithreading-Skalierbarkeit begrenzt, INT8 bietet beste Parallelität
- NPU: Unterstützt keine dynamische Quantisierung, benötigt statische Optimierung
Modellgrößen-Effekt:
- Größere Modelle sind robuster gegenüber Quantisierung
- GPU zeigt höhere Beschleunigungsverhältnisse bei großen Modellen (YOLOv8x: 39×)
Framework-Konvertierungsverlust: Nicht zu vernachlässigender Genauigkeitsverlust (1-2%), muss in Optimierung berücksichtigt werden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

NPU ist das beste Ausführungsgerät: Erreicht bis zu 120× Beschleunigung gegenüber CPU-Single-Core-Baseline und bestätigt seine Schlüsselrolle in Low-Latency-Edge-AI
Optimale Quantisierung ist ein Kompromiss:
- ResNet: INT8 optimal, Geschwindigkeitsgewinn auf NPU überwiegt Genauigkeitsverlust
- YOLO: FP16 optimal, INT8-Genauigkeitsverlust (6,5 mAP) nicht akzeptabel
- GPU: Quantisierung hat minimale Geschwindigkeitsauswirkung, FP16 balanciert Genauigkeit und Geschwindigkeit
Modellleistung und Skalierbarkeit:
- YOLO11s zeigt hervorragende Leistung auf Pareto-Frontier, bietet beste Geschwindigkeits-/Genauigkeits-Kompromisse bei FP16-Quantisierung
- YOLO11 hat höhere Genauigkeit bei kleinen Modellen als YOLOv8, aber leicht erhöhte Komplexität
Systemlimitierungen identifiziert:
- Dynamische Quantisierung schlägt auf NPU fehl (fehlende native Unterstützung)
- CPU-Multithreading-Skalierbarkeit schlecht (maximal 3,4×), zurückzuführen auf asymmetrische Kernarchitektur
- Framework-Konvertierung führt etwa 1% Genauigkeitsverlust ein

Einschränkungen

Einzelne Hardwareplattform: Nur auf Snapdragon 8 Gen 2 getestet, Verallgemeinerbarkeit auf andere SoCs nicht verifiziert
Begrenzte Aufgabenbereiche: Nur Computer Vision (Klassifizierung und Erkennung) abgedeckt, NLP, Sprache und andere KI-Aufgaben nicht berücksichtigt
Fehlende Energieverbrauchsanalyse: Stromverbrauch nicht gemessen, Pareto-Analyse enthält keine Energieeffizienz-Dimension
Softwareversionsabhängigkeit: NPU benötigt alte LiteRT 1.4.0, kann Leistung beeinflussen
Statische Arbeitslasten: Berücksichtigt keine dynamischen Batch-Verarbeitungen, Modellwechsel und andere reale Anwendungsszenarien
Unvollständige INT16-Bewertung: Aufgrund fehlender optimierter LiteRT-Kernel früh ausgeschlossen, unvollständige Analyse

Zukünftige Richtungen

Energieeffizienz-Integration: Vervollständigung der dreidimensionalen Pareto-Analyse mit Energieverbrauch (Genauigkeit-Latenz-Energieeffizienz)
Softwareoptimierung:
- Behebung von NPU-Kompatibilitätsproblemen bei dynamischer Quantisierung
- Beseitigung von Genauitätsverlusten bei Framework-Konvertierung
Aufgabenerweiterung: Untersuchung anderer Aufgaben in MLPerf-Benchmarks (NLP, Bildsegmentierung)
Hardwareverallgemeinerung: Validierung von Schlussfolgerungen auf mehreren mobilen SoCs
Quantisierungsbewusste Trainierung: Erkundung von Trainings-Zeit-Quantisierung zur Reduzierung von INT8-Genauitätsverlusten
Echtzeitanwendungen: Bewertung von Videostream-, Multi-Modell-Concurrent-Szenarien und anderen praktischen Anwendungen

Tiefgreifende Bewertung

Stärken

Strenge Experimentalgestaltung:
- Systematische Konfigurationsraum-Erkundung (3 Hardware × 7 Quantisierungen × 15 Modellvarianten)
- Klare Baselines und Vergleichsdimensionen
- Mehrfache Messungen mit Mittelwertbildung für Zuverlässigkeit
Hoher praktischer Wert:
- Fokus auf kommerzielle Geräte und Industriestandardmodelle
- Bereitstellung umsetzbarer Konfigurationsempfehlungen
- Identifizierung praktischer Bereitstellungsprobleme (z.B. Fehler bei dynamischer Quantisierung)
Tiefgehende Analyse:
- Pareto-Frontier bietet Multi-Objective-Entscheidungsunterstützung
- Quantifizierung von Framework-Konvertierungsverlusten
- Offenlegung von Hardwaremerkmalen (z.B. Auswirkung asymmetrischer Kernarchitektur)
Detaillierte Ergebnisse:
- Umfangreiche quantitative Daten (mehrere Tabellen)
- Klare Visualisierungen (Pareto-Diagramme, Geschwindigkeitsvergleichsdiagramme)
- Trendanalyse über verschiedene Modellgrößen
Methodische Transparenz:
- Detaillierte Hardwarespezifikationen
- Erklärung von Softwareversionen und Konvertierungsprozessen
- Anerkennung von Einschränkungen (z.B. Softwarekompatibilitätsprobleme)

Mängel

Begrenzte Verallgemeinerbarkeit:
- Einzelne Hardwareplattform (Snapdragon 8 Gen 2)
- Anwendbarkeit von Schlussfolgerungen auf andere mobile Chips (z.B. Apple A-Serie, Huawei Kirin) unbekannt
Fehlende Energieverbrauchsanalyse:
- Titel betont "Optimierung", aber Stromverbrauch nicht gemessen
- Für mobile Geräte ist Energieeffizienz genauso wichtig wie Geschwindigkeit
- Pareto-Analyse unvollständig
Statistische Signifikanz:
- Keine Konfidenzintervalle oder Standardabweichungen berichtet
- Fehlende Signifikanztests
- Stichprobengröße für mehrfache Durchläufe nicht klar
Unzureichende Vergleiche:
- Kein Vergleich mit anderen Quantisierungsmethoden (z.B. quantisierungsbewusste Trainierung)
- Kein Vergleich mit anderen Mobile-AI-Frameworks (z.B. NCNN, MNN)
- Fehlender Vergleich mit Cloud-Inferenz-Latenz
Vereinfachte reale Szenarien:
- Einzelbild-Inferenz, keine Batch-Verarbeitung berücksichtigt
- Modellaufwärmung, Cache-Effekte nicht getestet
- Störung durch andere Android-Systemprozesse ignoriert
Schwache theoretische Erklärung:
- Mangelnde Erklärung auf Architekturebene, warum NPU bei INT8 so gut abschneidet
- Unzureichende Analyse der tieferen Ursachen schlechter CPU-Multithreading-Skalierbarkeit
- Keine Latenz-Vorhersagemodelle etabliert

Auswirkungen

Beitrag zum Forschungsgebiet:

Schließung der Lücke in der empirischen Forschung zur Optimierung der KI-Inferenz auf mobilen Geräten
Bereitstellung von Konfigurationswahlrichtlinien für Mobile-Entwickler
Offenlegung tatsächlicher Leistungsmerkmale kommerzieller Hardware

Praktischer Wert:

Direkt anwendbar auf Android-Anwendungsentwicklung
Unterstützung bei Entscheidungen zur Modellbereitstellungsstrategie
Identifizierung von Verbesserungsrichtungen für Software-Frameworks

Reproduzierbarkeit:

Verwendung kommerzieller Geräte und öffentlicher Modelle
Detaillierte Beschreibung des Konvertierungsprozesses
Aber fehlende Code-Open-Source (nicht erwähnt)

Erwartete Auswirkungen:

Mittlere Auswirkungen: Empirische Forschung für spezifische Plattformen
Wertvoll für Mobile-AI-Community
Kann Verbesserungen in LiteRT und anderen Frameworks bei NPU-Unterstützung fördern

Anwendbare Szenarien

Am besten geeignet für:

Android-Anwendungsentwicklung: Entwickler, die ResNet oder YOLO auf Geräten bereitstellen müssen
Modellauswahl: Entscheidungsunterstützung bei Kompromiss zwischen Genauigkeit und Latenz
Hardwarebewertung: Bewertung der KI-Leistung von Snapdragon 8 Gen 2
Quantisierungsstrategie-Auswahl: Auswahl von Quantisierungsschemas basierend auf Aufgabentyp

Nicht geeignet für:

Andere mobile Plattformen: iOS, andere Android-SoCs benötigen Neubewertung
Nicht-Vision-Aufgaben: NLP, Sprache usw. benötigen zusätzliche Forschung
Cloud-Bereitstellung: Hardwaremerkmale völlig unterschiedlich
Echtzeit-Video: Kontinuierliche Frame-Verarbeitung nicht berücksichtigt

Erweiterungsrichtungen:

Kombination von Erkenntnissen dieser Arbeit für Energieoptimierung
Als Input für AutoML-Hardware-bewusste Suche
Anleitung für Edge-AI-Chip-Design

Referenzen

Schlüsselzitate:

MLPerf-Benchmark: Reddi et al. (2020) - "MLPerf inference benchmark", definiert die in dieser Arbeit verwendeten Bewertungsprinzipien
Energieverbrauchsforschung:
- Google-Umweltbericht (2023): KI macht 10-15% des Energieverbrauchs aus
- Meta-Nachhaltigkeitsbericht (2023): Inferenz macht 70% des KI-Energieverbrauchs aus
ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", ILSVRC 2015 Champion
YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Gesamtbewertung: Dies ist eine solide empirische Forschungsarbeit, die wertvolle Konfigurationsrichtlinien für die Optimierung der KI-Inferenz auf mobilen Geräten bietet. Die Hauptstärken liegen in der systematischen Experimentalgestaltung und detaillierten quantitativen Ergebnissen, die klar die Vorteile der NPU und aufgabenspezifische Quantisierungsstrategien offenlegen. Die Hauptmängel sind die begrenzte Verallgemeinerbarkeit auf eine einzelne Hardwareplattform und die fehlende Energieverbrauchsanalyse. Für Android-Mobile-Entwickler und Edge-AI-Forscher hat sie hohen Referenzwert, aber Schlussfolgerungen müssen auf breiterer Hardware und Aufgabenbasis validiert werden. Empfohlen wird, dass zukünftige Arbeiten Energieverbrauchsmessungen ergänzen, auf andere Plattformen und Aufgaben erweitern und experimentellen Code open-sourcen, um die Reproduzierbarkeit zu verbessern.