2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, Sánchez
The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
academic

Hardwareoptimierung auf Android für die Inferenz von KI-Modellen

Grundinformationen

  • Paper-ID: 2511.13453
  • Titel: Hardware optimization on Android for inference of AI models
  • Autoren: Iulius Gherasim, Carlos García Sánchez (Complutense University of Madrid)
  • Klassifizierung: cs.LG (Machine Learning), cs.PF (Performance)
  • Veröffentlichungsdatum: 17. November 2025 (arXiv-Einreichung)
  • Paper-Link: https://arxiv.org/abs/2511.13453

Zusammenfassung

Diese Arbeit untersucht die Hardwareoptimierung für die Inferenz von KI-Modellen auf Android-Systemen. Angesichts der weit verbreiteten Integration von KI-Modellen in der mobilen Datenverarbeitung (von virtuellen Assistenten bis zur fortgeschrittenen Bildverarbeitung) konzentrieren sich die Forscher auf zwei Schlüsselaufgaben: Objekterkennung (YOLO-Serie) und Bildklassifizierung (ResNet). Durch die Bewertung verschiedener Modellquantisierungsschemas und die Nutzung von Gerätebeschleunigern (GPU und NPU) besteht das Kernziel dieser Arbeit darin, empirisch die optimale Konfigurationskombination zu bestimmen, die die beste Balance zwischen minimalem Genauigkeitsverlust und maximaler Inferenzbeschleunigung erreicht.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Mit der weit verbreiteten Anwendung von KI-Modellen auf mobilen Geräten wird es zur Schlüsselherausforderung, wie man unter Gewährleistung der Modellgenauigkeit eine Inferenz mit niedriger Latenz und hoher Reaktionsfähigkeit erreicht. Dies umfasst konkret:

  • Wie man die heterogene Hardwarearchitektur mobiler Geräte (CPU, GPU, NPU) vollständig nutzt
  • Wie man ein geeignetes Modellquantisierungsschema auswählt, um Genauigkeit und Geschwindigkeit auszugleichen
  • Wie man die Ausführungskonfiguration für verschiedene KI-Aufgaben (Klassifizierung vs. Erkennung) optimiert

2. Bedeutung des Problems

  • Energieverbrauch: Google schätzt, dass zwischen 2019 und 2021 KI-bezogene Aufgaben 10-15% des Gesamtenergieverbrauchs ausmachten, wobei die Inferenzphase 60% der Energie verbrauchte; Meta berichtet, dass Inferenz 70% des KI-Energieverbrauchs ausmacht
  • Wachstumstrend: Googles Energieverbrauch wächst jährlich um 21%, Meta sogar um 32%
  • Benutzererfahrung: Mobile KI-Leistung ist zum Kernunterscheidungsmerkmal geworden und muss strenge Anforderungen an Echtzeit und Genauigkeit erfüllen

3. Einschränkungen bestehender Methoden

  • Frühe Lösungen stützten sich hauptsächlich auf GPU-Offloading, nutzten aber spezialisierte NPU-Beschleuniger nicht vollständig
  • Es fehlt eine systematische Optimierungsforschung für heterogene Architekturen auf mobilen Geräten
  • Die Auswahl von Quantisierungsschemas mangelt es an empirischer Anleitung für verschiedene Aufgaben und Hardware

4. Forschungsmotivation

  • Anwendung von MLPerf-Benchmark-Prinzipien zur systematischen Bewertung der Leistung auf kommerziellen Android-Geräten
  • Auswahl von Industriestandardmodellen (ResNet für Klassifizierung, YOLO für Erkennung) als repräsentative Bewertung
  • Schließung der Lücke in der empirischen Forschung zur Optimierung der KI-Inferenz auf mobilen Geräten

Kernbeiträge

  1. Systematische Hardwarebewertung: Erste systematische Bewertung der Leistung von CPU, GPU und NPU bei KI-Inferenzaufgaben auf kommerziellen Android-Geräten (Samsung Galaxy Tab S9)
  2. Quantisierungsschema-Analyse: Umfassender Vergleich von 7 Quantisierungsschemas (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) auf verschiedener Hardware hinsichtlich Genauigkeits-Geschwindigkeits-Kompromiss
  3. Aufgabenspezifische Optimierungsempfehlungen:
    • Für ResNet-Klassifizierungsaufgaben: NPU + INT8-Quantisierung erreicht 130× Beschleunigung mit <3% Genauigkeitsverlust
    • Für YOLO-Erkennungsaufgaben: NPU + FP16-Quantisierung ist optimal und vermeidet den 6,5 mAP-Genauigkeitsverlust durch INT8
  4. Pareto-Frontier-Analyse: Bietet eine Multi-Objective-Optimierungsperspektive und identifiziert optimale Kompromisse zwischen Genauigkeit und Latenz
  5. Praktische Erkenntnisse:
    • NPU zeigt in allen Konfigurationen die beste Leistung mit bis zu 298× Beschleunigung (YOLOv8x)
    • Dynamische Quantisierung schlägt auf NPU fehl und offenbart Hardwarekompatibilitätsprobleme
    • CPU-Multithreading-Skalierbarkeit ist begrenzt (maximal 3,4×), zurückzuführen auf asymmetrische Kernarchitektur

Methodische Details

Aufgabendefinition

Diese Forschung konzentriert sich auf zwei zentrale Computer-Vision-Aufgaben:

  1. Bildklassifizierung: Eingabe eines einzelnen Bildes, Ausgabe von Klassenlabel und Konfidenz (mit ResNet-Serie)
  2. Objekterkennung: Eingabe eines einzelnen Bildes, Ausgabe mehrerer Begrenzungsrahmen, Klassen und Konfidenzen (mit YOLO-Serie)

Das Ziel besteht darin, die optimale Kombination von Hardwarekonfiguration und Quantisierungsschema auf mobilen Android-Geräten zu finden.

Experimentelle Architektur

Hardwareplattform

Gerät: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): 8-Kern big.LITTLE-Konfiguration

  • 3 kleine Kerne: ARM Cortex-A510 @ 2,0 GHz
  • 4 mittlere Kerne: 2×Cortex-A710 + 2×Cortex-A715 @ 2,8 GHz
  • 1 großer Kern: Cortex-X3 @ 3,36 GHz

GPU: Qualcomm Adreno 740

  • 12 Shader-Verarbeitungseinheiten @ 719 MHz
  • Unterstützt FP32- und FP16-Präzisionsausführung

NPU (Hexagon Processor):

  • Spezialisierte Tensor-, Skalar- und Vektorberechnungseinheiten
  • Gemeinsame interne Speicherarchitektur
  • Unterstützt Micro Tile Inferencing-Technologie (Modellschichten partitionieren und parallel ausführen)

Softwareumgebung

Framework: LiteRT (Rebranding von TensorFlow Lite)

  • CPU/GPU: LiteRT Next 2.0.2
  • NPU: LiteRT 1.4.0 (aufgrund von NPU-Pipeline-Problemen in Version 2.0.2)

Modellkonvertierungsprozess:

PyTorch-Modell → ONNX-Format → TFLite-Format
  • Verwendung von PyTorch-integrierten Exportwerkzeugen zur ONNX-Generierung
  • Verwendung des onnx2tf-Pakets von Katsuya Hyodo zur TFLite-Konvertierung
  • Quantisierung wird während der onnx2tf-Konvertierungsphase durchgeführt

Quantisierungsschema-Details

Diese Forschung bewertet 7 Quantisierungskonfigurationen (siehe Tabelle II):

Schema-NameE/A-DatentypOperationspräzisionAktivierungenGewichte
FP32FP32FP32FP32FP32
FP16FP32FP32FP32FP16
INT8FP32INT8INT8INT8
INT16FP32INT8INT16INT16
FINT8INT8INT8INT8INT8
FINT16INT16INT8INT16INT16
DYNFP32GemischtFP32Gemischt

Schlüsseltechnische Punkte:

  1. Statische Quantisierung: Gewichte werden offline in den Zieldatentyp (z.B. INT8) konvertiert und fest gespeichert
  2. Dynamische Quantisierung (DYN): Gewichte werden als 8-Bit gespeichert, aber Aktivierungswerte werden erst zur Laufzeit quantisiert, was Laufzeit-Overhead einführt, aber bessere Genauigkeit bewahrt
  3. INT16-Einschränkung: LiteRT mangelt es an optimierten INT16-Kernel-Implementierungen, was zu extrem schlechter Leistung führt

Technische Innovationspunkte

  1. Hybrid-Framework-Ansatz: Angesichts von Softwarekompatibilitätsbeschränkungen wird ein Hybrid-Ansatz mit LiteRT Next (CPU/GPU) und Standard-LiteRT (NPU) verwendet, um eine umfassende Bewertung zu gewährleisten
  2. Systematische Konfigurationsraum-Erkundung:
    • 3 Hardware × 7 Quantisierungen × mehrere Modellgrößen
    • Umfasst 5 ResNet-Varianten (18/34/50/101/152)
    • Umfasst 5 YOLOv8-Varianten (n/s/m/l/x)
    • Umfasst 5 YOLO11-Varianten (n/s/m/l/x)
  3. Pareto-Optimierungsperspektive: Nicht nach einer einzelnen Optimallösung strebend, sondern Bereitstellung der Pareto-Frontier für Genauigkeits-Latenz-Kompromisse zur Unterstützung von Multi-Objective-Entscheidungen
  4. Quantifizierung von Framework-Konvertierungsverlusten: Explizite Messung des Genauigkeitsverlusts durch PyTorch-zu-LiteRT-Konvertierung (ResNet: 0,83-1,77%; YOLO11: 0,2-0,4 mAP)

Experimentelle Einrichtung

Datensätze

  • ResNet-Klassifizierung: Verwendung des Standard-ImageNet-Validierungssatzes
  • YOLO-Erkennung: Verwendung des COCO-Validierungssatzes

Bewertungsmetriken

  1. Inferenzlatenz: Durchschnittliche Inferenzzeit (Millisekunden)
  2. Beschleunigungsverhältnis: Geschwindigkeitssteigerung relativ zur FP32-CPU-Single-Thread-Baseline
  3. Klassifizierungsgenauigkeit: Top-1-Genauigkeit (ResNet)
  4. Erkennungsgenauigkeit: Mean Average Precision (mAP) @ IoU=0,5:0,95 (YOLO)
  5. Genauigkeitsverlust: Genauigkeitsabfall relativ zur FP32-Baseline in Prozent

Vergleichskonfigurationen

Ausführungsgeräte:

  • CPU-SC: CPU Single-Thread
  • CPU-MC: CPU Multi-Thread (8 Kerne)
  • GPU32: GPU FP32-Modus
  • GPU16: GPU FP16-Modus
  • NPU: Neural Processing Unit

Quantisierungsschemas: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Implementierungsdetails

  • Entwicklung einer benutzerdefinierten Android-Anwendung zur Modellausführung und Ergebniserfassung
  • Mehrfache Ausführung jeder Konfiguration mit Mittelwertbildung
  • Verwendung von pycocotools zur mAP-Berechnung
  • Verwendung der Standard-Top-1-Berechnungsmethode zur Bewertung der Klassifizierungsgenauigkeit

Experimentelle Ergebnisse

Hauptergebnisse

ResNet-Leistung

ResNet18-Inferenzzeit (Millisekunden):

KonfigurationCPU-SCCPU-MCGPU32GPU16NPU
FP3279,0626,3413,685,541,20
INT823,265,6321,7722,680,61

Schlüsselergebnisse:

  • NPU erreicht 65,9× Beschleunigung bei FP32, 129,6× Beschleunigung bei INT8
  • INT16-Quantisierung zeigt extrem schlechte Leistung (>800ms), wurde aus weiterer Analyse ausgeschlossen
  • FINT8-Quantisierung zeigt katastrophalen Genauigkeitsverlust auf 0,08% Top-1, wurde ebenfalls ausgeschlossen

ResNet50-Leistungsanalyse:

  • NPU + INT8: 121,5× Beschleunigung, Genauigkeitsverlust nur 0,41%
  • GPU16-Modus bietet gegenüber GPU32 etwa 2× Beschleunigung
  • CPU-Multithreading erreicht maximal 3,4× Beschleunigung (INT8), deutlich unter dem theoretischen 8×

Quantisierungsauswirkungen (Tabelle X):

ModellINT8-GenauigkeitsverlustDYN-Genauigkeitsverlust
ResNet182,94%0,10%
ResNet500,41%0,19%
ResNet1520,20%0,07%

Trend: Größere Modelle sind robuster gegenüber INT8-Quantisierung, mit Genauigkeitsverlust von 2,94% auf 0,20%

YOLO-Leistung

YOLOv8n-Inferenzzeit-Vergleich:

  • NPU zeigt beste Leistung
  • FP32: 29× Beschleunigung
  • INT8: 46,8× Beschleunigung
  • Latenz höher als ResNet (höhere Aufgabenkomplexität)

YOLOv8-Genauigkeitsverlust (Tabelle XII):

ModellINT8-Verlust (mAP)DYN-Verlust (mAP)
YOLOv8n6,50,1
YOLOv8s6,20,0
YOLOv8x6,10,1

Schlüsseleinsichten:

  • INT8 schadet Erkennungsaufgaben erheblich (durchschnittlich 6,5 mAP-Verlust)
  • Dynamische Quantisierung ist nahezu verlustfrei (≤0,1 mAP)
  • Erkennungsaufgaben benötigen mehr Informationen (Lokalisierung + Klassifizierung) und sind empfindlicher gegenüber Quantisierung

YOLO11 vs. YOLOv8:

  • YOLO11 hat höhere Genauigkeit bei kleinen Modellen
  • NPU-Ausführung etwas langsamer (komplexere Architektur)
  • Dynamische Quantisierung schlägt auf NPU vollständig fehl
  • INT8-Verlust leicht erhöht auf durchschnittlich 7,2 mAP

Ablationsstudien

CPU-Multithreading-Skalierbarkeit (Tabelle XV)

ModellFP32FP16INT8DYN
ResNet183,0×3,0×14,0×10,6×
ResNet502,0×2,0×9,5×7,2×
YOLOv8x2,7×2,1×13,4×10,1×

Analyse:

  • INT8 bietet beste Multi-Thread-Beschleunigung
  • Gleitkomma-Präzision hat schlechte Skalierbarkeit (2-3×)
  • Asymmetrische Kernarchitektur begrenzt Paralleleffizienz

GPU-Präzisionsmodus-Auswirkungen (Tabelle VIII)

GPU32 vs. GPU16 auf ResNet50:

  • Quantisierungsschema hat minimale Auswirkung auf GPU-Geschwindigkeit
  • GPU16-Modus bietet stabile 2× Beschleunigung
  • Größere Modelle zeigen größere Vorteile im GPU16-Modus

NPU-Dynamische-Quantisierung-Fehleranalyse

  • Dynamische Quantisierungsmodelle enthalten Schichten mit gemischter Präzision
  • NPU mangelt es an Unterstützung für Laufzeit-Datentypkonvertierung
  • Erfordert häufige NPU-CPU-Datenübertragungen
  • Führt zu schwerwiegender Leistungsverschlechterung (ResNet50: nur 2,3× Beschleunigung vs. 121,5× bei INT8)

Pareto-Frontier-Analyse

ResNet-Pareto-Frontier (Abbildung 6):

  • INT8-Konfigurationen dominieren die Frontier: Latenz deutlich reduziert, Genauigkeitsverlust akzeptabel
  • Optimale Konfiguration: NPU + INT8, anwendbar auf alle ResNet-Größen
  • FP16 auf GPU bietet Genauigkeits-Geschwindigkeits-Kompromiss

YOLO-Pareto-Frontier (Abbildung 7):

  • FP16-Konfigurationen dominieren die Frontier: INT8-Genauigkeitsverlust zu groß
  • Optimale Konfiguration: NPU + FP16
  • YOLO11s zeigt hervorragende Leistung bei kleinen Modellen
  • Unterschiede zwischen YOLOv8 und YOLO11 bei großen Modellen (l/x) verringern sich

Zusammenfassung der experimentellen Erkenntnisse

  1. NPU-Absolutvorteil: NPU bietet in allen Szenarien beste Leistung mit bis zu 298× Beschleunigung (YOLOv8x + INT8)
  2. Aufgabenspezifische Quantisierungsstrategien:
    • Klassifizierungsaufgaben (ResNet): INT8 optimal
    • Erkennungsaufgaben (YOLO): FP16 optimal
  3. Hardwaremerkmale:
    • GPU: Quantisierung hat minimale Auswirkung, FP16-Modus ist entscheidend
    • CPU: Multithreading-Skalierbarkeit begrenzt, INT8 bietet beste Parallelität
    • NPU: Unterstützt keine dynamische Quantisierung, benötigt statische Optimierung
  4. Modellgrößen-Effekt:
    • Größere Modelle sind robuster gegenüber Quantisierung
    • GPU zeigt höhere Beschleunigungsverhältnisse bei großen Modellen (YOLOv8x: 39×)
  5. Framework-Konvertierungsverlust: Nicht zu vernachlässigender Genauigkeitsverlust (1-2%), muss in Optimierung berücksichtigt werden

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. MLPerf-Benchmark-Tests: Diese Arbeit wendet MLPerf-Prinzipien zur Bewertung von ML-Inferenzsystemen an, von eingebetteten Geräten bis zu Rechenzentren, und ermöglicht softwarerahmen- und architektur-neutrale Bewertungen
  2. Evolution von Mobile-AI-Frameworks:
    • PyTorch, ONNX, TensorFlow: Universelle KI-Entwicklungsframeworks
    • TensorFlow Lite → LiteRT: Leichtgewichtige Laufzeit für mobile Geräte
    • LiteRT Next: Native Unterstützung für Beschleuniger-Offloading
  3. Heterogene Computerprinzipien:
    • Edge-to-Cloud-Modell: Lokale Kantenverarbeitung optimiert Latenz, komplexe Aufgaben werden in die Cloud ausgelagert
    • DSA (Domain-Specific Architecture): NPU als spezialisierter Tensor-Berechnungsbeschleuniger
  4. Quantisierungstechniken:
    • Trainingspost-Quantisierung (in dieser Arbeit verwendet)
    • Quantisierungsbewusste Trainierung
    • Gemischte Präzisionsstrategie

Relative Vorteile dieser Arbeit

  1. Systematische Bewertung: Erste umfassende Bewertung von CPU/GPU/NPU auf kommerziellen Android-Geräten
  2. Empirische Anleitung: Bereitstellung spezifischer Konfigurationsempfehlungen für verschiedene Aufgaben statt theoretischer Analyse
  3. Pareto-Perspektive: Multi-Objective-Optimierungsmethode, offenbart Genauigkeits-Geschwindigkeits-Kompromissraum
  4. Problementdeckung: Identifizierung von Kompatibilitätsproblemen bei dynamischer Quantisierung auf NPU, CPU-Skalierungsproblemen und anderen praktischen Bereitstellungsproblemen
  5. Industrielle Relevanz: Auswahl von MLPerf-Standardmodellen, Ergebnisse direkt auf Produktionsumgebungen anwendbar

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. NPU ist das beste Ausführungsgerät: Erreicht bis zu 120× Beschleunigung gegenüber CPU-Single-Core-Baseline und bestätigt seine Schlüsselrolle in Low-Latency-Edge-AI
  2. Optimale Quantisierung ist ein Kompromiss:
    • ResNet: INT8 optimal, Geschwindigkeitsgewinn auf NPU überwiegt Genauigkeitsverlust
    • YOLO: FP16 optimal, INT8-Genauigkeitsverlust (6,5 mAP) nicht akzeptabel
    • GPU: Quantisierung hat minimale Geschwindigkeitsauswirkung, FP16 balanciert Genauigkeit und Geschwindigkeit
  3. Modellleistung und Skalierbarkeit:
    • YOLO11s zeigt hervorragende Leistung auf Pareto-Frontier, bietet beste Geschwindigkeits-/Genauigkeits-Kompromisse bei FP16-Quantisierung
    • YOLO11 hat höhere Genauigkeit bei kleinen Modellen als YOLOv8, aber leicht erhöhte Komplexität
  4. Systemlimitierungen identifiziert:
    • Dynamische Quantisierung schlägt auf NPU fehl (fehlende native Unterstützung)
    • CPU-Multithreading-Skalierbarkeit schlecht (maximal 3,4×), zurückzuführen auf asymmetrische Kernarchitektur
    • Framework-Konvertierung führt etwa 1% Genauigkeitsverlust ein

Einschränkungen

  1. Einzelne Hardwareplattform: Nur auf Snapdragon 8 Gen 2 getestet, Verallgemeinerbarkeit auf andere SoCs nicht verifiziert
  2. Begrenzte Aufgabenbereiche: Nur Computer Vision (Klassifizierung und Erkennung) abgedeckt, NLP, Sprache und andere KI-Aufgaben nicht berücksichtigt
  3. Fehlende Energieverbrauchsanalyse: Stromverbrauch nicht gemessen, Pareto-Analyse enthält keine Energieeffizienz-Dimension
  4. Softwareversionsabhängigkeit: NPU benötigt alte LiteRT 1.4.0, kann Leistung beeinflussen
  5. Statische Arbeitslasten: Berücksichtigt keine dynamischen Batch-Verarbeitungen, Modellwechsel und andere reale Anwendungsszenarien
  6. Unvollständige INT16-Bewertung: Aufgrund fehlender optimierter LiteRT-Kernel früh ausgeschlossen, unvollständige Analyse

Zukünftige Richtungen

  1. Energieeffizienz-Integration: Vervollständigung der dreidimensionalen Pareto-Analyse mit Energieverbrauch (Genauigkeit-Latenz-Energieeffizienz)
  2. Softwareoptimierung:
    • Behebung von NPU-Kompatibilitätsproblemen bei dynamischer Quantisierung
    • Beseitigung von Genauitätsverlusten bei Framework-Konvertierung
  3. Aufgabenerweiterung: Untersuchung anderer Aufgaben in MLPerf-Benchmarks (NLP, Bildsegmentierung)
  4. Hardwareverallgemeinerung: Validierung von Schlussfolgerungen auf mehreren mobilen SoCs
  5. Quantisierungsbewusste Trainierung: Erkundung von Trainings-Zeit-Quantisierung zur Reduzierung von INT8-Genauitätsverlusten
  6. Echtzeitanwendungen: Bewertung von Videostream-, Multi-Modell-Concurrent-Szenarien und anderen praktischen Anwendungen

Tiefgreifende Bewertung

Stärken

  1. Strenge Experimentalgestaltung:
    • Systematische Konfigurationsraum-Erkundung (3 Hardware × 7 Quantisierungen × 15 Modellvarianten)
    • Klare Baselines und Vergleichsdimensionen
    • Mehrfache Messungen mit Mittelwertbildung für Zuverlässigkeit
  2. Hoher praktischer Wert:
    • Fokus auf kommerzielle Geräte und Industriestandardmodelle
    • Bereitstellung umsetzbarer Konfigurationsempfehlungen
    • Identifizierung praktischer Bereitstellungsprobleme (z.B. Fehler bei dynamischer Quantisierung)
  3. Tiefgehende Analyse:
    • Pareto-Frontier bietet Multi-Objective-Entscheidungsunterstützung
    • Quantifizierung von Framework-Konvertierungsverlusten
    • Offenlegung von Hardwaremerkmalen (z.B. Auswirkung asymmetrischer Kernarchitektur)
  4. Detaillierte Ergebnisse:
    • Umfangreiche quantitative Daten (mehrere Tabellen)
    • Klare Visualisierungen (Pareto-Diagramme, Geschwindigkeitsvergleichsdiagramme)
    • Trendanalyse über verschiedene Modellgrößen
  5. Methodische Transparenz:
    • Detaillierte Hardwarespezifikationen
    • Erklärung von Softwareversionen und Konvertierungsprozessen
    • Anerkennung von Einschränkungen (z.B. Softwarekompatibilitätsprobleme)

Mängel

  1. Begrenzte Verallgemeinerbarkeit:
    • Einzelne Hardwareplattform (Snapdragon 8 Gen 2)
    • Anwendbarkeit von Schlussfolgerungen auf andere mobile Chips (z.B. Apple A-Serie, Huawei Kirin) unbekannt
  2. Fehlende Energieverbrauchsanalyse:
    • Titel betont "Optimierung", aber Stromverbrauch nicht gemessen
    • Für mobile Geräte ist Energieeffizienz genauso wichtig wie Geschwindigkeit
    • Pareto-Analyse unvollständig
  3. Statistische Signifikanz:
    • Keine Konfidenzintervalle oder Standardabweichungen berichtet
    • Fehlende Signifikanztests
    • Stichprobengröße für mehrfache Durchläufe nicht klar
  4. Unzureichende Vergleiche:
    • Kein Vergleich mit anderen Quantisierungsmethoden (z.B. quantisierungsbewusste Trainierung)
    • Kein Vergleich mit anderen Mobile-AI-Frameworks (z.B. NCNN, MNN)
    • Fehlender Vergleich mit Cloud-Inferenz-Latenz
  5. Vereinfachte reale Szenarien:
    • Einzelbild-Inferenz, keine Batch-Verarbeitung berücksichtigt
    • Modellaufwärmung, Cache-Effekte nicht getestet
    • Störung durch andere Android-Systemprozesse ignoriert
  6. Schwache theoretische Erklärung:
    • Mangelnde Erklärung auf Architekturebene, warum NPU bei INT8 so gut abschneidet
    • Unzureichende Analyse der tieferen Ursachen schlechter CPU-Multithreading-Skalierbarkeit
    • Keine Latenz-Vorhersagemodelle etabliert

Auswirkungen

Beitrag zum Forschungsgebiet:

  • Schließung der Lücke in der empirischen Forschung zur Optimierung der KI-Inferenz auf mobilen Geräten
  • Bereitstellung von Konfigurationswahlrichtlinien für Mobile-Entwickler
  • Offenlegung tatsächlicher Leistungsmerkmale kommerzieller Hardware

Praktischer Wert:

  • Direkt anwendbar auf Android-Anwendungsentwicklung
  • Unterstützung bei Entscheidungen zur Modellbereitstellungsstrategie
  • Identifizierung von Verbesserungsrichtungen für Software-Frameworks

Reproduzierbarkeit:

  • Verwendung kommerzieller Geräte und öffentlicher Modelle
  • Detaillierte Beschreibung des Konvertierungsprozesses
  • Aber fehlende Code-Open-Source (nicht erwähnt)

Erwartete Auswirkungen:

  • Mittlere Auswirkungen: Empirische Forschung für spezifische Plattformen
  • Wertvoll für Mobile-AI-Community
  • Kann Verbesserungen in LiteRT und anderen Frameworks bei NPU-Unterstützung fördern

Anwendbare Szenarien

Am besten geeignet für:

  1. Android-Anwendungsentwicklung: Entwickler, die ResNet oder YOLO auf Geräten bereitstellen müssen
  2. Modellauswahl: Entscheidungsunterstützung bei Kompromiss zwischen Genauigkeit und Latenz
  3. Hardwarebewertung: Bewertung der KI-Leistung von Snapdragon 8 Gen 2
  4. Quantisierungsstrategie-Auswahl: Auswahl von Quantisierungsschemas basierend auf Aufgabentyp

Nicht geeignet für:

  1. Andere mobile Plattformen: iOS, andere Android-SoCs benötigen Neubewertung
  2. Nicht-Vision-Aufgaben: NLP, Sprache usw. benötigen zusätzliche Forschung
  3. Cloud-Bereitstellung: Hardwaremerkmale völlig unterschiedlich
  4. Echtzeit-Video: Kontinuierliche Frame-Verarbeitung nicht berücksichtigt

Erweiterungsrichtungen:

  • Kombination von Erkenntnissen dieser Arbeit für Energieoptimierung
  • Als Input für AutoML-Hardware-bewusste Suche
  • Anleitung für Edge-AI-Chip-Design

Referenzen

Schlüsselzitate:

  1. MLPerf-Benchmark: Reddi et al. (2020) - "MLPerf inference benchmark", definiert die in dieser Arbeit verwendeten Bewertungsprinzipien
  2. Energieverbrauchsforschung:
    • Google-Umweltbericht (2023): KI macht 10-15% des Energieverbrauchs aus
    • Meta-Nachhaltigkeitsbericht (2023): Inferenz macht 70% des KI-Energieverbrauchs aus
  3. ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", ILSVRC 2015 Champion
  4. YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
  5. Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Gesamtbewertung: Dies ist eine solide empirische Forschungsarbeit, die wertvolle Konfigurationsrichtlinien für die Optimierung der KI-Inferenz auf mobilen Geräten bietet. Die Hauptstärken liegen in der systematischen Experimentalgestaltung und detaillierten quantitativen Ergebnissen, die klar die Vorteile der NPU und aufgabenspezifische Quantisierungsstrategien offenlegen. Die Hauptmängel sind die begrenzte Verallgemeinerbarkeit auf eine einzelne Hardwareplattform und die fehlende Energieverbrauchsanalyse. Für Android-Mobile-Entwickler und Edge-AI-Forscher hat sie hohen Referenzwert, aber Schlussfolgerungen müssen auf breiterer Hardware und Aufgabenbasis validiert werden. Empfohlen wird, dass zukünftige Arbeiten Energieverbrauchsmessungen ergänzen, auf andere Plattformen und Aufgaben erweitern und experimentellen Code open-sourcen, um die Reproduzierbarkeit zu verbessern.