2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, SÃ¡nchez

The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.

academic

Ottimizzazione hardware su Android per l'inferenza di modelli AI

Informazioni Fondamentali

ID Articolo: 2511.13453
Titolo: Hardware optimization on Android for inference of AI models
Autori: Iulius Gherasim, Carlos García Sánchez (Università Complutense di Madrid)
Classificazione: cs.LG (Machine Learning), cs.PF (Performance)
Data di Pubblicazione: 17 novembre 2025 (sottomissione arXiv)
Link Articolo: https://arxiv.org/abs/2511.13453

Riassunto

Questo articolo affronta il problema dell'ottimizzazione hardware per l'inferenza di modelli AI su sistemi Android. Data la diffusa integrazione di modelli AI nel calcolo mobile (dagli assistenti virtuali all'elaborazione avanzata di immagini), i ricercatori si concentrano su due compiti fondamentali: rilevamento di oggetti (serie YOLO) e classificazione di immagini (ResNet). Attraverso la valutazione di diversi schemi di quantizzazione del modello e l'utilizzo di acceleratori hardware (GPU e NPU), l'obiettivo principale di questo articolo è determinare empiricamente le combinazioni di configurazione che raggiungono il miglior compromesso tra perdita di precisione minima e accelerazione massima dell'inferenza.

Contesto di Ricerca e Motivazione

1. Problema da Risolvere

Con la diffusa applicazione di modelli AI su dispositivi mobili, come realizzare un'inferenza a bassa latenza e altamente responsiva mantenendo la precisione del modello rappresenta una sfida critica. Nello specifico:

Come sfruttare pienamente l'architettura hardware eterogenea dei dispositivi mobili (CPU, GPU, NPU)
Come selezionare schemi di quantizzazione appropriati per bilanciare precisione e velocità
Come ottimizzare le configurazioni di esecuzione per diversi compiti AI (classificazione vs. rilevamento)

2. Importanza del Problema

Consumo Energetico: Google stima che i compiti correlati all'AI rappresentino il 10-15% del consumo energetico totale nel periodo 2019-2021, con la fase di inferenza che consuma il 60% dell'energia; Meta riporta che l'inferenza rappresenta il 70% del consumo energetico dell'AI
Tendenza di Crescita: La crescita annuale del consumo energetico di Google è del 21%, mentre Meta raggiunge il 32%
Esperienza Utente: Le prestazioni dell'AI mobile sono diventate un fattore di differenziazione fondamentale, richiedendo il soddisfacimento di rigorosi requisiti di tempo reale e precisione

3. Limitazioni degli Approcci Esistenti

Le soluzioni iniziali si basavano principalmente sull'offloading su GPU, ma non sfruttavano pienamente gli acceleratori NPU specializzati
Mancanza di ricerca sistematica sull'ottimizzazione per l'architettura eterogenea dei dispositivi mobili
La scelta dello schema di quantizzazione manca di guida empirica per diversi compiti e hardware

4. Motivazione della Ricerca

Adottare i principi del benchmark MLPerf per valutare sistematicamente le prestazioni su dispositivi Android commerciali
Selezionare modelli standard industriali (ResNet per la classificazione, YOLO per il rilevamento) come valutazione rappresentativa
Colmare il vuoto nella ricerca empirica sull'ottimizzazione dell'inferenza AI mobile

Contributi Principali

Valutazione Hardware Sistematica: Prima valutazione sistematica su dispositivo Android commerciale (Samsung Galaxy Tab S9) delle prestazioni di tre unità di calcolo (CPU, GPU, NPU) nei compiti di inferenza AI
Analisi degli Schemi di Quantizzazione: Confronto completo di 7 schemi di quantizzazione (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) nei compromessi precisione-velocità su diversi hardware
Raccomandazioni di Ottimizzazione Specifiche per Compito:
- Per compiti di classificazione ResNet: NPU + quantizzazione INT8 realizza accelerazione 130×, con perdita di precisione <3%
- Per compiti di rilevamento YOLO: NPU + quantizzazione FP16 è ottimale, evitando la perdita di precisione di 6.5 mAP con INT8
Analisi della Frontiera di Pareto: Fornisce prospettiva di ottimizzazione multi-obiettivo, chiarendo i punti di compromesso ottimale di diverse configurazioni nello spazio precisione-latenza
Scoperte Pratiche:
- NPU mostra prestazioni ottimali in tutte le configurazioni, con accelerazione massima di 298× (YOLOv8x)
- La quantizzazione dinamica fallisce su NPU, rivelando problemi di compatibilità hardware
- L'estensibilità multi-thread della CPU è limitata (massimo 3.4×), attribuita all'architettura asimmetrica dei core

Dettagli Metodologici

Definizione del Compito

Questa ricerca si concentra su due compiti fondamentali di visione artificiale:

Classificazione di Immagini: Input di una singola immagine, output di etichetta di classe e confidenza (utilizzando serie ResNet)
Rilevamento di Oggetti: Input di una singola immagine, output di più riquadri di delimitazione, classi e confidenza (utilizzando serie YOLO)

L'obiettivo è trovare la combinazione ottimale di configurazione hardware e schema di quantizzazione su dispositivi mobili Android.

Architettura Sperimentale

Piattaforma Hardware

Dispositivo: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): Configurazione big.LITTLE a 8 core

3 core piccoli: ARM Cortex-A510 @ 2.0 GHz
4 core medi: 2×Cortex-A710 + 2×Cortex-A715 @ 2.8 GHz
1 core grande: Cortex-X3 @ 3.36 GHz

GPU: Qualcomm Adreno 740

12 unità di elaborazione shader @ 719 MHz
Supporta esecuzione in precisione FP32 e FP16

NPU (Processore Hexagon):

Unità di calcolo specializzate per tensori, scalari e vettori
Architettura di memoria interna condivisa
Supporta tecnologia Micro Tile Inferencing (partizionamento e esecuzione parallela dei layer del modello)

Ambiente Software

Framework: LiteRT (rebranding di TensorFlow Lite)

CPU/GPU: LiteRT Next 2.0.2
NPU: LiteRT 1.4.0 (a causa di problemi nella pipeline NPU della versione 2.0.2)

Flusso di Conversione del Modello:

Modello PyTorch → Formato ONNX → Formato TFLite

Utilizzo dello strumento di esportazione integrato di PyTorch per generare ONNX
Utilizzo del pacchetto onnx2tf di Katsuya Hyodo per la conversione a TFLite
Quantizzazione completata durante la fase di conversione onnx2tf

Dettagli degli Schemi di Quantizzazione

Questo studio valuta 7 configurazioni di quantizzazione (vedere Tabella II):

Nome Schema	Tipo Dati I/O	Precisione Operazione	Valori Attivazione	Pesi
FP32	FP32	FP32	FP32	FP32
FP16	FP32	FP32	FP32	FP16
INT8	FP32	INT8	INT8	INT8
INT16	FP32	INT8	INT16	INT16
FINT8	INT8	INT8	INT8	INT8
FINT16	INT16	INT8	INT16	INT16
DYN	FP32	Misto	FP32	Misto

Punti Tecnici Chiave:

Quantizzazione Statica: Conversione offline dei pesi al tipo di dato target (ad es. INT8), memorizzazione fissa
Quantizzazione Dinamica (DYN): I pesi sono memorizzati come 8 bit, ma i valori di attivazione vengono quantizzati solo al runtime, introducendo overhead di runtime ma mantenendo migliore precisione
Limitazione INT16: LiteRT manca di implementazioni di kernel INT16 ottimizzate, causando prestazioni estremamente scadenti

Punti di Innovazione Tecnica

Approccio Framework Ibrido: Data i vincoli di compatibilità software, adozione di un approccio ibrido con LiteRT Next (CPU/GPU) e LiteRT standard (NPU), garantendo valutazione completa
Esplorazione Sistematica dello Spazio di Configurazione:
- 3 hardware × 7 quantizzazioni × multiple dimensioni di modello
- Copertura di 5 varianti ResNet (18/34/50/101/152)
- Copertura di 5 varianti YOLOv8 (n/s/m/l/x)
- Copertura di 5 varianti YOLO11 (n/s/m/l/x)
Prospettiva di Ottimizzazione Pareto: Non ricerca di un singolo ottimale, ma fornitura della frontiera di Pareto del compromesso precisione-latenza, supportando decisioni multi-obiettivo
Quantificazione della Perdita di Conversione Framework: Misurazione esplicita della perdita di precisione introdotta dalla conversione da PyTorch a LiteRT (ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)

Configurazione Sperimentale

Dataset

Classificazione ResNet: Utilizzo del dataset di validazione ImageNet standard
Rilevamento YOLO: Utilizzo del dataset di validazione COCO

Metriche di Valutazione

Latenza di Inferenza: Tempo medio di inferenza (millisecondi)
Rapporto di Accelerazione: Aumento di velocità relativo al baseline FP32 CPU single-thread
Precisione di Classificazione: Accuratezza Top-1 (ResNet)
Precisione di Rilevamento: mean Average Precision (mAP) @ IoU=0.5:0.95 (YOLO)
Perdita di Precisione: Riduzione di precisione percentuale relativa al baseline FP32

Configurazioni di Confronto

Dispositivi di Esecuzione:

CPU-SC: CPU single-thread
CPU-MC: CPU multi-thread (8 core)
GPU32: Modalità GPU FP32
GPU16: Modalità GPU FP16
NPU: Unità di Elaborazione Neurale

Schemi di Quantizzazione: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Dettagli di Implementazione

Sviluppo di applicazione Android personalizzata per eseguire modelli e registrare risultati
Esecuzione multipla di inferenza per ogni configurazione con calcolo della media
Utilizzo di pycocotools per il calcolo di mAP
Utilizzo del metodo standard top-1 per la valutazione della precisione di classificazione

Risultati Sperimentali

Risultati Principali

Prestazioni ResNet

Tempo di Inferenza ResNet18 (millisecondi):

Configurazione	CPU-SC	CPU-MC	GPU32	GPU16	NPU
FP32	79.06	26.34	13.68	5.54	1.20
INT8	23.26	5.63	21.77	22.68	0.61

Scoperte Chiave:

NPU realizza accelerazione 65.9× su FP32, raggiungendo 129.6× su INT8
La quantizzazione INT16 mostra prestazioni estremamente scadenti (>800ms), esclusa dalle analisi successive
La quantizzazione FINT8 causa calo catastrofico di precisione a 0.08% Top-1, anch'essa esclusa

Analisi Prestazioni ResNet50:

NPU + INT8: accelerazione 121.5×, perdita di precisione solo 0.41%
Modalità GPU16 rispetto a GPU32 fornisce circa accelerazione 2×
Multi-thread CPU raggiunge massimo accelerazione 3.4× (INT8), molto inferiore al teorico 8×

Impatto della Quantizzazione (Tabella X):

Modello	Perdita Precisione INT8	Perdita Precisione DYN
ResNet18	2.94%	0.10%
ResNet50	0.41%	0.19%
ResNet152	0.20%	0.07%

Tendenza: Modelli più grandi sono più robusti alla quantizzazione INT8, con perdita di precisione che scende da 2.94% a 0.20%

Prestazioni YOLO

Confronto Tempo di Inferenza YOLOv8n:

NPU mostra prestazioni migliori
FP32: accelerazione 29×
INT8: accelerazione 46.8×
Latenza superiore a ResNet (complessità compito maggiore)

Perdita di Precisione YOLO (Tabella XII):

Modello	Perdita INT8 (mAP)	Perdita DYN (mAP)
YOLOv8n	6.5	0.1
YOLOv8s	6.2	0.0
YOLOv8x	6.1	0.1

Intuizioni Chiave:

INT8 causa danno significativo ai compiti di rilevamento (perdita media 6.5 mAP)
Quantizzazione dinamica è praticamente senza perdite (≤0.1 mAP)
I compiti di rilevamento richiedono più informazioni (localizzazione + classificazione), più sensibili alla quantizzazione

YOLO11 vs YOLOv8:

YOLO11 mostra precisione superiore su modelli piccoli
Esecuzione NPU leggermente più lenta (architettura più complessa)
Quantizzazione dinamica fallisce completamente su NPU
Perdita INT8 aumenta leggermente a media 7.2 mAP

Esperimenti di Ablazione

Estensibilità Multi-thread CPU (Tabella XV)

Modello	FP32	FP16	INT8	DYN
ResNet18	3.0×	3.0×	14.0×	10.6×
ResNet50	2.0×	2.0×	9.5×	7.2×
YOLOv8x	2.7×	2.1×	13.4×	10.1×

Analisi:

INT8 fornisce migliore accelerazione multi-thread
Estensibilità scarsa per precisione in virgola mobile (2-3×)
L'architettura asimmetrica dei core limita l'efficienza del parallelismo

Impatto Modalità Precisione GPU (Tabella VIII)

GPU32 vs GPU16 su ResNet50:

Lo schema di quantizzazione ha impatto minimo sulla velocità GPU
Modalità GPU16 fornisce accelerazione stabile 2×
Vantaggio maggiore su modelli più grandi in GPU16

Analisi Fallimento Quantizzazione Dinamica NPU

I modelli con quantizzazione dinamica contengono layer a precisione mista
NPU manca di supporto nativo per conversione di tipo di dato al runtime
Richiede frequenti trasferimenti dati NPU-CPU
Causa degradazione grave di prestazioni (ResNet50: solo accelerazione 2.3× vs 121.5× con INT8)

Analisi della Frontiera di Pareto

Frontiera Pareto ResNet (Figura 6):

Configurazioni INT8 dominano la frontiera: riduzione latenza significativa, perdita di precisione accettabile
Configurazione ottimale: NPU + INT8, applicabile a tutte le dimensioni ResNet
FP16 su GPU fornisce punto di equilibrio precisione-velocità

Frontiera Pareto YOLO (Figura 7):

Configurazioni FP16 dominano la frontiera: perdita di precisione INT8 eccessiva
Configurazione ottimale: NPU + FP16
YOLO11s mostra prestazioni eccellenti nei modelli piccoli
Differenza tra YOLOv8 e YOLO11 si riduce nei modelli grandi (l/x)

Riepilogo Scoperte Sperimentali

Vantaggio Assoluto NPU: NPU fornisce prestazioni migliori in tutti gli scenari, massimo accelerazione 298× (YOLOv8x + INT8)
Strategie di Quantizzazione Specifiche per Compito:
- Compiti di classificazione (ResNet): INT8 ottimale
- Compiti di rilevamento (YOLO): FP16 ottimale
Caratteristiche Hardware:
- GPU: Impatto minimo della quantizzazione, modalità FP16 critica
- CPU: Estensibilità multi-thread limitata, INT8 fornisce migliore parallelismo
- NPU: Non supporta quantizzazione dinamica, richiede ottimizzazione statica
Effetto Dimensione Modello:
- Modelli più grandi sono più robusti alla quantizzazione
- GPU fornisce rapporto di accelerazione superiore su modelli grandi (YOLOv8x: 39×)
Perdita di Conversione Framework: Calo di precisione non trascurabile (1-2%), deve essere considerato nell'ottimizzazione

Lavori Correlati

Direzioni di Ricerca Principali

Benchmark MLPerf: Questo articolo adotta i principi MLPerf per valutare sistemi di inferenza ML, dai dispositivi embedded ai data center, realizzando valutazione neutrale rispetto a framework software e architettura
Evoluzione Framework AI Mobile:
- PyTorch, ONNX, TensorFlow: Framework di sviluppo AI generici
- TensorFlow Lite → LiteRT: Runtime leggero per dispositivi mobili
- LiteRT Next: Supporto nativo per offloading acceleratori
Paradigmi di Calcolo Eterogeneo:
- Modello Edge-to-Cloud: Elaborazione locale su edge per ottimizzare latenza, offloading compiti complessi al cloud
- DSA (Domain-Specific Architecture): NPU come acceleratore specializzato per calcoli tensoriali
Tecniche di Quantizzazione:
- Quantizzazione post-training (adottata in questo articolo)
- Quantizzazione consapevole dell'addestramento
- Strategie di precisione mista

Vantaggi Relativi di Questo Articolo

Valutazione Sistematica: Prima valutazione completa su dispositivo Android commerciale di tre tipi di hardware CPU/GPU/NPU
Guida Empirica: Fornisce raccomandazioni di configurazione specifiche per diversi compiti, piuttosto che analisi teorica
Prospettiva Pareto: Metodo di ottimizzazione multi-obiettivo, rivela lo spazio di compromesso precisione-velocità
Scoperta di Problemi: Identifica problemi di compatibilità quantizzazione dinamica NPU, estensibilità CPU e altri problemi di deployment reale
Rilevanza Industriale: Selezione di modelli standard MLPerf, risultati direttamente applicabili all'ambiente di produzione

Conclusioni e Discussione

Conclusioni Principali

NPU è il Dispositivo di Esecuzione Migliore: Rispetto al baseline CPU single-core realizza accelerazione fino a 120×, confermando il suo ruolo critico nell'AI edge a bassa latenza
La Quantizzazione Ottimale è un Problema di Compromesso:
- ResNet: INT8 ottimale, il guadagno di velocità su NPU supera la perdita di precisione
- YOLO: FP16 ottimale, la perdita di precisione INT8 (6.5 mAP) è inaccettabile
- GPU: La quantizzazione ha impatto minimo sulla velocità, FP16 bilancia precisione e velocità
Prestazioni del Modello ed Estensibilità:
- YOLO11s mostra prestazioni eccellenti sulla frontiera Pareto, fornisce miglior compromesso velocità/precisione con quantizzazione FP16
- YOLO11 ha precisione superiore su modelli piccoli rispetto a YOLOv8, ma complessità leggermente aumentata
Identificazione Limitazioni di Sistema:
- Quantizzazione dinamica fallisce su NPU (manca supporto nativo)
- Estensibilità multi-thread CPU scarsa (massimo 3.4×), attribuita all'architettura asimmetrica dei core
- La conversione framework introduce perdita di precisione circa 1%

Limitazioni

Piattaforma Hardware Singola: Test solo su Snapdragon 8 Gen 2, la generalizzabilità delle conclusioni ad altri SoC non verificata
Intervallo di Compiti Limitato: Copre solo visione artificiale (classificazione e rilevamento), non include NLP, speech e altri compiti AI
Analisi Energetica Mancante: Non misura il consumo di potenza, l'analisi Pareto non include la dimensione dell'efficienza energetica
Dipendenza Versione Software: NPU richiede utilizzo della vecchia versione LiteRT 1.4.0, potrebbe influenzare le prestazioni
Carico di Lavoro Statico: Non considera elaborazione batch dinamica, commutazione modello e altri scenari di applicazione reale
Valutazione INT16 Incompleta: Escluso precocemente a causa della mancanza di kernel ottimizzati in LiteRT, analisi non approfondita

Direzioni Future

Integrazione Energetica: Completare analisi Pareto tridimensionale includendo potenza (precisione-latenza-efficienza energetica)
Ottimizzazione Software:
- Mitigare problemi di compatibilità quantizzazione dinamica NPU
- Eliminare perdita di precisione nella conversione framework
Estensione Compiti: Ricerca di altri compiti nel benchmark MLPerf (NLP, segmentazione immagini)
Generalizzazione Hardware: Verificare conclusioni su molteplici SoC mobili
Quantizzazione Consapevole dell'Addestramento: Esplorare quantizzazione al tempo di training per ridurre perdita di precisione INT8
Applicazioni Real-time: Valutare scenari reali come flussi video, concorrenza multi-modello

Valutazione Approfondita

Punti di Forza

Progettazione Sperimentale Rigorosa:
- Esplorazione sistematica dello spazio di configurazione (3 hardware × 7 quantizzazioni × 15 varianti modello)
- Baseline e dimensioni di confronto chiari
- Misurazioni multiple con calcolo della media per garantire affidabilità
Valore Pratico Elevato:
- Dispositivi commerciali e modelli standard industriali
- Fornisce raccomandazioni di configurazione attuabili
- Identifica problemi di deployment reale (ad es. fallimento quantizzazione dinamica)
Analisi Approfondita:
- La frontiera Pareto fornisce supporto decisionale multi-obiettivo
- Quantificazione della perdita di conversione framework
- Rivela caratteristiche hardware (ad es. impatto architettura asimmetrica CPU)
Risultati Dettagliati:
- Dati quantitativi abbondanti (multiple tabelle)
- Visualizzazione chiara (grafici Pareto, grafici confronto velocità)
- Analisi di tendenza per diverse dimensioni di modello
Trasparenza Metodologica:
- Descrizione dettagliata delle specifiche hardware
- Illustrazione della versione software e del flusso di conversione
- Riconoscimento delle limitazioni (ad es. problemi di compatibilità software)

Insufficienze

Generalizzabilità Limitata:
- Piattaforma hardware singola (Snapdragon 8 Gen 2)
- L'applicabilità delle conclusioni ad altri chip mobili (ad es. Apple A-series, Huawei Kirin) è sconosciuta
Analisi Energetica Mancante:
- Il titolo enfatizza "ottimizzazione" ma non misura il consumo di potenza
- Per dispositivi mobili, l'efficienza energetica è importante quanto la velocità
- L'analisi Pareto è incompleta
Significatività Statistica:
- Non riporta intervalli di confidenza o deviazione standard
- Mancanza di test di significatività
- Il numero di campioni da esecuzioni multiple non è esplicito
Confronti Insufficienti:
- Non confronta con altri metodi di quantizzazione (ad es. quantizzazione consapevole dell'addestramento)
- Non confronta con altri framework AI mobili (ad es. NCNN, MNN)
- Manca confronto di latenza con inferenza cloud
Semplificazione Scenari Reali:
- Inferenza su singola immagine, non considera elaborazione batch
- Non testa riscaldamento modello, effetti cache
- Ignora interferenza da altri processi Android
Spiegazione Teorica Debole:
- Manca spiegazione a livello architetturale del perché NPU eccelle su INT8
- Analisi insufficiente delle cause profonde della scarsa estensibilità multi-thread CPU
- Non costruisce modello di previsione della latenza

Impatto

Contributi al Campo:

Colma il vuoto nella ricerca empirica sull'ottimizzazione dell'inferenza AI mobile
Fornisce guida di selezione configurazione ai sviluppatori mobile
Rivela caratteristiche di prestazione reale dell'hardware commerciale

Valore Pratico:

Direttamente applicabile allo sviluppo di applicazioni Android
Aiuta nella decisione della strategia di deployment del modello
Identifica direzioni di miglioramento per framework software

Riproducibilità:

Utilizza dispositivi commerciali e modelli pubblici
Descrizione dettagliata del flusso di conversione
Ma manca l'open-sourcing del codice (non menzionato)

Impatto Previsto:

Impatto moderato: ricerca empirica specifica per piattaforma
Valore per la comunità AI mobile
Potrebbe promuovere miglioramenti nel supporto NPU di LiteRT

Scenari Applicabili

Più Appropriato Per:

Sviluppo Applicazioni Android: Sviluppatori che necessitano di deployment di ResNet o YOLO su dispositivo
Selezione Modello: Supporto decisionale nel bilanciamento tra precisione e latenza
Valutazione Hardware: Valutazione delle prestazioni AI di Snapdragon 8 Gen 2
Scelta Strategia Quantizzazione: Selezione dello schema di quantizzazione in base al tipo di compito

Meno Appropriato Per:

Altre Piattaforme Mobile: iOS, altri SoC Android richiedono rivalutazione
Compiti Non-Visivi: NLP, speech richiedono ricerca aggiuntiva
Deployment Cloud: Caratteristiche hardware completamente diverse
Video Real-time: Non considera elaborazione di frame continui

Direzioni di Estensione:

Combinare conclusioni di questo articolo per ottimizzazione energetica
Come input per ricerca hardware-aware AutoML
Guida per progettazione di chip AI edge

Bibliografia

Citazioni Chiave:

Benchmark MLPerf: Reddi et al. (2020) - "MLPerf inference benchmark", definisce i principi di valutazione adottati in questo articolo
Ricerca Energetica:
- Rapporto Ambientale Google (2023): AI occupa 10-15% del consumo energetico
- Rapporto Sostenibilità Meta (2023): Inferenza occupa 70% del consumo energetico AI
ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", campione ILSVRC 2015
YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Valutazione Complessiva: Questo è un articolo di ricerca empirica solido che fornisce una guida di configurazione preziosa per l'ottimizzazione dell'inferenza AI mobile. I suoi principali vantaggi risiedono nella progettazione sperimentale sistematica e nei risultati quantitativi dettagliati, rivelando chiaramente i vantaggi dell'NPU e le strategie di quantizzazione specifiche per compito. Le principali insufficienze sono la generalizzabilità limitata a una singola piattaforma hardware e la mancanza di analisi energetica. Ha valore di riferimento elevato per sviluppatori Android e ricercatori di AI edge, ma le conclusioni richiedono verifica su piattaforme e compiti più ampi. Si raccomanda che i lavori futuri completino le misurazioni energetiche, estendano ad altre piattaforme e compiti, e rendano open-source il codice sperimentale per migliorare la riproducibilità.