2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, Sánchez
The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
academic

Ottimizzazione hardware su Android per l'inferenza di modelli AI

Informazioni Fondamentali

  • ID Articolo: 2511.13453
  • Titolo: Hardware optimization on Android for inference of AI models
  • Autori: Iulius Gherasim, Carlos García Sánchez (Università Complutense di Madrid)
  • Classificazione: cs.LG (Machine Learning), cs.PF (Performance)
  • Data di Pubblicazione: 17 novembre 2025 (sottomissione arXiv)
  • Link Articolo: https://arxiv.org/abs/2511.13453

Riassunto

Questo articolo affronta il problema dell'ottimizzazione hardware per l'inferenza di modelli AI su sistemi Android. Data la diffusa integrazione di modelli AI nel calcolo mobile (dagli assistenti virtuali all'elaborazione avanzata di immagini), i ricercatori si concentrano su due compiti fondamentali: rilevamento di oggetti (serie YOLO) e classificazione di immagini (ResNet). Attraverso la valutazione di diversi schemi di quantizzazione del modello e l'utilizzo di acceleratori hardware (GPU e NPU), l'obiettivo principale di questo articolo è determinare empiricamente le combinazioni di configurazione che raggiungono il miglior compromesso tra perdita di precisione minima e accelerazione massima dell'inferenza.

Contesto di Ricerca e Motivazione

1. Problema da Risolvere

Con la diffusa applicazione di modelli AI su dispositivi mobili, come realizzare un'inferenza a bassa latenza e altamente responsiva mantenendo la precisione del modello rappresenta una sfida critica. Nello specifico:

  • Come sfruttare pienamente l'architettura hardware eterogenea dei dispositivi mobili (CPU, GPU, NPU)
  • Come selezionare schemi di quantizzazione appropriati per bilanciare precisione e velocità
  • Come ottimizzare le configurazioni di esecuzione per diversi compiti AI (classificazione vs. rilevamento)

2. Importanza del Problema

  • Consumo Energetico: Google stima che i compiti correlati all'AI rappresentino il 10-15% del consumo energetico totale nel periodo 2019-2021, con la fase di inferenza che consuma il 60% dell'energia; Meta riporta che l'inferenza rappresenta il 70% del consumo energetico dell'AI
  • Tendenza di Crescita: La crescita annuale del consumo energetico di Google è del 21%, mentre Meta raggiunge il 32%
  • Esperienza Utente: Le prestazioni dell'AI mobile sono diventate un fattore di differenziazione fondamentale, richiedendo il soddisfacimento di rigorosi requisiti di tempo reale e precisione

3. Limitazioni degli Approcci Esistenti

  • Le soluzioni iniziali si basavano principalmente sull'offloading su GPU, ma non sfruttavano pienamente gli acceleratori NPU specializzati
  • Mancanza di ricerca sistematica sull'ottimizzazione per l'architettura eterogenea dei dispositivi mobili
  • La scelta dello schema di quantizzazione manca di guida empirica per diversi compiti e hardware

4. Motivazione della Ricerca

  • Adottare i principi del benchmark MLPerf per valutare sistematicamente le prestazioni su dispositivi Android commerciali
  • Selezionare modelli standard industriali (ResNet per la classificazione, YOLO per il rilevamento) come valutazione rappresentativa
  • Colmare il vuoto nella ricerca empirica sull'ottimizzazione dell'inferenza AI mobile

Contributi Principali

  1. Valutazione Hardware Sistematica: Prima valutazione sistematica su dispositivo Android commerciale (Samsung Galaxy Tab S9) delle prestazioni di tre unità di calcolo (CPU, GPU, NPU) nei compiti di inferenza AI
  2. Analisi degli Schemi di Quantizzazione: Confronto completo di 7 schemi di quantizzazione (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) nei compromessi precisione-velocità su diversi hardware
  3. Raccomandazioni di Ottimizzazione Specifiche per Compito:
    • Per compiti di classificazione ResNet: NPU + quantizzazione INT8 realizza accelerazione 130×, con perdita di precisione <3%
    • Per compiti di rilevamento YOLO: NPU + quantizzazione FP16 è ottimale, evitando la perdita di precisione di 6.5 mAP con INT8
  4. Analisi della Frontiera di Pareto: Fornisce prospettiva di ottimizzazione multi-obiettivo, chiarendo i punti di compromesso ottimale di diverse configurazioni nello spazio precisione-latenza
  5. Scoperte Pratiche:
    • NPU mostra prestazioni ottimali in tutte le configurazioni, con accelerazione massima di 298× (YOLOv8x)
    • La quantizzazione dinamica fallisce su NPU, rivelando problemi di compatibilità hardware
    • L'estensibilità multi-thread della CPU è limitata (massimo 3.4×), attribuita all'architettura asimmetrica dei core

Dettagli Metodologici

Definizione del Compito

Questa ricerca si concentra su due compiti fondamentali di visione artificiale:

  1. Classificazione di Immagini: Input di una singola immagine, output di etichetta di classe e confidenza (utilizzando serie ResNet)
  2. Rilevamento di Oggetti: Input di una singola immagine, output di più riquadri di delimitazione, classi e confidenza (utilizzando serie YOLO)

L'obiettivo è trovare la combinazione ottimale di configurazione hardware e schema di quantizzazione su dispositivi mobili Android.

Architettura Sperimentale

Piattaforma Hardware

Dispositivo: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): Configurazione big.LITTLE a 8 core

  • 3 core piccoli: ARM Cortex-A510 @ 2.0 GHz
  • 4 core medi: 2×Cortex-A710 + 2×Cortex-A715 @ 2.8 GHz
  • 1 core grande: Cortex-X3 @ 3.36 GHz

GPU: Qualcomm Adreno 740

  • 12 unità di elaborazione shader @ 719 MHz
  • Supporta esecuzione in precisione FP32 e FP16

NPU (Processore Hexagon):

  • Unità di calcolo specializzate per tensori, scalari e vettori
  • Architettura di memoria interna condivisa
  • Supporta tecnologia Micro Tile Inferencing (partizionamento e esecuzione parallela dei layer del modello)

Ambiente Software

Framework: LiteRT (rebranding di TensorFlow Lite)

  • CPU/GPU: LiteRT Next 2.0.2
  • NPU: LiteRT 1.4.0 (a causa di problemi nella pipeline NPU della versione 2.0.2)

Flusso di Conversione del Modello:

Modello PyTorch → Formato ONNX → Formato TFLite
  • Utilizzo dello strumento di esportazione integrato di PyTorch per generare ONNX
  • Utilizzo del pacchetto onnx2tf di Katsuya Hyodo per la conversione a TFLite
  • Quantizzazione completata durante la fase di conversione onnx2tf

Dettagli degli Schemi di Quantizzazione

Questo studio valuta 7 configurazioni di quantizzazione (vedere Tabella II):

Nome SchemaTipo Dati I/OPrecisione OperazioneValori AttivazionePesi
FP32FP32FP32FP32FP32
FP16FP32FP32FP32FP16
INT8FP32INT8INT8INT8
INT16FP32INT8INT16INT16
FINT8INT8INT8INT8INT8
FINT16INT16INT8INT16INT16
DYNFP32MistoFP32Misto

Punti Tecnici Chiave:

  1. Quantizzazione Statica: Conversione offline dei pesi al tipo di dato target (ad es. INT8), memorizzazione fissa
  2. Quantizzazione Dinamica (DYN): I pesi sono memorizzati come 8 bit, ma i valori di attivazione vengono quantizzati solo al runtime, introducendo overhead di runtime ma mantenendo migliore precisione
  3. Limitazione INT16: LiteRT manca di implementazioni di kernel INT16 ottimizzate, causando prestazioni estremamente scadenti

Punti di Innovazione Tecnica

  1. Approccio Framework Ibrido: Data i vincoli di compatibilità software, adozione di un approccio ibrido con LiteRT Next (CPU/GPU) e LiteRT standard (NPU), garantendo valutazione completa
  2. Esplorazione Sistematica dello Spazio di Configurazione:
    • 3 hardware × 7 quantizzazioni × multiple dimensioni di modello
    • Copertura di 5 varianti ResNet (18/34/50/101/152)
    • Copertura di 5 varianti YOLOv8 (n/s/m/l/x)
    • Copertura di 5 varianti YOLO11 (n/s/m/l/x)
  3. Prospettiva di Ottimizzazione Pareto: Non ricerca di un singolo ottimale, ma fornitura della frontiera di Pareto del compromesso precisione-latenza, supportando decisioni multi-obiettivo
  4. Quantificazione della Perdita di Conversione Framework: Misurazione esplicita della perdita di precisione introdotta dalla conversione da PyTorch a LiteRT (ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)

Configurazione Sperimentale

Dataset

  • Classificazione ResNet: Utilizzo del dataset di validazione ImageNet standard
  • Rilevamento YOLO: Utilizzo del dataset di validazione COCO

Metriche di Valutazione

  1. Latenza di Inferenza: Tempo medio di inferenza (millisecondi)
  2. Rapporto di Accelerazione: Aumento di velocità relativo al baseline FP32 CPU single-thread
  3. Precisione di Classificazione: Accuratezza Top-1 (ResNet)
  4. Precisione di Rilevamento: mean Average Precision (mAP) @ IoU=0.5:0.95 (YOLO)
  5. Perdita di Precisione: Riduzione di precisione percentuale relativa al baseline FP32

Configurazioni di Confronto

Dispositivi di Esecuzione:

  • CPU-SC: CPU single-thread
  • CPU-MC: CPU multi-thread (8 core)
  • GPU32: Modalità GPU FP32
  • GPU16: Modalità GPU FP16
  • NPU: Unità di Elaborazione Neurale

Schemi di Quantizzazione: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Dettagli di Implementazione

  • Sviluppo di applicazione Android personalizzata per eseguire modelli e registrare risultati
  • Esecuzione multipla di inferenza per ogni configurazione con calcolo della media
  • Utilizzo di pycocotools per il calcolo di mAP
  • Utilizzo del metodo standard top-1 per la valutazione della precisione di classificazione

Risultati Sperimentali

Risultati Principali

Prestazioni ResNet

Tempo di Inferenza ResNet18 (millisecondi):

ConfigurazioneCPU-SCCPU-MCGPU32GPU16NPU
FP3279.0626.3413.685.541.20
INT823.265.6321.7722.680.61

Scoperte Chiave:

  • NPU realizza accelerazione 65.9× su FP32, raggiungendo 129.6× su INT8
  • La quantizzazione INT16 mostra prestazioni estremamente scadenti (>800ms), esclusa dalle analisi successive
  • La quantizzazione FINT8 causa calo catastrofico di precisione a 0.08% Top-1, anch'essa esclusa

Analisi Prestazioni ResNet50:

  • NPU + INT8: accelerazione 121.5×, perdita di precisione solo 0.41%
  • Modalità GPU16 rispetto a GPU32 fornisce circa accelerazione 2×
  • Multi-thread CPU raggiunge massimo accelerazione 3.4× (INT8), molto inferiore al teorico 8×

Impatto della Quantizzazione (Tabella X):

ModelloPerdita Precisione INT8Perdita Precisione DYN
ResNet182.94%0.10%
ResNet500.41%0.19%
ResNet1520.20%0.07%

Tendenza: Modelli più grandi sono più robusti alla quantizzazione INT8, con perdita di precisione che scende da 2.94% a 0.20%

Prestazioni YOLO

Confronto Tempo di Inferenza YOLOv8n:

  • NPU mostra prestazioni migliori
  • FP32: accelerazione 29×
  • INT8: accelerazione 46.8×
  • Latenza superiore a ResNet (complessità compito maggiore)

Perdita di Precisione YOLO (Tabella XII):

ModelloPerdita INT8 (mAP)Perdita DYN (mAP)
YOLOv8n6.50.1
YOLOv8s6.20.0
YOLOv8x6.10.1

Intuizioni Chiave:

  • INT8 causa danno significativo ai compiti di rilevamento (perdita media 6.5 mAP)
  • Quantizzazione dinamica è praticamente senza perdite (≤0.1 mAP)
  • I compiti di rilevamento richiedono più informazioni (localizzazione + classificazione), più sensibili alla quantizzazione

YOLO11 vs YOLOv8:

  • YOLO11 mostra precisione superiore su modelli piccoli
  • Esecuzione NPU leggermente più lenta (architettura più complessa)
  • Quantizzazione dinamica fallisce completamente su NPU
  • Perdita INT8 aumenta leggermente a media 7.2 mAP

Esperimenti di Ablazione

Estensibilità Multi-thread CPU (Tabella XV)

ModelloFP32FP16INT8DYN
ResNet183.0×3.0×14.0×10.6×
ResNet502.0×2.0×9.5×7.2×
YOLOv8x2.7×2.1×13.4×10.1×

Analisi:

  • INT8 fornisce migliore accelerazione multi-thread
  • Estensibilità scarsa per precisione in virgola mobile (2-3×)
  • L'architettura asimmetrica dei core limita l'efficienza del parallelismo

Impatto Modalità Precisione GPU (Tabella VIII)

GPU32 vs GPU16 su ResNet50:

  • Lo schema di quantizzazione ha impatto minimo sulla velocità GPU
  • Modalità GPU16 fornisce accelerazione stabile 2×
  • Vantaggio maggiore su modelli più grandi in GPU16

Analisi Fallimento Quantizzazione Dinamica NPU

  • I modelli con quantizzazione dinamica contengono layer a precisione mista
  • NPU manca di supporto nativo per conversione di tipo di dato al runtime
  • Richiede frequenti trasferimenti dati NPU-CPU
  • Causa degradazione grave di prestazioni (ResNet50: solo accelerazione 2.3× vs 121.5× con INT8)

Analisi della Frontiera di Pareto

Frontiera Pareto ResNet (Figura 6):

  • Configurazioni INT8 dominano la frontiera: riduzione latenza significativa, perdita di precisione accettabile
  • Configurazione ottimale: NPU + INT8, applicabile a tutte le dimensioni ResNet
  • FP16 su GPU fornisce punto di equilibrio precisione-velocità

Frontiera Pareto YOLO (Figura 7):

  • Configurazioni FP16 dominano la frontiera: perdita di precisione INT8 eccessiva
  • Configurazione ottimale: NPU + FP16
  • YOLO11s mostra prestazioni eccellenti nei modelli piccoli
  • Differenza tra YOLOv8 e YOLO11 si riduce nei modelli grandi (l/x)

Riepilogo Scoperte Sperimentali

  1. Vantaggio Assoluto NPU: NPU fornisce prestazioni migliori in tutti gli scenari, massimo accelerazione 298× (YOLOv8x + INT8)
  2. Strategie di Quantizzazione Specifiche per Compito:
    • Compiti di classificazione (ResNet): INT8 ottimale
    • Compiti di rilevamento (YOLO): FP16 ottimale
  3. Caratteristiche Hardware:
    • GPU: Impatto minimo della quantizzazione, modalità FP16 critica
    • CPU: Estensibilità multi-thread limitata, INT8 fornisce migliore parallelismo
    • NPU: Non supporta quantizzazione dinamica, richiede ottimizzazione statica
  4. Effetto Dimensione Modello:
    • Modelli più grandi sono più robusti alla quantizzazione
    • GPU fornisce rapporto di accelerazione superiore su modelli grandi (YOLOv8x: 39×)
  5. Perdita di Conversione Framework: Calo di precisione non trascurabile (1-2%), deve essere considerato nell'ottimizzazione

Lavori Correlati

Direzioni di Ricerca Principali

  1. Benchmark MLPerf: Questo articolo adotta i principi MLPerf per valutare sistemi di inferenza ML, dai dispositivi embedded ai data center, realizzando valutazione neutrale rispetto a framework software e architettura
  2. Evoluzione Framework AI Mobile:
    • PyTorch, ONNX, TensorFlow: Framework di sviluppo AI generici
    • TensorFlow Lite → LiteRT: Runtime leggero per dispositivi mobili
    • LiteRT Next: Supporto nativo per offloading acceleratori
  3. Paradigmi di Calcolo Eterogeneo:
    • Modello Edge-to-Cloud: Elaborazione locale su edge per ottimizzare latenza, offloading compiti complessi al cloud
    • DSA (Domain-Specific Architecture): NPU come acceleratore specializzato per calcoli tensoriali
  4. Tecniche di Quantizzazione:
    • Quantizzazione post-training (adottata in questo articolo)
    • Quantizzazione consapevole dell'addestramento
    • Strategie di precisione mista

Vantaggi Relativi di Questo Articolo

  1. Valutazione Sistematica: Prima valutazione completa su dispositivo Android commerciale di tre tipi di hardware CPU/GPU/NPU
  2. Guida Empirica: Fornisce raccomandazioni di configurazione specifiche per diversi compiti, piuttosto che analisi teorica
  3. Prospettiva Pareto: Metodo di ottimizzazione multi-obiettivo, rivela lo spazio di compromesso precisione-velocità
  4. Scoperta di Problemi: Identifica problemi di compatibilità quantizzazione dinamica NPU, estensibilità CPU e altri problemi di deployment reale
  5. Rilevanza Industriale: Selezione di modelli standard MLPerf, risultati direttamente applicabili all'ambiente di produzione

Conclusioni e Discussione

Conclusioni Principali

  1. NPU è il Dispositivo di Esecuzione Migliore: Rispetto al baseline CPU single-core realizza accelerazione fino a 120×, confermando il suo ruolo critico nell'AI edge a bassa latenza
  2. La Quantizzazione Ottimale è un Problema di Compromesso:
    • ResNet: INT8 ottimale, il guadagno di velocità su NPU supera la perdita di precisione
    • YOLO: FP16 ottimale, la perdita di precisione INT8 (6.5 mAP) è inaccettabile
    • GPU: La quantizzazione ha impatto minimo sulla velocità, FP16 bilancia precisione e velocità
  3. Prestazioni del Modello ed Estensibilità:
    • YOLO11s mostra prestazioni eccellenti sulla frontiera Pareto, fornisce miglior compromesso velocità/precisione con quantizzazione FP16
    • YOLO11 ha precisione superiore su modelli piccoli rispetto a YOLOv8, ma complessità leggermente aumentata
  4. Identificazione Limitazioni di Sistema:
    • Quantizzazione dinamica fallisce su NPU (manca supporto nativo)
    • Estensibilità multi-thread CPU scarsa (massimo 3.4×), attribuita all'architettura asimmetrica dei core
    • La conversione framework introduce perdita di precisione circa 1%

Limitazioni

  1. Piattaforma Hardware Singola: Test solo su Snapdragon 8 Gen 2, la generalizzabilità delle conclusioni ad altri SoC non verificata
  2. Intervallo di Compiti Limitato: Copre solo visione artificiale (classificazione e rilevamento), non include NLP, speech e altri compiti AI
  3. Analisi Energetica Mancante: Non misura il consumo di potenza, l'analisi Pareto non include la dimensione dell'efficienza energetica
  4. Dipendenza Versione Software: NPU richiede utilizzo della vecchia versione LiteRT 1.4.0, potrebbe influenzare le prestazioni
  5. Carico di Lavoro Statico: Non considera elaborazione batch dinamica, commutazione modello e altri scenari di applicazione reale
  6. Valutazione INT16 Incompleta: Escluso precocemente a causa della mancanza di kernel ottimizzati in LiteRT, analisi non approfondita

Direzioni Future

  1. Integrazione Energetica: Completare analisi Pareto tridimensionale includendo potenza (precisione-latenza-efficienza energetica)
  2. Ottimizzazione Software:
    • Mitigare problemi di compatibilità quantizzazione dinamica NPU
    • Eliminare perdita di precisione nella conversione framework
  3. Estensione Compiti: Ricerca di altri compiti nel benchmark MLPerf (NLP, segmentazione immagini)
  4. Generalizzazione Hardware: Verificare conclusioni su molteplici SoC mobili
  5. Quantizzazione Consapevole dell'Addestramento: Esplorare quantizzazione al tempo di training per ridurre perdita di precisione INT8
  6. Applicazioni Real-time: Valutare scenari reali come flussi video, concorrenza multi-modello

Valutazione Approfondita

Punti di Forza

  1. Progettazione Sperimentale Rigorosa:
    • Esplorazione sistematica dello spazio di configurazione (3 hardware × 7 quantizzazioni × 15 varianti modello)
    • Baseline e dimensioni di confronto chiari
    • Misurazioni multiple con calcolo della media per garantire affidabilità
  2. Valore Pratico Elevato:
    • Dispositivi commerciali e modelli standard industriali
    • Fornisce raccomandazioni di configurazione attuabili
    • Identifica problemi di deployment reale (ad es. fallimento quantizzazione dinamica)
  3. Analisi Approfondita:
    • La frontiera Pareto fornisce supporto decisionale multi-obiettivo
    • Quantificazione della perdita di conversione framework
    • Rivela caratteristiche hardware (ad es. impatto architettura asimmetrica CPU)
  4. Risultati Dettagliati:
    • Dati quantitativi abbondanti (multiple tabelle)
    • Visualizzazione chiara (grafici Pareto, grafici confronto velocità)
    • Analisi di tendenza per diverse dimensioni di modello
  5. Trasparenza Metodologica:
    • Descrizione dettagliata delle specifiche hardware
    • Illustrazione della versione software e del flusso di conversione
    • Riconoscimento delle limitazioni (ad es. problemi di compatibilità software)

Insufficienze

  1. Generalizzabilità Limitata:
    • Piattaforma hardware singola (Snapdragon 8 Gen 2)
    • L'applicabilità delle conclusioni ad altri chip mobili (ad es. Apple A-series, Huawei Kirin) è sconosciuta
  2. Analisi Energetica Mancante:
    • Il titolo enfatizza "ottimizzazione" ma non misura il consumo di potenza
    • Per dispositivi mobili, l'efficienza energetica è importante quanto la velocità
    • L'analisi Pareto è incompleta
  3. Significatività Statistica:
    • Non riporta intervalli di confidenza o deviazione standard
    • Mancanza di test di significatività
    • Il numero di campioni da esecuzioni multiple non è esplicito
  4. Confronti Insufficienti:
    • Non confronta con altri metodi di quantizzazione (ad es. quantizzazione consapevole dell'addestramento)
    • Non confronta con altri framework AI mobili (ad es. NCNN, MNN)
    • Manca confronto di latenza con inferenza cloud
  5. Semplificazione Scenari Reali:
    • Inferenza su singola immagine, non considera elaborazione batch
    • Non testa riscaldamento modello, effetti cache
    • Ignora interferenza da altri processi Android
  6. Spiegazione Teorica Debole:
    • Manca spiegazione a livello architetturale del perché NPU eccelle su INT8
    • Analisi insufficiente delle cause profonde della scarsa estensibilità multi-thread CPU
    • Non costruisce modello di previsione della latenza

Impatto

Contributi al Campo:

  • Colma il vuoto nella ricerca empirica sull'ottimizzazione dell'inferenza AI mobile
  • Fornisce guida di selezione configurazione ai sviluppatori mobile
  • Rivela caratteristiche di prestazione reale dell'hardware commerciale

Valore Pratico:

  • Direttamente applicabile allo sviluppo di applicazioni Android
  • Aiuta nella decisione della strategia di deployment del modello
  • Identifica direzioni di miglioramento per framework software

Riproducibilità:

  • Utilizza dispositivi commerciali e modelli pubblici
  • Descrizione dettagliata del flusso di conversione
  • Ma manca l'open-sourcing del codice (non menzionato)

Impatto Previsto:

  • Impatto moderato: ricerca empirica specifica per piattaforma
  • Valore per la comunità AI mobile
  • Potrebbe promuovere miglioramenti nel supporto NPU di LiteRT

Scenari Applicabili

Più Appropriato Per:

  1. Sviluppo Applicazioni Android: Sviluppatori che necessitano di deployment di ResNet o YOLO su dispositivo
  2. Selezione Modello: Supporto decisionale nel bilanciamento tra precisione e latenza
  3. Valutazione Hardware: Valutazione delle prestazioni AI di Snapdragon 8 Gen 2
  4. Scelta Strategia Quantizzazione: Selezione dello schema di quantizzazione in base al tipo di compito

Meno Appropriato Per:

  1. Altre Piattaforme Mobile: iOS, altri SoC Android richiedono rivalutazione
  2. Compiti Non-Visivi: NLP, speech richiedono ricerca aggiuntiva
  3. Deployment Cloud: Caratteristiche hardware completamente diverse
  4. Video Real-time: Non considera elaborazione di frame continui

Direzioni di Estensione:

  • Combinare conclusioni di questo articolo per ottimizzazione energetica
  • Come input per ricerca hardware-aware AutoML
  • Guida per progettazione di chip AI edge

Bibliografia

Citazioni Chiave:

  1. Benchmark MLPerf: Reddi et al. (2020) - "MLPerf inference benchmark", definisce i principi di valutazione adottati in questo articolo
  2. Ricerca Energetica:
    • Rapporto Ambientale Google (2023): AI occupa 10-15% del consumo energetico
    • Rapporto Sostenibilità Meta (2023): Inferenza occupa 70% del consumo energetico AI
  3. ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", campione ILSVRC 2015
  4. YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
  5. Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Valutazione Complessiva: Questo è un articolo di ricerca empirica solido che fornisce una guida di configurazione preziosa per l'ottimizzazione dell'inferenza AI mobile. I suoi principali vantaggi risiedono nella progettazione sperimentale sistematica e nei risultati quantitativi dettagliati, rivelando chiaramente i vantaggi dell'NPU e le strategie di quantizzazione specifiche per compito. Le principali insufficienze sono la generalizzabilità limitata a una singola piattaforma hardware e la mancanza di analisi energetica. Ha valore di riferimento elevato per sviluppatori Android e ricercatori di AI edge, ma le conclusioni richiedono verifica su piattaforme e compiti più ampi. Si raccomanda che i lavori futuri completino le misurazioni energetiche, estendano ad altre piattaforme e compiti, e rendano open-source il codice sperimentale per migliorare la riproducibilità.