2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, Sánchez
The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
academic

Optimisation matérielle sur Android pour l'inférence de modèles d'IA

Informations de base

  • ID de l'article: 2511.13453
  • Titre: Hardware optimization on Android for inference of AI models
  • Auteurs: Iulius Gherasim, Carlos García Sánchez (Université Complutense de Madrid)
  • Classification: cs.LG (Apprentissage automatique), cs.PF (Performance)
  • Date de publication: 17 novembre 2025 (soumission arXiv)
  • Lien de l'article: https://arxiv.org/abs/2511.13453

Résumé

Cet article étudie l'optimisation matérielle pour l'inférence de modèles d'IA sur le système Android. Face à l'intégration généralisée des modèles d'IA dans l'informatique mobile (des assistants virtuels au traitement d'images avancé), les chercheurs se concentrent sur deux tâches clés : la détection d'objets (série YOLO) et la classification d'images (ResNet). En évaluant différents schémas de quantification de modèles ainsi que l'utilisation d'accélérateurs de dispositifs (GPU et NPU), l'objectif principal de cet article est de déterminer empiriquement les combinaisons de configurations qui réalisent le meilleur compromis entre perte de précision minimale et accélération d'inférence maximale.

Contexte et motivation de la recherche

1. Problèmes à résoudre

Avec l'application généralisée des modèles d'IA sur les appareils mobiles, la réalisation d'une inférence à faible latence et hautement réactive tout en préservant la précision du modèle devient un défi clé. Cela comprend spécifiquement :

  • Comment exploiter pleinement l'architecture matérielle hétérogène des appareils mobiles (CPU, GPU, NPU)
  • Comment sélectionner un schéma de quantification de modèle approprié pour équilibrer précision et vitesse
  • Comment optimiser les configurations d'exécution pour différentes tâches d'IA (classification vs détection)

2. Importance du problème

  • Consommation énergétique: Google estime que les tâches liées à l'IA représentent 10-15% de sa consommation énergétique totale entre 2019-2021, dont 60% de l'énergie est consommée lors de la phase d'inférence ; Meta rapporte que l'inférence représente 70% de la consommation énergétique de l'IA
  • Tendance de croissance: La consommation énergétique de Google augmente de 21% par an, tandis que celle de Meta atteint 32%
  • Expérience utilisateur: Les performances de l'IA mobile sont devenues un facteur de différenciation clé, nécessitant de satisfaire des exigences strictes en matière de temps réel et de précision

3. Limitations des approches existantes

  • Les solutions antérieures reposaient principalement sur le déchargement GPU du calcul, mais n'exploitaient pas pleinement les accélérateurs NPU spécialisés
  • Absence d'études systématiques d'optimisation pour l'architecture hétérogène des appareils mobiles
  • Le choix des schémas de quantification manque de conseils empiriques adaptés à différentes tâches et matériels

4. Motivation de la recherche

  • Adoption des principes de référence MLPerf pour évaluer systématiquement les performances sur des appareils Android commerciaux
  • Sélection de modèles standards industriels (ResNet pour la classification, YOLO pour la détection) comme évaluation représentative
  • Combler le vide dans la recherche empirique sur l'optimisation de l'inférence d'IA mobile

Contributions principales

  1. Évaluation matérielle systématique: Première évaluation systématique sur un appareil Android commercial (Samsung Galaxy Tab S9) des performances des trois unités de calcul (CPU, GPU, NPU) dans les tâches d'inférence d'IA
  2. Analyse des schémas de quantification: Comparaison complète de 7 schémas de quantification (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) sur différents matériels en termes de compromis précision-vitesse
  3. Recommandations d'optimisation spécifiques aux tâches:
    • Pour la tâche de classification ResNet : NPU + quantification INT8 peut réaliser une accélération 130×, avec une perte de précision <3%
    • Pour la tâche de détection YOLO : NPU + quantification FP16 est optimal, évitant la perte de précision de 6,5 mAP introduite par INT8
  4. Analyse de la frontière de Pareto: Fournit une perspective d'optimisation multi-objectifs, clarifiant les points de compromis optimaux de différentes configurations dans l'espace précision-latence
  5. Découvertes pratiques:
    • Le NPU offre les meilleures performances dans toutes les configurations, avec une accélération maximale de 298× (YOLOv8x)
    • La quantification dynamique échoue sur NPU, révélant des problèmes de compatibilité matérielle
    • L'extensibilité multi-thread du CPU est limitée (maximum 3,4×), attribuée à l'architecture de noyaux asymétriques

Détails méthodologiques

Définition des tâches

Cette recherche se concentre sur deux tâches principales de vision par ordinateur :

  1. Classification d'images: Entrée d'une seule image, sortie d'une étiquette de classe et d'une confiance (utilisant la série ResNet)
  2. Détection d'objets: Entrée d'une seule image, sortie de plusieurs boîtes de délimitation, classes et confiances (utilisant la série YOLO)

L'objectif est de trouver la combinaison optimale de configuration matérielle et de schéma de quantification sur les appareils mobiles Android.

Architecture expérimentale

Plateforme matérielle

Appareil: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): Configuration big.LITTLE 8 cœurs

  • 3 petits cœurs: ARM Cortex-A510 @ 2,0 GHz
  • 4 cœurs moyens: 2×Cortex-A710 + 2×Cortex-A715 @ 2,8 GHz
  • 1 grand cœur: Cortex-X3 @ 3,36 GHz

GPU: Qualcomm Adreno 740

  • 12 unités de traitement d'ombrage @ 719 MHz
  • Support de l'exécution en précision FP32 et FP16

NPU (Processeur Hexagon):

  • Unités de calcul tensoriel, scalaire et vectoriel dédiées
  • Architecture de mémoire interne partagée
  • Support de la technologie Micro Tile Inferencing (partitionnement et exécution parallèle des couches de modèle)

Environnement logiciel

Framework: LiteRT (réorientation de marque de TensorFlow Lite)

  • CPU/GPU: LiteRT Next 2.0.2
  • NPU: LiteRT 1.4.0 (en raison de problèmes de pipeline NPU dans la version 2.0.2)

Flux de conversion de modèle:

Modèle PyTorch → Format ONNX → Format TFLite
  • Utilisation de l'outil d'export intégré de PyTorch pour générer ONNX
  • Utilisation du package onnx2tf de Katsuya Hyodo pour la conversion en TFLite
  • La quantification est effectuée lors de la phase de conversion onnx2tf

Détails des schémas de quantification

Cette recherche évalue 7 configurations de quantification (voir tableau II) :

Nom du schémaType de données E/SPrécision opératoireValeurs d'activationPoids
FP32FP32FP32FP32FP32
FP16FP32FP32FP32FP16
INT8FP32INT8INT8INT8
INT16FP32INT8INT16INT16
FINT8INT8INT8INT8INT8
FINT16INT16INT8INT16INT16
DYNFP32MixteFP32Mixte

Points techniques clés:

  1. Quantification statique: Conversion hors ligne des poids vers le type de données cible (par exemple INT8), stockage fixe
  2. Quantification dynamique (DYN): Les poids sont stockés en 8 bits, mais les valeurs d'activation ne sont quantifiées qu'à l'exécution, introduisant une surcharge d'exécution mais conservant une meilleure précision
  3. Limitation INT16: LiteRT manque d'implémentations de noyaux INT16 optimisées, entraînant des performances extrêmement mauvaises

Points techniques innovants

  1. Approche de framework hybride: Face aux contraintes de compatibilité logicielle, adoption d'une approche hybride utilisant LiteRT Next (CPU/GPU) et LiteRT standard (NPU), garantissant une évaluation complète
  2. Exploration systématique de l'espace de configuration:
    • 3 matériels × 7 quantifications × tailles de modèle multiples
    • Couverture de 5 variantes ResNet (18/34/50/101/152)
    • Couverture de 5 variantes YOLOv8 (n/s/m/l/x)
    • Couverture de 5 variantes YOLO11 (n/s/m/l/x)
  3. Perspective d'optimisation de Pareto: Ne pas poursuivre un seul optimum, mais fournir la frontière de Pareto du compromis précision-latence, soutenant la prise de décision multi-objectifs
  4. Quantification de la perte de conversion de framework: Mesure explicite de la perte de précision introduite par la conversion PyTorch vers LiteRT (ResNet: 0,83-1,77%; YOLO11: 0,2-0,4 mAP)

Configuration expérimentale

Ensembles de données

  • Classification ResNet: Utilisation de l'ensemble de validation ImageNet standard
  • Détection YOLO: Utilisation de l'ensemble de validation COCO

Métriques d'évaluation

  1. Latence d'inférence: Temps d'inférence moyen (millisecondes)
  2. Ratio d'accélération: Amélioration de vitesse par rapport à la ligne de base CPU single-thread FP32
  3. Précision de classification: Précision Top-1 (ResNet)
  4. Précision de détection: Précision moyenne (mAP) @ IoU=0,5:0,95 (YOLO)
  5. Perte de précision: Baisse de précision en pourcentage par rapport à la ligne de base FP32

Configurations de comparaison

Appareils d'exécution:

  • CPU-SC: CPU single-thread
  • CPU-MC: CPU multi-thread (8 cœurs)
  • GPU32: Mode GPU FP32
  • GPU16: Mode GPU FP16
  • NPU: Unité de traitement neuronal

Schémas de quantification: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Détails d'implémentation

  • Développement d'une application Android personnalisée pour exécuter les modèles et enregistrer les résultats
  • Exécution multiple de chaque configuration avec moyenne des valeurs
  • Utilisation de pycocotools pour calculer mAP
  • Utilisation de la méthode standard top-1 pour évaluer la précision de classification

Résultats expérimentaux

Résultats principaux

Performances de ResNet

Temps d'inférence ResNet18 (millisecondes):

ConfigurationCPU-SCCPU-MCGPU32GPU16NPU
FP3279,0626,3413,685,541,20
INT823,265,6321,7722,680,61

Découvertes clés:

  • Le NPU réalise une accélération 65,9× sur FP32, atteignant 129,6× sur INT8
  • La quantification INT16 offre des performances extrêmement mauvaises (>800ms), exclue des analyses ultérieures
  • La quantification FINT8 entraîne une baisse catastrophique de précision à 0,08% Top-1, également exclue

Analyse de performance ResNet50:

  • NPU + INT8: Accélération 121,5×, perte de précision seulement 0,41%
  • Le mode GPU16 par rapport à GPU32 fournit environ 2× d'accélération
  • L'accélération maximale multi-thread du CPU est 3,4× (INT8), bien inférieure aux 8× théoriques

Impact de la quantification (tableau X):

ModèlePerte de précision INT8Perte de précision DYN
ResNet182,94%0,10%
ResNet500,41%0,19%
ResNet1520,20%0,07%

Tendance: Les modèles plus grands sont plus robustes à la quantification INT8, la perte de précision passant de 2,94% à 0,20%

Performances de YOLO

Comparaison du temps d'inférence YOLOv8n:

  • Le NPU affiche les meilleures performances
  • FP32: Accélération 29×
  • INT8: Accélération 46,8×
  • La latence est supérieure à ResNet (complexité de tâche plus élevée)

Perte de précision YOLO (tableau XII):

ModèlePerte INT8 (mAP)Perte DYN (mAP)
YOLOv8n6,50,1
YOLOv8s6,20,0
YOLOv8x6,10,1

Aperçus clés:

  • INT8 cause des dommages significatifs aux tâches de détection (perte moyenne de 6,5 mAP)
  • La quantification dynamique est pratiquement sans perte (≤0,1 mAP)
  • Les tâches de détection nécessitent plus d'informations (localisation + classification), plus sensibles à la quantification

YOLO11 vs YOLOv8:

  • YOLO11 offre une meilleure précision sur les petits modèles
  • L'exécution NPU est légèrement plus lente (architecture plus complexe)
  • La quantification dynamique échoue complètement sur NPU
  • La perte INT8 augmente légèrement à une moyenne de 7,2 mAP

Études d'ablation

Extensibilité multi-thread du CPU (tableau XV)

ModèleFP32FP16INT8DYN
ResNet183,0×3,0×14,0×10,6×
ResNet502,0×2,0×9,5×7,2×
YOLOv8x2,7×2,1×13,4×10,1×

Analyse:

  • INT8 fournit la meilleure accélération multi-thread
  • L'extensibilité en précision flottante est faible (2-3×)
  • L'architecture de noyaux asymétriques limite l'efficacité du parallélisme

Impact du mode de précision GPU (tableau VIII)

GPU32 vs GPU16 sur ResNet50:

  • Le schéma de quantification a un impact minimal sur la vitesse GPU
  • Le mode GPU16 fournit une accélération stable de 2×
  • Les modèles plus grands offrent un avantage plus important en GPU16

Analyse de l'échec de la quantification dynamique NPU

  • Les modèles de quantification dynamique contiennent des couches de précision mixte
  • Le NPU manque de support pour la conversion de type de données à l'exécution
  • Nécessite des transferts de données fréquents NPU-CPU
  • Entraîne une dégradation grave des performances (ResNet50: seulement 2,3× d'accélération vs 121,5× pour INT8)

Analyse de la frontière de Pareto

Frontière de Pareto ResNet (figure 6):

  • Les configurations INT8 dominent la frontière : réduction drastique de la latence, perte de précision acceptable
  • Configuration optimale : NPU + INT8, applicable à tous les tailles ResNet
  • FP16 sur GPU fournit un point d'équilibre précision-vitesse

Frontière de Pareto YOLO (figure 7):

  • Les configurations FP16 dominent la frontière : la perte de précision INT8 est trop importante
  • Configuration optimale : NPU + FP16
  • YOLO11s se distingue parmi les petits modèles
  • Les différences entre YOLOv8 et YOLO11 diminuent dans les grands modèles (l/x)

Résumé des découvertes expérimentales

  1. Avantage absolu du NPU: Le NPU fournit les meilleures performances dans tous les scénarios, avec une accélération maximale de 298× (YOLOv8x + INT8)
  2. Stratégies de quantification spécifiques aux tâches:
    • Tâches de classification (ResNet) : INT8 optimal
    • Tâches de détection (YOLO) : FP16 optimal
  3. Caractéristiques matérielles:
    • GPU: Impact minimal de la quantification, mode FP16 critique
    • CPU: Extensibilité multi-thread limitée, INT8 offre la meilleure parallélisation
    • NPU: Ne supporte pas la quantification dynamique, nécessite une optimisation statique
  4. Effet de la taille du modèle:
    • Les modèles plus grands sont plus robustes à la quantification
    • Le GPU offre un ratio d'accélération plus élevé sur les grands modèles (YOLOv8x: 39×)
  5. Perte de conversion de framework: Baisse de précision non négligeable (1-2%), doit être intégrée dans l'optimisation

Travaux connexes

Directions de recherche principales

  1. Référence MLPerf: Cet article adopte les principes MLPerf pour évaluer les systèmes d'inférence ML, des appareils embarqués aux centres de données, réalisant une évaluation neutre en termes de framework logiciel et d'architecture
  2. Évolution des frameworks d'IA mobile:
    • PyTorch, ONNX, TensorFlow: Frameworks de développement d'IA généraux
    • TensorFlow Lite → LiteRT: Runtime léger pour appareils mobiles
    • LiteRT Next: Support natif du déchargement d'accélérateurs
  3. Paradigmes de calcul hétérogène:
    • Modèle Edge-to-Cloud : traitement local en périphérie pour optimiser la latence, déchargement des tâches complexes vers le cloud
    • DSA (Domain-Specific Architecture) : NPU comme accélérateur de calcul tensoriel spécialisé
  4. Techniques de quantification:
    • Quantification post-entraînement (adoptée dans cet article)
    • Entraînement conscient de la quantification
    • Stratégies de précision mixte

Avantages relatifs de cet article

  1. Évaluation systématique: Première évaluation complète sur un appareil Android commercial des trois types de matériel (CPU/GPU/NPU)
  2. Conseils empiriques: Fournit des recommandations de configuration spécifiques pour différentes tâches, plutôt que des analyses théoriques
  3. Perspective de Pareto: Méthode d'optimisation multi-objectifs, révélant l'espace de compromis précision-vitesse
  4. Découverte de problèmes: Identifie les problèmes de déploiement réels tels que l'incompatibilité de quantification dynamique NPU, les limitations d'extensibilité CPU
  5. Pertinence industrielle: Sélection de modèles standards MLPerf, résultats directement applicables à l'environnement de production

Conclusion et discussion

Conclusions principales

  1. Le NPU est le meilleur appareil d'exécution: Réalise une accélération jusqu'à 120× par rapport à la ligne de base CPU single-core, confirmant son rôle clé dans l'IA edge à faible latence
  2. La quantification optimale est une question de compromis:
    • ResNet: INT8 optimal, le gain de vitesse NPU dépasse la perte de précision
    • YOLO: FP16 optimal, la perte de précision INT8 (6,5 mAP) est inacceptable
    • GPU: La quantification a un impact minimal sur la vitesse, FP16 équilibre précision et vitesse
  3. Performance du modèle et extensibilité:
    • YOLO11s offre des performances exceptionnelles sur la frontière de Pareto, fournissant le meilleur compromis vitesse/précision en quantification FP16
    • YOLO11 offre une meilleure précision sur les petits modèles que YOLOv8, mais avec une complexité légèrement accrue
  4. Identification des limitations du système:
    • La quantification dynamique échoue sur NPU (manque de support natif)
    • L'extensibilité multi-thread du CPU est faible (maximum 3,4×), attribuée à l'architecture de noyaux asymétriques
    • La conversion de framework introduit environ 1% de perte de précision

Limitations

  1. Plateforme matérielle unique: Testé uniquement sur Snapdragon 8 Gen 2, la généralisation des conclusions à d'autres SoC n'est pas vérifiée
  2. Plage de tâches limitée: Couvre uniquement la vision par ordinateur (classification et détection), n'inclut pas le traitement du langage naturel, la parole et autres tâches d'IA
  3. Analyse énergétique manquante: Pas de mesure de consommation d'énergie, l'analyse de Pareto n'inclut pas la dimension d'efficacité énergétique
  4. Dépendance de la version logicielle: Le NPU nécessite l'utilisation de l'ancienne version LiteRT 1.4.0, ce qui peut affecter les performances
  5. Charge de travail statique: Ne considère pas le traitement par lots dynamique, le changement de modèle et autres scénarios d'application réels
  6. Évaluation INT16 incomplète: Exclue prématurément en raison du manque de noyaux optimisés LiteRT, analyse approfondie manquante

Directions futures

  1. Intégration énergétique: Compléter l'analyse tridimensionnelle de Pareto incluant la puissance (précision-latence-efficacité énergétique)
  2. Optimisation logicielle:
    • Atténuer les problèmes de compatibilité de quantification dynamique NPU
    • Éliminer la perte de précision de conversion de framework
  3. Extension de tâches: Étudier d'autres tâches du benchmark MLPerf (traitement du langage naturel, segmentation d'images)
  4. Généralisation matérielle: Valider les conclusions sur plusieurs SoC mobiles
  5. Entraînement conscient de la quantification: Explorer la quantification au moment de l'entraînement pour réduire la perte de précision INT8
  6. Applications en temps réel: Évaluer les flux vidéo, la concurrence multi-modèle et autres scénarios pratiques

Évaluation approfondie

Points forts

  1. Conception expérimentale rigoureuse:
    • Exploration systématique de l'espace de configuration (3 matériels × 7 quantifications × 15 variantes de modèles)
    • Lignes de base et dimensions de comparaison claires
    • Mesures multiples avec moyenne pour assurer la fiabilité
  2. Valeur pratique élevée:
    • Basé sur des appareils commerciaux et des modèles standards industriels
    • Fournit des recommandations de configuration exploitables
    • Identifie les problèmes de déploiement réels (par exemple, échec de quantification dynamique)
  3. Analyse approfondie:
    • La frontière de Pareto fournit un support de décision multi-objectifs
    • Quantification de la perte de conversion de framework
    • Révèle les caractéristiques matérielles (par exemple, impact de l'architecture asymétrique du CPU)
  4. Résultats détaillés:
    • Données quantitatives abondantes (plusieurs tableaux)
    • Visualisations claires (graphiques de Pareto, graphiques de comparaison de vitesse)
    • Analyse des tendances pour différentes tailles de modèles
  5. Transparence méthodologique:
    • Description détaillée des spécifications matérielles
    • Explication des versions logicielles et du flux de conversion
    • Reconnaissance des limitations (par exemple, problèmes de compatibilité logicielle)

Insuffisances

  1. Généralisation limitée:
    • Plateforme matérielle unique (Snapdragon 8 Gen 2)
    • L'applicabilité des conclusions à d'autres puces mobiles (par exemple, Apple A-series, Huawei Kirin) est inconnue
  2. Absence d'analyse énergétique:
    • Le titre souligne "l'optimisation" mais ne mesure pas la consommation d'énergie
    • Pour les appareils mobiles, l'efficacité énergétique est aussi importante que la vitesse
    • L'analyse de Pareto est incomplète
  3. Significativité statistique:
    • Pas de rapport d'intervalles de confiance ou d'écarts-types
    • Absence de tests de significativité
    • La taille d'échantillon pour les exécutions multiples n'est pas clairement indiquée
  4. Comparaisons insuffisantes:
    • Pas de comparaison avec d'autres méthodes de quantification (par exemple, entraînement conscient de la quantification)
    • Pas de comparaison avec d'autres frameworks d'IA mobile (par exemple, NCNN, MNN)
    • Manque de comparaison de latence avec l'inférence cloud
  5. Simplification des scénarios réels:
    • Inférence d'image unique, ne considère pas le traitement par lots
    • Pas de test de préchauffage du modèle, d'effets de cache
    • Ignore les interférences d'autres processus du système Android
  6. Explication théorique faible:
    • Manque d'explication au niveau de l'architecture sur pourquoi le NPU excelle en INT8
    • Analyse insuffisante des causes profondes de la faible extensibilité multi-thread du CPU
    • Pas de modèle de prédiction de latence établi

Impact

Contributions au domaine:

  • Comble le vide dans la recherche empirique sur l'optimisation de l'inférence d'IA mobile
  • Fournit un guide de sélection de configuration aux développeurs mobiles
  • Révèle les caractéristiques de performance réelles du matériel commercial

Valeur pratique:

  • Directement applicable au développement d'applications Android
  • Aide à la décision de stratégie de déploiement de modèles
  • Identifie les directions d'amélioration des frameworks logiciels

Reproductibilité:

  • Utilise des appareils commerciaux et des modèles publics
  • Description détaillée du flux de conversion
  • Mais absence de code open-source (non mentionné)

Impact prévu:

  • Impact modéré : recherche empirique spécifique à une plateforme
  • Valeur pour la communauté d'IA mobile
  • Peut promouvoir les améliorations du framework LiteRT pour le support NPU

Scénarios applicables

Meilleur adapté à:

  1. Développement d'applications Android: Développeurs ayant besoin de déployer ResNet ou YOLO sur des appareils
  2. Sélection de modèles: Support de décision lors de l'équilibre entre précision et latence
  3. Évaluation matérielle: Évaluation des performances d'IA du Snapdragon 8 Gen 2
  4. Sélection de stratégie de quantification: Choix du schéma de quantification en fonction du type de tâche

Non adapté à:

  1. Autres plateformes mobiles: iOS, autres SoC Android nécessitent une réévaluation
  2. Tâches non visuelles: Le traitement du langage naturel, la parole nécessitent des recherches supplémentaires
  3. Déploiement cloud: Les caractéristiques matérielles sont complètement différentes
  4. Vidéo en temps réel: Ne considère pas le traitement de trames continues

Directions d'extension:

  • Combiner les conclusions de cet article pour l'optimisation énergétique
  • Servir d'entrée pour la recherche de matériel conscient AutoML
  • Guider la conception de puces d'IA edge

Références

Citations clés:

  1. Référence MLPerf: Reddi et al. (2020) - "MLPerf inference benchmark", définissant les principes d'évaluation adoptés dans cet article
  2. Recherche énergétique:
    • Rapport environnemental de Google (2023) : L'IA représente 10-15% de la consommation énergétique
    • Rapport de durabilité de Meta (2023) : L'inférence représente 70% de la consommation énergétique de l'IA
  3. ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", champion ILSVRC 2015
  4. YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
  5. Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Évaluation globale: Cet article est une recherche empirique solide qui fournit des conseils de configuration précieux pour l'optimisation de l'inférence d'IA mobile. Ses principaux atouts résident dans la conception expérimentale systématique et les résultats quantitatifs détaillés, révélant clairement l'avantage du NPU et les stratégies de quantification spécifiques aux tâches. Les principales insuffisances sont la généralisation limitée à une seule plateforme matérielle et l'absence d'analyse énergétique. Il offre une valeur de référence élevée pour les développeurs Android et les chercheurs en IA edge, mais les conclusions nécessitent une validation sur une gamme plus large de matériels et de tâches. Il est recommandé que les travaux futurs complètent les mesures énergétiques, étendent à d'autres plateformes et tâches, et publient le code expérimental en open-source pour améliorer la reproductibilité.