2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, SÃ¡nchez

The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.

academic

Optimisation matérielle sur Android pour l'inférence de modèles d'IA

Informations de base

ID de l'article: 2511.13453
Titre: Hardware optimization on Android for inference of AI models
Auteurs: Iulius Gherasim, Carlos García Sánchez (Université Complutense de Madrid)
Classification: cs.LG (Apprentissage automatique), cs.PF (Performance)
Date de publication: 17 novembre 2025 (soumission arXiv)
Lien de l'article: https://arxiv.org/abs/2511.13453

Résumé

Cet article étudie l'optimisation matérielle pour l'inférence de modèles d'IA sur le système Android. Face à l'intégration généralisée des modèles d'IA dans l'informatique mobile (des assistants virtuels au traitement d'images avancé), les chercheurs se concentrent sur deux tâches clés : la détection d'objets (série YOLO) et la classification d'images (ResNet). En évaluant différents schémas de quantification de modèles ainsi que l'utilisation d'accélérateurs de dispositifs (GPU et NPU), l'objectif principal de cet article est de déterminer empiriquement les combinaisons de configurations qui réalisent le meilleur compromis entre perte de précision minimale et accélération d'inférence maximale.

Contexte et motivation de la recherche

1. Problèmes à résoudre

Avec l'application généralisée des modèles d'IA sur les appareils mobiles, la réalisation d'une inférence à faible latence et hautement réactive tout en préservant la précision du modèle devient un défi clé. Cela comprend spécifiquement :

Comment exploiter pleinement l'architecture matérielle hétérogène des appareils mobiles (CPU, GPU, NPU)
Comment sélectionner un schéma de quantification de modèle approprié pour équilibrer précision et vitesse
Comment optimiser les configurations d'exécution pour différentes tâches d'IA (classification vs détection)

2. Importance du problème

Consommation énergétique: Google estime que les tâches liées à l'IA représentent 10-15% de sa consommation énergétique totale entre 2019-2021, dont 60% de l'énergie est consommée lors de la phase d'inférence ; Meta rapporte que l'inférence représente 70% de la consommation énergétique de l'IA
Tendance de croissance: La consommation énergétique de Google augmente de 21% par an, tandis que celle de Meta atteint 32%
Expérience utilisateur: Les performances de l'IA mobile sont devenues un facteur de différenciation clé, nécessitant de satisfaire des exigences strictes en matière de temps réel et de précision

3. Limitations des approches existantes

Les solutions antérieures reposaient principalement sur le déchargement GPU du calcul, mais n'exploitaient pas pleinement les accélérateurs NPU spécialisés
Absence d'études systématiques d'optimisation pour l'architecture hétérogène des appareils mobiles
Le choix des schémas de quantification manque de conseils empiriques adaptés à différentes tâches et matériels

4. Motivation de la recherche

Adoption des principes de référence MLPerf pour évaluer systématiquement les performances sur des appareils Android commerciaux
Sélection de modèles standards industriels (ResNet pour la classification, YOLO pour la détection) comme évaluation représentative
Combler le vide dans la recherche empirique sur l'optimisation de l'inférence d'IA mobile

Contributions principales

Évaluation matérielle systématique: Première évaluation systématique sur un appareil Android commercial (Samsung Galaxy Tab S9) des performances des trois unités de calcul (CPU, GPU, NPU) dans les tâches d'inférence d'IA
Analyse des schémas de quantification: Comparaison complète de 7 schémas de quantification (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) sur différents matériels en termes de compromis précision-vitesse
Recommandations d'optimisation spécifiques aux tâches:
- Pour la tâche de classification ResNet : NPU + quantification INT8 peut réaliser une accélération 130×, avec une perte de précision <3%
- Pour la tâche de détection YOLO : NPU + quantification FP16 est optimal, évitant la perte de précision de 6,5 mAP introduite par INT8
Analyse de la frontière de Pareto: Fournit une perspective d'optimisation multi-objectifs, clarifiant les points de compromis optimaux de différentes configurations dans l'espace précision-latence
Découvertes pratiques:
- Le NPU offre les meilleures performances dans toutes les configurations, avec une accélération maximale de 298× (YOLOv8x)
- La quantification dynamique échoue sur NPU, révélant des problèmes de compatibilité matérielle
- L'extensibilité multi-thread du CPU est limitée (maximum 3,4×), attribuée à l'architecture de noyaux asymétriques

Détails méthodologiques

Définition des tâches

Cette recherche se concentre sur deux tâches principales de vision par ordinateur :

Classification d'images: Entrée d'une seule image, sortie d'une étiquette de classe et d'une confiance (utilisant la série ResNet)
Détection d'objets: Entrée d'une seule image, sortie de plusieurs boîtes de délimitation, classes et confiances (utilisant la série YOLO)

L'objectif est de trouver la combinaison optimale de configuration matérielle et de schéma de quantification sur les appareils mobiles Android.

Architecture expérimentale

Plateforme matérielle

Appareil: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): Configuration big.LITTLE 8 cœurs

3 petits cœurs: ARM Cortex-A510 @ 2,0 GHz
4 cœurs moyens: 2×Cortex-A710 + 2×Cortex-A715 @ 2,8 GHz
1 grand cœur: Cortex-X3 @ 3,36 GHz

GPU: Qualcomm Adreno 740

12 unités de traitement d'ombrage @ 719 MHz
Support de l'exécution en précision FP32 et FP16

NPU (Processeur Hexagon):

Unités de calcul tensoriel, scalaire et vectoriel dédiées
Architecture de mémoire interne partagée
Support de la technologie Micro Tile Inferencing (partitionnement et exécution parallèle des couches de modèle)

Environnement logiciel

Framework: LiteRT (réorientation de marque de TensorFlow Lite)

CPU/GPU: LiteRT Next 2.0.2
NPU: LiteRT 1.4.0 (en raison de problèmes de pipeline NPU dans la version 2.0.2)

Flux de conversion de modèle:

Modèle PyTorch → Format ONNX → Format TFLite

Utilisation de l'outil d'export intégré de PyTorch pour générer ONNX
Utilisation du package onnx2tf de Katsuya Hyodo pour la conversion en TFLite
La quantification est effectuée lors de la phase de conversion onnx2tf

Détails des schémas de quantification

Cette recherche évalue 7 configurations de quantification (voir tableau II) :

Nom du schéma	Type de données E/S	Précision opératoire	Valeurs d'activation	Poids
FP32	FP32	FP32	FP32	FP32
FP16	FP32	FP32	FP32	FP16
INT8	FP32	INT8	INT8	INT8
INT16	FP32	INT8	INT16	INT16
FINT8	INT8	INT8	INT8	INT8
FINT16	INT16	INT8	INT16	INT16
DYN	FP32	Mixte	FP32	Mixte

Points techniques clés:

Quantification statique: Conversion hors ligne des poids vers le type de données cible (par exemple INT8), stockage fixe
Quantification dynamique (DYN): Les poids sont stockés en 8 bits, mais les valeurs d'activation ne sont quantifiées qu'à l'exécution, introduisant une surcharge d'exécution mais conservant une meilleure précision
Limitation INT16: LiteRT manque d'implémentations de noyaux INT16 optimisées, entraînant des performances extrêmement mauvaises

Points techniques innovants

Approche de framework hybride: Face aux contraintes de compatibilité logicielle, adoption d'une approche hybride utilisant LiteRT Next (CPU/GPU) et LiteRT standard (NPU), garantissant une évaluation complète
Exploration systématique de l'espace de configuration:
- 3 matériels × 7 quantifications × tailles de modèle multiples
- Couverture de 5 variantes ResNet (18/34/50/101/152)
- Couverture de 5 variantes YOLOv8 (n/s/m/l/x)
- Couverture de 5 variantes YOLO11 (n/s/m/l/x)
Perspective d'optimisation de Pareto: Ne pas poursuivre un seul optimum, mais fournir la frontière de Pareto du compromis précision-latence, soutenant la prise de décision multi-objectifs
Quantification de la perte de conversion de framework: Mesure explicite de la perte de précision introduite par la conversion PyTorch vers LiteRT (ResNet: 0,83-1,77%; YOLO11: 0,2-0,4 mAP)

Configuration expérimentale

Ensembles de données

Classification ResNet: Utilisation de l'ensemble de validation ImageNet standard
Détection YOLO: Utilisation de l'ensemble de validation COCO

Métriques d'évaluation

Latence d'inférence: Temps d'inférence moyen (millisecondes)
Ratio d'accélération: Amélioration de vitesse par rapport à la ligne de base CPU single-thread FP32
Précision de classification: Précision Top-1 (ResNet)
Précision de détection: Précision moyenne (mAP) @ IoU=0,5:0,95 (YOLO)
Perte de précision: Baisse de précision en pourcentage par rapport à la ligne de base FP32

Configurations de comparaison

Appareils d'exécution:

CPU-SC: CPU single-thread
CPU-MC: CPU multi-thread (8 cœurs)
GPU32: Mode GPU FP32
GPU16: Mode GPU FP16
NPU: Unité de traitement neuronal

Schémas de quantification: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

Détails d'implémentation

Développement d'une application Android personnalisée pour exécuter les modèles et enregistrer les résultats
Exécution multiple de chaque configuration avec moyenne des valeurs
Utilisation de pycocotools pour calculer mAP
Utilisation de la méthode standard top-1 pour évaluer la précision de classification

Résultats expérimentaux

Résultats principaux

Performances de ResNet

Temps d'inférence ResNet18 (millisecondes):

Configuration	CPU-SC	CPU-MC	GPU32	GPU16	NPU
FP32	79,06	26,34	13,68	5,54	1,20
INT8	23,26	5,63	21,77	22,68	0,61

Découvertes clés:

Le NPU réalise une accélération 65,9× sur FP32, atteignant 129,6× sur INT8
La quantification INT16 offre des performances extrêmement mauvaises (>800ms), exclue des analyses ultérieures
La quantification FINT8 entraîne une baisse catastrophique de précision à 0,08% Top-1, également exclue

Analyse de performance ResNet50:

NPU + INT8: Accélération 121,5×, perte de précision seulement 0,41%
Le mode GPU16 par rapport à GPU32 fournit environ 2× d'accélération
L'accélération maximale multi-thread du CPU est 3,4× (INT8), bien inférieure aux 8× théoriques

Impact de la quantification (tableau X):

Modèle	Perte de précision INT8	Perte de précision DYN
ResNet18	2,94%	0,10%
ResNet50	0,41%	0,19%
ResNet152	0,20%	0,07%

Tendance: Les modèles plus grands sont plus robustes à la quantification INT8, la perte de précision passant de 2,94% à 0,20%

Performances de YOLO

Comparaison du temps d'inférence YOLOv8n:

Le NPU affiche les meilleures performances
FP32: Accélération 29×
INT8: Accélération 46,8×
La latence est supérieure à ResNet (complexité de tâche plus élevée)

Perte de précision YOLO (tableau XII):

Modèle	Perte INT8 (mAP)	Perte DYN (mAP)
YOLOv8n	6,5	0,1
YOLOv8s	6,2	0,0
YOLOv8x	6,1	0,1

Aperçus clés:

INT8 cause des dommages significatifs aux tâches de détection (perte moyenne de 6,5 mAP)
La quantification dynamique est pratiquement sans perte (≤0,1 mAP)
Les tâches de détection nécessitent plus d'informations (localisation + classification), plus sensibles à la quantification

YOLO11 vs YOLOv8:

YOLO11 offre une meilleure précision sur les petits modèles
L'exécution NPU est légèrement plus lente (architecture plus complexe)
La quantification dynamique échoue complètement sur NPU
La perte INT8 augmente légèrement à une moyenne de 7,2 mAP

Études d'ablation

Extensibilité multi-thread du CPU (tableau XV)

Modèle	FP32	FP16	INT8	DYN
ResNet18	3,0×	3,0×	14,0×	10,6×
ResNet50	2,0×	2,0×	9,5×	7,2×
YOLOv8x	2,7×	2,1×	13,4×	10,1×

Analyse:

INT8 fournit la meilleure accélération multi-thread
L'extensibilité en précision flottante est faible (2-3×)
L'architecture de noyaux asymétriques limite l'efficacité du parallélisme

Impact du mode de précision GPU (tableau VIII)

GPU32 vs GPU16 sur ResNet50:

Le schéma de quantification a un impact minimal sur la vitesse GPU
Le mode GPU16 fournit une accélération stable de 2×
Les modèles plus grands offrent un avantage plus important en GPU16

Analyse de l'échec de la quantification dynamique NPU

Les modèles de quantification dynamique contiennent des couches de précision mixte
Le NPU manque de support pour la conversion de type de données à l'exécution
Nécessite des transferts de données fréquents NPU-CPU
Entraîne une dégradation grave des performances (ResNet50: seulement 2,3× d'accélération vs 121,5× pour INT8)

Analyse de la frontière de Pareto

Frontière de Pareto ResNet (figure 6):

Les configurations INT8 dominent la frontière : réduction drastique de la latence, perte de précision acceptable
Configuration optimale : NPU + INT8, applicable à tous les tailles ResNet
FP16 sur GPU fournit un point d'équilibre précision-vitesse

Frontière de Pareto YOLO (figure 7):

Les configurations FP16 dominent la frontière : la perte de précision INT8 est trop importante
Configuration optimale : NPU + FP16
YOLO11s se distingue parmi les petits modèles
Les différences entre YOLOv8 et YOLO11 diminuent dans les grands modèles (l/x)

Résumé des découvertes expérimentales

Avantage absolu du NPU: Le NPU fournit les meilleures performances dans tous les scénarios, avec une accélération maximale de 298× (YOLOv8x + INT8)
Stratégies de quantification spécifiques aux tâches:
- Tâches de classification (ResNet) : INT8 optimal
- Tâches de détection (YOLO) : FP16 optimal
Caractéristiques matérielles:
- GPU: Impact minimal de la quantification, mode FP16 critique
- CPU: Extensibilité multi-thread limitée, INT8 offre la meilleure parallélisation
- NPU: Ne supporte pas la quantification dynamique, nécessite une optimisation statique
Effet de la taille du modèle:
- Les modèles plus grands sont plus robustes à la quantification
- Le GPU offre un ratio d'accélération plus élevé sur les grands modèles (YOLOv8x: 39×)
Perte de conversion de framework: Baisse de précision non négligeable (1-2%), doit être intégrée dans l'optimisation

Travaux connexes

Directions de recherche principales

Référence MLPerf: Cet article adopte les principes MLPerf pour évaluer les systèmes d'inférence ML, des appareils embarqués aux centres de données, réalisant une évaluation neutre en termes de framework logiciel et d'architecture
Évolution des frameworks d'IA mobile:
- PyTorch, ONNX, TensorFlow: Frameworks de développement d'IA généraux
- TensorFlow Lite → LiteRT: Runtime léger pour appareils mobiles
- LiteRT Next: Support natif du déchargement d'accélérateurs
Paradigmes de calcul hétérogène:
- Modèle Edge-to-Cloud : traitement local en périphérie pour optimiser la latence, déchargement des tâches complexes vers le cloud
- DSA (Domain-Specific Architecture) : NPU comme accélérateur de calcul tensoriel spécialisé
Techniques de quantification:
- Quantification post-entraînement (adoptée dans cet article)
- Entraînement conscient de la quantification
- Stratégies de précision mixte

Avantages relatifs de cet article

Évaluation systématique: Première évaluation complète sur un appareil Android commercial des trois types de matériel (CPU/GPU/NPU)
Conseils empiriques: Fournit des recommandations de configuration spécifiques pour différentes tâches, plutôt que des analyses théoriques
Perspective de Pareto: Méthode d'optimisation multi-objectifs, révélant l'espace de compromis précision-vitesse
Découverte de problèmes: Identifie les problèmes de déploiement réels tels que l'incompatibilité de quantification dynamique NPU, les limitations d'extensibilité CPU
Pertinence industrielle: Sélection de modèles standards MLPerf, résultats directement applicables à l'environnement de production

Conclusion et discussion

Conclusions principales

Le NPU est le meilleur appareil d'exécution: Réalise une accélération jusqu'à 120× par rapport à la ligne de base CPU single-core, confirmant son rôle clé dans l'IA edge à faible latence
La quantification optimale est une question de compromis:
- ResNet: INT8 optimal, le gain de vitesse NPU dépasse la perte de précision
- YOLO: FP16 optimal, la perte de précision INT8 (6,5 mAP) est inacceptable
- GPU: La quantification a un impact minimal sur la vitesse, FP16 équilibre précision et vitesse
Performance du modèle et extensibilité:
- YOLO11s offre des performances exceptionnelles sur la frontière de Pareto, fournissant le meilleur compromis vitesse/précision en quantification FP16
- YOLO11 offre une meilleure précision sur les petits modèles que YOLOv8, mais avec une complexité légèrement accrue
Identification des limitations du système:
- La quantification dynamique échoue sur NPU (manque de support natif)
- L'extensibilité multi-thread du CPU est faible (maximum 3,4×), attribuée à l'architecture de noyaux asymétriques
- La conversion de framework introduit environ 1% de perte de précision

Limitations

Plateforme matérielle unique: Testé uniquement sur Snapdragon 8 Gen 2, la généralisation des conclusions à d'autres SoC n'est pas vérifiée
Plage de tâches limitée: Couvre uniquement la vision par ordinateur (classification et détection), n'inclut pas le traitement du langage naturel, la parole et autres tâches d'IA
Analyse énergétique manquante: Pas de mesure de consommation d'énergie, l'analyse de Pareto n'inclut pas la dimension d'efficacité énergétique
Dépendance de la version logicielle: Le NPU nécessite l'utilisation de l'ancienne version LiteRT 1.4.0, ce qui peut affecter les performances
Charge de travail statique: Ne considère pas le traitement par lots dynamique, le changement de modèle et autres scénarios d'application réels
Évaluation INT16 incomplète: Exclue prématurément en raison du manque de noyaux optimisés LiteRT, analyse approfondie manquante

Directions futures

Intégration énergétique: Compléter l'analyse tridimensionnelle de Pareto incluant la puissance (précision-latence-efficacité énergétique)
Optimisation logicielle:
- Atténuer les problèmes de compatibilité de quantification dynamique NPU
- Éliminer la perte de précision de conversion de framework
Extension de tâches: Étudier d'autres tâches du benchmark MLPerf (traitement du langage naturel, segmentation d'images)
Généralisation matérielle: Valider les conclusions sur plusieurs SoC mobiles
Entraînement conscient de la quantification: Explorer la quantification au moment de l'entraînement pour réduire la perte de précision INT8
Applications en temps réel: Évaluer les flux vidéo, la concurrence multi-modèle et autres scénarios pratiques

Évaluation approfondie

Points forts

Conception expérimentale rigoureuse:
- Exploration systématique de l'espace de configuration (3 matériels × 7 quantifications × 15 variantes de modèles)
- Lignes de base et dimensions de comparaison claires
- Mesures multiples avec moyenne pour assurer la fiabilité
Valeur pratique élevée:
- Basé sur des appareils commerciaux et des modèles standards industriels
- Fournit des recommandations de configuration exploitables
- Identifie les problèmes de déploiement réels (par exemple, échec de quantification dynamique)
Analyse approfondie:
- La frontière de Pareto fournit un support de décision multi-objectifs
- Quantification de la perte de conversion de framework
- Révèle les caractéristiques matérielles (par exemple, impact de l'architecture asymétrique du CPU)
Résultats détaillés:
- Données quantitatives abondantes (plusieurs tableaux)
- Visualisations claires (graphiques de Pareto, graphiques de comparaison de vitesse)
- Analyse des tendances pour différentes tailles de modèles
Transparence méthodologique:
- Description détaillée des spécifications matérielles
- Explication des versions logicielles et du flux de conversion
- Reconnaissance des limitations (par exemple, problèmes de compatibilité logicielle)

Insuffisances

Généralisation limitée:
- Plateforme matérielle unique (Snapdragon 8 Gen 2)
- L'applicabilité des conclusions à d'autres puces mobiles (par exemple, Apple A-series, Huawei Kirin) est inconnue
Absence d'analyse énergétique:
- Le titre souligne "l'optimisation" mais ne mesure pas la consommation d'énergie
- Pour les appareils mobiles, l'efficacité énergétique est aussi importante que la vitesse
- L'analyse de Pareto est incomplète
Significativité statistique:
- Pas de rapport d'intervalles de confiance ou d'écarts-types
- Absence de tests de significativité
- La taille d'échantillon pour les exécutions multiples n'est pas clairement indiquée
Comparaisons insuffisantes:
- Pas de comparaison avec d'autres méthodes de quantification (par exemple, entraînement conscient de la quantification)
- Pas de comparaison avec d'autres frameworks d'IA mobile (par exemple, NCNN, MNN)
- Manque de comparaison de latence avec l'inférence cloud
Simplification des scénarios réels:
- Inférence d'image unique, ne considère pas le traitement par lots
- Pas de test de préchauffage du modèle, d'effets de cache
- Ignore les interférences d'autres processus du système Android
Explication théorique faible:
- Manque d'explication au niveau de l'architecture sur pourquoi le NPU excelle en INT8
- Analyse insuffisante des causes profondes de la faible extensibilité multi-thread du CPU
- Pas de modèle de prédiction de latence établi

Impact

Contributions au domaine:

Comble le vide dans la recherche empirique sur l'optimisation de l'inférence d'IA mobile
Fournit un guide de sélection de configuration aux développeurs mobiles
Révèle les caractéristiques de performance réelles du matériel commercial

Valeur pratique:

Directement applicable au développement d'applications Android
Aide à la décision de stratégie de déploiement de modèles
Identifie les directions d'amélioration des frameworks logiciels

Reproductibilité:

Utilise des appareils commerciaux et des modèles publics
Description détaillée du flux de conversion
Mais absence de code open-source (non mentionné)

Impact prévu:

Impact modéré : recherche empirique spécifique à une plateforme
Valeur pour la communauté d'IA mobile
Peut promouvoir les améliorations du framework LiteRT pour le support NPU

Scénarios applicables

Meilleur adapté à:

Développement d'applications Android: Développeurs ayant besoin de déployer ResNet ou YOLO sur des appareils
Sélection de modèles: Support de décision lors de l'équilibre entre précision et latence
Évaluation matérielle: Évaluation des performances d'IA du Snapdragon 8 Gen 2
Sélection de stratégie de quantification: Choix du schéma de quantification en fonction du type de tâche

Non adapté à:

Autres plateformes mobiles: iOS, autres SoC Android nécessitent une réévaluation
Tâches non visuelles: Le traitement du langage naturel, la parole nécessitent des recherches supplémentaires
Déploiement cloud: Les caractéristiques matérielles sont complètement différentes
Vidéo en temps réel: Ne considère pas le traitement de trames continues

Directions d'extension:

Combiner les conclusions de cet article pour l'optimisation énergétique
Servir d'entrée pour la recherche de matériel conscient AutoML
Guider la conception de puces d'IA edge

Références

Citations clés:

Référence MLPerf: Reddi et al. (2020) - "MLPerf inference benchmark", définissant les principes d'évaluation adoptés dans cet article
Recherche énergétique:
- Rapport environnemental de Google (2023) : L'IA représente 10-15% de la consommation énergétique
- Rapport de durabilité de Meta (2023) : L'inférence représente 70% de la consommation énergétique de l'IA
ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition", champion ILSVRC 2015
YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

Évaluation globale: Cet article est une recherche empirique solide qui fournit des conseils de configuration précieux pour l'optimisation de l'inférence d'IA mobile. Ses principaux atouts résident dans la conception expérimentale systématique et les résultats quantitatifs détaillés, révélant clairement l'avantage du NPU et les stratégies de quantification spécifiques aux tâches. Les principales insuffisances sont la généralisation limitée à une seule plateforme matérielle et l'absence d'analyse énergétique. Il offre une valeur de référence élevée pour les développeurs Android et les chercheurs en IA edge, mais les conclusions nécessitent une validation sur une gamme plus large de matériels et de tâches. Il est recommandé que les travaux futurs complètent les mesures énergétiques, étendent à d'autres plateformes et tâches, et publient le code expérimental en open-source pour améliorer la reproductibilité.