Knowledge distillation has emerged as a powerful technique for model compression, enabling the transfer of knowledge from large teacher networks to compact student models. However, traditional knowledge distillation methods treat all teacher predictions equally, regardless of the teacher's confidence in those predictions. This paper proposes an uncertainty-aware dual-student knowledge distillation framework that leverages teacher prediction uncertainty to selectively guide student learning. We introduce a peer-learning mechanism where two heterogeneous student architectures, specifically ResNet-18 and MobileNetV2, learn collaboratively from both the teacher network and each other. Experimental results on ImageNet-100 demonstrate that our approach achieves superior performance compared to baseline knowledge distillation methods, with ResNet-18 achieving 83.84\% top-1 accuracy and MobileNetV2 achieving 81.46\% top-1 accuracy, representing improvements of 2.04\% and 0.92\% respectively over traditional single-student distillation approaches.
- ID de l'article : 2511.18826
- Titre : Uncertainty-Aware Dual-Student Knowledge Distillation for Efficient Image Classification
- Auteurs : Aakash Gore, Anoushka Dey, Aryan Mishra (Indian Institute of Technology Bombay)
- Classification : cs.CV, cs.LG
- Date de publication : 24 novembre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2511.18826
La distillation de connaissance s'est établie comme une technique puissante de compression de modèles, permettant de transférer les connaissances de grands réseaux enseignants vers des modèles étudiants compacts. Cependant, les méthodes traditionnelles de distillation de connaissance traitent toutes les prédictions de l'enseignant de manière uniforme, ignorant les variations de confiance de l'enseignant dans différentes prédictions. Cet article propose un cadre de distillation de connaissance dual-étudiant conscient de l'incertitude, qui exploite l'incertitude des prédictions de l'enseignant pour guider sélectivement l'apprentissage des étudiants. Un mécanisme d'apprentissage par les pairs est introduit, permettant à deux architectures d'étudiants hétérogènes (ResNet-18 et MobileNetV2) d'apprendre de manière synergique à partir du réseau enseignant et l'un de l'autre. Les résultats expérimentaux sur ImageNet-100 démontrent que la méthode surpasse les approches de base de distillation de connaissance, avec ResNet-18 atteignant une précision top-1 de 83,84 % et MobileNetV2 atteignant 81,46 %, représentant respectivement des améliorations de 2,04 % et 0,92 % par rapport aux méthodes traditionnelles de distillation mono-étudiant.
Les réseaux de neurones profonds ont obtenu un succès remarquable dans les tâches de vision par ordinateur, mais leur déploiement sur des appareils aux ressources limitées reste un défi. Cet article vise à résoudre :
- L'aveuglement de la distillation de connaissance traditionnelle : Les méthodes existantes attribuent un poids égal à toutes les prédictions de l'enseignant, ignorant les variations de confiance de l'enseignant sur différents échantillons
- Les limitations d'un étudiant unique : Un modèle étudiant unique ne peut pas exploiter pleinement les avantages complémentaires de multiples architectures
- Le problème de transfert de connaissance négatif : Les prédictions incertaines de l'enseignant peuvent induire l'étudiant en erreur
Avec la demande croissante de modèles d'apprentissage automatique complexes sur les appareils périphériques, les plates-formes mobiles et les systèmes embarqués, la compression de modèles devient cruciale. La distillation de connaissance, en tant que technologie centrale, affecte directement l'efficacité et la faisabilité du déploiement pratique.
- Traitement uniforme : Les méthodes traditionnelles (comme la KD originale de Hinton et al.) utilisent un paramètre de température unifié pour toutes les prédictions de l'enseignant, sans tenir compte de la fiabilité des prédictions
- Flux de connaissance unidirectionnel : Transfert uniquement de l'enseignant vers l'étudiant, n'exploitant pas pleinement le potentiel synergique entre plusieurs étudiants
- Négligence de l'incertitude : Les prédictions à haute entropie de l'enseignant près des limites de décision ou sur des échantillons ambigus peuvent contenir des informations trompeuses
Les observations révèlent que :
- Le modèle enseignant présente des variations significatives de confiance sur différents échantillons
- Les prédictions à haute entropie (incertaines) peuvent contenir des informations contradictoires et devraient avoir un impact réduit
- Les architectures d'étudiants hétérogènes peuvent apprendre des représentations complémentaires et s'améliorer mutuellement par apprentissage par les pairs
- Cadre de distillation conscient de l'incertitude : Propose un mécanisme d'ajustement dynamique du poids de guidage de l'enseignant basé sur l'entropie de prédiction, permettant aux étudiants de prioriser l'apprentissage de prédictions à haute confiance tout en maintenant la robustesse par supervision de labels durs
- Architecture d'apprentissage par les pairs dual-étudiant : Introduit un mécanisme d'apprentissage collaboratif entre deux modèles hétérogènes (ResNet-18 et MobileNetV2), réalisant l'échange de connaissances mutuelles et l'apprentissage de caractéristiques complémentaires
- Améliorations significatives sur ImageNet-100 : Valide l'efficacité de la méthode sur des architectures d'étudiants de capacités et principes de conception différents, avec une amélioration de 2,04 % pour ResNet-18 et 0,92 % pour MobileNetV2
- Analyse approfondie des modèles de confiance de l'enseignant : Fournit des perspectives mécanistes sur la manière dont la distillation consciente de l'incertitude améliore les performances, validées par des études d'ablation détaillées
Étant donné un ensemble de données d'entraînement D={(xi,yi)}i=1N, où xi∈RH×W×3 est une image d'entrée et yi∈{1,...,C} est le label vrai. L'objectif est de :
- Utiliser un réseau enseignant préentraîné gelé T(θT)
- Entraîner simultanément deux réseaux d'étudiants hétérogènes S1(θS1) et S2(θS2)
- Atteindre une précision de classification élevée tout en maintenant un coût de calcul significativement réduit
Le cadre contient trois composants principaux :
- Réseau enseignant : ResNet-50 préentraîné (25,6M paramètres), paramètres gelés servant de source de connaissance
- Étudiant 1 : ResNet-18 (11,7M paramètres), ratio de compression 2,19×
- Étudiant 2 : MobileNetV2 (3,5M paramètres), ratio de compression 7,31×
Pour une entrée x, l'enseignant produit des logits zT=T(x), et l'entropie de prédiction est calculée comme mesure d'incertitude :
H(x)=−∑c=1Cpclogpc
où pc=∑j=1Cexp(zjT)exp(zcT) est la probabilité softmax de la classe c.
L'entropie normalisée produit un poids de confiance :
w(x)=1−logCH(x)
où logC est l'entropie maximale possible pour C classes. Les prédictions à haute confiance (faible entropie) produisent w(x)≈1, tandis que les prédictions incertaines (haute entropie) produisent w(x)≈0.
La perte totale pour l'étudiant Si (i∈{1,2}) est une combinaison pondérée de trois objectifs d'apprentissage complémentaires :
LSi=αLhard+βLteacher+γLpeer
Perte de label dur (maintien de la supervision du label vrai) :
Lhard=CE(Si(x),y)
Perte d'enseignant pondérée par l'incertitude (transfert de connaissance sélectif) :
Lteacher=w(x)⋅τ2⋅KL(qSiτ∥pTτ)
où qSiτ et pTτ sont les distributions softmax à température τ, et τ2 corrige les changements d'amplitude introduits par la mise à l'échelle de température.
Perte d'apprentissage par les pairs (échange de connaissance entre étudiants) :
Lpeer=τ2⋅KL(qSiτ∥qSjτ)
où j=i représente l'étudiant pair. Une opération de détachement arrête le flux de gradient pour prévenir les dépendances circulaires.
Processus d'entraînement synchrone :
- Propagation avant de l'enseignant : Calcul des logits zT et des poids d'incertitude w(x)
- Propagation avant des étudiants : Obtention de zS1 et zS2
- Calcul des pertes : Calcul respectif de LS1 et LS2
- Optimisation indépendante : Mise à jour de θS1 et θS2 avec des optimiseurs indépendants
- KD traditionnel : Poids uniforme L=αLhard+βLteacher
- Méthode proposée : Introduction de w(x) pour modulation au niveau des échantillons, ajout du terme d'apprentissage par les pairs
- Entropie comme incertitude : Calcul efficace (propagation avant unique), reflète intuitivement la confiance de prédiction
- Choix d'étudiants hétérogènes : ResNet-18 (résiduel profond) et MobileNetV2 (convolution séparable profonde) possèdent des biais inductifs différents
- Optimisation indépendante : Permet aux étudiants de capacités différentes de converger à leurs taux optimaux respectifs
- Filtrage du transfert négatif : Réduction du poids des prédictions incertaines, minimisation des informations trompeuses
- Apprentissage complémentaire : ResNet-18 capture les caractéristiques spatiales fines, MobileNetV2 apprend les représentations discriminantes compactes
- Garantie de robustesse : La perte de label dur fournit un point d'ancrage fiable, prévenant la dépendance excessive envers l'enseignant
ImageNet-100 :
- Échelle : 100 classes, environ 130 000 images d'entraînement, 5 000 images de validation
- Classes : Couvrent des catégories visuelles diverses incluant animaux, véhicules, objets et scènes naturelles
- Justification du choix : Maintient une complexité suffisante tout en permettant une itération expérimentale plus rapide comparée à ImageNet complet (1 000 classes, 1,2 million d'images)
Prétraitement des données :
- Augmentation d'entraînement :
- Recadrage aléatoire à 224×224 pixels
- Retournement horizontal avec probabilité 50 %
- Variation de couleur (luminosité, contraste, saturation ±0,4)
- Prétraitement de validation :
- Redimensionnement à 256×256, recadrage central à 224×224
- Normalisation utilisant les statistiques ImageNet (moyenne=0,485, 0,456, 0,406, écart-type=0,229, 0,224, 0,225)
- Précision Top-1 : Proportion de prédictions correctes avec la confiance la plus élevée
- Précision Top-5 : Proportion où le label vrai figure dans les 5 meilleures prédictions
- Efficacité d'entraînement : Temps d'entraînement total (heures)
- Taille du modèle : Nombre de paramètres et ratio de compression
- KD Baseline (ResNet-18) : Distillation de connaissance traditionnelle, α=0,3,β=0,7
- KD Baseline (MobileNetV2) : Configuration identique appliquée à une architecture plus compacte
- Labels Durs Uniquement : Entraînement utilisant uniquement les labels vrais (α=1)
- Taille de lot : 64
- Nombre d'epochs : 50
- Optimiseur : SGD, momentum 0,9
- Taux d'apprentissage : Initial 0,1, recuit cosinus jusqu'à 0
- Décroissance des poids : 1×10⁻⁴
- Paramètre de température : τ=4,0
- Poids de perte (dual-étudiant) : α=0,4,β=0,4,γ=0,2
- Matériel : Non spécifié explicitement, mais temps d'entraînement environ 7,5-12,4 heures
Tableau I : Comparaison des Performances sur ImageNet-100
| Méthode | Architecture | Top-1 | Top-5 |
|---|
| KD Baseline | ResNet-18 | 81,86 % | 94,54 % |
| KD Baseline | MobileNetV2 | 80,54 % | 94,54 % |
| Méthode proposée | ResNet-18 | 83,84 % | 96,36 % |
| Méthode proposée | MobileNetV2 | 81,46 % | 95,54 % |
| Amélioration | ResNet-18 | +2,04 % | +1,82 % |
| Amélioration | MobileNetV2 | +0,92 % | +1,00 % |
Découvertes Clés :
- Amélioration Cohérente : Les deux architectures d'étudiants montrent des améliorations significatives, validant l'universalité de la méthode
- Sensibilité à la Capacité : ResNet-18 (plus grande capacité) obtient une amélioration absolue plus importante (2,04 % vs 0,92 %)
- Amélioration Top-5 : Indique que la méthode améliore non seulement les prédictions à confiance maximale mais aussi le classement des catégories
Tableau III : Étude d'Ablation des Composants de Perte
| Configuration | ResNet-18 | MobileNetV2 |
|---|
| Labels durs uniquement (α=1) | 78,2 % | 76,1 % |
| + Distillation d'enseignant (β=0,7) | 81,9 % | 80,5 % |
| + Pondération par incertitude | 82,8 % | 81,0 % |
| + Apprentissage par les pairs (γ=0,2) | 83,8 % | 81,5 % |
Analyse des Contributions Supplémentaires :
- KD Traditionnel : Amélioration de 3,7 % (ResNet-18) et 4,4 % (MobileNetV2) par rapport aux labels durs, validant la valeur des labels souples
- Pondération par Incertitude : Amélioration supplémentaire de 0,9-1,0 %, prouvant l'efficacité du transfert de connaissance sélectif
- Apprentissage par les Pairs : Amélioration supplémentaire de 0,5-1,0 %, démontrant les avantages complémentaires de la synergie hétérogène
Effet Cumulatif : Les trois composants agissent synergiquement, avec une amélioration totale de 5,6 % (ResNet-18) et 5,4 % (MobileNetV2)
Tableau II : Efficacité d'Entraînement
| Méthode | Temps d'entraînement | Epochs |
|---|
| Baseline (ResNet-18) | 7,58 heures | 50 |
| Baseline (MobileNetV2) | 7,50 heures | 50 |
| Dual-étudiant (les deux) | 12,36 heures | 50 |
Analyse d'Efficacité :
- L'augmentation du temps d'entraînement est de 1,63× (non 2×), grâce à l'inférence partagée de l'enseignant et au chargement de données
- Un seul entraînement produit deux modèles complémentaires, offrant une flexibilité de déploiement
- Le coût d'entraînement est un investissement unique, sans surcharge d'inférence
Caractéristiques de Convergence (epoch final) :
- ResNet-18 : Perte d'entraînement 0,3030, précision d'entraînement 84,88 %, précision de validation 83,84 % (écart de généralisation 1,04 %)
- MobileNetV2 : Perte d'entraînement 0,3789, précision d'entraînement 79,35 %, précision de validation 81,46 % (écart de généralisation -2,11 %, validation supérieure à l'entraînement)
Les petits écarts de généralisation indiquent que la méthode prévient efficacement le surapprentissage.
Statistiques de Confiance de l'Enseignant :
- Poids de confiance moyen : 0,816 (indiquant une confiance générale de l'enseignant)
- Entropie moyenne : 4,533 (entropie maximale 4,605 pour 100 classes)
- Incertitude normalisée : 0,184
Interprétation :
- L'enseignant est bien préentraîné sur ImageNet-100, avec la plupart des prédictions à haute confiance
- Un sous-ensemble significatif d'échantillons incertains existe toujours (environ 18,4 %)
- La variabilité de la distribution de confiance valide la nécessité de la pondération par incertitude
Tableau IV : Comparaison de la Taille du Modèle
| Modèle | Nombre de Paramètres | Ratio de Compression |
|---|
| Enseignant (ResNet-50) | 25,6M | 1,00× |
| Étudiant 1 (ResNet-18) | 11,7M | 2,19× |
| Étudiant 2 (MobileNetV2) | 3,5M | 7,31× |
Compromis de Déploiement :
- MobileNetV2 : Compression 7,31×, précision 81,46 %, adapté aux appareils mobiles
- ResNet-18 : Compression 2,19×, précision 83,84 %, équilibre entre précision et efficacité
- Le modèle dual offre la flexibilité de choisir selon les contraintes de ressources
- KD Originale Hinton et al., 2015 : Labels souples à température mise à l'échelle
- Transfert d'Attention Zagoruyko & Komodakis, 2017 : Appariement de cartes d'attention
- Distillation de Caractéristiques Romero et al., 2015 : Alignement de représentations intermédiaires
- Distillation de Relations Park et al., 2019 : Préservation des relations entre échantillons
Positionnement de cet article : Sur la base de la distillation au niveau de sortie, introduction de modulation par incertitude
- Réseaux de Neurones Bayésiens Gal & Ghahramani, 2016 : Distribution de paramètres
- Ensembles Profonds Lakshminarayanan et al., 2017 : Divergence multi-modèles
- Entropie de Prédiction Shannon, 1948 : Degré de déploiement de distribution de probabilité
Choix de Méthode : Adoption de l'incertitude basée sur l'entropie, calcul efficace (propagation avant unique)
- Apprentissage Mutuel Profond Zhang et al., 2018 : Apprentissage par les pairs sans enseignant
Innovation de cet article : Combinaison d'apprentissage enseignant-étudiant et par les pairs, avec pondération par incertitude
- Efficacité de la Conscience d'Incertitude : Le transfert de connaissance sélectif basé sur la confiance de l'enseignant améliore significativement les performances des étudiants
- Gains de l'Apprentissage par les Pairs : L'apprentissage collaboratif d'étudiants hétérogènes produit des avantages complémentaires, bénéficiant aux deux
- Validation d'Universalité : La méthode est efficace sur différentes architectures de capacités (ResNet-18 et MobileNetV2)
- Équilibre de Praticité : Obtention d'améliorations significatives de précision et de flexibilité de déploiement avec une augmentation acceptable du coût d'entraînement
- Augmentation du Coût d'Entraînement : Le cadre dual-étudiant nécessite 1,63× le temps d'entraînement, pouvant limiter les scénarios aux ressources très restreintes
- Sensibilité aux Hyperparamètres : Les poids de perte α,β,γ nécessitent un ajustement minutieux, avec des configurations optimales dépendantes du dataset et de l'architecture
- Mesure d'Incertitude Unique : Utilisation uniquement de l'entropie, sans distinction entre incertitude épistémique et aléatoire
- Portée d'Évaluation Limitée : Validation uniquement sur la classification d'images ImageNet-100, sans exploration d'autres tâches (détection, segmentation) et domaines (NLP)
- Hypothèse d'Entraînement Synchrone : Nécessite que les deux étudiants s'entraînent simultanément depuis le début, inadapté aux scénarios avec modèles partiellement entraînés
- Extension du Nombre d'Étudiants : Apprentissage collaboratif plus riche avec trois ou plus d'étudiants hétérogènes
- Estimation d'Incertitude Avancée : Monte Carlo Dropout ou apprentissage profond basé sur les preuves
- Applications Transdisciplinaires : NLP, reconnaissance vocale, apprentissage multimodal
- Planification de Poids Dynamique : Ajustement adaptatif de α,β,γ pendant l'entraînement
- Combinaison avec d'Autres Techniques de Compression : Élagage, quantification, recherche d'architecture neuronale
- Transférabilité des Modèles d'Incertitude : Étude de la cohérence d'incertitude entre datasets/tâches
- Motivation Théorique Claire : Basée sur l'observation des variations de confiance de l'enseignant, proposant un transfert de connaissance sélectif avec logique rigoureuse
- Conception d'Architecture Rationnelle : Combinaison de pondération par incertitude et apprentissage par les pairs, exploitant pleinement les sources de connaissance multiples
- Implémentation Technique Simple : Calcul d'incertitude basé sur l'entropie efficace, sans surcharge d'entraînement supplémentaire
- Études d'Ablation Complètes : Validation systématique de chaque composant (KD traditionnel, incertitude, apprentissage par les pairs) et de leurs contributions indépendantes
- Validation Multi-Architecture : Vérification sur ResNet-18 et MobileNetV2, démontrant l'universalité
- Analyse Statistique Détaillée : Fourniture de dynamiques d'entraînement, distribution d'incertitude, caractéristiques de convergence et autres perspectives approfondies
- Amélioration Cohérente : Les deux architectures d'étudiants montrent des améliorations significatives (2,04 % et 0,92 %), non accidentelles
- Gain Cumulatif Évident : Les expériences d'ablation montrent l'action synergique de chaque composant, avec amélioration totale dépassant 5 %
- Bonne Performance de Généralisation : Petit écart de généralisation (1,04 % et -2,11 %) indiquant la robustesse de la méthode
- Structure complète, logique fluide
- Notation mathématique standardisée, dérivations de formules claires
- Figures et tableaux intuitifs (Figures 1-3 montrant comparaisons de cadres)
- Mesure d'Incertitude Simple : Utilisation uniquement de l'entropie, sans considération de types d'incertitude plus nuancés
- Dépendance aux Hyperparamètres : Les poids de perte nécessitent un ajustement manuel, manque de mécanisme adaptatif
- Limitation d'Entraînement Synchrone : Ne supporte pas les scénarios d'entraînement asynchrone ou incrémental
- Dataset Unique : Validation uniquement sur ImageNet-100, sans test sur ImageNet complet ou autres datasets (CIFAR, COCO)
- Portée de Tâche Étroite : Classification d'images uniquement, sans exploration de détection, segmentation et autres tâches visuelles
- Manque de Comparaison avec Méthodes Avancées : Pas de comparaison avec méthodes SOTA récentes (CRD, ReviewKD)
- Absence de Tests de Significativité Statistique : Pas de rapport de moyenne et variance sur plusieurs exécutions
- Manque de Visualisation des Modèles d'Incertitude : Pas de démonstration des échantillons recevant des poids élevés/faibles
- Mécanisme d'Apprentissage par les Pairs Opaque : Analyse insuffisante de la manière dont les deux étudiants se complètent, quelles caractéristiques sont partagées
- Absence d'Analyse de Cas d'Échec : Pas de discussion sur les situations où la méthode échoue
- Code Non Ouvert : L'article ne mentionne pas de plan de publication de code
- Configuration Matérielle Non Détaillée : Temps d'entraînement rapportés mais sans spécification du type et du nombre de GPU
- Graine Aléatoire Non Fixée : Pas de mention des mesures de garantie de reproductibilité
- Innovation Modérée : La pondération par incertitude est une extension naturelle, mais son implémentation systématique et sa validation ont de la valeur
- Force Inspirante : Introduction d'une perspective de transfert sélectif à la distillation de connaissance, pouvant inspirer des recherches ultérieures
- Bonne Praticité : Méthode simple, facile à intégrer dans les cadres de distillation existants
- Flexibilité de Déploiement : Fourniture de deux modèles compressés (ratios 2,19× et 7,31×), adaptés à différentes contraintes de ressources
- Coût d'Entraînement Acceptable : Augmentation de 1,63× du temps pour amélioration significative de performance, ROI raisonnable
- Plug-and-Play : Pas de modification requise des architectures enseignant ou étudiant, forte compatibilité
- Difficulté Modérée : Description de méthode claire, mais manque de code et détails complets d'hyperparamètres
- Dataset Accessible : ImageNet-100 peut être construit à partir du sous-ensemble ImageNet
- Ressources de Calcul Modérées : 50 epochs, temps d'entraînement 12 heures, réalisable sur GPU unique
- Déploiement sur Appareils Mobiles : L'étudiant MobileNetV2 convient aux environnements extrêmement limités en ressources
- Informatique Périphérique : L'étudiant ResNet-18 équilibre précision et efficacité
- Besoins de Compression de Modèle Clairs : Enseignant fort existant, nécessité de compression à taille spécifique
- Intégration de Modèles Multiples : Les deux étudiants hétérogènes peuvent être utilisés pour prédiction d'ensemble
- Absence d'Enseignant Préentraîné : La méthode dépend d'un enseignant de haute qualité, inadaptée aux scénarios d'entraînement depuis zéro
- Exigences de Très Faible Latence : Temps d'entraînement dual-étudiant long, limité dans les scénarios d'itération rapide
- Tâches Non-Visuelles : NLP, reconnaissance vocale, etc. nécessitent validation d'adaptabilité
- Petits Datasets : Échelle ImageNet-100 relativement grande, risque de surapprentissage sur petits datasets
- Apprentissage Multi-Tâches : Extension à distillation simultanée de classification, détection et autres tâches
- Distillation En Ligne : Exploration de scénarios de données en flux avec adaptation automatique d'incertitude
- Apprentissage Fédéré : Mécanisme d'apprentissage par les pairs en environnement distribué
- Hinton et al., 2015 - Travail fondateur de distillation de connaissance
- Gal & Ghahramani, 2016 - Dropout comme approximation bayésienne
- Zhang et al., 2018 - Apprentissage mutuel profond (précurseur de l'apprentissage par les pairs)
- Zagoruyko & Komodakis, 2017 - Transfert d'attention
- Park et al., 2019 - Distillation de connaissance relationnelle
| Dimension | Score (1-5) | Explication |
|---|
| Innovativité | 3,5/5 | La pondération par incertitude est une innovation progressive, la combinaison avec apprentissage par les pairs a de la nouveauté |
| Profondeur Technique | 3/5 | Méthode simple mais manque d'analyse théorique, mesure d'incertitude relativement superficielle |
| Complétude Expérimentale | 3,5/5 | Études d'ablation suffisantes, mais manque de comparaisons multi-datasets et SOTA |
| Valeur Pratique | 4/5 | Facile à implémenter, résultats stables, flexibilité de déploiement élevée |
| Qualité de Rédaction | 4/5 | Structure claire, expression fluide, figures et tableaux intuitifs |
| Évaluation Globale | 3,6/5 | Travail d'application solide, méthode pratique mais innovation limitée |
Audience Recommandée pour Lecture : Chercheurs et ingénieurs travaillant sur la compression de modèles et la distillation de connaissance, particulièrement ceux intéressés par le déploiement sur appareils mobiles.