On the impact of the parametrization of deep convolutional neural networks on post-training quantization
Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic
Sur l'impact de la paramétrisation des réseaux de neurones convolutifs profonds sur la quantification post-entraînement
Cet article introduit de nouvelles bornes théoriques d'approximation pour la sortie de réseaux de neurones quantifiés, en se concentrant particulièrement sur les réseaux de neurones convolutifs (CNN). En considérant une paramétrisation couche par couche et en se focalisant sur la quantification des poids, les auteurs fournissent des bornes qui améliorent les résultats de l'état de l'art existant de plusieurs ordres de grandeur sur les réseaux de neurones convolutifs profonds classiques (tels que MobileNetV2 ou ResNets). Ces améliorations sont réalisées en optimisant le comportement des bornes d'approximation par rapport au paramètre de profondeur, qui a l'impact maximal sur l'erreur d'approximation induite par la quantification. Pour compléter les résultats théoriques, les auteurs fournissent des explorations numériques sur MobileNetV2 et ResNets.
Problème central: Lors du déploiement de réseaux de neurones profonds dans des environnements aux ressources limitées, les techniques de quantification introduisent une dégradation des performances, nécessitant l'établissement de bornes théoriques pour quantifier cette dégradation.
Importance:
La demande croissante de déploiement de réseaux de neurones sur des appareils mobiles et des systèmes embarqués
Les applications critiques pour la sécurité nécessitent des garanties théoriques robustes
La quantification est une technique clé pour réduire la taille du modèle et les coûts de calcul
Limitations des approches existantes:
Les bornes de Gonon et al. (2023) sont trop pessimistes, avec une valeur pratique limitée
Les hypothèses strictes exigeant une norme de paramètre maximale r > 1 limitent l'applicabilité
La constante C présente une dépendance O(NL²), impraticable pour les architectures profondes modernes
Motivation de la recherche:
Les bornes existantes sont trop conservatrices pour les réseaux profonds
Des bornes théoriques plus serrées sont nécessaires pour guider les stratégies de quantification pratiques
La régularisation des poids rend le cas r < 1 courant, nécessitant un assouplissement des contraintes
Bornes d'approximation plus serrées: Amélioration du facteur NL² de Gonon et al. à ∑ᴸₗ₌₁Nₗ₋₁, se simplifiant en NL pour les réseaux de largeur constante
Assouplissement des contraintes de norme: Permettre des valeurs positives arbitraires pour rₗ (norme d'opérateur de la couche l), rendant les résultats applicables aux réseaux avec des normes de paramètres réduites
Terme de moyenne géométrique amélioré: Remplacement de la norme de paramètre maximale r par rmean, fournissant des estimations moins pessimistes
Spécialisation pour les réseaux convolutifs: Fourniture de bornes spécialisées pour les structures convolutives, ne considérant que la taille des filtres et le nombre de canaux
Validation pratique: Vérification des améliorations théoriques sur des modèles CNN préentraînés classiques, démontrant des améliorations de plusieurs ordres de grandeur
Approche de paramétrisation couche par couche: Analyse des normes de paramètres couche par couche pour éviter l'utilisation de valeurs maximales globales
Exploitation de la structure creuse: La parcimonie des matrices de convolution est efficacement utilisée, remplaçant Nₗ₋₁ complet par p²ₗcₗ₋₁
Stratégie de moyenne géométrique: rmean tient compte de la variabilité des normes de paramètres entre les couches, plus précis qu'une simple valeur maximale
Amélioration théorique significative: Les nouvelles bornes sont plusieurs ordres de grandeur plus serrées que les résultats existants sur les réseaux pratiques
Optimisation de la dépendance à la profondeur: Amélioration de la dépendance L² vers une croissance plus modérée
Amélioration de la praticité: Assouplissement des contraintes de paramètres, applicable aux réseaux régularisés
Sensibilité à l'architecture: La parcimonie de la structure convolutive est efficacement exploitée
Contribution théorique remarquable: Progrès significatif dans les bornes théoriques de quantification, avec des améliorations d'ordres de grandeur d'importance majeure
Rigueur mathématique: Preuves complètes, dérivations mathématiques fiables et rigoureuses
Valeur pratique: Assouplissement des hypothèses strictes des méthodes existantes, amélioration de l'applicabilité
Vérification expérimentale suffisante: Validation des améliorations théoriques sur plusieurs architectures classiques
Clarté de la rédaction: Structure logique de l'article, expression précise des détails techniques
Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
He, K., et al. (2016). Deep residual learning for image recognition. CVPR.
Résumé: Cet article réalise des progrès importants dans l'analyse théorique de la quantification des réseaux de neurones. Grâce à une analyse couche par couche plus fine et à une stratégie de moyenne géométrique, il améliore significativement les bornes d'approximation existantes. Bien que les bornes restent relativement conservatrices, leurs améliorations d'ordres de grandeur et leurs contraintes assouplies leur confèrent une importance théorique et pratique considérable.