2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic

Sur l'impact de la paramétrisation des réseaux de neurones convolutifs profonds sur la quantification post-entraînement

Informations fondamentales

  • ID de l'article: 2502.01156
  • Titre: On the impact of the parametrization of deep convolutional neural networks on post-training quantization
  • Auteurs: Samy Houache (Univ. Bordeaux, Thales AVS), Jean-François Aujol (Univ. Bordeaux), Yann Traonmilin (Univ. Bordeaux)
  • Classification: cs.IT (Théorie de l'information), math.IT (Théorie mathématique de l'information)
  • Date de publication: Février 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2502.01156

Résumé

Cet article introduit de nouvelles bornes théoriques d'approximation pour la sortie de réseaux de neurones quantifiés, en se concentrant particulièrement sur les réseaux de neurones convolutifs (CNN). En considérant une paramétrisation couche par couche et en se focalisant sur la quantification des poids, les auteurs fournissent des bornes qui améliorent les résultats de l'état de l'art existant de plusieurs ordres de grandeur sur les réseaux de neurones convolutifs profonds classiques (tels que MobileNetV2 ou ResNets). Ces améliorations sont réalisées en optimisant le comportement des bornes d'approximation par rapport au paramètre de profondeur, qui a l'impact maximal sur l'erreur d'approximation induite par la quantification. Pour compléter les résultats théoriques, les auteurs fournissent des explorations numériques sur MobileNetV2 et ResNets.

Contexte et motivation de la recherche

Définition du problème

  1. Problème central: Lors du déploiement de réseaux de neurones profonds dans des environnements aux ressources limitées, les techniques de quantification introduisent une dégradation des performances, nécessitant l'établissement de bornes théoriques pour quantifier cette dégradation.
  2. Importance:
    • La demande croissante de déploiement de réseaux de neurones sur des appareils mobiles et des systèmes embarqués
    • Les applications critiques pour la sécurité nécessitent des garanties théoriques robustes
    • La quantification est une technique clé pour réduire la taille du modèle et les coûts de calcul
  3. Limitations des approches existantes:
    • Les bornes de Gonon et al. (2023) sont trop pessimistes, avec une valeur pratique limitée
    • Les hypothèses strictes exigeant une norme de paramètre maximale r > 1 limitent l'applicabilité
    • La constante C présente une dépendance O(NL²), impraticable pour les architectures profondes modernes
  4. Motivation de la recherche:
    • Les bornes existantes sont trop conservatrices pour les réseaux profonds
    • Des bornes théoriques plus serrées sont nécessaires pour guider les stratégies de quantification pratiques
    • La régularisation des poids rend le cas r < 1 courant, nécessitant un assouplissement des contraintes

Contributions principales

  1. Bornes d'approximation plus serrées: Amélioration du facteur NL² de Gonon et al. à ∑ᴸₗ₌₁Nₗ₋₁, se simplifiant en NL pour les réseaux de largeur constante
  2. Assouplissement des contraintes de norme: Permettre des valeurs positives arbitraires pour rₗ (norme d'opérateur de la couche l), rendant les résultats applicables aux réseaux avec des normes de paramètres réduites
  3. Terme de moyenne géométrique amélioré: Remplacement de la norme de paramètre maximale r par rmean, fournissant des estimations moins pessimistes
  4. Spécialisation pour les réseaux convolutifs: Fourniture de bornes spécialisées pour les structures convolutives, ne considérant que la taille des filtres et le nombre de canaux
  5. Validation pratique: Vérification des améliorations théoriques sur des modèles CNN préentraînés classiques, démontrant des améliorations de plusieurs ordres de grandeur

Détails de la méthode

Définition de la tâche

Pour un réseau de neurones Rθ et sa version quantifiée Rθ', rechercher une borne de la forme:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

où Ω est le domaine d'entrée et C est une constante dépendant de l'architecture du réseau.

Résultats théoriques principaux

Borne d'approximation générale (Théorème 4.1)

Pour une architecture (L,N), en supposant que deux réseaux ont les mêmes biais et que seuls les poids sont quantifiés:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

où le terme de moyenne géométrique est défini comme:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

Borne spécialisée pour les réseaux convolutifs (Théorème 4.4)

Pour les réseaux purement convolutifs (sans biais), avec cₗ filtres de taille pₗ×pₗ appliqués à chaque couche:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

où:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

Points d'innovation technique

  1. Approche de paramétrisation couche par couche: Analyse des normes de paramètres couche par couche pour éviter l'utilisation de valeurs maximales globales
  2. Exploitation de la structure creuse: La parcimonie des matrices de convolution est efficacement utilisée, remplaçant Nₗ₋₁ complet par p²ₗcₗ₋₁
  3. Stratégie de moyenne géométrique: rmean tient compte de la variabilité des normes de paramètres entre les couches, plus précis qu'une simple valeur maximale

Configuration expérimentale

Ensembles de données

  • Tiny ImageNet: 110 000 images 64×64, contenant 200 classes
  • MNIST: Reconnaissance de chiffres manuscrits, utilisé pour les expériences MLP
  • CIFAR-10: Images couleur 32×32, 10 classes

Architectures de modèles

  • ResNet18/50: Réseaux résiduels sans BatchNorm
  • MobileNetV2: Réseau léger sans BatchNorm
  • Perceptron multicouche: Différentes profondeurs (5, 7, 9, 11 couches) pour l'analyse de l'impact de la profondeur

Méthodes de quantification

  1. Quantification uniforme: Q_unif(θ) = ⌊θ/η⌋η
  2. Quantification par arrondi: Q_round(θ) = round(θ/η)η
  3. AdaRound: Arrondi adaptatif, optimisant les décalages d'arrondi

Indicateurs d'évaluation

  • Comparaison de la serrage des bornes théoriques
  • Précision du modèle après quantification
  • Performance à différentes largeurs de bits

Résultats expérimentaux

Résultats principaux

Effet d'amélioration des bornes

  • ResNet18: La nouvelle borne est 10⁸ fois plus serrée que celle de Gonon et al.
  • MobileNetV2: Amélioration atteignant 10⁵⁶ fois
  • ResNet50: Amélioration atteignant 10²⁷ fois

Comparaison de l'analyse des paramètres

ModèleProfondeur LLargeur ancienne borneNorme ancienne rLargeur nouvelle borneNorme nouvelle r_convRatio d'amélioration
MobileNetV2531,2×10⁶≈1018641≈9≈10⁵⁶
ResNet18188×10⁵≈844609≈44≈10⁸
ResNet50508×10⁵≈1084609≈37≈10²⁷

Analyse de l'impact de la profondeur

Vérification par expériences MLP, l'amélioration des bornes croît exponentiellement avec la profondeur:

  • Profondeur 5: Amélioration d'environ 10³ fois
  • Profondeur 11: Amélioration d'environ 10⁸ fois

Analyse des performances de quantification

Performance de différentes méthodes de quantification sur Tiny ImageNet:

  • AdaRound offre les meilleures performances en quantification extrême (≤4 bits)
  • MobileNetV2 présente une meilleure tolérance à la quantification que ResNets
  • La profondeur affecte significativement l'erreur de quantification, validant les prédictions théoriques

Impact de la distribution des poids

Les expériences montrent l'importance de la distribution des normes de poids:

  • MobileNetV2: r≈101 vs r_conv≈9 (amélioration de 11 fois)
  • ResNet50: r≈108 vs r_conv≈37 (amélioration de 3 fois)
  • Plus la variabilité de la distribution des poids est grande, plus l'avantage de r_conv par rapport à r est manifeste

Travaux connexes

Recherche sur les bornes d'approximation

  • Gonon et al. (2023): Fournit des bornes supérieures générales pour les réseaux ReLU, mais trop pessimistes pour les réseaux profonds
  • Neyshabur et al. (2018): Cas spécifiques de perturbations contrôlées, non applicable à la quantification arbitraire
  • Berner et al. (2020): Cas de norme L∞, mais limité à d_out=1

Techniques de quantification

  • AdaRound (Nagel et al. 2020): Arrondi adaptatif piloté par les données
  • Cross-Layer Equalization: Uniformisation de la distribution des poids entre les couches
  • Quantification à faible nombre de bits: Poids binaires, inférence à très basse précision

Analyse théorique

  • Étude des propriétés topologiques: Continuité de Lipschitz des applications réalisées
  • Capacité d'approximation: Extensions des théorèmes d'approximation universelle des réseaux de neurones

Conclusions et discussion

Conclusions principales

  1. Amélioration théorique significative: Les nouvelles bornes sont plusieurs ordres de grandeur plus serrées que les résultats existants sur les réseaux pratiques
  2. Optimisation de la dépendance à la profondeur: Amélioration de la dépendance L² vers une croissance plus modérée
  3. Amélioration de la praticité: Assouplissement des contraintes de paramètres, applicable aux réseaux régularisés
  4. Sensibilité à l'architecture: La parcimonie de la structure convolutive est efficacement exploitée

Limitations

  1. Toujours conservatrice: L'écart entre les bornes théoriques et les erreurs observées reste de plusieurs ordres de grandeur
  2. Analyse du pire cas: Les bornes théoriques sont basées sur des cas extrêmes, rarement observés dans les applications pratiques
  3. Limitations architecturales: Principalement orientées vers les CNN, sans extension aux architectures modernes comme les Transformers
  4. Traitement de BatchNorm: BatchNorm a été supprimé dans les expériences pour satisfaire les conditions théoriques

Directions futures

  1. Extension aux Transformers: Traitement de la normalisation par couche et des mécanismes d'attention multi-têtes
  2. Approches probabilistes: Développement de bornes probabilistes reflétant les conditions opérationnelles typiques
  3. Bornes plus serrées: Réduction supplémentaire de l'écart entre les bornes théoriques et les erreurs réelles
  4. Outils pratiques: Transformation des résultats théoriques en outils de guidage des stratégies de quantification

Évaluation approfondie

Points forts

  1. Contribution théorique remarquable: Progrès significatif dans les bornes théoriques de quantification, avec des améliorations d'ordres de grandeur d'importance majeure
  2. Rigueur mathématique: Preuves complètes, dérivations mathématiques fiables et rigoureuses
  3. Valeur pratique: Assouplissement des hypothèses strictes des méthodes existantes, amélioration de l'applicabilité
  4. Vérification expérimentale suffisante: Validation des améliorations théoriques sur plusieurs architectures classiques
  5. Clarté de la rédaction: Structure logique de l'article, expression précise des détails techniques

Insuffisances

  1. Bornes toujours lâches: Malgré les améliorations significatives, l'écart entre les bornes théoriques et les erreurs réelles reste important
  2. Limitations architecturales: Principalement orientées vers les CNN, applicabilité limitée aux architectures Transformer modernes
  3. Conditions d'hypothèse: La suppression de BatchNorm et d'autres composants peut affecter la valeur pratique
  4. Absence d'analyse probabiliste: Manque d'analyse probabiliste des performances dans les cas typiques

Impact

  1. Valeur théorique: Fournit un nouveau cadre d'analyse et des outils pour la théorie de la quantification
  2. Guidage pratique: Peut guider la conception de stratégies de quantification, particulièrement pour des techniques comme Cross-Layer Equalization
  3. Inspiration pour la recherche: Fournit des directions d'amélioration et une base pour les recherches ultérieures
  4. Reproductibilité: Configuration expérimentale claire, résultats reproductibles

Scénarios d'application

  1. Applications critiques pour la sécurité: Déploiement de quantification nécessitant des garanties théoriques
  2. Systèmes embarqués: Compression de modèles dans les environnements aux ressources limitées
  3. Conception de stratégies de quantification: Guidage de la quantification couche par couche et des techniques de prétraitement
  4. Recherche théorique: Base pour la recherche théorique ultérieure sur la quantification

Références

  1. Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
  2. Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
  3. Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
  4. He, K., et al. (2016). Deep residual learning for image recognition. CVPR.

Résumé: Cet article réalise des progrès importants dans l'analyse théorique de la quantification des réseaux de neurones. Grâce à une analyse couche par couche plus fine et à une stratégie de moyenne géométrique, il améliore significativement les bornes d'approximation existantes. Bien que les bornes restent relativement conservatrices, leurs améliorations d'ordres de grandeur et leurs contraintes assouplies leur confèrent une importance théorique et pratique considérable.