2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic

Sull'impatto della parametrizzazione delle reti neurali convoluzionali profonde sulla quantizzazione post-training

Informazioni Fondamentali

  • ID Articolo: 2502.01156
  • Titolo: On the impact of the parametrization of deep convolutional neural networks on post-training quantization
  • Autori: Samy Houache (Univ. Bordeaux, Thales AVS), Jean-François Aujol (Univ. Bordeaux), Yann Traonmilin (Univ. Bordeaux)
  • Classificazione: cs.IT (Teoria dell'Informazione), math.IT (Teoria Matematica dell'Informazione)
  • Data di Pubblicazione: Febbraio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2502.01156

Riassunto

Questo articolo introduce nuovi limiti di approssimazione teorici per l'output di reti neurali quantizzate, con particolare attenzione alle reti neurali convoluzionali (CNN). Considerando la parametrizzazione strato per strato e concentrandosi sulla quantizzazione dei pesi, gli autori forniscono limiti che raggiungono miglioramenti di diversi ordini di grandezza rispetto ai risultati all'avanguardia su reti convoluzionali profonde classiche (come MobileNetV2 o ResNets). Questi miglioramenti sono ottenuti attraverso il miglioramento del comportamento dei limiti di approssimazione rispetto al parametro di profondità, che ha il maggiore impatto sull'errore di approssimazione causato dalla quantizzazione. Per complementare i risultati teorici, gli autori forniscono esplorazioni numeriche su MobileNetV2 e ResNets.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Durante il deployment di reti neurali profonde in ambienti con risorse limitate, le tecniche di quantizzazione introducono degradazione delle prestazioni, richiedendo limiti teorici per quantificare questo deterioramento.
  2. Importanza:
    • Crescente necessità di deployment di reti neurali su dispositivi mobili e sistemi embedded
    • Applicazioni critiche per la sicurezza richiedono garanzie teoriche robuste
    • La quantizzazione è una tecnica chiave per ridurre la dimensione del modello e i costi computazionali
  3. Limitazioni dei Metodi Esistenti:
    • I limiti di Gonon et al. (2023) sono eccessivamente pessimistici, con valore pratico limitato
    • Ipotesi ristrittive che richiedono norma parametrica massima r > 1 limitano l'applicabilità
    • La costante C mostra dipendenza O(NL²), impratica per architetture profonde moderne
  4. Motivazione della Ricerca:
    • I limiti esistenti sono troppo conservativi per reti profonde
    • Sono necessari limiti teorici più stretti per guidare strategie di quantizzazione pratiche
    • La regolarizzazione dei pesi rende comuni i casi con r < 1, richiedendo il rilassamento dei vincoli

Contributi Principali

  1. Limiti di Approssimazione Più Stretti: Miglioramento del fattore NL² di Gonon et al. a ∑ᴸₗ₌₁Nₗ₋₁, semplificato a NL per reti di larghezza costante
  2. Rilassamento dei Vincoli di Norma: Permette valori positivi arbitrari di rₗ (norma dell'operatore dello strato l), rendendo i risultati applicabili a reti con norme parametriche più piccole
  3. Termine Media Geometrica Migliorato: Sostituzione della norma parametrica massima r con rmean, fornendo stime meno pessimistiche
  4. Specializzazione per Reti Convoluzionali: Limiti specializzati per strutture convoluzionali, considerando solo dimensioni dei filtri e numero di canali
  5. Verifica Pratica: Validazione dei miglioramenti teorici su modelli CNN pre-addestrati classici, dimostrando miglioramenti di diversi ordini di grandezza

Dettagli Metodologici

Definizione del Compito

Per una rete neurale Rθ e la sua versione quantizzata Rθ', si cerca un limite della forma:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

dove Ω è il dominio di input e C è una costante dipendente dall'architettura della rete.

Risultati Teorici Principali

Limite di Approssimazione Generale (Teorema 4.1)

Per architettura (L,N), assumendo due reti con gli stessi bias e solo quantizzazione dei pesi:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

dove il termine media geometrica è definito come:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

Limite Specializzato per Reti Convoluzionali (Teorema 4.4)

Per reti puramente convoluzionali (senza bias), applicando cₗ filtri di dimensione pₗ×pₗ per strato:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

dove:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

Innovazioni Tecniche

  1. Metodo di Parametrizzazione Strato per Strato: Analisi parametrica per strato evita l'uso di valori massimi globali
  2. Sfruttamento della Struttura Sparsa: La sparsità delle matrici convoluzionali è efficacemente utilizzata, sostituendo Nₗ₋₁ completo con p²ₗcₗ₋₁
  3. Strategia Media Geometrica: rmean considera la variabilità delle norme parametriche tra strati, più precisa di un semplice valore massimo

Configurazione Sperimentale

Dataset

  • Tiny ImageNet: 110.000 immagini 64×64, contenenti 200 classi
  • MNIST: Riconoscimento di cifre scritte a mano, utilizzato per esperimenti MLP
  • CIFAR-10: Immagini a colori 32×32, 10 classi

Architetture di Modelli

  • ResNet18/50: Reti residuali con BatchNorm rimosso
  • MobileNetV2: Rete leggera con BatchNorm rimosso
  • Perceptron Multistrato: Profondità variabile (5,7,9,11 strati) per analisi dell'impatto della profondità

Metodi di Quantizzazione

  1. Quantizzazione Uniforme: Q_unif(θ) = ⌊θ/η⌋η
  2. Quantizzazione per Arrotondamento: Q_round(θ) = round(θ/η)η
  3. AdaRound: Arrotondamento adattivo, ottimizzazione degli offset di arrotondamento

Metriche di Valutazione

  • Confronto della strettezza dei limiti teorici
  • Precisione del modello dopo quantizzazione
  • Prestazioni con diverse larghezze di bit

Risultati Sperimentali

Risultati Principali

Effetti del Miglioramento dei Limiti

  • ResNet18: Nuovo limite 10⁸ volte più stretto dei risultati di Gonon et al.
  • MobileNetV2: Miglioramento di 10⁵⁶ volte
  • ResNet50: Miglioramento di 10²⁷ volte

Confronto Analisi Parametrica

ModelloProfondità LLarghezza Limite PrecedenteNorma Limite Precedente rLarghezza Nuovo LimiteNorma Nuovo Limite r_convRapporto di Miglioramento
MobileNetV2531.2×10⁶≈1018641≈9≈10⁵⁶
ResNet18188×10⁵≈844609≈44≈10⁸
ResNet50508×10⁵≈1084609≈37≈10²⁷

Analisi dell'Impatto della Profondità

Attraverso esperimenti MLP, il miglioramento dei limiti cresce esponenzialmente con la profondità:

  • Profondità 5: Miglioramento circa 10³ volte
  • Profondità 11: Miglioramento circa 10⁸ volte

Analisi delle Prestazioni di Quantizzazione

Prestazioni di diversi metodi di quantizzazione su Tiny ImageNet:

  • AdaRound mostra le migliori prestazioni in quantizzazione estrema (≤4 bit)
  • MobileNetV2 ha tolleranza superiore alla quantizzazione rispetto a ResNets
  • La profondità influenza significativamente l'errore di quantizzazione, validando le previsioni teoriche

Impatto della Distribuzione dei Pesi

Gli esperimenti mostrano l'importanza della distribuzione delle norme dei pesi:

  • MobileNetV2: r≈101 vs r_conv≈9 (miglioramento 11 volte)
  • ResNet50: r≈108 vs r_conv≈37 (miglioramento 3 volte)
  • Maggiore variabilità nella distribuzione dei pesi, maggiore vantaggio di r_conv rispetto a r

Lavori Correlati

Ricerca sui Limiti di Approssimazione

  • Gonon et al. (2023): Fornisce limiti superiori generali per reti ReLU, ma eccessivamente pessimistici per reti profonde
  • Neyshabur et al. (2018): Casi specifici con perturbazioni controllate, non applicabili a quantizzazione arbitraria
  • Berner et al. (2020): Caso norma L∞, ma limitato a d_out=1

Tecniche di Quantizzazione

  • AdaRound (Nagel et al. 2020): Arrotondamento adattivo guidato dai dati
  • Cross-Layer Equalization: Uniformazione della distribuzione dei pesi tra strati
  • Quantizzazione a Bassissima Precisione: Pesi binari, inferenza a precisione estremamente bassa

Analisi Teorica

  • Studio delle Proprietà Topologiche: Continuità di Lipschitz delle mappe di realizzazione
  • Capacità di Approssimazione: Estensioni del teorema di approssimazione universale per reti neurali

Conclusioni e Discussione

Conclusioni Principali

  1. Miglioramento Teorico Significativo: I nuovi limiti sono più stretti di diversi ordini di grandezza rispetto ai risultati esistenti su reti pratiche
  2. Ottimizzazione della Dipendenza dalla Profondità: Miglioramento da dipendenza L² a crescita più moderata
  3. Aumento della Praticità: Rilassamento dei vincoli parametrici, applicabilità a reti regolarizzate
  4. Consapevolezza dell'Architettura: La sparsità della struttura convoluzionale è efficacemente sfruttata

Limitazioni

  1. Ancora Conservativi: I limiti teorici rimangono diversi ordini di grandezza lontani dagli errori osservati
  2. Analisi del Caso Peggiore: I limiti teorici si basano su scenari estremi, raramente verificati in applicazioni pratiche
  3. Limitazioni Architetturali: Principalmente focalizzati su CNN, non estesi ad architetture moderne come Transformer
  4. Gestione di BatchNorm: Gli esperimenti hanno rimosso BatchNorm per soddisfare le condizioni teoriche

Direzioni Future

  1. Estensione a Transformer: Gestione della normalizzazione di strato e meccanismi di attenzione multi-testa
  2. Metodi Probabilistici: Sviluppo di limiti probabilistici che riflettono condizioni operative tipiche
  3. Limiti Più Stretti: Ulteriore riduzione del divario tra limiti teorici ed errori effettivi
  4. Strumenti Pratici: Trasformazione dei risultati teorici in strumenti di guida per strategie di quantizzazione

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Notevole: Progressi significativi nei limiti teorici della quantizzazione, con miglioramenti di ordini di grandezza di importanza rilevante
  2. Rigore Matematico: Processo dimostrativo completo, derivazioni matematiche affidabili e rigorose
  3. Valore Pratico: Rilassamento dei vincoli ristretti dei metodi esistenti, aumento dell'applicabilità
  4. Verifica Sperimentale Completa: Validazione dei miglioramenti teorici su molteplici architetture classiche
  5. Scrittura Chiara: Struttura dell'articolo razionale, dettagli tecnici espressi accuratamente

Insufficienze

  1. Limiti Ancora Lenti: Nonostante i miglioramenti significativi, rimane un ampio divario tra limiti teorici ed errori effettivi
  2. Limitazioni Architetturali: Focalizzazione principale su CNN, estensibilità limitata ad architetture Transformer moderne
  3. Condizioni di Ipotesi: Rimozione di componenti come BatchNorm potrebbe influenzare il valore pratico applicativo
  4. Mancanza di Analisi Probabilistica: Assenza di analisi probabilistica delle prestazioni in casi tipici

Impatto

  1. Valore Teorico: Fornisce nuovo quadro analitico e strumenti per la teoria della quantizzazione
  2. Guida Pratica: Può guidare la progettazione di strategie di quantizzazione, in particolare tecniche come Cross-Layer Equalization
  3. Ispirazione per la Ricerca: Fornisce direzioni di miglioramento e fondamenti per ricerche successive
  4. Riproducibilità: Configurazione sperimentale chiara, risultati riproducibili

Scenari Applicabili

  1. Applicazioni Critiche per la Sicurezza: Deployment di quantizzazione che richiede garanzie teoriche
  2. Sistemi Embedded: Compressione di modelli in ambienti con risorse limitate
  3. Progettazione di Strategie di Quantizzazione: Guida per quantizzazione strato per strato e tecniche di pre-elaborazione
  4. Ricerca Teorica: Fondamenti per ulteriore ricerca sulla teoria della quantizzazione

Riferimenti Bibliografici

  1. Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
  2. Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
  3. Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
  4. He, K., et al. (2016). Deep residual learning for image recognition. CVPR.

Sintesi: Questo articolo raggiunge progressi importanti nell'analisi teorica della quantizzazione di reti neurali, migliorando significativamente i limiti di approssimazione esistenti attraverso analisi strato per strato più raffinata e strategia media geometrica. Sebbene i limiti rimangono relativamente conservativi, i miglioramenti di ordini di grandezza e le condizioni di vincolo rilassate conferiscono significativo valore teorico e pratico.