2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin

This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.

academic

Sull'impatto della parametrizzazione delle reti neurali convoluzionali profonde sulla quantizzazione post-training

Informazioni Fondamentali

ID Articolo: 2502.01156
Titolo: On the impact of the parametrization of deep convolutional neural networks on post-training quantization
Autori: Samy Houache (Univ. Bordeaux, Thales AVS), Jean-François Aujol (Univ. Bordeaux), Yann Traonmilin (Univ. Bordeaux)
Classificazione: cs.IT (Teoria dell'Informazione), math.IT (Teoria Matematica dell'Informazione)
Data di Pubblicazione: Febbraio 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2502.01156

Riassunto

Questo articolo introduce nuovi limiti di approssimazione teorici per l'output di reti neurali quantizzate, con particolare attenzione alle reti neurali convoluzionali (CNN). Considerando la parametrizzazione strato per strato e concentrandosi sulla quantizzazione dei pesi, gli autori forniscono limiti che raggiungono miglioramenti di diversi ordini di grandezza rispetto ai risultati all'avanguardia su reti convoluzionali profonde classiche (come MobileNetV2 o ResNets). Questi miglioramenti sono ottenuti attraverso il miglioramento del comportamento dei limiti di approssimazione rispetto al parametro di profondità, che ha il maggiore impatto sull'errore di approssimazione causato dalla quantizzazione. Per complementare i risultati teorici, gli autori forniscono esplorazioni numeriche su MobileNetV2 e ResNets.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Durante il deployment di reti neurali profonde in ambienti con risorse limitate, le tecniche di quantizzazione introducono degradazione delle prestazioni, richiedendo limiti teorici per quantificare questo deterioramento.
Importanza:
- Crescente necessità di deployment di reti neurali su dispositivi mobili e sistemi embedded
- Applicazioni critiche per la sicurezza richiedono garanzie teoriche robuste
- La quantizzazione è una tecnica chiave per ridurre la dimensione del modello e i costi computazionali
Limitazioni dei Metodi Esistenti:
- I limiti di Gonon et al. (2023) sono eccessivamente pessimistici, con valore pratico limitato
- Ipotesi ristrittive che richiedono norma parametrica massima r > 1 limitano l'applicabilità
- La costante C mostra dipendenza O(NL²), impratica per architetture profonde moderne
Motivazione della Ricerca:
- I limiti esistenti sono troppo conservativi per reti profonde
- Sono necessari limiti teorici più stretti per guidare strategie di quantizzazione pratiche
- La regolarizzazione dei pesi rende comuni i casi con r < 1, richiedendo il rilassamento dei vincoli

Contributi Principali

Limiti di Approssimazione Più Stretti: Miglioramento del fattore NL² di Gonon et al. a ∑ᴸₗ₌₁Nₗ₋₁, semplificato a NL per reti di larghezza costante
Rilassamento dei Vincoli di Norma: Permette valori positivi arbitrari di rₗ (norma dell'operatore dello strato l), rendendo i risultati applicabili a reti con norme parametriche più piccole
Termine Media Geometrica Migliorato: Sostituzione della norma parametrica massima r con rmean, fornendo stime meno pessimistiche
Specializzazione per Reti Convoluzionali: Limiti specializzati per strutture convoluzionali, considerando solo dimensioni dei filtri e numero di canali
Verifica Pratica: Validazione dei miglioramenti teorici su modelli CNN pre-addestrati classici, dimostrando miglioramenti di diversi ordini di grandezza

Dettagli Metodologici

Definizione del Compito

Per una rete neurale Rθ e la sua versione quantizzata Rθ', si cerca un limite della forma:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

dove Ω è il dominio di input e C è una costante dipendente dall'architettura della rete.

Risultati Teorici Principali

Limite di Approssimazione Generale (Teorema 4.1)

Per architettura (L,N), assumendo due reti con gli stessi bias e solo quantizzazione dei pesi:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

dove il termine media geometrica è definito come:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

Limite Specializzato per Reti Convoluzionali (Teorema 4.4)

Per reti puramente convoluzionali (senza bias), applicando cₗ filtri di dimensione pₗ×pₗ per strato:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

dove:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

Innovazioni Tecniche

Metodo di Parametrizzazione Strato per Strato: Analisi parametrica per strato evita l'uso di valori massimi globali
Sfruttamento della Struttura Sparsa: La sparsità delle matrici convoluzionali è efficacemente utilizzata, sostituendo Nₗ₋₁ completo con p²ₗcₗ₋₁
Strategia Media Geometrica: rmean considera la variabilità delle norme parametriche tra strati, più precisa di un semplice valore massimo

Configurazione Sperimentale

Dataset

Tiny ImageNet: 110.000 immagini 64×64, contenenti 200 classi
MNIST: Riconoscimento di cifre scritte a mano, utilizzato per esperimenti MLP
CIFAR-10: Immagini a colori 32×32, 10 classi

Architetture di Modelli

ResNet18/50: Reti residuali con BatchNorm rimosso
MobileNetV2: Rete leggera con BatchNorm rimosso
Perceptron Multistrato: Profondità variabile (5,7,9,11 strati) per analisi dell'impatto della profondità

Metodi di Quantizzazione

Quantizzazione Uniforme: Q_unif(θ) = ⌊θ/η⌋η
Quantizzazione per Arrotondamento: Q_round(θ) = round(θ/η)η
AdaRound: Arrotondamento adattivo, ottimizzazione degli offset di arrotondamento

Metriche di Valutazione

Confronto della strettezza dei limiti teorici
Precisione del modello dopo quantizzazione
Prestazioni con diverse larghezze di bit

Risultati Sperimentali

Risultati Principali

Effetti del Miglioramento dei Limiti

ResNet18: Nuovo limite 10⁸ volte più stretto dei risultati di Gonon et al.
MobileNetV2: Miglioramento di 10⁵⁶ volte
ResNet50: Miglioramento di 10²⁷ volte

Confronto Analisi Parametrica

Modello	Profondità L	Larghezza Limite Precedente	Norma Limite Precedente r	Larghezza Nuovo Limite	Norma Nuovo Limite r_conv	Rapporto di Miglioramento
MobileNetV2	53	1.2×10⁶	≈101	8641	≈9	≈10⁵⁶
ResNet18	18	8×10⁵	≈84	4609	≈44	≈10⁸
ResNet50	50	8×10⁵	≈108	4609	≈37	≈10²⁷

Analisi dell'Impatto della Profondità

Attraverso esperimenti MLP, il miglioramento dei limiti cresce esponenzialmente con la profondità:

Profondità 5: Miglioramento circa 10³ volte
Profondità 11: Miglioramento circa 10⁸ volte

Analisi delle Prestazioni di Quantizzazione

Prestazioni di diversi metodi di quantizzazione su Tiny ImageNet:

AdaRound mostra le migliori prestazioni in quantizzazione estrema (≤4 bit)
MobileNetV2 ha tolleranza superiore alla quantizzazione rispetto a ResNets
La profondità influenza significativamente l'errore di quantizzazione, validando le previsioni teoriche

Impatto della Distribuzione dei Pesi

Gli esperimenti mostrano l'importanza della distribuzione delle norme dei pesi:

MobileNetV2: r≈101 vs r_conv≈9 (miglioramento 11 volte)
ResNet50: r≈108 vs r_conv≈37 (miglioramento 3 volte)
Maggiore variabilità nella distribuzione dei pesi, maggiore vantaggio di r_conv rispetto a r

Lavori Correlati

Ricerca sui Limiti di Approssimazione

Gonon et al. (2023): Fornisce limiti superiori generali per reti ReLU, ma eccessivamente pessimistici per reti profonde
Neyshabur et al. (2018): Casi specifici con perturbazioni controllate, non applicabili a quantizzazione arbitraria
Berner et al. (2020): Caso norma L∞, ma limitato a d_out=1

Tecniche di Quantizzazione

AdaRound (Nagel et al. 2020): Arrotondamento adattivo guidato dai dati
Cross-Layer Equalization: Uniformazione della distribuzione dei pesi tra strati
Quantizzazione a Bassissima Precisione: Pesi binari, inferenza a precisione estremamente bassa

Analisi Teorica

Studio delle Proprietà Topologiche: Continuità di Lipschitz delle mappe di realizzazione
Capacità di Approssimazione: Estensioni del teorema di approssimazione universale per reti neurali

Conclusioni e Discussione

Conclusioni Principali

Miglioramento Teorico Significativo: I nuovi limiti sono più stretti di diversi ordini di grandezza rispetto ai risultati esistenti su reti pratiche
Ottimizzazione della Dipendenza dalla Profondità: Miglioramento da dipendenza L² a crescita più moderata
Aumento della Praticità: Rilassamento dei vincoli parametrici, applicabilità a reti regolarizzate
Consapevolezza dell'Architettura: La sparsità della struttura convoluzionale è efficacemente sfruttata

Limitazioni

Ancora Conservativi: I limiti teorici rimangono diversi ordini di grandezza lontani dagli errori osservati
Analisi del Caso Peggiore: I limiti teorici si basano su scenari estremi, raramente verificati in applicazioni pratiche
Limitazioni Architetturali: Principalmente focalizzati su CNN, non estesi ad architetture moderne come Transformer
Gestione di BatchNorm: Gli esperimenti hanno rimosso BatchNorm per soddisfare le condizioni teoriche

Direzioni Future

Estensione a Transformer: Gestione della normalizzazione di strato e meccanismi di attenzione multi-testa
Metodi Probabilistici: Sviluppo di limiti probabilistici che riflettono condizioni operative tipiche
Limiti Più Stretti: Ulteriore riduzione del divario tra limiti teorici ed errori effettivi
Strumenti Pratici: Trasformazione dei risultati teorici in strumenti di guida per strategie di quantizzazione

Valutazione Approfondita

Punti di Forza

Contributo Teorico Notevole: Progressi significativi nei limiti teorici della quantizzazione, con miglioramenti di ordini di grandezza di importanza rilevante
Rigore Matematico: Processo dimostrativo completo, derivazioni matematiche affidabili e rigorose
Valore Pratico: Rilassamento dei vincoli ristretti dei metodi esistenti, aumento dell'applicabilità
Verifica Sperimentale Completa: Validazione dei miglioramenti teorici su molteplici architetture classiche
Scrittura Chiara: Struttura dell'articolo razionale, dettagli tecnici espressi accuratamente

Insufficienze

Limiti Ancora Lenti: Nonostante i miglioramenti significativi, rimane un ampio divario tra limiti teorici ed errori effettivi
Limitazioni Architetturali: Focalizzazione principale su CNN, estensibilità limitata ad architetture Transformer moderne
Condizioni di Ipotesi: Rimozione di componenti come BatchNorm potrebbe influenzare il valore pratico applicativo
Mancanza di Analisi Probabilistica: Assenza di analisi probabilistica delle prestazioni in casi tipici

Impatto

Valore Teorico: Fornisce nuovo quadro analitico e strumenti per la teoria della quantizzazione
Guida Pratica: Può guidare la progettazione di strategie di quantizzazione, in particolare tecniche come Cross-Layer Equalization
Ispirazione per la Ricerca: Fornisce direzioni di miglioramento e fondamenti per ricerche successive
Riproducibilità: Configurazione sperimentale chiara, risultati riproducibili

Scenari Applicabili

Applicazioni Critiche per la Sicurezza: Deployment di quantizzazione che richiede garanzie teoriche
Sistemi Embedded: Compressione di modelli in ambienti con risorse limitate
Progettazione di Strategie di Quantizzazione: Guida per quantizzazione strato per strato e tecniche di pre-elaborazione
Ricerca Teorica: Fondamenti per ulteriore ricerca sulla teoria della quantizzazione

Riferimenti Bibliografici

Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
He, K., et al. (2016). Deep residual learning for image recognition. CVPR.

Sintesi: Questo articolo raggiunge progressi importanti nell'analisi teorica della quantizzazione di reti neurali, migliorando significativamente i limiti di approssimazione esistenti attraverso analisi strato per strato più raffinata e strategia media geometrica. Sebbene i limiti rimangono relativamente conservativi, i miglioramenti di ordini di grandezza e le condizioni di vincolo rilassate conferiscono significativo valore teorico e pratico.