On the impact of the parametrization of deep convolutional neural networks on post-training quantization
Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic
Über die Auswirkung der Parametrisierung von tiefen Faltungsneuronalen Netzen auf die Quantisierung nach dem Training
Dieses Paper führt neue theoretische Approximationsgrenzen für die Ausgabe quantisierter neuronaler Netze ein, mit besonderem Fokus auf Faltungsneuronale Netze (CNNs). Durch Berücksichtigung schichtweiser Parametrisierung und Konzentration auf Gewichtsquantisierung bieten die Autoren Grenzen, die auf klassischen tiefen Faltungsneuronalen Netzen (wie MobileNetV2 oder ResNets) mehrere Größenordnungen Verbesserung gegenüber bestehenden State-of-the-Art-Ergebnissen erreichen. Diese Verbesserungen werden durch Optimierung des Verhaltens der Approximationsgrenzen bezüglich des Tiefenparameters erreicht, der den größten Einfluss auf den durch Quantisierung verursachten Approximationsfehler hat. Um die theoretischen Ergebnisse zu ergänzen, bieten die Autoren numerische Explorationen auf MobileNetV2 und ResNets.
Kernproblem: Bei der Bereitstellung tiefer neuronaler Netze in ressourcenbeschränkten Umgebungen führt Quantisierungstechnik zu Leistungsabbau, weshalb theoretische Grenzen zur Quantifizierung dieses Abbaus erforderlich sind.
Bedeutung:
Wachsende Anforderungen für die Bereitstellung neuronaler Netze auf mobilen Geräten und eingebetteten Systemen
Engere Approximationsgrenzen: Verbesserung des NL²-Faktors von Gonon et al. zu ∑ᴸₗ₌₁Nₗ₋₁, was sich für Netze konstanter Breite zu NL vereinfacht
Gelockerte Normeinschränkungen: Ermöglichung beliebiger positiver Werte für rₗ (Operatornorm der l-ten Schicht), wodurch Ergebnisse auf Netze mit kleineren Parameternormen anwendbar werden
Verbesserter geometrischer Mittelterm: Ersatz der maximalen Parameternorm r durch rmean, was pessimistischere Schätzungen vermeidet
Spezialisierung für Faltungsnetze: Bereitstellung spezialisierter Grenzen für Faltungsstrukturen, die nur Filtergröße und Kanalanzahl berücksichtigen
Praktische Validierung: Verifikation theoretischer Verbesserungen auf klassischen vortrainierten CNN-Modellen mit Verbesserungen um mehrere Größenordnungen
Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
He, K., et al. (2016). Deep residual learning for image recognition. CVPR.
Zusammenfassung: Dieses Paper erzielte wichtige Fortschritte in der theoretischen Analyse der Quantisierung neuronaler Netze. Durch verfeinerte schichtweise Analyse und geometrische Mittelstrategien werden bestehende Approximationsgrenzen erheblich verbessert. Obwohl die Grenzen relativ konservativ bleiben, machen ihre Größenordnungsverbesserungen und gelockerten Einschränkungen sie von bedeutendem theoretischen und praktischem Wert.