On the impact of the parametrization of deep convolutional neural networks on post-training quantization
Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic
О влиянии параметризации глубоких сверточных нейронных сетей на постобучающее квантование
В данной работе представлены новые теоретические границы аппроксимации для выходов квантованных нейронных сетей, с особым акцентом на сверточные нейронные сети (CNN). Рассматривая послойную параметризацию и сосредоточиваясь на квантовании весов, авторы предоставляют границы, которые достигают улучшения на несколько порядков величины по сравнению с существующими передовыми результатами на классических глубоких сверточных сетях (таких как MobileNetV2 или ResNets). Эти улучшения достигаются за счет улучшения поведения границ аппроксимации относительно параметра глубины, который оказывает наибольшее влияние на ошибку аппроксимации, вызванную квантованием. Для дополнения теоретических результатов авторы предоставляют численные исследования на MobileNetV2 и ResNets.
Основная проблема: При развертывании глубоких нейронных сетей в ресурсоограниченных средах методы квантования вводят деградацию производительности, требуя установления теоретических границ для количественной оценки этой деградации.
Значимость:
Растущий спрос на развертывание нейронных сетей на мобильных устройствах и встроенных системах
Критичные по безопасности приложения требуют надежных теоретических гарантий
Квантование является ключевой технологией для уменьшения размера модели и вычислительных затрат
Ограничения существующих методов:
Границы Gonon и др. (2023) чрезмерно пессимистичны и имеют ограниченную практическую ценность
Более плотные границы аппроксимации: Улучшение коэффициента NL² от Gonon и др. до ∑ᴸₗ₌₁Nₗ₋₁, упрощающегося до NL для сетей постоянной ширины
Ослабление ограничений на норму: Допущение произвольных положительных значений rₗ (операторная норма l-го слоя), делая результаты применимыми к сетям с меньшими нормами параметров
Улучшенный геометрический средний член: Замена максимальной нормы параметров r на rmean, обеспечивающая менее пессимистичные оценки
Специализация для сверточных сетей: Предоставление специализированных границ для сверточных структур, учитывающих только размер фильтра и количество каналов
Практическая верификация: Проверка теоретических улучшений на классических предварительно обученных моделях CNN, демонстрирующая улучшения на несколько порядков величины
Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
He, K., et al. (2016). Deep residual learning for image recognition. CVPR.
Резюме: Данная статья достигает важного прогресса в теоретическом анализе квантования нейронных сетей, значительно улучшая существующие границы аппроксимации благодаря более детальному послойному анализу и стратегии геометрического среднего. Хотя границы остаются относительно консервативными, улучшение на порядки величины и ослабленные условия ограничений придают работе важное теоретическое значение и практическую значимость.