On the impact of the parametrization of deep convolutional neural networks on post-training quantization
Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic
Sobre el impacto de la parametrización de redes neuronales convolucionales profundas en la cuantización post-entrenamiento
Este artículo introduce nuevas cotas teóricas de aproximación para la salida de redes neuronales cuantizadas, con especial énfasis en redes neuronales convolucionales (CNN). Al considerar la parametrización capa por capa y enfocarse en la cuantización de pesos, los autores proporcionan cotas que logran mejoras de varios órdenes de magnitud respecto a los resultados del estado del arte en redes convolucionales profundas clásicas (como MobileNetV2 o ResNets). Estas mejoras se logran mediante la optimización del comportamiento de las cotas de aproximación respecto al parámetro de profundidad, que tiene el mayor impacto en el error de aproximación causado por la cuantización. Para complementar los resultados teóricos, los autores proporcionan exploraciones numéricas en MobileNetV2 y ResNets.
Problema Central: Al desplegar redes neuronales profundas en entornos con recursos limitados, las técnicas de cuantización introducen degradación del rendimiento, requiriendo establecer cotas teóricas para cuantificar este deterioro.
Importancia:
Creciente demanda de despliegue de redes neuronales en dispositivos móviles y sistemas embebidos
Aplicaciones críticas para la seguridad requieren garantías teóricas robustas
La cuantización es una técnica clave para reducir el tamaño del modelo y los costos computacionales
Limitaciones de Métodos Existentes:
Las cotas de Gonon et al. (2023) son excesivamente pesimistas, con valor práctico limitado
Supuestos restrictivos que requieren norma máxima de parámetros r > 1 limitan la aplicabilidad
La constante C exhibe dependencia O(NL²), impráctica para arquitecturas profundas modernas
Motivación de la Investigación:
Las cotas existentes son demasiado conservadoras para redes profundas
Se necesitan cotas teóricas más ajustadas para guiar estrategias de cuantización práctica
La regularización de pesos hace que casos con r < 1 sean comunes, requiriendo relajar restricciones
Cotas de Aproximación Más Ajustadas: Mejora del factor NL² de Gonon et al. a ∑ᴸₗ₌₁Nₗ₋₁, simplificándose a NL para redes de ancho constante
Relajación de Restricciones de Norma: Permite valores rₗ positivos arbitrarios (norma del operador en la capa l), haciendo los resultados aplicables a redes con normas de parámetros pequeñas
Término de Media Geométrica Mejorado: Reemplaza la norma máxima de parámetros r con rmean, proporcionando estimaciones menos pesimistas
Especialización para Redes Convolucionales: Proporciona cotas especializadas para estructuras convolucionales, considerando solo tamaño de filtros y número de canales
Verificación Práctica: Valida mejoras teóricas en modelos CNN preentrenados clásicos, demostrando mejoras de varios órdenes de magnitud
Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
He, K., et al. (2016). Deep residual learning for image recognition. CVPR.
Resumen: Este artículo logra progreso importante en análisis teórico de cuantización de redes neuronales, mejorando significativamente cotas de aproximación existentes mediante análisis capa por capa más refinado y estrategia de media geométrica. Aunque las cotas permanecen relativamente conservadoras, sus mejoras de órdenes de magnitud y condiciones de restricción relajadas les confieren importancia teórica y valor práctico significativo.