2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

基本信息

  • 论文ID: 2502.01156
  • 标题: On the impact of the parametrization of deep convolutional neural networks on post-training quantization
  • 作者: Samy Houache (Univ. Bordeaux, Thales AVS), Jean-François Aujol (Univ. Bordeaux), Yann Traonmilin (Univ. Bordeaux)
  • 分类: cs.IT (Information Theory), math.IT (Mathematical Information Theory)
  • 发表时间: 2025年2月 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2502.01156

摘要

本文为量化神经网络的输出引入了新的理论近似界限,特别关注卷积神经网络(CNN)。通过考虑逐层参数化并专注于权重量化,作者提供了在经典深度卷积神经网络(如MobileNetV2或ResNets)上比现有最先进结果获得数个数量级改进的界限。这些改进是通过改善近似界限相对于深度参数的行为实现的,深度参数对量化引起的近似误差影响最大。为了补充理论结果,作者在MobileNetV2和ResNets上提供了数值探索。

研究背景与动机

问题定义

  1. 核心问题: 在资源受限环境下部署深度神经网络时,量化技术会引入性能退化,需要建立理论界限来量化这种退化程度。
  2. 重要性:
    • 神经网络在移动设备和嵌入式系统中的部署需求日益增长
    • 安全关键应用需要鲁棒的理论保证
    • 量化是减少模型大小和计算成本的关键技术
  3. 现有方法局限性:
    • Gonon等人(2023)的界限过于悲观,实际应用价值有限
    • 要求最大参数范数r > 1的严格假设限制了适用性
    • 常数C表现出O(NL²)的依赖性,对现代深度架构不实用
  4. 研究动机:
    • 现有界限对深度网络过于保守
    • 需要更紧密的理论界限来指导实际量化策略
    • 权重正则化使得r < 1的情况常见,需要放宽约束

核心贡献

  1. 更紧密的近似界限: 将Gonon等人的NL²因子改进为∑ᴸₗ₌₁Nₗ₋₁,对于恒定宽度网络简化为NL
  2. 放宽范数约束: 允许任意正值的rₗ(第l层算子范数),使结果适用于具有较小参数范数的网络
  3. 改进的几何平均项: 用rmean替代最大参数范数r,提供更少悲观的估计
  4. 卷积网络特化: 针对卷积结构提供专门的界限,仅考虑滤波器大小和通道数
  5. 实际验证: 在经典预训练CNN模型上验证理论改进,展示数个数量级的提升

方法详解

任务定义

对于神经网络Rθ和其量化版本Rθ',寻找形如以下的界限:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

其中Ω是输入域,C是依赖于网络架构的常数。

核心理论结果

通用近似界限(定理4.1)

对于架构(L,N),假设两个网络具有相同偏置且仅量化权重:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

其中几何平均项定义为:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

卷积网络专用界限(定理4.4)

对于纯卷积网络(无偏置),每层应用cₗ个大小为pₗ×pₗ的滤波器:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

其中:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

技术创新点

  1. 层级参数化方法: 通过逐层分析参数范数,避免使用全局最大值
  2. 稀疏结构利用: 卷积矩阵的稀疏性被有效利用,用p²ₗcₗ₋₁替代完整的Nₗ₋₁
  3. 几何平均策略: rmean考虑了跨层参数范数的变异性,比单纯的最大值更精确

实验设置

数据集

  • Tiny ImageNet: 110,000张64×64图像,包含200个类别
  • MNIST: 手写数字识别,用于MLP实验
  • CIFAR-10: 32×32彩色图像,10个类别

模型架构

  • ResNet18/50: 移除BatchNorm的残差网络
  • MobileNetV2: 移除BatchNorm的轻量级网络
  • 多层感知机: 不同深度(5,7,9,11层)用于深度影响分析

量化方法

  1. 均匀量化: Q_unif(θ) = ⌊θ/η⌋η
  2. 四舍五入量化: Q_round(θ) = round(θ/η)η
  3. AdaRound: 自适应舍入,优化舍入偏移量

评价指标

  • 理论界限的紧密程度比较
  • 量化后模型精度
  • 不同比特宽度下的性能

实验结果

主要结果

界限改进效果

  • ResNet18: 新界限比Gonon等人的结果紧密10⁸倍
  • MobileNetV2: 改进达到10⁵⁶倍
  • ResNet50: 改进达到10²⁷倍

参数分析对比

模型深度L前界限宽度前界限范数r新界限宽度新界限范数r_conv改进比例
MobileNetV2531.2×10⁶≈1018641≈9≈10⁵⁶
ResNet18188×10⁵≈844609≈44≈10⁸
ResNet50508×10⁵≈1084609≈37≈10²⁷

深度影响分析

通过MLP实验验证,界限改进随深度呈指数增长:

  • 深度5: 改进约10³倍
  • 深度11: 改进约10⁸倍

量化性能分析

不同量化方法在Tiny ImageNet上的表现:

  • AdaRound在极端量化(≤4位)时表现最佳
  • MobileNetV2对量化的容忍度优于ResNets
  • 深度显著影响量化误差,验证了理论预测

权重分布影响

实验显示权重范数分布的重要性:

  • MobileNetV2: r≈101 vs r_conv≈9 (11倍改进)
  • ResNet50: r≈108 vs r_conv≈37 (3倍改进)
  • 权重分布的变异性越大,r_conv相对于r的优势越明显

相关工作

近似界限研究

  • Gonon等人(2023): 提供了ReLU网络的一般上界,但对深度网络过于悲观
  • Neyshabur等人(2018): 针对受控扰动的特定情况,不适用于任意量化
  • Berner等人(2020): L∞范数情况,但限制为d_out=1

量化技术

  • AdaRound (Nagel等人2020): 数据驱动的自适应舍入
  • Cross-Layer Equalization: 均匀化跨层权重分布
  • 低比特量化: 二进制权重、极低精度推理

理论分析

  • 拓扑性质研究: 实现映射的Lipschitz连续性
  • 逼近能力: 神经网络的通用逼近定理扩展

结论与讨论

主要结论

  1. 显著的理论改进: 新界限在实际网络上比现有结果紧密数个数量级
  2. 深度依赖性优化: 从L²依赖改善为更温和的增长
  3. 实用性增强: 放宽了参数约束,适用于正则化网络
  4. 架构感知: 卷积结构的稀疏性得到有效利用

局限性

  1. 仍然保守: 界限与实际观察误差仍有数个数量级差距
  2. 最坏情况分析: 理论界限基于极端情况,实际应用中很少出现
  3. 架构限制: 主要针对CNN,未扩展到Transformer等现代架构
  4. BatchNorm处理: 实验中移除了BatchNorm以满足理论条件

未来方向

  1. Transformer扩展: 处理层归一化和多头注意力机制
  2. 概率方法: 开发反映典型操作条件的概率界限
  3. 紧密界限: 进一步缩小理论界限与实际误差的差距
  4. 实用工具: 将理论结果转化为量化策略指导工具

深度评价

优点

  1. 理论贡献突出: 在量化理论界限方面取得了显著进展,数量级的改进具有重要意义
  2. 数学严谨性: 证明过程完整,数学推导严密可靠
  3. 实用价值: 放宽了现有方法的严格假设,提高了适用性
  4. 实验验证充分: 在多个经典架构上验证了理论改进
  5. 写作清晰: 论文结构合理,技术细节表述准确

不足

  1. 界限仍然松散: 尽管有显著改进,但理论界限与实际误差仍有较大差距
  2. 架构局限性: 主要关注CNN,对现代Transformer架构的扩展性有限
  3. 假设条件: 移除BatchNorm等组件可能影响实际应用价值
  4. 概率分析缺失: 缺乏对典型情况下性能的概率分析

影响力

  1. 理论价值: 为量化理论提供了新的分析框架和工具
  2. 实用指导: 可以指导量化策略的设计,特别是Cross-Layer Equalization等技术
  3. 研究启发: 为后续研究提供了改进方向和基础
  4. 可复现性: 实验设置清晰,结果可重现

适用场景

  1. 安全关键应用: 需要理论保证的量化部署
  2. 嵌入式系统: 资源受限环境下的模型压缩
  3. 量化策略设计: 指导层级量化和预处理技术
  4. 理论研究: 为进一步的量化理论研究提供基础

参考文献

  1. Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
  2. Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
  3. Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
  4. He, K., et al. (2016). Deep residual learning for image recognition. CVPR.

总结: 这篇论文在神经网络量化的理论分析方面取得了重要进展,通过更精细的层级分析和几何平均策略,显著改进了现有的近似界限。虽然界限仍然相对保守,但其数量级的改进和放宽的约束条件使其具有重要的理论价值和实用意义。