2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic

О влиянии параметризации глубоких сверточных нейронных сетей на постобучающее квантование

Основная информация

  • ID статьи: 2502.01156
  • Название: On the impact of the parametrization of deep convolutional neural networks on post-training quantization
  • Авторы: Samy Houache (Univ. Bordeaux, Thales AVS), Jean-François Aujol (Univ. Bordeaux), Yann Traonmilin (Univ. Bordeaux)
  • Классификация: cs.IT (Теория информации), math.IT (Математическая теория информации)
  • Дата публикации: Февраль 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2502.01156

Аннотация

В данной работе представлены новые теоретические границы аппроксимации для выходов квантованных нейронных сетей, с особым акцентом на сверточные нейронные сети (CNN). Рассматривая послойную параметризацию и сосредоточиваясь на квантовании весов, авторы предоставляют границы, которые достигают улучшения на несколько порядков величины по сравнению с существующими передовыми результатами на классических глубоких сверточных сетях (таких как MobileNetV2 или ResNets). Эти улучшения достигаются за счет улучшения поведения границ аппроксимации относительно параметра глубины, который оказывает наибольшее влияние на ошибку аппроксимации, вызванную квантованием. Для дополнения теоретических результатов авторы предоставляют численные исследования на MobileNetV2 и ResNets.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: При развертывании глубоких нейронных сетей в ресурсоограниченных средах методы квантования вводят деградацию производительности, требуя установления теоретических границ для количественной оценки этой деградации.
  2. Значимость:
    • Растущий спрос на развертывание нейронных сетей на мобильных устройствах и встроенных системах
    • Критичные по безопасности приложения требуют надежных теоретических гарантий
    • Квантование является ключевой технологией для уменьшения размера модели и вычислительных затрат
  3. Ограничения существующих методов:
    • Границы Gonon и др. (2023) чрезмерно пессимистичны и имеют ограниченную практическую ценность
    • Строгие предположения, требующие максимальной нормы параметров r > 1, ограничивают применимость
    • Константа C демонстрирует зависимость O(NL²), непрактичную для современных глубоких архитектур
  4. Исследовательская мотивация:
    • Существующие границы чрезмерно консервативны для глубоких сетей
    • Необходимы более плотные теоретические границы для руководства практическими стратегиями квантования
    • Регуляризация весов делает случай r < 1 распространенным, требуя ослабления ограничений

Основные вклады

  1. Более плотные границы аппроксимации: Улучшение коэффициента NL² от Gonon и др. до ∑ᴸₗ₌₁Nₗ₋₁, упрощающегося до NL для сетей постоянной ширины
  2. Ослабление ограничений на норму: Допущение произвольных положительных значений rₗ (операторная норма l-го слоя), делая результаты применимыми к сетям с меньшими нормами параметров
  3. Улучшенный геометрический средний член: Замена максимальной нормы параметров r на rmean, обеспечивающая менее пессимистичные оценки
  4. Специализация для сверточных сетей: Предоставление специализированных границ для сверточных структур, учитывающих только размер фильтра и количество каналов
  5. Практическая верификация: Проверка теоретических улучшений на классических предварительно обученных моделях CNN, демонстрирующая улучшения на несколько порядков величины

Детальное описание методологии

Определение задачи

Для нейронной сети Rθ и ее квантованной версии Rθ' найти границу вида:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

где Ω — область входных данных, C — константа, зависящая от архитектуры сети.

Основные теоретические результаты

Универсальная граница аппроксимации (Теорема 4.1)

Для архитектуры (L,N), предполагая, что две сети имеют одинаковые смещения и квантуются только веса:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

где геометрический средний член определяется как:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

Специализированная граница для сверточных сетей (Теорема 4.4)

Для чистых сверточных сетей (без смещений), где каждый слой применяет cₗ фильтров размером pₗ×pₗ:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

где:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

Технические инновации

  1. Послойный метод параметризации: Анализ норм параметров слой за слоем, избегая использования глобального максимума
  2. Использование разреженной структуры: Разреженность сверточных матриц эффективно используется, заменяя полный Nₗ₋₁ на p²ₗcₗ₋₁
  3. Стратегия геометрического среднего: rmean учитывает вариативность норм параметров между слоями, обеспечивая более точные оценки, чем простой максимум

Экспериментальная установка

Наборы данных

  • Tiny ImageNet: 110 000 изображений размером 64×64, содержащих 200 классов
  • MNIST: Распознавание рукописных цифр, используется для экспериментов с MLP
  • CIFAR-10: 32×32 цветные изображения, 10 классов

Архитектуры моделей

  • ResNet18/50: Остаточные сети с удаленной BatchNorm
  • MobileNetV2: Легковесная сеть с удаленной BatchNorm
  • Многослойный персептрон: Различные глубины (5, 7, 9, 11 слоев) для анализа влияния глубины

Методы квантования

  1. Равномерное квантование: Q_unif(θ) = ⌊θ/η⌋η
  2. Квантование с округлением: Q_round(θ) = round(θ/η)η
  3. AdaRound: Адаптивное округление, оптимизирующее смещения округления

Метрики оценки

  • Сравнение плотности теоретических границ
  • Точность квантованной модели
  • Производительность при различных разрядностях

Результаты экспериментов

Основные результаты

Эффект улучшения границ

  • ResNet18: Новая граница в 10⁸ раз плотнее результатов Gonon и др.
  • MobileNetV2: Улучшение достигает 10⁵⁶ раз
  • ResNet50: Улучшение достигает 10²⁷ раз

Сравнительный анализ параметров

МодельГлубина LШирина старой границыНорма старой границы rШирина новой границыНорма новой границы r_convКоэффициент улучшения
MobileNetV2531.2×10⁶≈1018641≈9≈10⁵⁶
ResNet18188×10⁵≈844609≈44≈10⁸
ResNet50508×10⁵≈1084609≈37≈10²⁷

Анализ влияния глубины

Проверка на экспериментах с MLP подтверждает экспоненциальный рост улучшения с глубиной:

  • Глубина 5: улучшение около 10³ раз
  • Глубина 11: улучшение около 10⁸ раз

Анализ производительности квантования

Производительность различных методов квантования на Tiny ImageNet:

  • AdaRound показывает лучшие результаты при экстремальном квантовании (≤4 бита)
  • MobileNetV2 демонстрирует лучшую толерантность к квантованию, чем ResNets
  • Глубина значительно влияет на ошибку квантования, подтверждая теоретические предсказания

Влияние распределения весов

Эксперименты показывают важность распределения норм весов:

  • MobileNetV2: r≈101 vs r_conv≈9 (улучшение в 11 раз)
  • ResNet50: r≈108 vs r_conv≈37 (улучшение в 3 раза)
  • Чем больше вариативность распределения весов, тем более выраженным является преимущество r_conv относительно r

Связанные работы

Исследования границ аппроксимации

  • Gonon и др. (2023): Предоставили общие верхние границы для ReLU сетей, но чрезмерно пессимистичны для глубоких сетей
  • Neyshabur и др. (2018): Специфичны для контролируемых возмущений, неприменимы к произвольному квантованию
  • Berner и др. (2020): Случай L∞ нормы, но ограничены d_out=1

Методы квантования

  • AdaRound (Nagel и др. 2020): Управляемое данными адаптивное округление
  • Cross-Layer Equalization: Выравнивание распределения весов между слоями
  • Низкобитовое квантование: Бинарные веса, экстремально низкая точность

Теоретический анализ

  • Исследования топологических свойств: Липшицева непрерывность отображений реализации
  • Способность аппроксимации: Расширения теорем универсальной аппроксимации нейронных сетей

Выводы и обсуждение

Основные выводы

  1. Значительное теоретическое улучшение: Новые границы на несколько порядков величины плотнее существующих результатов на практических сетях
  2. Оптимизированная зависимость от глубины: Улучшение от L² зависимости к более мягкому росту
  3. Повышенная практичность: Ослабление ограничений на параметры, применимость к регуляризованным сетям
  4. Архитектурная осведомленность: Разреженность сверточной структуры эффективно используется

Ограничения

  1. Остаются консервативными: Границы по-прежнему отличаются от фактически наблюдаемых ошибок на несколько порядков величины
  2. Анализ наихудшего случая: Теоретические границы основаны на экстремальных сценариях, редко встречающихся на практике
  3. Ограничения архитектуры: Основное внимание уделяется CNN, расширение на современные архитектуры типа Transformer ограничено
  4. Обработка BatchNorm: BatchNorm был удален в экспериментах для соответствия теоретическим условиям

Направления будущих исследований

  1. Расширение на Transformer: Обработка нормализации слоев и механизмов многоголовочного внимания
  2. Вероятностные методы: Разработка вероятностных границ, отражающих типичные условия работы
  3. Плотные границы: Дальнейшее сокращение разрыва между теоретическими границами и фактическими ошибками
  4. Практические инструменты: Преобразование теоретических результатов в инструменты руководства стратегиями квантования

Углубленная оценка

Преимущества

  1. Выдающийся теоретический вклад: Значительный прогресс в границах теории квантования, улучшение на порядки величины имеет важное значение
  2. Математическая строгость: Полные доказательства, надежные и надежные математические выводы
  3. Практическая ценность: Ослабление строгих предположений существующих методов, повышение применимости
  4. Достаточная экспериментальная верификация: Проверка теоретических улучшений на нескольких классических архитектурах
  5. Ясное изложение: Логичная структура статьи, точное выражение технических деталей

Недостатки

  1. Границы остаются рыхлыми: Несмотря на значительные улучшения, теоретические границы по-прежнему значительно отличаются от фактических ошибок
  2. Ограничения архитектуры: Основное внимание уделяется CNN, расширяемость на современные архитектуры Transformer ограничена
  3. Условия предположений: Удаление BatchNorm и других компонентов может влиять на практическую ценность применения
  4. Отсутствие вероятностного анализа: Недостаток вероятностного анализа производительности в типичных случаях

Влияние

  1. Теоретическая ценность: Предоставляет новую аналитическую базу и инструменты для теории квантования
  2. Практическое руководство: Может направлять разработку стратегий квантования, особенно методов типа Cross-Layer Equalization
  3. Исследовательское вдохновение: Предоставляет направления и основу для последующих исследований
  4. Воспроизводимость: Четкая экспериментальная установка, результаты воспроизводимы

Применимые сценарии

  1. Критичные по безопасности приложения: Развертывание квантования, требующее теоретических гарантий
  2. Встроенные системы: Сжатие моделей в ресурсоограниченных средах
  3. Разработка стратегий квантования: Руководство послойным квантованием и методами предварительной обработки
  4. Теоретические исследования: Основа для дальнейших исследований теории квантования

Библиография

  1. Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
  2. Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
  3. Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
  4. He, K., et al. (2016). Deep residual learning for image recognition. CVPR.

Резюме: Данная статья достигает важного прогресса в теоретическом анализе квантования нейронных сетей, значительно улучшая существующие границы аппроксимации благодаря более детальному послойному анализу и стратегии геометрического среднего. Хотя границы остаются относительно консервативными, улучшение на порядки величины и ослабленные условия ограничений придают работе важное теоретическое значение и практическую значимость.