2025-11-17T11:07:14.013317

On the impact of the parametrization of deep convolutional neural networks on post-training quantization

Houache, Aujol, Traonmilin
This paper introduces novel theoretical approximation bounds for the output of quantized neural networks, with a focus on convolutional neural networks (CNN). By considering layerwise parametrization and focusing on the quantization of weights, we provide bounds that gain several orders of magnitude compared to state-of-the-art results on classical deep convolutional neural networks such as MobileNetV2 or ResNets. These gains are achieved by improving the behaviour of the approximation bounds with respect to the depth parameter, which has the most impact on the approximation error induced by quantization. To complement our theoretical result, we provide a numerical exploration of our bounds on MobileNetV2 and ResNets.
academic

Über die Auswirkung der Parametrisierung von tiefen Faltungsneuronalen Netzen auf die Quantisierung nach dem Training

Grundinformationen

  • Paper-ID: 2502.01156
  • Titel: On the impact of the parametrization of deep convolutional neural networks on post-training quantization
  • Autoren: Samy Houache (Univ. Bordeaux, Thales AVS), Jean-François Aujol (Univ. Bordeaux), Yann Traonmilin (Univ. Bordeaux)
  • Klassifizierung: cs.IT (Informationstheorie), math.IT (Mathematische Informationstheorie)
  • Veröffentlichungsdatum: Februar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2502.01156

Zusammenfassung

Dieses Paper führt neue theoretische Approximationsgrenzen für die Ausgabe quantisierter neuronaler Netze ein, mit besonderem Fokus auf Faltungsneuronale Netze (CNNs). Durch Berücksichtigung schichtweiser Parametrisierung und Konzentration auf Gewichtsquantisierung bieten die Autoren Grenzen, die auf klassischen tiefen Faltungsneuronalen Netzen (wie MobileNetV2 oder ResNets) mehrere Größenordnungen Verbesserung gegenüber bestehenden State-of-the-Art-Ergebnissen erreichen. Diese Verbesserungen werden durch Optimierung des Verhaltens der Approximationsgrenzen bezüglich des Tiefenparameters erreicht, der den größten Einfluss auf den durch Quantisierung verursachten Approximationsfehler hat. Um die theoretischen Ergebnisse zu ergänzen, bieten die Autoren numerische Explorationen auf MobileNetV2 und ResNets.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bei der Bereitstellung tiefer neuronaler Netze in ressourcenbeschränkten Umgebungen führt Quantisierungstechnik zu Leistungsabbau, weshalb theoretische Grenzen zur Quantifizierung dieses Abbaus erforderlich sind.
  2. Bedeutung:
    • Wachsende Anforderungen für die Bereitstellung neuronaler Netze auf mobilen Geräten und eingebetteten Systemen
    • Sicherheitskritische Anwendungen erfordern robuste theoretische Garantien
    • Quantisierung ist eine Schlüsseltechnik zur Reduzierung der Modellgröße und Rechenkosten
  3. Einschränkungen bestehender Methoden:
    • Die Grenzen von Gonon et al. (2023) sind zu pessimistisch und haben begrenzte praktische Anwendbarkeit
    • Strenge Annahmen, die maximale Parameternorm r > 1 erfordern, begrenzen die Anwendbarkeit
    • Die Konstante C zeigt O(NL²)-Abhängigkeit, was für moderne tiefe Architekturen unpraktisch ist
  4. Forschungsmotivation:
    • Bestehende Grenzen sind für tiefe Netze zu konservativ
    • Engere theoretische Grenzen sind erforderlich, um praktische Quantisierungsstrategien zu leiten
    • Gewichtsregularisierung macht Fälle mit r < 1 häufig, weshalb Einschränkungen gelockert werden müssen

Kernbeiträge

  1. Engere Approximationsgrenzen: Verbesserung des NL²-Faktors von Gonon et al. zu ∑ᴸₗ₌₁Nₗ₋₁, was sich für Netze konstanter Breite zu NL vereinfacht
  2. Gelockerte Normeinschränkungen: Ermöglichung beliebiger positiver Werte für rₗ (Operatornorm der l-ten Schicht), wodurch Ergebnisse auf Netze mit kleineren Parameternormen anwendbar werden
  3. Verbesserter geometrischer Mittelterm: Ersatz der maximalen Parameternorm r durch rmean, was pessimistischere Schätzungen vermeidet
  4. Spezialisierung für Faltungsnetze: Bereitstellung spezialisierter Grenzen für Faltungsstrukturen, die nur Filtergröße und Kanalanzahl berücksichtigen
  5. Praktische Validierung: Verifikation theoretischer Verbesserungen auf klassischen vortrainierten CNN-Modellen mit Verbesserungen um mehrere Größenordnungen

Methodische Details

Aufgabendefinition

Für ein neuronales Netz Rθ und seine quantisierte Version Rθ' wird eine Grenze der folgenden Form gesucht:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ C||θ - θ'||∞

wobei Ω die Eingabedomain ist und C eine von der Netzarchitektur abhängige Konstante ist.

Zentrale theoretische Ergebnisse

Allgemeine Approximationsgrenze (Satz 4.1)

Für Architektur (L,N), angenommen zwei Netze haben identische Bias und nur Gewichte werden quantisiert:

sup_{x∈Ω} ||Rθ(x̃) - Rθ'(x̃)||∞ ≤ max(D,1) ∑ᴸₗ₌₁ Nₗ₋₁ × r^{L-1}_{mean} ||θ - θ'||∞

wobei der geometrische Mittelterm definiert ist als:

r_mean := ^{L-1}√(max_{l=1,...,L} max_{i=1,...,l-1} ∏_{j=i,j≠l}^L r_j)

Spezialisierte Grenze für Faltungsnetze (Satz 4.4)

Für reine Faltungsnetze (ohne Bias), wobei jede Schicht cₗ Filter der Größe pₗ×pₗ anwendet:

sup_{x∈Ω} ||Rθ(x) - Rθ'(x)||∞ ≤ D × ∑ᴸₗ₌₁ p²ₗcₗ₋₁ × r^{L-1}_{conv} ||θ - θ'||∞

wobei:

r_conv := ^{L-1}√(max_{l=1,...,L} ∏_{k=1,k≠l}^L r^{conv}_k)

Technische Innovationen

  1. Schichtweise Parametrisierungsmethode: Durch schichtweise Analyse von Parameternormen wird die Verwendung globaler Maximalwerte vermieden
  2. Nutzung spärlicher Strukturen: Die Spärlichkeit von Faltungsmatrizen wird effektiv genutzt, wobei p²ₗcₗ₋₁ das vollständige Nₗ₋₁ ersetzt
  3. Geometrische Mittelstrategie: rmean berücksichtigt die Variabilität von Parameternormen über Schichten hinweg und ist präziser als bloße Maximalwerte

Experimentelle Einrichtung

Datensätze

  • Tiny ImageNet: 110.000 64×64-Bilder mit 200 Klassen
  • MNIST: Handschriftenerkennung, verwendet für MLP-Experimente
  • CIFAR-10: 32×32 Farbbilder, 10 Klassen

Modellarchitekturen

  • ResNet18/50: Residuale Netze ohne BatchNorm
  • MobileNetV2: Leichtgewichtiges Netz ohne BatchNorm
  • Mehrschichtiges Perzeptron: Verschiedene Tiefen (5, 7, 9, 11 Schichten) für Tiefeneinflussanalyse

Quantisierungsmethoden

  1. Gleichmäßige Quantisierung: Q_unif(θ) = ⌊θ/η⌋η
  2. Rundungsquantisierung: Q_round(θ) = round(θ/η)η
  3. AdaRound: Adaptive Rundung mit optimierten Rundungsoffsets

Bewertungsmetriken

  • Vergleich der Enge theoretischer Grenzen
  • Genauigkeit quantisierter Modelle
  • Leistung bei verschiedenen Bitbreiten

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserung der Grenzen

  • ResNet18: Neue Grenze ist 10⁸ mal enger als Ergebnisse von Gonon et al.
  • MobileNetV2: Verbesserung erreicht 10⁵⁶ mal
  • ResNet50: Verbesserung erreicht 10²⁷ mal

Vergleich der Parameteranalyse

ModellTiefe LAlte Grenze BreiteAlte Grenze Norm rNeue Grenze BreiteNeue Grenze Norm r_convVerbesserung
MobileNetV2531,2×10⁶≈1018641≈9≈10⁵⁶
ResNet18188×10⁵≈844609≈44≈10⁸
ResNet50508×10⁵≈1084609≈37≈10²⁷

Tiefeneinflussanalyse

Durch MLP-Experimente validiert, zeigt sich exponentielle Verbesserung mit der Tiefe:

  • Tiefe 5: Verbesserung etwa 10³ mal
  • Tiefe 11: Verbesserung etwa 10⁸ mal

Quantisierungsleistungsanalyse

Leistung verschiedener Quantisierungsmethoden auf Tiny ImageNet:

  • AdaRound zeigt beste Leistung bei extremer Quantisierung (≤4 Bit)
  • MobileNetV2 zeigt bessere Quantisierungstoleranz als ResNets
  • Tiefe beeinflusst Quantisierungsfehler erheblich und validiert theoretische Vorhersagen

Einfluss der Gewichtsverteilung

Experimente zeigen die Bedeutung der Gewichtsnormverteilung:

  • MobileNetV2: r≈101 vs r_conv≈9 (11-fache Verbesserung)
  • ResNet50: r≈108 vs r_conv≈37 (3-fache Verbesserung)
  • Je größer die Variabilität der Gewichtsverteilung, desto ausgeprägter der Vorteil von r_conv gegenüber r

Verwandte Arbeiten

Approximationsgrenzenforschung

  • Gonon et al. (2023): Allgemeine obere Grenzen für ReLU-Netze, aber zu pessimistisch für tiefe Netze
  • Neyshabur et al. (2018): Für spezifische Fälle kontrollierter Störungen, nicht auf beliebige Quantisierung anwendbar
  • Berner et al. (2020): L∞-Norm-Fall, aber begrenzt auf d_out=1

Quantisierungstechniken

  • AdaRound (Nagel et al. 2020): Datengesteuerte adaptive Rundung
  • Cross-Layer Equalization: Vereinheitlichung schichtübergreifender Gewichtsverteilungen
  • Niedrigbit-Quantisierung: Binäre Gewichte, extrem niedrige Präzision

Theoretische Analyse

  • Topologische Eigenschaften: Lipschitz-Stetigkeit von Realisierungsmappings
  • Approximationsfähigkeit: Erweiterungen universeller Approximationssätze
  • Quantisierungstheorie: Grundlagen der Quantisierungsanalyse

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Signifikante theoretische Verbesserung: Neue Grenzen sind auf praktischen Netzen um mehrere Größenordnungen enger als bestehende Ergebnisse
  2. Optimierte Tiefenabhängigkeit: Verbesserung von L²-Abhängigkeit zu moderaterem Wachstum
  3. Erhöhte Praktikabilität: Gelockerte Parameterbeschränkungen, anwendbar auf regularisierte Netze
  4. Architektur-bewusst: Spärlichkeit von Faltungsstrukturen wird effektiv genutzt

Einschränkungen

  1. Immer noch konservativ: Theoretische Grenzen unterscheiden sich um mehrere Größenordnungen von beobachteten Fehlern
  2. Worst-Case-Analyse: Theoretische Grenzen basieren auf extremen Fällen, die in der Praxis selten auftreten
  3. Architektur-Limitierungen: Hauptsächlich auf CNNs ausgerichtet, nicht auf moderne Architekturen wie Transformer erweitert
  4. BatchNorm-Behandlung: Experimente entfernen BatchNorm zur Erfüllung theoretischer Bedingungen

Zukünftige Richtungen

  1. Transformer-Erweiterung: Behandlung von Layer-Normalisierung und Multi-Head-Attention-Mechanismen
  2. Probabilistische Methoden: Entwicklung probabilistischer Grenzen, die typische Betriebsbedingungen widerspiegeln
  3. Engere Grenzen: Weitere Verringerung der Lücke zwischen theoretischen Grenzen und praktischen Fehlern
  4. Praktische Werkzeuge: Umwandlung theoretischer Ergebnisse in Leitfäden für Quantisierungsstrategien

Tiefenbewertung

Stärken

  1. Herausragende theoretische Beiträge: Signifikante Fortschritte in theoretischen Quantisierungsgrenzen mit bedeutsamen Größenordnungsverbesserungen
  2. Mathematische Strenge: Vollständige Beweise mit zuverlässigen mathematischen Ableitungen
  3. Praktischer Wert: Gelockerte strenge Annahmen bestehender Methoden mit erhöhter Anwendbarkeit
  4. Umfassende experimentelle Validierung: Verifikation theoretischer Verbesserungen auf mehreren klassischen Architekturen
  5. Klare Darstellung: Angemessene Papierstruktur mit präziser technischer Darstellung

Schwächen

  1. Immer noch lockere Grenzen: Trotz signifikanter Verbesserungen besteht erhebliche Lücke zwischen theoretischen Grenzen und praktischen Fehlern
  2. Architektur-Limitierungen: Hauptsächlich auf CNNs ausgerichtet mit begrenzter Erweiterbarkeit auf moderne Transformer-Architekturen
  3. Annahmebedingungen: Entfernung von BatchNorm und anderen Komponenten kann praktische Anwendbarkeit beeinträchtigen
  4. Fehlende probabilistische Analyse: Mangel an probabilistischer Analyse für typische Leistungsfälle

Einflussfähigkeit

  1. Theoretischer Wert: Neue Analysegerüste und Werkzeuge für Quantisierungstheorie
  2. Praktische Anleitung: Kann Quantisierungsstrategiedesign leiten, besonders Cross-Layer Equalization
  3. Forschungsinspiration: Bietet Verbesserungsrichtungen und Grundlagen für Folgeforschung
  4. Reproduzierbarkeit: Klare experimentelle Einrichtung mit reproduzierbaren Ergebnissen

Anwendungsszenarien

  1. Sicherheitskritische Anwendungen: Quantisierungsbereitstellung mit theoretischen Garantien
  2. Eingebettete Systeme: Modellkompression in ressourcenbeschränkten Umgebungen
  3. Quantisierungsstrategie-Design: Anleitung für schichtweise Quantisierung und Vorverarbeitungstechniken
  4. Theoretische Forschung: Grundlagen für weitere Quantisierungstheorieforschung

Literaturverzeichnis

  1. Gonon, A., et al. (2023). Approximation speed of quantized vs. unquantized relu neural networks and beyond. IEEE Transactions on Information Theory.
  2. Nagel, M., et al. (2020). Up or down? adaptive rounding for post-training quantization. ICML.
  3. Sandler, M., et al. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. CVPR.
  4. He, K., et al. (2016). Deep residual learning for image recognition. CVPR.

Zusammenfassung: Dieses Paper erzielte wichtige Fortschritte in der theoretischen Analyse der Quantisierung neuronaler Netze. Durch verfeinerte schichtweise Analyse und geometrische Mittelstrategien werden bestehende Approximationsgrenzen erheblich verbessert. Obwohl die Grenzen relativ konservativ bleiben, machen ihre Größenordnungsverbesserungen und gelockerten Einschränkungen sie von bedeutendem theoretischen und praktischem Wert.