2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic

Komprimierbarkeit Misst Komplexität: Minimum Description Length Trifft Singular Learning Theory

Grundinformationen

  • Paper-ID: 2510.12077
  • Titel: Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
  • Autoren: Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet
  • Klassifizierung: stat.ML cs.LG
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12077

Zusammenfassung

Dieses Paper erweitert das Minimum-Description-Length-(MDL-)Prinzip durch Singular Learning Theory (SLT) auf singuläre Modelle wie neuronale Netze und untersucht die Komprimierbarkeit von neuronalen Netzen. Durch großangelegte Experimente mit Kompressionstechniken wie Quantisierung und Faktorisierung auf der Pythia-Modellsuite werden hochgradig korrelierte Komplexitätsschätzungen basierend auf dem Local Learning Coefficient (LLC) mit Komprimierbarkeit gefunden, die in einigen Fällen sogar eine lineare Beziehung aufweisen. Die Forschungsergebnisse bieten einen theoretischen Weg zur rigorosen Bewertung der Kompressionsgrenzen von Modellen.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem, das dieses Paper lösen möchte, ist die theoretische Messung der Komplexität von neuronalen Netzwerk-Modellen, insbesondere die Unterscheidung zwischen zwei verschiedenen Lernmustern: „Auswendiglernen von Trainingsdaten" und „Entdeckung allgemeiner Lösungen". Traditionelle Methoden können nicht allein aus der Verlustfunktion bestimmen, ob ein Modell echte Generalisierungsfähigkeit erworben hat.

Bedeutung des Problems

  1. Wirtschaftliche Triebkraft: Modellkompression beeinflusst direkt die Inferenzkosten. Eine Halbierung des Modellspeichers könnte seinen Betriebswert verdoppeln, was erhebliche private Forschungs- und Entwicklungsinvestitionen vorantreibt
  2. Theoretische Lücke: Bestehende Kompressionstechniken entbehren einer soliden theoretischen Grundlage, besonders im Verständnis der Kompressionsgrenzen
  3. Sicherheitsbedeutung: Das Verständnis von Kompressionsgrenzen ist für die Bewertung des Informationsbedarfs bei der Modellkapazitätsübertragung von Sicherheitsbedeutung

Einschränkungen bestehender Methoden

  1. Klassische MDL-Einschränkungen: Traditionelles MDL setzt voraus, dass Modelle „regulär" sind (die Abbildung von Parametern zu Verteilungen ist eins-zu-eins, die Fisher-Informationsmatrix ist nicht singulär), aber neuronale Netze verletzen diese Annahmen
  2. Heuristische Methoden: Bestehende Kompressionstechniken (wie Pruning basierend auf dem Hessian-Spektrum) entbehren einer theoretischen Grundlage
  3. Dimensionsparadoxon: Die „effektive Dimension" neuronaler Netze ist viel kleiner als die Anzahl der Parameter, aber es fehlt eine rigorose theoretische Erklärung

Kernbeiträge

  1. Singuläres MDL-Prinzip: Erweiterung des MDL-Prinzips auf neuronale Netze mittels Singular Learning Theory, Nachweis der Existenz einer zweiteiligen Kodierung, deren asymptotische Redundanz den Local Learning Coefficient (LLC) beinhaltet
  2. Theorie-Praxis-Brücke: Etablierung einer theoretischen Verbindung zwischen LLC und praktischen Kompressionstechniken (Quantisierung, Faktorisierung)
  3. Empirische Validierung: Verifikation der linearen Beziehung zwischen LLC und Komprimierbarkeit auf der Pythia-Modellserie (bis zu 6,9B Parameter) mit R²≥0,98
  4. Kompressionsgrenzen-Framework: Bereitstellung eines rigorosen theoretischen Rahmens zur Bewertung der Kompressionsgrenzen von Modellen

Methodische Details

Aufgabendefinition

Gegeben eine Verlusttoleranz ε>0 und Kompressionsschemparameter P, finde die maximale Kompressionsmenge P_max, so dass der Verlust vom ursprünglichen Wert L auf den Schwellenwert L+ε ansteigt. Komprimierbarkeit ist definiert als die maximale Kompressionsmenge, die toleriert werden kann.

Theoretischer Rahmen

Singuläres MDL-Prinzip

Einstellung:

  • Stichprobenraum X (endlich), datengenerierende Verteilung q^(n) ∈ Δ(X^n)
  • Parametrisiertes statistisches Modell M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
  • Zweiteilige Kodierung: Sende zuerst die Darstellung ⟦p⟧ der Kodierungsverteilung, dann die mit p kodierten Daten ⟦x^(n)⟧_p

Kernsatz (Theorem 1): Es existiert eine zweiteilige Kodierung, so dass für jede realisierbare datengenerierende Verteilung q ∈ M die asymptotische Redundanz gegeben ist durch:

R_n = λ log n - (m-1) log log n + O_p(1)

wobei λ der Lernkoeffizient und m die Multiplizität ist.

Wichtige technische Innovationen

  1. Volumenorientierte Kodierung: Im Gegensatz zur traditionellen gleichmäßigen Verteilung werden Hypothesen, die mehr Parametervolumen einnehmen, kürzere Kodierungen zugewiesen
  2. Singularitätsbehandlung: Behandlung der degenerierten geometrischen Struktur neuronaler Netze durch Auflösungssingularitätssatz
  3. Local Learning Coefficient: Charakterisierung der geometrischen Eigenschaften lokaler Minima mittels LLC λ(w*) und Multiplizität m(w*)

Herleitung der Kompressionsbeziehung

Für Quantisierungskompression wird die Volumenbedingung etabliert:

Vol(C_h) ≤ V(ε)

d.h. Quantisierungseinheitsvolumen ≤ ε-Subniveaumenge-Volumen.

Ergebnis für Bit-Budget pro Koordinate:

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

Wichtige Erkenntnis: Die kritische Bitanzahl wächst linear mit LLC. Je größer LLC (desto weniger Degeneriertheit), desto mehr Bits sind erforderlich, um die Genauigkeit zu bewahren.

LLC-Schätzmethode

Verwendung von vorkonditionierter stochastischer Gradient-Langevin-Dynamik (pSGLD) zur Schätzung:

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

wobei der Erwartungswert auf der Gibbs-Posteriori basiert:

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

Experimentelle Einrichtung

Datensätze

  • Pythia-Modellsuite: Transformer-Modelle von 14M bis 6,9B Parametern
  • Trainingsdaten: Pile-Datensatz, alle Modelle mit denselben Daten und Reihenfolge trainiert
  • Checkpoints: 2k bis 90k Trainingsschritte (ausgenommen späte instabile Checkpoints)

Kompressionstechniken

  1. Symmetrische Quantisierung:
    • Quantisierung von Parametern auf n_q gleichmäßig verteilte Werte
    • Optimierung von Trimm-Parametern m zur Minimierung des Quantisierungsverlusts
    • Messung des kritischen n_q*, um den Verlust-Schwellenwert ε zu erreichen
  2. Tensor-Faktorisierung:
    • SVD-Zerlegung von Gewichtsmatrizen W ← U×S×V
    • Trunkierung eines festen Anteils singulärer Werte
    • Vermeidung der ersten, letzten und aufeinanderfolgenden Schichten
  3. Weitere Techniken: Gaußsches Rausch-Hinzufügen, strukturiertes Pruning

Bewertungsmetriken

  • Komprimierbarkeit: Kritischer Kompressionsparameter beim Erreichen des Verlust-Schwellenwerts ε
  • LLC-Schätzung: Komplexitätsschätzung mittels pSGLD
  • Lineare Korrelation: R²-Koeffizient zur Bewertung der linearen Beziehung zwischen LLC und Komprimierbarkeit

Experimentelle Ergebnisse

Hauptergebnisse

Quantisierungsexperimente

  • Starke lineare Beziehung: LLC und kritisches n_q zeigen signifikante lineare Beziehung über alle Modelle (R²≥0,98)
  • Konsistenz: Alle Pythia-Modelle von 14M bis 6,9B Parametern zeigen ähnliche Muster
  • Robustheit: Ergebnisse sind qualitativ konsistent über verschiedene Verlust-Schwellenwerte ε (0,3, 0,5, 0,7)

Spezifische Zahlenwerte:

  • Pythia-160M: Steigung=0,11, R²=0,98
  • Pythia-410M: Steigung=0,08, R²=0,98
  • Pythia-1.4B: Steigung=0,16, R²=0,98
  • Pythia-6.9B: Steigung=0,14, R²=0,98

Faktorisierungsexperimente

  • LLC und kritischer Kompressionsfaktor zeigen insgesamt positive Korrelation
  • Pythia-6.9B zeigt Plateaubildung in späterem Training, möglicherweise verbunden mit Merkmalen der Verlustskurve

Ablationsstudien

  1. Empfindlichkeit des Verlust-Schwellenwerts: Test von ε=0,3, 0,5, 0,7 zeigt qualitative Unempfindlichkeit der Kurven
  2. Vergleich von Quantisierungsmethoden:
    • Quantisierung mit Verlustminimierung zeigt stärkere lineare Beziehung
    • Quantisierung ohne Optimierung zeigt immer noch Korrelation, aber niedrigere Anpassungsgüte
  3. Weitere Kompressionstechniken: Gaußsches Rauschen und Pruning zeigen ebenfalls Korrelation zwischen LLC und Robustheit

Experimentelle Erkenntnisse

  1. Trainingsdynamik: LLC steigt während des Trainings monoton an, konsistent mit abnehmender Komprimierbarkeit
  2. Skalierungsunabhängigkeit: Lineare Beziehung bleibt über verschiedene Modellgrößen hinweg konsistent
  3. Methodische Universalität: Mehrere Kompressionstechniken validieren die Vorhersagekraft von LLC

Verwandte Arbeiten

Netzwerk-Kompressions-Feld

  • Klassische Methoden: Von LeCuns et al. (1989) Optimal Brain Damage bis zu modernen Quantisierungstechniken
  • Effektive Dimension: Maddox et al. (2020) entdeckten, dass die effektive Dimension tiefer Netze viel kleiner als die Parameteranzahl ist
  • Innere Dimension: Low-Rank Adaptation (LoRA) und ähnliche Techniken beim Fine-Tuning

Theoretische Grundlagen

  • MDL-Prinzip: Klassische Theorie von Grünwald und Roos (2019)
  • Singular Learning Theory: Bahnbrechendes Werk von Watanabe (2009)
  • Skalierungsgesetze: Beziehung zwischen Kompression und neuronalen Skalierungsgesetzen

Vorteile dieses Papers

  • Erste Kombination von SLT und MDL für Neuronale-Netzwerk-Kompression
  • Bereitstellung eines theoretischen Vorhersage-Indikators für Komprimierbarkeit
  • Großangelegte empirische Validierung der theoretischen Vorhersagen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Erfolgreiche Erweiterung des MDL-Prinzips auf singuläre Modelle, Etablierung der theoretischen Verbindung zwischen LLC und Komprimierbarkeit
  2. Empirische Erkenntnisse: LLC kann die Kompressionsgrenzen neuronaler Netze genau vorhersagen, besonders bei Quantisierungskompression
  3. Methodische Validierung: Unabhängige Validierung der LLC-Schätzung für großangelegte Transformer-Modelle

Einschränkungen

  1. LLC-Schätzungs-Herausforderungen:
    • Empfindlichkeit gegenüber Hyperparametern
    • Theoretische Lücken in der SGLD-Grundlage
    • Mögliche systematische Abweichungen zwischen geschätzten und tatsächlichen Werten
  2. i.i.d.-Annahme: Der theoretische Rahmen setzt unabhängig identisch verteilte Daten voraus, aber Sprachmodellierung verletzt diese Annahme
  3. Rechenkosten: Eine einzelne LLC-Schätzung für Pythia-6.9B benötigt etwa 3,5 Stunden auf einer H200-GPU

Zukünftige Richtungen

  1. Theoretische Verbesserung:
    • Verbesserung der theoretischen Grundlagen von SGLD
    • Erweiterungen zur Behandlung nicht-i.i.d.-Daten
    • Genauere LLC-Schätzmethoden
  2. Praktische Anwendungen:
    • Entwicklung LLC-basierter Kompressions-Algorithmen
    • Erweiterung auf größere Modelle
    • Erkundung von Anwendungen in anderen Modalitäten

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Geschickte Kombination von SLT und MDL bietet solide theoretische Grundlage für Kompression
  2. Umfassende Experimente: Systematische Validierung über mehrere Modellgrößen und Kompressionstechniken
  3. Praktischer Wert: Bereitstellung eines operativen theoretischen Werkzeugs zur Bewertung von Kompressionsgrenzen
  4. Klare Darstellung: Komplexe Theorie wird verständlich erläutert, Experimentdesign ist angemessen

Mängel

  1. Theoretische Einschränkungen: i.i.d.-Annahme stimmt nicht mit praktischen Anwendungsszenarien überein
  2. Rechenaufwand: Hohe Rechenkosten der LLC-Schätzung begrenzen praktische Anwendbarkeit
  3. Validierungsumfang: Hauptsächlich auf Pythia-Serie validiert, benötigt Validierung auf mehr Modellarchitekturen
  4. Kompressionstechniken: Fokus hauptsächlich auf Quantisierung und Faktorisierung, begrenzte Abdeckung fortgeschrittener Kompressionstechniken

Einfluss

  1. Akademischer Wert: Bietet neue theoretische Perspektive auf Komplexitätsmessung neuronaler Netze
  2. Praktische Bedeutung: Hilft bei der Anleitung des Designs und der Optimierung praktischer Kompressions-Algorithmen
  3. Interdisziplinärer Beitrag: Verbindung statistischer Lerntheorie mit Deep-Learning-Praxis
  4. Zukünftige Forschung: Legt Grundlagen für weitere theoretische und empirische Forschung

Anwendungsszenarien

  1. Modellkompression: Bewertung und Vorhersage des Kompressionspotenzials neuronaler Netze
  2. Komplexitätsanalyse: Verständnis der Entwicklung von Komplexität während des Modelltrainings
  3. Architektur-Design: Anleitung zum Design leichter komprimierbarer Netzwerkstrukturen
  4. Theoretische Forschung: Bereitstellung eines Beispiels für die Anwendung von Singular Learning Theory im Deep Learning

Literaturverzeichnis

  1. Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory
  2. Grünwald, P. & Roos, T. (2019). Minimum description length revisited
  3. Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure
  4. Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling