Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic
Komprimierbarkeit Misst Komplexität: Minimum Description Length Trifft Singular Learning Theory
Dieses Paper erweitert das Minimum-Description-Length-(MDL-)Prinzip durch Singular Learning Theory (SLT) auf singuläre Modelle wie neuronale Netze und untersucht die Komprimierbarkeit von neuronalen Netzen. Durch großangelegte Experimente mit Kompressionstechniken wie Quantisierung und Faktorisierung auf der Pythia-Modellsuite werden hochgradig korrelierte Komplexitätsschätzungen basierend auf dem Local Learning Coefficient (LLC) mit Komprimierbarkeit gefunden, die in einigen Fällen sogar eine lineare Beziehung aufweisen. Die Forschungsergebnisse bieten einen theoretischen Weg zur rigorosen Bewertung der Kompressionsgrenzen von Modellen.
Das Kernproblem, das dieses Paper lösen möchte, ist die theoretische Messung der Komplexität von neuronalen Netzwerk-Modellen, insbesondere die Unterscheidung zwischen zwei verschiedenen Lernmustern: „Auswendiglernen von Trainingsdaten" und „Entdeckung allgemeiner Lösungen". Traditionelle Methoden können nicht allein aus der Verlustfunktion bestimmen, ob ein Modell echte Generalisierungsfähigkeit erworben hat.
Wirtschaftliche Triebkraft: Modellkompression beeinflusst direkt die Inferenzkosten. Eine Halbierung des Modellspeichers könnte seinen Betriebswert verdoppeln, was erhebliche private Forschungs- und Entwicklungsinvestitionen vorantreibt
Theoretische Lücke: Bestehende Kompressionstechniken entbehren einer soliden theoretischen Grundlage, besonders im Verständnis der Kompressionsgrenzen
Sicherheitsbedeutung: Das Verständnis von Kompressionsgrenzen ist für die Bewertung des Informationsbedarfs bei der Modellkapazitätsübertragung von Sicherheitsbedeutung
Klassische MDL-Einschränkungen: Traditionelles MDL setzt voraus, dass Modelle „regulär" sind (die Abbildung von Parametern zu Verteilungen ist eins-zu-eins, die Fisher-Informationsmatrix ist nicht singulär), aber neuronale Netze verletzen diese Annahmen
Heuristische Methoden: Bestehende Kompressionstechniken (wie Pruning basierend auf dem Hessian-Spektrum) entbehren einer theoretischen Grundlage
Dimensionsparadoxon: Die „effektive Dimension" neuronaler Netze ist viel kleiner als die Anzahl der Parameter, aber es fehlt eine rigorose theoretische Erklärung
Singuläres MDL-Prinzip: Erweiterung des MDL-Prinzips auf neuronale Netze mittels Singular Learning Theory, Nachweis der Existenz einer zweiteiligen Kodierung, deren asymptotische Redundanz den Local Learning Coefficient (LLC) beinhaltet
Theorie-Praxis-Brücke: Etablierung einer theoretischen Verbindung zwischen LLC und praktischen Kompressionstechniken (Quantisierung, Faktorisierung)
Empirische Validierung: Verifikation der linearen Beziehung zwischen LLC und Komprimierbarkeit auf der Pythia-Modellserie (bis zu 6,9B Parameter) mit R²≥0,98
Kompressionsgrenzen-Framework: Bereitstellung eines rigorosen theoretischen Rahmens zur Bewertung der Kompressionsgrenzen von Modellen
Gegeben eine Verlusttoleranz ε>0 und Kompressionsschemparameter P, finde die maximale Kompressionsmenge P_max, so dass der Verlust vom ursprünglichen Wert L auf den Schwellenwert L+ε ansteigt. Komprimierbarkeit ist definiert als die maximale Kompressionsmenge, die toleriert werden kann.
Stichprobenraum X (endlich), datengenerierende Verteilung q^(n) ∈ Δ(X^n)
Parametrisiertes statistisches Modell M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
Zweiteilige Kodierung: Sende zuerst die Darstellung ⟦p⟧ der Kodierungsverteilung, dann die mit p kodierten Daten ⟦x^(n)⟧_p
Kernsatz (Theorem 1):
Es existiert eine zweiteilige Kodierung, so dass für jede realisierbare datengenerierende Verteilung q ∈ M die asymptotische Redundanz gegeben ist durch:
R_n = λ log n - (m-1) log log n + O_p(1)
wobei λ der Lernkoeffizient und m die Multiplizität ist.
Volumenorientierte Kodierung: Im Gegensatz zur traditionellen gleichmäßigen Verteilung werden Hypothesen, die mehr Parametervolumen einnehmen, kürzere Kodierungen zugewiesen
Singularitätsbehandlung: Behandlung der degenerierten geometrischen Struktur neuronaler Netze durch Auflösungssingularitätssatz
Local Learning Coefficient: Charakterisierung der geometrischen Eigenschaften lokaler Minima mittels LLC λ(w*) und Multiplizität m(w*)
Wichtige Erkenntnis: Die kritische Bitanzahl wächst linear mit LLC. Je größer LLC (desto weniger Degeneriertheit), desto mehr Bits sind erforderlich, um die Genauigkeit zu bewahren.
Theoretischer Beitrag: Erfolgreiche Erweiterung des MDL-Prinzips auf singuläre Modelle, Etablierung der theoretischen Verbindung zwischen LLC und Komprimierbarkeit
Empirische Erkenntnisse: LLC kann die Kompressionsgrenzen neuronaler Netze genau vorhersagen, besonders bei Quantisierungskompression
Methodische Validierung: Unabhängige Validierung der LLC-Schätzung für großangelegte Transformer-Modelle