Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic
La Compressibilité Mesure la Complexité : La Longueur de Description Minimale Rencontre la Théorie de l'Apprentissage Singulier
Cet article étend le principe de la Longueur de Description Minimale (Minimum Description Length, MDL) aux modèles singuliers tels que les réseaux de neurones par le biais de la Théorie de l'Apprentissage Singulier (Singular Learning Theory, SLT), en étudiant la compressibilité des réseaux de neurones. À travers des expériences à grande échelle de techniques de compression telles que la quantification et la factorisation sur la suite de modèles Pythia, l'étude découvre que les estimations de complexité basées sur le Coefficient d'Apprentissage Local (Local Learning Coefficient, LLC) sont fortement corrélées à la compressibilité, présentant même une relation linéaire dans certains cas. Les résultats de la recherche fournissent une voie théorique pour évaluer rigoureusement les limites de compression des modèles.
Le problème central que cet article aborde est comment mesurer théoriquement la complexité des modèles de réseaux de neurones, en particulier pour distinguer deux modes d'apprentissage différents : « mémoriser les données d'entraînement » et « découvrir des solutions générales ». Les méthodes traditionnelles ne peuvent pas déterminer si un modèle a véritablement acquis une capacité de généralisation en se basant uniquement sur la fonction de perte.
Motivation économique: La compression de modèles affecte directement les coûts d'inférence. Réduire de moitié la mémoire d'un modèle pourrait doubler sa valeur opérationnelle, ce qui stimule d'importants investissements en recherche et développement privés
Lacune théorique: Les techniques de compression existantes manquent de fondements théoriques solides, en particulier concernant la compréhension des limites de compression
Implications pour la sécurité: Comprendre les limites de compression est important pour évaluer les exigences informationnelles du transfert de capacités des modèles
Limitations de la MDL classique: La MDL traditionnelle suppose que les modèles sont « réguliers » (la cartographie des paramètres vers les distributions est bijective et la matrice d'information de Fisher est non-singulière), mais les réseaux de neurones violent ces hypothèses
Approches heuristiques: Les techniques de compression existantes (comme l'élagage basé sur le spectre du Hessien) manquent de fondements théoriques
Paradoxe dimensionnel: La « dimension effective » des réseaux de neurones est bien inférieure au nombre de paramètres, mais manque d'explication théorique rigoureuse
Principe MDL singulier: Extension du principe MDL aux réseaux de neurones en utilisant la théorie de l'apprentissage singulier, prouvant l'existence d'un codage bipartite dont la redondance asymptotique implique le Coefficient d'Apprentissage Local (LLC)
Pont théorie-pratique: Établissement d'une connexion théorique entre le LLC et les techniques de compression pratiques (quantification, factorisation)
Vérification empirique: Validation de la relation linéaire entre le LLC et la compressibilité sur la série de modèles Pythia (jusqu'à 6,9B de paramètres) avec R² ≥ 0,98
Cadre des limites de compression: Fourniture d'un cadre théorique rigoureux pour évaluer les limites de compression des modèles
Étant donné une tolérance de perte ε > 0 et des paramètres de schéma de compression P, trouver la compression maximale P_max telle que la perte augmente de la valeur originale L au seuil L + ε. La compressibilité est définie comme la quantité maximale de compression pouvant être tolérée.
Espace d'échantillons X (fini), distribution génératrice de données q^(n) ∈ Δ(X^n)
Modèle statistique paramétrisé M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
Codage bipartite : d'abord envoyer la représentation de la distribution encodée p notée ⟦p⟧, puis envoyer les données encodées par p notées ⟦x^(n)⟧_p
Théorème Central (Théorème 1):
Il existe un codage bipartite tel que pour toute distribution génératrice de données réalisable q ∈ M, la redondance asymptotique soit :
R_n = λ log n - (m-1) log log n + O_p(1)
où λ est le coefficient d'apprentissage et m est la multiplicité.
Codage orienté par le volume: Contrairement à la distribution uniforme traditionnelle, allouer des codes plus courts aux hypothèses occupant un plus grand volume de paramètres
Traitement de la singularité: Traiter la structure géométrique dégénérée des réseaux de neurones par le théorème de résolution des singularités
Coefficient d'Apprentissage Local: Utiliser le LLC λ(w*) et la multiplicité m(w*) pour caractériser les propriétés géométriques des minima locaux
Pour la compression par quantification, établir la condition de volume :
Vol(C_h) ≤ V(ε)
c'est-à-dire le volume de l'unité de quantification ≤ volume du sous-ensemble ε.
Obtenir le budget de bits par coordonnée :
b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)
Intuition clé: Le nombre critique de bits croît linéairement avec le LLC ; plus le LLC est grand (moins de dégénérescence), plus de bits sont nécessaires pour maintenir la précision.
Contribution théorique: Extension réussie du principe MDL aux modèles singuliers, établissant une connexion théorique entre LLC et compressibilité
Découvertes empiriques: Le LLC peut prédire avec précision les limites de compression des réseaux de neurones, particulièrement pour la compression par quantification
Vérification de la méthode: Fournit une vérification indépendante de l'estimation du LLC pour les modèles transformer à grande échelle