2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.

We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.

academic

La Compressibilité Mesure la Complexité : La Longueur de Description Minimale Rencontre la Théorie de l'Apprentissage Singulier

Informations Fondamentales

ID de l'article: 2510.12077
Titre: Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
Auteurs: Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet
Classification: stat.ML cs.LG
Date de publication: 15 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.12077

Résumé

Cet article étend le principe de la Longueur de Description Minimale (Minimum Description Length, MDL) aux modèles singuliers tels que les réseaux de neurones par le biais de la Théorie de l'Apprentissage Singulier (Singular Learning Theory, SLT), en étudiant la compressibilité des réseaux de neurones. À travers des expériences à grande échelle de techniques de compression telles que la quantification et la factorisation sur la suite de modèles Pythia, l'étude découvre que les estimations de complexité basées sur le Coefficient d'Apprentissage Local (Local Learning Coefficient, LLC) sont fortement corrélées à la compressibilité, présentant même une relation linéaire dans certains cas. Les résultats de la recherche fournissent une voie théorique pour évaluer rigoureusement les limites de compression des modèles.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cet article aborde est comment mesurer théoriquement la complexité des modèles de réseaux de neurones, en particulier pour distinguer deux modes d'apprentissage différents : « mémoriser les données d'entraînement » et « découvrir des solutions générales ». Les méthodes traditionnelles ne peuvent pas déterminer si un modèle a véritablement acquis une capacité de généralisation en se basant uniquement sur la fonction de perte.

Importance du Problème

Motivation économique: La compression de modèles affecte directement les coûts d'inférence. Réduire de moitié la mémoire d'un modèle pourrait doubler sa valeur opérationnelle, ce qui stimule d'importants investissements en recherche et développement privés
Lacune théorique: Les techniques de compression existantes manquent de fondements théoriques solides, en particulier concernant la compréhension des limites de compression
Implications pour la sécurité: Comprendre les limites de compression est important pour évaluer les exigences informationnelles du transfert de capacités des modèles

Limitations des Approches Existantes

Limitations de la MDL classique: La MDL traditionnelle suppose que les modèles sont « réguliers » (la cartographie des paramètres vers les distributions est bijective et la matrice d'information de Fisher est non-singulière), mais les réseaux de neurones violent ces hypothèses
Approches heuristiques: Les techniques de compression existantes (comme l'élagage basé sur le spectre du Hessien) manquent de fondements théoriques
Paradoxe dimensionnel: La « dimension effective » des réseaux de neurones est bien inférieure au nombre de paramètres, mais manque d'explication théorique rigoureuse

Contributions Principales

Principe MDL singulier: Extension du principe MDL aux réseaux de neurones en utilisant la théorie de l'apprentissage singulier, prouvant l'existence d'un codage bipartite dont la redondance asymptotique implique le Coefficient d'Apprentissage Local (LLC)
Pont théorie-pratique: Établissement d'une connexion théorique entre le LLC et les techniques de compression pratiques (quantification, factorisation)
Vérification empirique: Validation de la relation linéaire entre le LLC et la compressibilité sur la série de modèles Pythia (jusqu'à 6,9B de paramètres) avec R² ≥ 0,98
Cadre des limites de compression: Fourniture d'un cadre théorique rigoureux pour évaluer les limites de compression des modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une tolérance de perte ε > 0 et des paramètres de schéma de compression P, trouver la compression maximale P_max telle que la perte augmente de la valeur originale L au seuil L + ε. La compressibilité est définie comme la quantité maximale de compression pouvant être tolérée.

Cadre Théorique

Principe MDL Singulier

Configuration:

Espace d'échantillons X (fini), distribution génératrice de données q^(n) ∈ Δ(X^n)
Modèle statistique paramétrisé M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
Codage bipartite : d'abord envoyer la représentation de la distribution encodée p notée ⟦p⟧, puis envoyer les données encodées par p notées ⟦x^(n)⟧_p

Théorème Central (Théorème 1): Il existe un codage bipartite tel que pour toute distribution génératrice de données réalisable q ∈ M, la redondance asymptotique soit :

R_n = λ log n - (m-1) log log n + O_p(1)

où λ est le coefficient d'apprentissage et m est la multiplicité.

Innovations Techniques Clés

Codage orienté par le volume: Contrairement à la distribution uniforme traditionnelle, allouer des codes plus courts aux hypothèses occupant un plus grand volume de paramètres
Traitement de la singularité: Traiter la structure géométrique dégénérée des réseaux de neurones par le théorème de résolution des singularités
Coefficient d'Apprentissage Local: Utiliser le LLC λ(w*) et la multiplicité m(w*) pour caractériser les propriétés géométriques des minima locaux

Dérivation de la Relation de Compression

Pour la compression par quantification, établir la condition de volume :

Vol(C_h) ≤ V(ε)

c'est-à-dire le volume de l'unité de quantification ≤ volume du sous-ensemble ε.

Obtenir le budget de bits par coordonnée :

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

Intuition clé: Le nombre critique de bits croît linéairement avec le LLC ; plus le LLC est grand (moins de dégénérescence), plus de bits sont nécessaires pour maintenir la précision.

Méthode d'Estimation du LLC

Utiliser la dynamique de Langevin avec gradient stochastique préconditionné (pSGLD) pour estimer :

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

où l'espérance est basée sur la distribution a posteriori de Gibbs :

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

Configuration Expérimentale

Ensemble de Données

Suite de modèles Pythia: Modèles transformer de 14M à 6,9B de paramètres
Données d'entraînement: Ensemble de données Pile, tous les modèles entraînés avec les mêmes données et ordre
Points de contrôle: 2k à 90k étapes d'entraînement (excluant les points de contrôle instables en fin de période)

Techniques de Compression

Quantification symétrique:
- Quantifier les paramètres en n_q valeurs équidistantes
- Optimiser les paramètres de découpage pour minimiser la perte après quantification
- Mesurer le n_q* critique pour atteindre le seuil de perte ε
Factorisation tensorielle:
- Décomposition SVD des matrices de poids W ← U×S×V
- Troncature d'une proportion fixe de valeurs singulières
- Éviter les couches initiales/finales et les couches consécutives
Autres techniques: Ajout de bruit gaussien, élagage structuré

Métriques d'Évaluation

Compressibilité: Paramètre de compression critique lors de l'atteinte du seuil de perte ε
Estimation du LLC: Estimation de complexité utilisant pSGLD
Corrélation linéaire: Coefficient R² évaluant la relation linéaire entre LLC et compressibilité

Relation linéaire forte: Tous les modèles montrent une relation linéaire significative entre LLC et n_q critique (R² ≥ 0,98)
Cohérence: Tous les modèles Pythia de 14M à 6,9B de paramètres affichent des modèles similaires
Robustesse: Les résultats sont qualitativement cohérents pour différents seuils de perte ε (0,3, 0,5, 0,7)

Valeurs spécifiques:

Pythia-160M: pente = 0,11, R² = 0,98
Pythia-410M: pente = 0,08, R² = 0,98
Pythia-1.4B: pente = 0,16, R² = 0,98
Pythia-6.9B: pente = 0,14, R² = 0,98

Expériences de Factorisation

Le LLC et la fraction de compression critique montrent une corrélation positive globale
Pythia-6.9B présente un plateau en fin d'entraînement, possiblement lié aux caractéristiques de la courbe de perte

Expériences d'Ablation

Sensibilité au seuil de perte: Test avec ε = 0,3, 0,5, 0,7, découvrant que les courbes sont qualitativement insensibles
Comparaison des méthodes de quantification:
- La quantification avec minimisation de perte affiche une relation linéaire plus forte
- La quantification sans optimisation montre toujours une corrélation mais un ajustement inférieur
Autres techniques de compression: Le bruit gaussien et l'élagage montrent également une corrélation entre LLC et robustesse

Découvertes Expérimentales

Dynamiques d'entraînement: Le LLC augmente de manière monotone pendant l'entraînement, cohérent avec la diminution de la compressibilité
Indépendance d'échelle: La relation linéaire reste cohérente entre différentes échelles de modèles
Universalité des méthodes: Plusieurs techniques de compression valident le pouvoir prédictif du LLC

Travaux Connexes

Domaine de la Compression de Réseaux

Méthodes classiques: De Optimal Brain Damage de LeCun et al. (1989) aux techniques de quantification modernes
Dimension effective: Maddox et al. (2020) découvrent que la dimension effective des réseaux profonds est bien inférieure au nombre de paramètres
Dimension intrinsèque: Adaptations de faible rang comme LoRA dans le fine-tuning

Fondements Théoriques

Principe MDL: Théorie classique de Grünwald et Roos (2019)
Théorie de l'Apprentissage Singulier: Travail fondateur de Watanabe (2009)
Lois d'échelle: Relation entre compression et lois d'échelle neurales

Avantages de cet Article

Première combinaison de SLT et MDL pour la compression de réseaux de neurones
Fournit une métrique théorique pour prédire la compressibilité
Vérification empirique à grande échelle des prédictions théoriques

Conclusions et Discussion

Conclusions Principales

Contribution théorique: Extension réussie du principe MDL aux modèles singuliers, établissant une connexion théorique entre LLC et compressibilité
Découvertes empiriques: Le LLC peut prédire avec précision les limites de compression des réseaux de neurones, particulièrement pour la compression par quantification
Vérification de la méthode: Fournit une vérification indépendante de l'estimation du LLC pour les modèles transformer à grande échelle

Limitations

Défis d'estimation du LLC:
- Sensibilité aux hyperparamètres
- Lacunes dans les fondements théoriques de SGLD
- Écarts possibles entre valeurs estimées et réelles
Hypothèse i.i.d.: Le cadre théorique suppose l'indépendance et l'identique distribution, mais la modélisation du langage viole cette hypothèse
Coût computationnel: L'estimation unique du LLC pour Pythia-6.9B nécessite environ 3,5 heures sur GPU H200

Directions Futures

Perfectionnement théorique:
- Amélioration des fondements théoriques de SGLD
- Extensions pour données non-i.i.d.
- Méthodes d'estimation du LLC plus précises
Applications pratiques:
- Développement d'algorithmes de compression basés sur LLC
- Extension à des modèles de plus grande taille
- Exploration d'applications à d'autres modalités

Évaluation Approfondie

Points Forts

Innovation théorique: Combinaison ingénieuse de SLT et MDL, fournissant des fondements théoriques solides pour la compression
Expériences suffisantes: Vérification systématique sur plusieurs échelles de modèles et techniques de compression
Valeur pratique: Fournit des outils théoriques opérationnels pour évaluer les limites de compression
Clarté de la rédaction: Explication claire de théories complexes, conception expérimentale rationnelle

Insuffisances

Limitations théoriques: L'hypothèse i.i.d. ne correspond pas aux scénarios d'application réels
Surcharge computationnelle: Le coût computationnel élevé de l'estimation du LLC limite les applications pratiques
Portée de vérification: Vérification principalement sur la série Pythia, nécessitant validation sur plus d'architectures de modèles
Techniques de compression: Couverture insuffisante des techniques de compression avancées au-delà de la quantification et factorisation

Impact

Valeur académique: Fournit une nouvelle perspective théorique pour mesurer la complexité des réseaux de neurones
Signification pratique: Aide à guider la conception et l'optimisation des algorithmes de compression réels
Contribution interdisciplinaire: Connecte la théorie de l'apprentissage statistique et la pratique du deep learning
Recherche future: Établit les fondations pour des recherches théoriques et empiriques ultérieures

Scénarios d'Application

Compression de modèles: Évaluation et prédiction du potentiel de compression des réseaux de neurones
Analyse de complexité: Compréhension de l'évolution de la complexité pendant le processus d'entraînement des modèles
Conception d'architecture: Orientation pour concevoir des structures de réseau plus facilement compressibles
Recherche théorique: Fournit des exemples d'application de la théorie de l'apprentissage singulier au deep learning

Références

Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory
Grünwald, P. & Roos, T. (2019). Minimum description length revisited
Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure
Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling