2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.
We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
academic

La Compressibilité Mesure la Complexité : La Longueur de Description Minimale Rencontre la Théorie de l'Apprentissage Singulier

Informations Fondamentales

  • ID de l'article: 2510.12077
  • Titre: Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
  • Auteurs: Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet
  • Classification: stat.ML cs.LG
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.12077

Résumé

Cet article étend le principe de la Longueur de Description Minimale (Minimum Description Length, MDL) aux modèles singuliers tels que les réseaux de neurones par le biais de la Théorie de l'Apprentissage Singulier (Singular Learning Theory, SLT), en étudiant la compressibilité des réseaux de neurones. À travers des expériences à grande échelle de techniques de compression telles que la quantification et la factorisation sur la suite de modèles Pythia, l'étude découvre que les estimations de complexité basées sur le Coefficient d'Apprentissage Local (Local Learning Coefficient, LLC) sont fortement corrélées à la compressibilité, présentant même une relation linéaire dans certains cas. Les résultats de la recherche fournissent une voie théorique pour évaluer rigoureusement les limites de compression des modèles.

Contexte et Motivation de la Recherche

Problème Central

Le problème central que cet article aborde est comment mesurer théoriquement la complexité des modèles de réseaux de neurones, en particulier pour distinguer deux modes d'apprentissage différents : « mémoriser les données d'entraînement » et « découvrir des solutions générales ». Les méthodes traditionnelles ne peuvent pas déterminer si un modèle a véritablement acquis une capacité de généralisation en se basant uniquement sur la fonction de perte.

Importance du Problème

  1. Motivation économique: La compression de modèles affecte directement les coûts d'inférence. Réduire de moitié la mémoire d'un modèle pourrait doubler sa valeur opérationnelle, ce qui stimule d'importants investissements en recherche et développement privés
  2. Lacune théorique: Les techniques de compression existantes manquent de fondements théoriques solides, en particulier concernant la compréhension des limites de compression
  3. Implications pour la sécurité: Comprendre les limites de compression est important pour évaluer les exigences informationnelles du transfert de capacités des modèles

Limitations des Approches Existantes

  1. Limitations de la MDL classique: La MDL traditionnelle suppose que les modèles sont « réguliers » (la cartographie des paramètres vers les distributions est bijective et la matrice d'information de Fisher est non-singulière), mais les réseaux de neurones violent ces hypothèses
  2. Approches heuristiques: Les techniques de compression existantes (comme l'élagage basé sur le spectre du Hessien) manquent de fondements théoriques
  3. Paradoxe dimensionnel: La « dimension effective » des réseaux de neurones est bien inférieure au nombre de paramètres, mais manque d'explication théorique rigoureuse

Contributions Principales

  1. Principe MDL singulier: Extension du principe MDL aux réseaux de neurones en utilisant la théorie de l'apprentissage singulier, prouvant l'existence d'un codage bipartite dont la redondance asymptotique implique le Coefficient d'Apprentissage Local (LLC)
  2. Pont théorie-pratique: Établissement d'une connexion théorique entre le LLC et les techniques de compression pratiques (quantification, factorisation)
  3. Vérification empirique: Validation de la relation linéaire entre le LLC et la compressibilité sur la série de modèles Pythia (jusqu'à 6,9B de paramètres) avec R² ≥ 0,98
  4. Cadre des limites de compression: Fourniture d'un cadre théorique rigoureux pour évaluer les limites de compression des modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une tolérance de perte ε > 0 et des paramètres de schéma de compression P, trouver la compression maximale P_max telle que la perte augmente de la valeur originale L au seuil L + ε. La compressibilité est définie comme la quantité maximale de compression pouvant être tolérée.

Cadre Théorique

Principe MDL Singulier

Configuration:

  • Espace d'échantillons X (fini), distribution génératrice de données q^(n) ∈ Δ(X^n)
  • Modèle statistique paramétrisé M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
  • Codage bipartite : d'abord envoyer la représentation de la distribution encodée p notée ⟦p⟧, puis envoyer les données encodées par p notées ⟦x^(n)⟧_p

Théorème Central (Théorème 1): Il existe un codage bipartite tel que pour toute distribution génératrice de données réalisable q ∈ M, la redondance asymptotique soit :

R_n = λ log n - (m-1) log log n + O_p(1)

où λ est le coefficient d'apprentissage et m est la multiplicité.

Innovations Techniques Clés

  1. Codage orienté par le volume: Contrairement à la distribution uniforme traditionnelle, allouer des codes plus courts aux hypothèses occupant un plus grand volume de paramètres
  2. Traitement de la singularité: Traiter la structure géométrique dégénérée des réseaux de neurones par le théorème de résolution des singularités
  3. Coefficient d'Apprentissage Local: Utiliser le LLC λ(w*) et la multiplicité m(w*) pour caractériser les propriétés géométriques des minima locaux

Dérivation de la Relation de Compression

Pour la compression par quantification, établir la condition de volume :

Vol(C_h) ≤ V(ε)

c'est-à-dire le volume de l'unité de quantification ≤ volume du sous-ensemble ε.

Obtenir le budget de bits par coordonnée :

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

Intuition clé: Le nombre critique de bits croît linéairement avec le LLC ; plus le LLC est grand (moins de dégénérescence), plus de bits sont nécessaires pour maintenir la précision.

Méthode d'Estimation du LLC

Utiliser la dynamique de Langevin avec gradient stochastique préconditionné (pSGLD) pour estimer :

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

où l'espérance est basée sur la distribution a posteriori de Gibbs :

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

Configuration Expérimentale

Ensemble de Données

  • Suite de modèles Pythia: Modèles transformer de 14M à 6,9B de paramètres
  • Données d'entraînement: Ensemble de données Pile, tous les modèles entraînés avec les mêmes données et ordre
  • Points de contrôle: 2k à 90k étapes d'entraînement (excluant les points de contrôle instables en fin de période)

Techniques de Compression

  1. Quantification symétrique:
    • Quantifier les paramètres en n_q valeurs équidistantes
    • Optimiser les paramètres de découpage pour minimiser la perte après quantification
    • Mesurer le n_q* critique pour atteindre le seuil de perte ε
  2. Factorisation tensorielle:
    • Décomposition SVD des matrices de poids W ← U×S×V
    • Troncature d'une proportion fixe de valeurs singulières
    • Éviter les couches initiales/finales et les couches consécutives
  3. Autres techniques: Ajout de bruit gaussien, élagage structuré

Métriques d'Évaluation

  • Compressibilité: Paramètre de compression critique lors de l'atteinte du seuil de perte ε
  • Estimation du LLC: Estimation de complexité utilisant pSGLD
  • Corrélation linéaire: Coefficient R² évaluant la relation linéaire entre LLC et compressibilité

Résultats Expérimentaux

Résultats Principaux

Expériences de Quantification

  • Relation linéaire forte: Tous les modèles montrent une relation linéaire significative entre LLC et n_q critique (R² ≥ 0,98)
  • Cohérence: Tous les modèles Pythia de 14M à 6,9B de paramètres affichent des modèles similaires
  • Robustesse: Les résultats sont qualitativement cohérents pour différents seuils de perte ε (0,3, 0,5, 0,7)

Valeurs spécifiques:

  • Pythia-160M: pente = 0,11, R² = 0,98
  • Pythia-410M: pente = 0,08, R² = 0,98
  • Pythia-1.4B: pente = 0,16, R² = 0,98
  • Pythia-6.9B: pente = 0,14, R² = 0,98

Expériences de Factorisation

  • Le LLC et la fraction de compression critique montrent une corrélation positive globale
  • Pythia-6.9B présente un plateau en fin d'entraînement, possiblement lié aux caractéristiques de la courbe de perte

Expériences d'Ablation

  1. Sensibilité au seuil de perte: Test avec ε = 0,3, 0,5, 0,7, découvrant que les courbes sont qualitativement insensibles
  2. Comparaison des méthodes de quantification:
    • La quantification avec minimisation de perte affiche une relation linéaire plus forte
    • La quantification sans optimisation montre toujours une corrélation mais un ajustement inférieur
  3. Autres techniques de compression: Le bruit gaussien et l'élagage montrent également une corrélation entre LLC et robustesse

Découvertes Expérimentales

  1. Dynamiques d'entraînement: Le LLC augmente de manière monotone pendant l'entraînement, cohérent avec la diminution de la compressibilité
  2. Indépendance d'échelle: La relation linéaire reste cohérente entre différentes échelles de modèles
  3. Universalité des méthodes: Plusieurs techniques de compression valident le pouvoir prédictif du LLC

Travaux Connexes

Domaine de la Compression de Réseaux

  • Méthodes classiques: De Optimal Brain Damage de LeCun et al. (1989) aux techniques de quantification modernes
  • Dimension effective: Maddox et al. (2020) découvrent que la dimension effective des réseaux profonds est bien inférieure au nombre de paramètres
  • Dimension intrinsèque: Adaptations de faible rang comme LoRA dans le fine-tuning

Fondements Théoriques

  • Principe MDL: Théorie classique de Grünwald et Roos (2019)
  • Théorie de l'Apprentissage Singulier: Travail fondateur de Watanabe (2009)
  • Lois d'échelle: Relation entre compression et lois d'échelle neurales

Avantages de cet Article

  • Première combinaison de SLT et MDL pour la compression de réseaux de neurones
  • Fournit une métrique théorique pour prédire la compressibilité
  • Vérification empirique à grande échelle des prédictions théoriques

Conclusions et Discussion

Conclusions Principales

  1. Contribution théorique: Extension réussie du principe MDL aux modèles singuliers, établissant une connexion théorique entre LLC et compressibilité
  2. Découvertes empiriques: Le LLC peut prédire avec précision les limites de compression des réseaux de neurones, particulièrement pour la compression par quantification
  3. Vérification de la méthode: Fournit une vérification indépendante de l'estimation du LLC pour les modèles transformer à grande échelle

Limitations

  1. Défis d'estimation du LLC:
    • Sensibilité aux hyperparamètres
    • Lacunes dans les fondements théoriques de SGLD
    • Écarts possibles entre valeurs estimées et réelles
  2. Hypothèse i.i.d.: Le cadre théorique suppose l'indépendance et l'identique distribution, mais la modélisation du langage viole cette hypothèse
  3. Coût computationnel: L'estimation unique du LLC pour Pythia-6.9B nécessite environ 3,5 heures sur GPU H200

Directions Futures

  1. Perfectionnement théorique:
    • Amélioration des fondements théoriques de SGLD
    • Extensions pour données non-i.i.d.
    • Méthodes d'estimation du LLC plus précises
  2. Applications pratiques:
    • Développement d'algorithmes de compression basés sur LLC
    • Extension à des modèles de plus grande taille
    • Exploration d'applications à d'autres modalités

Évaluation Approfondie

Points Forts

  1. Innovation théorique: Combinaison ingénieuse de SLT et MDL, fournissant des fondements théoriques solides pour la compression
  2. Expériences suffisantes: Vérification systématique sur plusieurs échelles de modèles et techniques de compression
  3. Valeur pratique: Fournit des outils théoriques opérationnels pour évaluer les limites de compression
  4. Clarté de la rédaction: Explication claire de théories complexes, conception expérimentale rationnelle

Insuffisances

  1. Limitations théoriques: L'hypothèse i.i.d. ne correspond pas aux scénarios d'application réels
  2. Surcharge computationnelle: Le coût computationnel élevé de l'estimation du LLC limite les applications pratiques
  3. Portée de vérification: Vérification principalement sur la série Pythia, nécessitant validation sur plus d'architectures de modèles
  4. Techniques de compression: Couverture insuffisante des techniques de compression avancées au-delà de la quantification et factorisation

Impact

  1. Valeur académique: Fournit une nouvelle perspective théorique pour mesurer la complexité des réseaux de neurones
  2. Signification pratique: Aide à guider la conception et l'optimisation des algorithmes de compression réels
  3. Contribution interdisciplinaire: Connecte la théorie de l'apprentissage statistique et la pratique du deep learning
  4. Recherche future: Établit les fondations pour des recherches théoriques et empiriques ultérieures

Scénarios d'Application

  1. Compression de modèles: Évaluation et prédiction du potentiel de compression des réseaux de neurones
  2. Analyse de complexité: Compréhension de l'évolution de la complexité pendant le processus d'entraînement des modèles
  3. Conception d'architecture: Orientation pour concevoir des structures de réseau plus facilement compressibles
  4. Recherche théorique: Fournit des exemples d'application de la théorie de l'apprentissage singulier au deep learning

Références

  1. Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory
  2. Grünwald, P. & Roos, T. (2019). Minimum description length revisited
  3. Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure
  4. Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling