2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic

Une Connexion Entre Score Matching et Dimension Intrinsèque Locale

Informations Fondamentales

  • ID de l'article : 2510.12975
  • Titre : A Connection Between Score Matching and Local Intrinsic Dimension
  • Auteurs : Eric Yeats, Aaron Jacobson, Darryl Hannan, Yiran Jia, Timothy Doster, Henry Kvinge, Scott Mahan (PNNL, UNC Chapel Hill, UC San Diego)
  • Classification : cs.LG stat.ML
  • Date de publication/Conférence : Accepté à l'atelier 3rd SPIGM @ NeurIPS 2025
  • Lien de l'article : https://arxiv.org/abs/2510.12975

Résumé

La dimension intrinsèque locale (DIL) est une quantité fondamentale en traitement du signal et théorie de l'apprentissage, mais la quantification de la DIL pour des données complexes de haute dimension a historiquement constitué une tâche difficile. Des recherches récentes ont montré que les modèles de diffusion capturent la DIL des données par le spectre de leurs estimations de score et le taux de variation de l'estimation de densité sous diverses perturbations de bruit. Bien que ces méthodes puissent quantifier précisément la DIL, elles nécessitent plusieurs passages avant du modèle de diffusion ou l'utilisation de calculs de gradients, ce qui limite leur applicabilité dans les scénarios à ressources informatiques et mémoire limitées.

Cet article démontre que la DIL est une borne inférieure de la perte de score matching débruitée, fournissant ainsi une justification théorique pour l'utilisation de la perte de score matching débruitée comme estimateur de DIL. De plus, les auteurs démontrent que la perte de score matching implicite équivalente approxime également la DIL par la dimension normale et est étroitement liée à l'estimateur de DIL récent FLIPD. Les expériences sur les repères de variétés et Stable Diffusion 3.5 montrent que la perte de score matching débruitée est un estimateur de DIL hautement compétitif et évolutif, réalisant une précision supérieure et une consommation mémoire optimale à mesure que l'échelle des problèmes et le niveau de quantification augmentent.

Contexte et Motivation de la Recherche

Définition du Problème

Les données de haute dimension possèdent généralement une structure de faible dimension, appelée hypothèse de variété, qui est une hypothèse centrale de l'apprentissage automatique. La dimension intrinsèque locale (DIL) est une quantité fondamentale qui encapsule la structure de faible dimension des données. Pour un point x, la DIL est la dimension locale nécessaire pour coder sans perte les données autour de x.

Importance

  1. Signification en traitement du signal : La DIL détermine les limites de compressibilité (locale) de la distribution
  2. Valeur en apprentissage profond : Une DIL plus faible améliore l'efficacité statistique de l'apprentissage, rendant l'apprentissage et la généralisation plus faciles
  3. Applications pratiques : Largement appliquée dans les tâches d'ingénierie telles que la détection d'anomalies, le clustering et la segmentation

Limitations des Méthodes Existantes

  1. Méthodes non paramétriques : Nécessitent un grand volume de données d'échantillonnage, sont fortement affectées par le choix des hyperparamètres, et ne généralisent pas dans les paramètres de faibles données
  2. Méthodes paramétriques : Bien que scalables en utilisant des modèles génératifs profonds, LIDL nécessite plusieurs modèles génératifs, tandis que FLIPD et les méthodes de faisceau normal nécessitent des calculs de gradients ou de nombreux passages avant

Motivation de la Recherche

Les méthodes paramétriques existantes d'estimation de DIL présentent des limitations en termes d'efficacité informatique et mémoire, particulièrement dans les applications à grande échelle. Cet article vise à découvrir une méthode d'estimation de DIL plus efficace et évolutive.

Contributions Principales

  1. Contribution théorique : Démonstration que la perte de score matching débruitée a la DIL comme borne inférieure, fournissant une base théorique pour son utilisation comme estimateur de DIL évolutif
  2. Association de méthodes : Établissement de relations étroites entre la perte de score matching et les estimateurs actuels de pointe (FLIPD et méthodes de faisceau normal)
  3. Vérification expérimentale : Les expériences sur les repères de variétés et Stable Diffusion 3.5/2.0 montrent que la perte de score matching débruitée est un estimateur de DIL hautement compétitif
  4. Avantages pratiques : Démontre une scalabilité supérieure en termes de consommation mémoire et de cohérence de quantification

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un point x échantillonné à partir d'une variété de données d-dimensionnelle M⊂Rⁿ, estimer sa dimension intrinsèque locale d. L'entrée est un point de données de haute dimension, et la sortie est la valeur d'estimation de DIL correspondante.

Théorie Centrale

Théorème 3.1 : Borne Inférieure de la Perte de Score Matching Débruitée

Pour une variable aléatoire x échantillonnée à partir d'une variété d-dimensionnelle M, lorsque σ→0⁺ est suffisamment petit :

E_x[L_DSM(x,σ,θ)] ≥ d

où la perte de score matching débruitée est définie comme :

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

Esquisse de la preuve :

  1. Décomposition du bruit ε en composantes d'espace tangent et d'espace normal
  2. Composantes d'espace tangent : l'erreur quadratique moyenne attendue pour chaque dimension est approximativement 1
  3. Composantes d'espace normal : en raison de la structure de variété, l'erreur quadratique moyenne attendue est approximativement 0
  4. La somme donne la DIL comme borne inférieure

Théorème 3.3 : Borne Inférieure de la Perte de Score Matching Implicite

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

Cela indique que la perte de score matching implicite a pour borne inférieure la dimension normale négative.

Connexions avec les Méthodes Existantes

Relation avec FLIPD

Le calcul de FLIPD au point x est :

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

Par le théorème 3.3, on peut démontrer :

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

Relation avec les Méthodes de Faisceau Normal

Les méthodes de faisceau normal calculent les valeurs singulières d'une matrice m×n, tandis que la méthode de faisceau d'erreur proposée calcule les valeurs propres de la matrice de vecteurs d'erreur. La perte de débruitage égale la trace (surface) des valeurs propres de la matrice de Gram, restant précise même avec de petits échantillons.

Configuration Expérimentale

Ensembles de Données

Utilisation de variétés avec DIL connue du package scikit-dimension :

  • Hypersphères et hypersphéroïdes avec d=16, n=64
  • HyperTwinPeaks avec d=128, n=256
  • Tores de Clifford et variétés non linéaires avec d=32, n=128

Architecture des Modèles

  1. DiT (Diffusion Transformer) : taille de patch=4, dimension cachée=128, 16 têtes d'attention, 8 couches
  2. MLP : avec connexions de saut, architecture similaire à celle utilisée dans FLIPD

Métriques d'Évaluation

  • Métrique principale : Erreur absolue moyenne (EAM) entre la DIL réelle et la DIL estimée
  • Métriques auxiliaires : Utilisation mémoire GPU maximale, changement de performance après quantification

Méthodes de Comparaison

  • Méthodes non paramétriques : MLE, TwoNN, ESS
  • Méthodes paramétriques : FLIPD
  • Niveaux de bruit : σ = 0.01, 0.02, 0.05

Résultats Expérimentaux

Résultats Principaux

Expériences sur Repères de Variétés

Conclusions clés du Tableau 1 :

  1. Sous architecture DiT :
    • EAM moyenne de la méthode de perte de débruitage : 2.21 (σ=0.05)
    • EAM moyenne de FLIPD : 23.05 (σ=0.05)
    • Différences significatives sur les variétés de haute dimension et haute courbure
  2. Sous architecture MLP :
    • EAM moyenne de la méthode de perte de débruitage : 7.27 (σ=0.05)
    • EAM moyenne de FLIPD : 11.11 (σ=0.05)
    • FLIPD montre de meilleures performances sur MLP
  3. Méthodes non paramétriques :
    • ESS montre les meilleures performances : EAM 7.12 (k=100)
    • Dégradation sévère des performances sur les variétés de haute dimension

Expériences de Scalabilité

Résultats de la Figure 2 :

  • À mesure que la dimension de la variété augmente, les deux méthodes paramétriques maintiennent une faible EAM
  • L'utilisation mémoire de FLIPD augmente rapidement en raison des calculs de gradients
  • L'utilisation mémoire de la méthode de perte de débruitage augmente lentement

Expériences Stable Diffusion

Découvertes de l'Expérience SD 3.5

  1. Corrélation : Les estimations FLIPD et de perte de débruitage sont hautement corrélées
  2. Différences numériques : FLIPD donne généralement des estimations de DIL plus élevées
  3. Stabilité de quantification : La perte de débruitage montre moins de variation après quantification
  4. Efficacité mémoire : La mémoire maximale de la perte de débruitage est environ 60% celle de FLIPD

Expérience SD 2.0

  • Modèles de corrélation similaires et élevés
  • FLIPD produit des valeurs négatives à des niveaux de bruit élevés (estimations invalides)
  • Attribué à la constante de Lipschitz élevée de l'architecture U-Net

Expériences d'Ablation

Les expériences avec différentes valeurs de σ révèlent :

  • σ=0.05 donne généralement les meilleures performances
  • Les valeurs de σ plus petites peuvent entraîner une instabilité numérique
  • L'architecture DiT est plus robuste au choix de σ

Travaux Connexes

Estimation Non Paramétrique de DIL

  • Méthode MLE : Ajustement par maximum de vraisemblance des paramètres de distribution de Poisson
  • Méthode TwoNN : Analyse du rapport des distances au deuxième et premier voisins les plus proches
  • Méthode ESS : Mesure de l'asymétrie du volume du simplexe formé par un point et ses voisins
  • Méthodes de dimension fractale : Traitement des données auto-similaires ou fractales

Estimation Paramétrique de DIL

  • LIDL : Utilisation d'un ensemble de modèles de flux normalisés
  • Méthode de faisceau normal : Comptage des valeurs singulières de la matrice d'estimation de score
  • FLIPD : Utilisation de l'équation de Fokker-Planck, nécessitant un seul modèle de diffusion

Conclusions et Discussion

Conclusions Principales

  1. La perte de score matching débruitée fournit une borne inférieure théoriquement justifiée pour la DIL
  2. La méthode réalise un bon équilibre entre précision et efficacité informatique
  3. Elle entretient des connexions théoriques profondes avec les méthodes existantes de pointe

Intuitions Théoriques

  1. Explication du terme constant : C_DSM est la négative de la DIL moyenne des données
  2. Entraînement multi-échelle : L'entraînement à chaque échelle peut être considéré comme l'identification de la DIL moyenne de cette variété de bruit spécifique
  3. Calcul de vraisemblance : Possibilité d'associer une vraisemblance plus élevée à une dimension normale d'apprentissage plus élevée

Limitations

  1. Les expériences utilisent seulement un GPU H100 unique, sans exploiter le calcul distribué
  2. La quantification est limitée à la demi-précision
  3. Absence de recherche de « point de coude » pour les courbes de DIL
  4. Les hypothèses théoriques nécessitent que σ soit suffisamment petit et que la courbure de la variété soit négligeable

Directions Futures

  1. Extension à des expériences distribuées à plus grande échelle
  2. Étude des performances sous conditions de quantification plus extrêmes
  3. Développement de stratégies de sélection adaptative de σ
  4. Exploration des applications sur des structures de variétés plus complexes

Évaluation Approfondie

Points Forts

  1. Contributions théoriques solides : Fournit des preuves mathématiques rigoureuses établissant une connexion fondamentale entre score matching et DIL
  2. Méthode simple et efficace : Ne nécessite pas de calculs de gradients ou de passages avant multiples, avec une efficacité informatique élevée
  3. Expériences complètes : Couvrant les variétés synthétiques, les données réelles et les modèles à grande échelle
  4. Valeur pratique élevée : Avantages évidents dans les scénarios à ressources mémoire limitées

Insuffisances

  1. Limitations des hypothèses théoriques : Nécessite les conditions que σ soit suffisamment petit et que la courbure de la variété soit négligeable
  2. Dépendance architecturale : Les performances varient selon les différentes architectures de réseaux de neurones
  3. Sensibilité aux paramètres : Le choix de σ a un impact important sur les résultats
  4. Portée de vérification limitée : Vérification principalement sur des variétés synthétiques relativement simples

Impact

  1. Valeur théorique : Fournit une nouvelle perspective pour comprendre les modèles de diffusion et l'apprentissage de variétés
  2. Signification pratique : Fournit une solution viable pour l'estimation de DIL à grande échelle
  3. Contribution méthodologique : Démontre comment extraire des informations géométriques des pertes d'entraînement

Scénarios d'Application

  1. Analyse de données à grande échelle : Scénarios avec ressources informatiques et mémoire limitées
  2. Estimation de DIL en temps réel : Applications nécessitant une réponse rapide
  3. Modèles de diffusion pré-entraînés : Utilisation directe de modèles existants pour l'estimation de DIL
  4. Recherche en apprentissage de variétés : Outil pour comprendre les structures géométriques des données

Références

L'article cite plusieurs travaux connexes importants, notamment :

  • Vincent (2011) : Connexion entre débruitage et modélisation générative
  • Hyvärinen & Dayan (2005) : Théorie fondamentale du score matching
  • Kamkari et al. (2024) : Méthode FLIPD
  • Stanczuk et al. (2024) : Méthode de faisceau normal
  • Ainsi que la littérature connexe sur les modèles de diffusion et le flux matching

Évaluation Générale : Cet article est un excellent travail équilibrant théorie et pratique, fournissant une nouvelle perspective théorique et une méthode pratique pour l'estimation de DIL. Bien qu'il y ait de la place pour l'amélioration dans certains détails techniques, ses contributions principales ont une valeur importante pour comprendre les propriétés géométriques des modèles de diffusion et améliorer les méthodes d'estimation de DIL.