2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.

The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.

academic

Une Connexion Entre Score Matching et Dimension Intrinsèque Locale

Informations Fondamentales

ID de l'article : 2510.12975
Titre : A Connection Between Score Matching and Local Intrinsic Dimension
Auteurs : Eric Yeats, Aaron Jacobson, Darryl Hannan, Yiran Jia, Timothy Doster, Henry Kvinge, Scott Mahan (PNNL, UNC Chapel Hill, UC San Diego)
Classification : cs.LG stat.ML
Date de publication/Conférence : Accepté à l'atelier 3rd SPIGM @ NeurIPS 2025
Lien de l'article : https://arxiv.org/abs/2510.12975

Résumé

La dimension intrinsèque locale (DIL) est une quantité fondamentale en traitement du signal et théorie de l'apprentissage, mais la quantification de la DIL pour des données complexes de haute dimension a historiquement constitué une tâche difficile. Des recherches récentes ont montré que les modèles de diffusion capturent la DIL des données par le spectre de leurs estimations de score et le taux de variation de l'estimation de densité sous diverses perturbations de bruit. Bien que ces méthodes puissent quantifier précisément la DIL, elles nécessitent plusieurs passages avant du modèle de diffusion ou l'utilisation de calculs de gradients, ce qui limite leur applicabilité dans les scénarios à ressources informatiques et mémoire limitées.

Cet article démontre que la DIL est une borne inférieure de la perte de score matching débruitée, fournissant ainsi une justification théorique pour l'utilisation de la perte de score matching débruitée comme estimateur de DIL. De plus, les auteurs démontrent que la perte de score matching implicite équivalente approxime également la DIL par la dimension normale et est étroitement liée à l'estimateur de DIL récent FLIPD. Les expériences sur les repères de variétés et Stable Diffusion 3.5 montrent que la perte de score matching débruitée est un estimateur de DIL hautement compétitif et évolutif, réalisant une précision supérieure et une consommation mémoire optimale à mesure que l'échelle des problèmes et le niveau de quantification augmentent.

Contexte et Motivation de la Recherche

Définition du Problème

Les données de haute dimension possèdent généralement une structure de faible dimension, appelée hypothèse de variété, qui est une hypothèse centrale de l'apprentissage automatique. La dimension intrinsèque locale (DIL) est une quantité fondamentale qui encapsule la structure de faible dimension des données. Pour un point x, la DIL est la dimension locale nécessaire pour coder sans perte les données autour de x.

Importance

Signification en traitement du signal : La DIL détermine les limites de compressibilité (locale) de la distribution
Valeur en apprentissage profond : Une DIL plus faible améliore l'efficacité statistique de l'apprentissage, rendant l'apprentissage et la généralisation plus faciles
Applications pratiques : Largement appliquée dans les tâches d'ingénierie telles que la détection d'anomalies, le clustering et la segmentation

Limitations des Méthodes Existantes

Méthodes non paramétriques : Nécessitent un grand volume de données d'échantillonnage, sont fortement affectées par le choix des hyperparamètres, et ne généralisent pas dans les paramètres de faibles données
Méthodes paramétriques : Bien que scalables en utilisant des modèles génératifs profonds, LIDL nécessite plusieurs modèles génératifs, tandis que FLIPD et les méthodes de faisceau normal nécessitent des calculs de gradients ou de nombreux passages avant

Motivation de la Recherche

Les méthodes paramétriques existantes d'estimation de DIL présentent des limitations en termes d'efficacité informatique et mémoire, particulièrement dans les applications à grande échelle. Cet article vise à découvrir une méthode d'estimation de DIL plus efficace et évolutive.

Contributions Principales

Contribution théorique : Démonstration que la perte de score matching débruitée a la DIL comme borne inférieure, fournissant une base théorique pour son utilisation comme estimateur de DIL évolutif
Association de méthodes : Établissement de relations étroites entre la perte de score matching et les estimateurs actuels de pointe (FLIPD et méthodes de faisceau normal)
Vérification expérimentale : Les expériences sur les repères de variétés et Stable Diffusion 3.5/2.0 montrent que la perte de score matching débruitée est un estimateur de DIL hautement compétitif
Avantages pratiques : Démontre une scalabilité supérieure en termes de consommation mémoire et de cohérence de quantification

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un point x échantillonné à partir d'une variété de données d-dimensionnelle M⊂Rⁿ, estimer sa dimension intrinsèque locale d. L'entrée est un point de données de haute dimension, et la sortie est la valeur d'estimation de DIL correspondante.

Théorie Centrale

Théorème 3.1 : Borne Inférieure de la Perte de Score Matching Débruitée

Pour une variable aléatoire x échantillonnée à partir d'une variété d-dimensionnelle M, lorsque σ→0⁺ est suffisamment petit :

E_x[L_DSM(x,σ,θ)] ≥ d

où la perte de score matching débruitée est définie comme :

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

Esquisse de la preuve :

Décomposition du bruit ε en composantes d'espace tangent et d'espace normal
Composantes d'espace tangent : l'erreur quadratique moyenne attendue pour chaque dimension est approximativement 1
Composantes d'espace normal : en raison de la structure de variété, l'erreur quadratique moyenne attendue est approximativement 0
La somme donne la DIL comme borne inférieure

Théorème 3.3 : Borne Inférieure de la Perte de Score Matching Implicite

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

Cela indique que la perte de score matching implicite a pour borne inférieure la dimension normale négative.

Connexions avec les Méthodes Existantes

Relation avec FLIPD

Le calcul de FLIPD au point x est :

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

Par le théorème 3.3, on peut démontrer :

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

Relation avec les Méthodes de Faisceau Normal

Les méthodes de faisceau normal calculent les valeurs singulières d'une matrice m×n, tandis que la méthode de faisceau d'erreur proposée calcule les valeurs propres de la matrice de vecteurs d'erreur. La perte de débruitage égale la trace (surface) des valeurs propres de la matrice de Gram, restant précise même avec de petits échantillons.

Configuration Expérimentale

Ensembles de Données

Utilisation de variétés avec DIL connue du package scikit-dimension :

Hypersphères et hypersphéroïdes avec d=16, n=64
HyperTwinPeaks avec d=128, n=256
Tores de Clifford et variétés non linéaires avec d=32, n=128

Architecture des Modèles

DiT (Diffusion Transformer) : taille de patch=4, dimension cachée=128, 16 têtes d'attention, 8 couches
MLP : avec connexions de saut, architecture similaire à celle utilisée dans FLIPD

Métriques d'Évaluation

Métrique principale : Erreur absolue moyenne (EAM) entre la DIL réelle et la DIL estimée
Métriques auxiliaires : Utilisation mémoire GPU maximale, changement de performance après quantification

Méthodes de Comparaison

Méthodes non paramétriques : MLE, TwoNN, ESS
Méthodes paramétriques : FLIPD
Niveaux de bruit : σ = 0.01, 0.02, 0.05

Résultats Expérimentaux

Résultats Principaux

Expériences sur Repères de Variétés

Conclusions clés du Tableau 1 :

Sous architecture DiT :
- EAM moyenne de la méthode de perte de débruitage : 2.21 (σ=0.05)
- EAM moyenne de FLIPD : 23.05 (σ=0.05)
- Différences significatives sur les variétés de haute dimension et haute courbure
Sous architecture MLP :
- EAM moyenne de la méthode de perte de débruitage : 7.27 (σ=0.05)
- EAM moyenne de FLIPD : 11.11 (σ=0.05)
- FLIPD montre de meilleures performances sur MLP
Méthodes non paramétriques :
- ESS montre les meilleures performances : EAM 7.12 (k=100)
- Dégradation sévère des performances sur les variétés de haute dimension

Expériences de Scalabilité

Résultats de la Figure 2 :

À mesure que la dimension de la variété augmente, les deux méthodes paramétriques maintiennent une faible EAM
L'utilisation mémoire de FLIPD augmente rapidement en raison des calculs de gradients
L'utilisation mémoire de la méthode de perte de débruitage augmente lentement

Expériences Stable Diffusion

Découvertes de l'Expérience SD 3.5

Corrélation : Les estimations FLIPD et de perte de débruitage sont hautement corrélées
Différences numériques : FLIPD donne généralement des estimations de DIL plus élevées
Stabilité de quantification : La perte de débruitage montre moins de variation après quantification
Efficacité mémoire : La mémoire maximale de la perte de débruitage est environ 60% celle de FLIPD

Expérience SD 2.0

Modèles de corrélation similaires et élevés
FLIPD produit des valeurs négatives à des niveaux de bruit élevés (estimations invalides)
Attribué à la constante de Lipschitz élevée de l'architecture U-Net

Expériences d'Ablation

Les expériences avec différentes valeurs de σ révèlent :

σ=0.05 donne généralement les meilleures performances
Les valeurs de σ plus petites peuvent entraîner une instabilité numérique
L'architecture DiT est plus robuste au choix de σ

Travaux Connexes

Estimation Non Paramétrique de DIL

Méthode MLE : Ajustement par maximum de vraisemblance des paramètres de distribution de Poisson
Méthode TwoNN : Analyse du rapport des distances au deuxième et premier voisins les plus proches
Méthode ESS : Mesure de l'asymétrie du volume du simplexe formé par un point et ses voisins
Méthodes de dimension fractale : Traitement des données auto-similaires ou fractales

Estimation Paramétrique de DIL

LIDL : Utilisation d'un ensemble de modèles de flux normalisés
Méthode de faisceau normal : Comptage des valeurs singulières de la matrice d'estimation de score
FLIPD : Utilisation de l'équation de Fokker-Planck, nécessitant un seul modèle de diffusion

Conclusions et Discussion

Conclusions Principales

La perte de score matching débruitée fournit une borne inférieure théoriquement justifiée pour la DIL
La méthode réalise un bon équilibre entre précision et efficacité informatique
Elle entretient des connexions théoriques profondes avec les méthodes existantes de pointe

Intuitions Théoriques

Explication du terme constant : C_DSM est la négative de la DIL moyenne des données
Entraînement multi-échelle : L'entraînement à chaque échelle peut être considéré comme l'identification de la DIL moyenne de cette variété de bruit spécifique
Calcul de vraisemblance : Possibilité d'associer une vraisemblance plus élevée à une dimension normale d'apprentissage plus élevée

Limitations

Les expériences utilisent seulement un GPU H100 unique, sans exploiter le calcul distribué
La quantification est limitée à la demi-précision
Absence de recherche de « point de coude » pour les courbes de DIL
Les hypothèses théoriques nécessitent que σ soit suffisamment petit et que la courbure de la variété soit négligeable

Directions Futures

Extension à des expériences distribuées à plus grande échelle
Étude des performances sous conditions de quantification plus extrêmes
Développement de stratégies de sélection adaptative de σ
Exploration des applications sur des structures de variétés plus complexes

Évaluation Approfondie

Points Forts

Contributions théoriques solides : Fournit des preuves mathématiques rigoureuses établissant une connexion fondamentale entre score matching et DIL
Méthode simple et efficace : Ne nécessite pas de calculs de gradients ou de passages avant multiples, avec une efficacité informatique élevée
Expériences complètes : Couvrant les variétés synthétiques, les données réelles et les modèles à grande échelle
Valeur pratique élevée : Avantages évidents dans les scénarios à ressources mémoire limitées

Insuffisances

Limitations des hypothèses théoriques : Nécessite les conditions que σ soit suffisamment petit et que la courbure de la variété soit négligeable
Dépendance architecturale : Les performances varient selon les différentes architectures de réseaux de neurones
Sensibilité aux paramètres : Le choix de σ a un impact important sur les résultats
Portée de vérification limitée : Vérification principalement sur des variétés synthétiques relativement simples

Impact

Valeur théorique : Fournit une nouvelle perspective pour comprendre les modèles de diffusion et l'apprentissage de variétés
Signification pratique : Fournit une solution viable pour l'estimation de DIL à grande échelle
Contribution méthodologique : Démontre comment extraire des informations géométriques des pertes d'entraînement

Scénarios d'Application

Analyse de données à grande échelle : Scénarios avec ressources informatiques et mémoire limitées
Estimation de DIL en temps réel : Applications nécessitant une réponse rapide
Modèles de diffusion pré-entraînés : Utilisation directe de modèles existants pour l'estimation de DIL
Recherche en apprentissage de variétés : Outil pour comprendre les structures géométriques des données

Références

L'article cite plusieurs travaux connexes importants, notamment :

Vincent (2011) : Connexion entre débruitage et modélisation générative
Hyvärinen & Dayan (2005) : Théorie fondamentale du score matching
Kamkari et al. (2024) : Méthode FLIPD
Stanczuk et al. (2024) : Méthode de faisceau normal
Ainsi que la littérature connexe sur les modèles de diffusion et le flux matching

Évaluation Générale : Cet article est un excellent travail équilibrant théorie et pratique, fournissant une nouvelle perspective théorique et une méthode pratique pour l'estimation de DIL. Bien qu'il y ait de la place pour l'amélioration dans certains détails techniques, ses contributions principales ont une valeur importante pour comprendre les propriétés géométriques des modèles de diffusion et améliorer les méthodes d'estimation de DIL.