A Connection Between Score Matching and Local Intrinsic Dimension
Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios.
We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic
Une Connexion Entre Score Matching et Dimension Intrinsèque Locale
La dimension intrinsèque locale (DIL) est une quantité fondamentale en traitement du signal et théorie de l'apprentissage, mais la quantification de la DIL pour des données complexes de haute dimension a historiquement constitué une tâche difficile. Des recherches récentes ont montré que les modèles de diffusion capturent la DIL des données par le spectre de leurs estimations de score et le taux de variation de l'estimation de densité sous diverses perturbations de bruit. Bien que ces méthodes puissent quantifier précisément la DIL, elles nécessitent plusieurs passages avant du modèle de diffusion ou l'utilisation de calculs de gradients, ce qui limite leur applicabilité dans les scénarios à ressources informatiques et mémoire limitées.
Cet article démontre que la DIL est une borne inférieure de la perte de score matching débruitée, fournissant ainsi une justification théorique pour l'utilisation de la perte de score matching débruitée comme estimateur de DIL. De plus, les auteurs démontrent que la perte de score matching implicite équivalente approxime également la DIL par la dimension normale et est étroitement liée à l'estimateur de DIL récent FLIPD. Les expériences sur les repères de variétés et Stable Diffusion 3.5 montrent que la perte de score matching débruitée est un estimateur de DIL hautement compétitif et évolutif, réalisant une précision supérieure et une consommation mémoire optimale à mesure que l'échelle des problèmes et le niveau de quantification augmentent.
Les données de haute dimension possèdent généralement une structure de faible dimension, appelée hypothèse de variété, qui est une hypothèse centrale de l'apprentissage automatique. La dimension intrinsèque locale (DIL) est une quantité fondamentale qui encapsule la structure de faible dimension des données. Pour un point x, la DIL est la dimension locale nécessaire pour coder sans perte les données autour de x.
Signification en traitement du signal : La DIL détermine les limites de compressibilité (locale) de la distribution
Valeur en apprentissage profond : Une DIL plus faible améliore l'efficacité statistique de l'apprentissage, rendant l'apprentissage et la généralisation plus faciles
Applications pratiques : Largement appliquée dans les tâches d'ingénierie telles que la détection d'anomalies, le clustering et la segmentation
Méthodes non paramétriques : Nécessitent un grand volume de données d'échantillonnage, sont fortement affectées par le choix des hyperparamètres, et ne généralisent pas dans les paramètres de faibles données
Méthodes paramétriques : Bien que scalables en utilisant des modèles génératifs profonds, LIDL nécessite plusieurs modèles génératifs, tandis que FLIPD et les méthodes de faisceau normal nécessitent des calculs de gradients ou de nombreux passages avant
Les méthodes paramétriques existantes d'estimation de DIL présentent des limitations en termes d'efficacité informatique et mémoire, particulièrement dans les applications à grande échelle. Cet article vise à découvrir une méthode d'estimation de DIL plus efficace et évolutive.
Contribution théorique : Démonstration que la perte de score matching débruitée a la DIL comme borne inférieure, fournissant une base théorique pour son utilisation comme estimateur de DIL évolutif
Association de méthodes : Établissement de relations étroites entre la perte de score matching et les estimateurs actuels de pointe (FLIPD et méthodes de faisceau normal)
Vérification expérimentale : Les expériences sur les repères de variétés et Stable Diffusion 3.5/2.0 montrent que la perte de score matching débruitée est un estimateur de DIL hautement compétitif
Avantages pratiques : Démontre une scalabilité supérieure en termes de consommation mémoire et de cohérence de quantification
Étant donné un point x échantillonné à partir d'une variété de données d-dimensionnelle M⊂Rⁿ, estimer sa dimension intrinsèque locale d. L'entrée est un point de données de haute dimension, et la sortie est la valeur d'estimation de DIL correspondante.
Les méthodes de faisceau normal calculent les valeurs singulières d'une matrice m×n, tandis que la méthode de faisceau d'erreur proposée calcule les valeurs propres de la matrice de vecteurs d'erreur. La perte de débruitage égale la trace (surface) des valeurs propres de la matrice de Gram, restant précise même avec de petits échantillons.
Explication du terme constant : C_DSM est la négative de la DIL moyenne des données
Entraînement multi-échelle : L'entraînement à chaque échelle peut être considéré comme l'identification de la DIL moyenne de cette variété de bruit spécifique
Calcul de vraisemblance : Possibilité d'associer une vraisemblance plus élevée à une dimension normale d'apprentissage plus élevée
L'article cite plusieurs travaux connexes importants, notamment :
Vincent (2011) : Connexion entre débruitage et modélisation générative
Hyvärinen & Dayan (2005) : Théorie fondamentale du score matching
Kamkari et al. (2024) : Méthode FLIPD
Stanczuk et al. (2024) : Méthode de faisceau normal
Ainsi que la littérature connexe sur les modèles de diffusion et le flux matching
Évaluation Générale : Cet article est un excellent travail équilibrant théorie et pratique, fournissant une nouvelle perspective théorique et une méthode pratique pour l'estimation de DIL. Bien qu'il y ait de la place pour l'amélioration dans certains détails techniques, ses contributions principales ont une valeur importante pour comprendre les propriétés géométriques des modèles de diffusion et améliorer les méthodes d'estimation de DIL.