A Connection Between Score Matching and Local Intrinsic Dimension
Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios.
We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic
Eine Verbindung zwischen Score Matching und lokaler intrinsischer Dimension
Die lokale intrinsische Dimension (Local Intrinsic Dimension, LID) ist eine grundlegende Größe in der Signalverarbeitung und Lerntheorie, doch die Quantifizierung der LID hochdimensionaler komplexer Daten ist historisch eine herausfordernde Aufgabe gewesen. Neuere Forschungen zeigen, dass Diffusionsmodelle die LID von Daten durch das Spektrum ihrer Score-Schätzungen und die Änderungsrate der Dichteabschätzung unter verschiedenen Rauschstörungen erfassen. Obwohl diese Methoden die LID präzise quantifizieren können, erfordern sie mehrere Vorwärtsdurchläufe des Diffusionsmodells oder die Verwendung von Gradientenberechnung, was ihre Anwendbarkeit in rechenzeit- und speicherbeschränkten Szenarien einschränkt.
In diesem Artikel wird nachgewiesen, dass die LID eine untere Schranke des Denoisierungsscore-Matching-Verlusts darstellt, was eine theoretische Grundlage für die Verwendung des Denoisierungsscore-Matching-Verlusts als LID-Schätzer bietet. Darüber hinaus wird gezeigt, dass der äquivalente implizite Score-Matching-Verlust die LID durch die Normalendimension approximiert und eng mit dem kürzlich entwickelten LID-Schätzer FLIPD verwandt ist. Experimente auf Mannigfaltigkeits-Benchmarks und Stable Diffusion 3.5 zeigen, dass der Denoisierungsscore-Matching-Verlust ein hochkonkurrenzfähiger und skalierbarer LID-Schätzer ist, der überlegene Genauigkeit und Speicherauslastung bei zunehmender Problemgröße und Quantifizierungsebene erreicht.
Hochdimensionale Daten weisen typischerweise eine niedrigdimensionale Struktur auf, die als Mannigfaltigkeitshypothese bekannt ist und eine Kernhypothese des maschinellen Lernens darstellt. Die lokale intrinsische Dimension (LID) ist eine grundlegende Größe, die die niedrigdimensionale Struktur von Daten erfasst. Für einen Punkt x ist die LID die lokale Dimension, die erforderlich ist, um Daten um x herum verlustfrei zu kodieren.
Nichtparametrische Methoden: Erfordern große Mengen an Stichprobendaten, werden stark durch die Wahl von Hyperparametern beeinflusst und verallgemeinern nicht in Szenarien mit wenigen Daten
Parametrische Methoden: Obwohl skalierbar durch die Nutzung tiefer generativer Modelle, erfordert LIDL mehrere generative Modelle, und FLIPD sowie Normal-Bundle-Methoden erfordern Gradientenberechnung oder zahlreiche Vorwärtsdurchläufe
Bestehende parametrisierte LID-Schätzmethoden weisen Einschränkungen in Bezug auf Rechenzeit- und Speichereffizienz auf, besonders bei großflächigen Anwendungen. Dieser Artikel zielt darauf ab, eine effizientere und skalierbarere LID-Schätzmethode zu entdecken.
Theoretischer Beitrag: Nachweis, dass der Denoisierungsscore-Matching-Verlust die LID als untere Schranke hat, was eine theoretische Grundlage für seine Verwendung als skalierbarer LID-Schätzer bietet
Methodische Verbindung: Etablierung enger Beziehungen zwischen dem Score-Matching-Verlust und aktuellen führenden Schätzern (FLIPD und Normal-Bundle-Methoden)
Experimentelle Validierung: Experimente auf Mannigfaltigkeits-Benchmarks und Stable Diffusion 3.5/2.0 zeigen, dass der Denoisierungsscore-Matching-Verlust ein hochkonkurrenzfähiger LID-Schätzer ist
Praktische Vorteile: Zeigt überlegene Skalierbarkeit in Bezug auf Speicherauslastung und Quantifizierungskonsistenz
Gegeben ein Punkt x, der aus einer d-dimensionalen Datenmannigfaltigkeit M⊂Rⁿ entnommen ist, schätze seine lokale intrinsische Dimension d. Die Eingabe ist ein hochdimensionaler Datenpunkt, die Ausgabe ist der entsprechende LID-Schätzwert.
Die Normal-Bundle-Methode berechnet die Singulärwerte einer m×n-Matrix, während die in diesem Artikel vorgeschlagene Fehler-Bundle-Methode die Eigenwerte der Fehler-Vektormatrix berechnet. Der Denoisierungsverlust entspricht der Spur (Fläche) der Eigenwerte der Gram-Matrix und bleibt auch bei kleinen Stichproben genau.
Erklärung der Konstante: C_DSM ist das Negative des durchschnittlichen LID der Daten
Mehrskaliges Training: Das Training bei jeder Skala kann als Identifizierung der durchschnittlichen LID dieser spezifischen Rausch-Mannigfaltigkeit betrachtet werden
Wahrscheinlichkeitsberechnung: Mögliche Zuordnung höherer Wahrscheinlichkeit zu höherer gelernter Normalendimension
Der Artikel zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
Vincent (2011): Verbindung zwischen Denoisierung und generativer Modellierung
Hyvärinen & Dayan (2005): Grundlagentheorie des Score-Matching
Kamkari et al. (2024): FLIPD-Methode
Stanczuk et al. (2024): Normal-Bundle-Methode
Sowie verwandte Literatur zu Diffusionsmodellen und Flow-Matching
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis gleichermaßen berücksichtigt und eine neue theoretische Perspektive sowie praktische Methode für die LID-Schätzung bietet. Obwohl es in einigen technischen Details noch Verbesserungsspielraum gibt, haben seine Kernbeiträge wichtigen Wert für das Verständnis der geometrischen Eigenschaften von Diffusionsmodellen und die Verbesserung von LID-Schätzmethoden.