2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic

Eine Verbindung zwischen Score Matching und lokaler intrinsischer Dimension

Grundlegende Informationen

  • Paper-ID: 2510.12975
  • Titel: A Connection Between Score Matching and Local Intrinsic Dimension
  • Autoren: Eric Yeats, Aaron Jacobson, Darryl Hannan, Yiran Jia, Timothy Doster, Henry Kvinge, Scott Mahan (PNNL, UNC Chapel Hill, UC San Diego)
  • Klassifizierung: cs.LG stat.ML
  • Veröffentlichungszeitpunkt/Konferenz: Akzeptiert beim 3rd SPIGM Workshop @ NeurIPS 2025
  • Paper-Link: https://arxiv.org/abs/2510.12975

Zusammenfassung

Die lokale intrinsische Dimension (Local Intrinsic Dimension, LID) ist eine grundlegende Größe in der Signalverarbeitung und Lerntheorie, doch die Quantifizierung der LID hochdimensionaler komplexer Daten ist historisch eine herausfordernde Aufgabe gewesen. Neuere Forschungen zeigen, dass Diffusionsmodelle die LID von Daten durch das Spektrum ihrer Score-Schätzungen und die Änderungsrate der Dichteabschätzung unter verschiedenen Rauschstörungen erfassen. Obwohl diese Methoden die LID präzise quantifizieren können, erfordern sie mehrere Vorwärtsdurchläufe des Diffusionsmodells oder die Verwendung von Gradientenberechnung, was ihre Anwendbarkeit in rechenzeit- und speicherbeschränkten Szenarien einschränkt.

In diesem Artikel wird nachgewiesen, dass die LID eine untere Schranke des Denoisierungsscore-Matching-Verlusts darstellt, was eine theoretische Grundlage für die Verwendung des Denoisierungsscore-Matching-Verlusts als LID-Schätzer bietet. Darüber hinaus wird gezeigt, dass der äquivalente implizite Score-Matching-Verlust die LID durch die Normalendimension approximiert und eng mit dem kürzlich entwickelten LID-Schätzer FLIPD verwandt ist. Experimente auf Mannigfaltigkeits-Benchmarks und Stable Diffusion 3.5 zeigen, dass der Denoisierungsscore-Matching-Verlust ein hochkonkurrenzfähiger und skalierbarer LID-Schätzer ist, der überlegene Genauigkeit und Speicherauslastung bei zunehmender Problemgröße und Quantifizierungsebene erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Hochdimensionale Daten weisen typischerweise eine niedrigdimensionale Struktur auf, die als Mannigfaltigkeitshypothese bekannt ist und eine Kernhypothese des maschinellen Lernens darstellt. Die lokale intrinsische Dimension (LID) ist eine grundlegende Größe, die die niedrigdimensionale Struktur von Daten erfasst. Für einen Punkt x ist die LID die lokale Dimension, die erforderlich ist, um Daten um x herum verlustfrei zu kodieren.

Bedeutung

  1. Signalverarbeitungsbedeutung: LID bestimmt die Grenzen der (lokalen) Komprimierbarkeit einer Verteilung
  2. Wert für tiefes Lernen: Niedrigere LID verbessert die statistische Effizienz des Lernens und macht Lernen und Verallgemeinerung einfacher
  3. Praktische Anwendungen: Weit verbreitet in technischen Aufgaben wie Anomalieerkennung, Clustering und Segmentierung

Einschränkungen bestehender Methoden

  1. Nichtparametrische Methoden: Erfordern große Mengen an Stichprobendaten, werden stark durch die Wahl von Hyperparametern beeinflusst und verallgemeinern nicht in Szenarien mit wenigen Daten
  2. Parametrische Methoden: Obwohl skalierbar durch die Nutzung tiefer generativer Modelle, erfordert LIDL mehrere generative Modelle, und FLIPD sowie Normal-Bundle-Methoden erfordern Gradientenberechnung oder zahlreiche Vorwärtsdurchläufe

Forschungsmotivation

Bestehende parametrisierte LID-Schätzmethoden weisen Einschränkungen in Bezug auf Rechenzeit- und Speichereffizienz auf, besonders bei großflächigen Anwendungen. Dieser Artikel zielt darauf ab, eine effizientere und skalierbarere LID-Schätzmethode zu entdecken.

Kernbeiträge

  1. Theoretischer Beitrag: Nachweis, dass der Denoisierungsscore-Matching-Verlust die LID als untere Schranke hat, was eine theoretische Grundlage für seine Verwendung als skalierbarer LID-Schätzer bietet
  2. Methodische Verbindung: Etablierung enger Beziehungen zwischen dem Score-Matching-Verlust und aktuellen führenden Schätzern (FLIPD und Normal-Bundle-Methoden)
  3. Experimentelle Validierung: Experimente auf Mannigfaltigkeits-Benchmarks und Stable Diffusion 3.5/2.0 zeigen, dass der Denoisierungsscore-Matching-Verlust ein hochkonkurrenzfähiger LID-Schätzer ist
  4. Praktische Vorteile: Zeigt überlegene Skalierbarkeit in Bezug auf Speicherauslastung und Quantifizierungskonsistenz

Methodische Details

Aufgabendefinition

Gegeben ein Punkt x, der aus einer d-dimensionalen Datenmannigfaltigkeit M⊂Rⁿ entnommen ist, schätze seine lokale intrinsische Dimension d. Die Eingabe ist ein hochdimensionaler Datenpunkt, die Ausgabe ist der entsprechende LID-Schätzwert.

Kerntheorie

Theorem 3.1: Untere Schranke des Denoisierungsscore-Matching-Verlusts

Für eine Zufallsvariable x, die aus einer d-dimensionalen Mannigfaltigkeit M entnommen ist, wenn σ→0⁺ ausreichend klein ist:

E_x[L_DSM(x,σ,θ)] ≥ d

wobei der Denoisierungsscore-Matching-Verlust definiert ist als:

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

Beweisidee:

  1. Zerlegung des Rauschens ε in Tangentialraum- und Normalraumkomponenten
  2. Tangentialraumkomponenten: Der erwartete quadratische Fehler für jede Dimension beträgt etwa 1
  3. Normalraumkomponenten: Aufgrund der Mannigfaltigkeitsstruktur beträgt der erwartete quadratische Fehler etwa 0
  4. Die Summe ergibt die LID als untere Schranke

Theorem 3.3: Untere Schranke des impliziten Score-Matching-Verlusts

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

Dies zeigt, dass der implizite Score-Matching-Verlust eine untere Schranke der negativen Normalendimension hat.

Verbindungen zu bestehenden Methoden

Beziehung zu FLIPD

Die Berechnung von FLIPD am Punkt x ist:

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

Durch Theorem 3.3 kann nachgewiesen werden:

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

Beziehung zur Normal-Bundle-Methode

Die Normal-Bundle-Methode berechnet die Singulärwerte einer m×n-Matrix, während die in diesem Artikel vorgeschlagene Fehler-Bundle-Methode die Eigenwerte der Fehler-Vektormatrix berechnet. Der Denoisierungsverlust entspricht der Spur (Fläche) der Eigenwerte der Gram-Matrix und bleibt auch bei kleinen Stichproben genau.

Experimentelle Einrichtung

Datensätze

Verwendung von Mannigfaltigkeiten mit bekannter LID aus dem scikit-dimension-Paket:

  • Hypersphären und Hyperkugeln mit d=16, n=64
  • HyperTwinPeaks mit d=128, n=256
  • Clifford-Torus und nichtlineare Mannigfaltigkeiten mit d=32, n=128

Modellarchitektur

  1. DiT (Diffusion Transformer): Patch-Größe=4, verborgene Dimension=128, 16 Aufmerksamkeitsköpfe, 8 Schichten
  2. MLP: Mit Skip-Verbindungen, ähnlich der in FLIPD verwendeten Architektur

Bewertungsmetriken

  • Hauptmetrik: Mittlerer absoluter Fehler (MAE) zwischen echter LID und geschätzter LID
  • Hilfsmetriken: Spitzenwert der GPU-Speichernutzung, Leistungsänderung nach Quantisierung

Vergleichsmethoden

  • Nichtparametrische Methoden: MLE, TwoNN, ESS
  • Parametrische Methoden: FLIPD
  • Rauschpegel: σ = 0,01, 0,02, 0,05

Experimentelle Ergebnisse

Hauptergebnisse

Mannigfaltigkeits-Benchmark-Experimente

Wichtigste Erkenntnisse aus Tabelle 1:

  1. Unter DiT-Architektur:
    • Durchschnittlicher MAE der Denoisierungsverlust-Methode: 2,21 (σ=0,05)
    • Durchschnittlicher MAE von FLIPD: 23,05 (σ=0,05)
    • Signifikante Unterschiede bei hochdimensionalen hochgekrümmten Mannigfaltigkeiten
  2. Unter MLP-Architektur:
    • Durchschnittlicher MAE der Denoisierungsverlust-Methode: 7,27 (σ=0,05)
    • Durchschnittlicher MAE von FLIPD: 11,11 (σ=0,05)
    • FLIPD zeigt bessere Leistung auf MLP
  3. Nichtparametrische Methoden:
    • ESS zeigt beste Leistung: MAE 7,12 (k=100)
    • Leistung verschlechtert sich stark bei hochdimensionalen Mannigfaltigkeiten

Skalierbarkeitexperimente

Ergebnisse aus Abbildung 2:

  • Mit zunehmender Mannigfaltigkeitsdimension behalten beide parametrischen Methoden niedrigen MAE
  • Die Speichernutzung von FLIPD wächst aufgrund der Gradientenberechnung schnell
  • Die Speichernutzung der Denoisierungsverlust-Methode wächst langsam

Stable Diffusion-Experimente

SD 3.5-Experimenterkenntnisse

  1. Korrelation: FLIPD- und Denoisierungsverlust-Schätzungen sind stark korreliert
  2. Numerische Unterschiede: FLIPD liefert typischerweise höhere LID-Schätzungen
  3. Quantisierungsstabilität: Denoisierungsverlust zeigt nach Quantisierung kleinere Änderungen
  4. Speichereffizienz: Spitzenspeicher des Denoisierungsverlusts beträgt etwa 60% von FLIPD

SD 2.0-Experimente

  • Ähnliche Muster hoher Korrelation
  • FLIPD zeigt negative Werte bei hohen Rauschpegeln (ungültige Schätzungen)
  • Zugeschrieben der hohen Lipschitz-Konstante der U-Net-Architektur

Ablationsstudien

Experimente mit verschiedenen σ-Werten zeigen:

  • σ=0,05 liefert typischerweise beste Leistung
  • Kleinere σ-Werte können zu numerischer Instabilität führen
  • DiT-Architektur ist robuster gegenüber σ-Auswahl

Verwandte Arbeiten

Nichtparametrische LID-Schätzung

  • MLE-Methode: Anpassung der Poisson-Verteilungsparameter durch maximale Wahrscheinlichkeit
  • TwoNN-Methode: Analyse des Verhältnisses zwischen zweitem und erstem nächstem Nachbarn
  • ESS-Methode: Messung der Volumenverzerrung von Simplexen, die durch Punkte und ihre Nachbarn gebildet werden
  • Fraktale Dimensionsmethode: Behandlung selbstähnlicher oder fraktaler Strukturdaten

Parametrische LID-Schätzung

  • LIDL: Verwendung von Ensembles normalisierter Flüsse
  • Normal-Bundle-Methode: Singulärwertezählung durch Score-Schätzungsmatrix
  • FLIPD: Verwendung der Fokker-Planck-Gleichung, erfordert ein einzelnes Diffusionsmodell

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der Denoisierungsscore-Matching-Verlust bietet eine theoretisch fundierte untere Schranke für die LID
  2. Die Methode erreicht ein gutes Gleichgewicht zwischen Genauigkeit und Recheneffizienz
  3. Sie hat tiefe theoretische Verbindungen zu bestehenden hochmodernen Methoden

Theoretische Erkenntnisse

  1. Erklärung der Konstante: C_DSM ist das Negative des durchschnittlichen LID der Daten
  2. Mehrskaliges Training: Das Training bei jeder Skala kann als Identifizierung der durchschnittlichen LID dieser spezifischen Rausch-Mannigfaltigkeit betrachtet werden
  3. Wahrscheinlichkeitsberechnung: Mögliche Zuordnung höherer Wahrscheinlichkeit zu höherer gelernter Normalendimension

Einschränkungen

  1. Experimente verwenden nur eine einzelne H100-GPU, nutzen keine verteilte Berechnung
  2. Quantisierung beschränkt sich auf halbe Genauigkeit
  3. Keine Einbeziehung der "Knie-Punkt-Suche" von LID-Kurven
  4. Theoretische Annahmen erfordern ausreichend kleines σ und vernachlässigbare Mannigfaltigkeitskrümmung

Zukünftige Richtungen

  1. Erweiterung auf größere verteilte Experimente
  2. Untersuchung der Leistung unter extremeren Quantisierungsbedingungen
  3. Entwicklung adaptiver σ-Auswahlstrategien
  4. Erkundung von Anwendungen auf komplexere Mannigfaltigkeitsstrukturen

Tiefgreifende Bewertung

Stärken

  1. Solider theoretischer Beitrag: Bietet strenge mathematische Beweise und etabliert eine grundlegende Verbindung zwischen Score-Matching und LID
  2. Einfache und effiziente Methode: Erfordert keine Gradientenberechnung oder mehrere Vorwärtsdurchläufe, hohe Recheneffizienz
  3. Umfassende Experimente: Umfasst synthetische Mannigfaltigkeiten, echte Daten und großflächige Modelle
  4. Hoher praktischer Wert: Zeigt offensichtliche Vorteile in speicherbeschränkten Szenarien

Mängel

  1. Theoretische Annahmelimitationen: Erfordert Bedingungen, dass σ ausreichend klein ist und Mannigfaltigkeitskrümmung vernachlässigbar
  2. Architekturabhängigkeit: Unterschiedliche Leistung über verschiedene neuronale Netzwerk-Architekturen hinweg
  3. Parametersensitivität: Die Wahl von σ hat wichtige Auswirkungen auf Ergebnisse
  4. Begrenzte Verifizierungsspanne: Hauptsächlich auf relativ einfachen synthetischen Mannigfaltigkeiten validiert

Auswirkungen

  1. Theoretischer Wert: Bietet neue Perspektive zum Verständnis von Diffusionsmodellen und Mannigfaltigkeitslernens
  2. Praktische Bedeutung: Bietet praktikable Lösung für großflächige LID-Schätzung
  3. Methodologischer Beitrag: Zeigt, wie geometrische Informationen aus Trainingsverlust extrahiert werden können

Anwendungsszenarien

  1. Großflächige Datenanalyse: Szenarien mit Rechenzeit- und Speicherbeschränkungen
  2. Echtzeit-LID-Schätzung: Anwendungen, die schnelle Reaktion erfordern
  3. Trainierte Diffusionsmodelle: Kann direkt vorhandene Modelle für LID-Schätzung nutzen
  4. Mannigfaltigkeitslernforschung: Als Werkzeug zum Verständnis der geometrischen Struktur von Daten

Literaturverzeichnis

Der Artikel zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Vincent (2011): Verbindung zwischen Denoisierung und generativer Modellierung
  • Hyvärinen & Dayan (2005): Grundlagentheorie des Score-Matching
  • Kamkari et al. (2024): FLIPD-Methode
  • Stanczuk et al. (2024): Normal-Bundle-Methode
  • Sowie verwandte Literatur zu Diffusionsmodellen und Flow-Matching

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das Theorie und Praxis gleichermaßen berücksichtigt und eine neue theoretische Perspektive sowie praktische Methode für die LID-Schätzung bietet. Obwohl es in einigen technischen Details noch Verbesserungsspielraum gibt, haben seine Kernbeiträge wichtigen Wert für das Verständnis der geometrischen Eigenschaften von Diffusionsmodellen und die Verbesserung von LID-Schätzmethoden.