A Connection Between Score Matching and Local Intrinsic Dimension
Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios.
We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic
Una Connessione tra Score Matching e Dimensione Intrinseca Locale
La dimensione intrinseca locale (Local Intrinsic Dimension, LID) è una quantità fondamentale nell'elaborazione dei segnali e nella teoria dell'apprendimento, tuttavia la quantificazione della LID di dati complessi ad alta dimensionalità è stata storicamente un compito impegnativo. Ricerche recenti hanno scoperto che i modelli di diffusione catturano la LID dei dati attraverso lo spettro delle loro stime di score e il tasso di variazione della stima della densità sotto varie perturbazioni di rumore. Sebbene questi metodi possano quantificare accuratamente la LID, richiedono molteplici forward pass del modello di diffusione o l'utilizzo di calcoli di gradienti, il che limita l'applicabilità in scenari con risorse computazionali e di memoria limitate.
Questo articolo dimostra che la LID è un limite inferiore della perdita di score matching denoisante, fornendo così una base teorica per l'utilizzo della perdita di score matching denoisante come stimatore di LID. Inoltre, gli autori dimostrano che la perdita di score matching implicita equivalente approssima anche la LID attraverso la dimensione normale e presenta una stretta relazione con il recente stimatore di LID denominato FLIPD. Gli esperimenti su benchmark di varietà e su Stable Diffusion 3.5 dimostrano che la perdita di score matching denoisante è uno stimatore di LID altamente competitivo e scalabile, ottenendo accuratezza superiore e minore utilizzo di memoria all'aumentare della scala del problema e del livello di quantizzazione.
I dati ad alta dimensionalità possiedono tipicamente strutture a bassa dimensionalità, fenomeno noto come ipotesi del collettore, che rappresenta un'assunzione centrale nell'apprendimento automatico. La dimensione intrinseca locale (LID) è una quantità fondamentale che incapsula la struttura a bassa dimensionalità dei dati; per un punto x, la LID rappresenta la dimensione locale necessaria per codificare senza perdite i dati intorno a x.
Significato nell'Elaborazione dei Segnali: La LID determina i confini della comprimibilità (locale) della distribuzione
Valore nell'Apprendimento Profondo: Una LID inferiore migliora l'efficienza statistica dell'apprendimento, rendendo l'apprendimento e la generalizzazione più agevoli
Applicazioni Pratiche: Ampiamente utilizzata in compiti ingegneristici quali rilevamento di anomalie, clustering e segmentazione
Metodi Non Parametrici: Richiedono grandi quantità di dati campionati, sono fortemente influenzati dalla scelta degli iperparametri e non si generalizzano bene in contesti con pochi dati
Metodi Parametrici: Sebbene sfruttino la scalabilità dei modelli generativi profondi, LIDL richiede molteplici modelli generativi, mentre FLIPD e i metodi del fascio normale richiedono calcoli di gradienti o numerosi forward pass
I metodi parametrici esistenti per la stima della LID presentano limitazioni in termini di efficienza computazionale e di memoria, in particolare nelle applicazioni su larga scala. Questo articolo mira a scoprire un metodo di stima della LID più efficiente e scalabile.
Contributo Teorico: Dimostra che la perdita di score matching denoisante ha la LID come limite inferiore, fornendo una base teorica per il suo utilizzo come stimatore di LID scalabile
Associazione Metodologica: Stabilisce relazioni strette tra la perdita di score matching e gli stimatori attuali più avanzati (FLIPD e metodi del fascio normale)
Verifica Sperimentale: Gli esperimenti su benchmark di varietà e su Stable Diffusion 3.5/2.0 dimostrano che la perdita di score matching denoisante è uno stimatore di LID altamente competitivo
Vantaggi Pratici: Dimostra scalabilità superiore in termini di utilizzo di memoria e coerenza della quantizzazione
Dato un punto x campionato da una varietà di dati d-dimensionale M⊂Rⁿ, stimare la sua dimensione intrinseca locale d. L'input è un punto di dati ad alta dimensionalità, l'output è il valore di stima della LID corrispondente.
I metodi del fascio normale calcolano i valori singolari di una matrice m×n, mentre il metodo del fascio di errori proposto calcola gli autovalori della matrice dei vettori di errore. La perdita denoisante equivale alla traccia (area) degli autovalori della matrice di Gram, rimanendo accurata anche con campioni piccoli.
Interpretazione del Termine Costante: C_DSM rappresenta il negativo della LID media dei dati
Addestramento Multi-Scala: L'addestramento a ogni scala può essere visto come l'identificazione della LID media della varietà a quel particolare livello di rumore specifico
Calcolo della Verosimiglianza: Potrebbe essere possibile associare verosimiglianza più elevata con dimensione normale di apprendimento più elevata
L'articolo cita numerosi lavori correlati importanti, tra cui:
Vincent (2011): Connessione tra denoising e modellazione generativa
Hyvärinen & Dayan (2005): Teoria fondamentale dello score matching
Kamkari et al. (2024): Metodo FLIPD
Stanczuk et al. (2024): Metodo del fascio normale
E letteratura correlata su modelli di diffusione e flow matching
Valutazione Complessiva: Questo è un articolo eccellente che bilancia teoria e pratica, fornendo una nuova prospettiva teorica e un metodo pratico per la stima della LID. Sebbene vi sia spazio per miglioramenti in alcuni dettagli tecnici, i suoi contributi fondamentali hanno un valore importante per la comprensione delle proprietà geometriche dei modelli di diffusione e il miglioramento dei metodi di stima della LID.