The manifold hypothesis asserts that data of interest in high-dimensional ambient spaces, such as image data, lies on unknown low-dimensional submanifolds. Diffusion models (DMs) -- which operate by convolving data with progressively larger amounts of Gaussian noise and then learning to revert this process -- have risen to prominence as the most performant generative models, and are known to be able to learn distributions with low-dimensional support. For a given datum in one of these submanifolds, we should thus intuitively expect DMs to have implicitly learned its corresponding local intrinsic dimension (LID), i.e. the dimension of the submanifold it belongs to. Kamkari et al. (2024b) recently showed that this is indeed the case by linking this LID to the rate of change of the log marginal densities of the DM with respect to the amount of added noise, resulting in an LID estimator known as FLIPD. LID estimators such as FLIPD have a plethora of uses, among others they quantify the complexity of a given datum, and can be used to detect outliers, adversarial examples and AI-generated text. FLIPD achieves state-of-the-art performance at LID estimation, yet its theoretical underpinnings are incomplete since Kamkari et al. (2024b) only proved its correctness under the highly unrealistic assumption of affine submanifolds. In this work we bridge this gap by formally proving the correctness of FLIPD under realistic assumptions. Additionally, we show that an analogous result holds when Gaussian convolutions are replaced with uniform ones, and discuss the relevance of this result.
- ID Articolo: 2506.20705
- Titolo: On Convolutions, Intrinsic Dimension, and Diffusion Models
- Autori: Kin Kwan Leung, Rasa Hosseinzadeh, Gabriel Loaiza-Ganem (Layer 6 AI)
- Classificazione: cs.LG cs.AI stat.ML
- Data di Pubblicazione/Conferenza: Transactions on Machine Learning Research (10/2025)
- Link Articolo: https://arxiv.org/abs/2506.20705
L'ipotesi della varietà sostiene che i dati di interesse in spazi ambientali ad alta dimensionalità (come i dati di immagini) si trovano su una sottovarietà a bassa dimensionalità sconosciuta. I modelli di diffusione (DM) operano convoluzionando progressivamente i dati con rumore gaussiano crescente e imparando a invertire questo processo, diventando i modelli generativi con le migliori prestazioni e dimostrandosi capaci di apprendere distribuzioni con supporto a bassa dimensionalità. Per un dato punto dati in queste sottovarietà, intuitivamente ci aspettiamo che i DM abbiano implicitamente appreso la sua corrispondente dimensione intrinseca locale (LID), ovvero la dimensione della sottovarietà a cui appartiene. Kamkari et al. (2024b) hanno recentemente dimostrato che questo è effettivamente il caso collegando la LID al tasso di variazione della densità marginale logaritmica del DM rispetto alla quantità di rumore aggiunto, producendo uno stimatore LID denominato FLIPD. FLIPD raggiunge prestazioni all'avanguardia nella stima della LID, ma le sue fondamenta teoriche sono incomplete poiché Kamkari et al. (2024b) hanno provato la sua correttezza solo sotto l'ipotesi altamente irrealistica di sottovarietà affini. Questo articolo colma questa lacuna provando formalmente la correttezza di FLIPD sotto ipotesi realistiche. Inoltre, dimostriamo che risultati analoghi valgono quando la convoluzione gaussiana viene sostituita da convoluzione uniforme e discutiamo la rilevanza di questo risultato.
Il problema centrale affrontato in questo articolo è fornire una base teorica rigorosa per lo stimatore FLIPD (Flow-based Local Intrinsic Dimension). Specificamente:
- Difetto Teorico: Sebbene FLIPD proposto da Kamkari et al. mostri prestazioni eccellenti nella pratica, la sua prova teorica vale solo sotto l'ipotesi irrealistica di sottovarietà affini
- Esigenza Pratica: È necessario provare la correttezza di FLIPD su sottovarietà immerse generali, allineando le sue fondamenta teoriche con le applicazioni pratiche
La stima della dimensione intrinseca locale (LID) ha un valore applicativo significativo nell'apprendimento automatico:
- Quantificazione della Complessità: Quantificazione efficace della complessità delle immagini
- Rilevamento di Anomalie: Rilevamento di punti anomali, campioni avversariali e testo generato da IA
- Previsione della Generalizzazione: La stima della LID delle rappresentazioni di reti neurali può prevedere le prestazioni di generalizzazione
- Rilevamento della Memorizzazione: Identificazione dei fenomeni di memorizzazione del modello
Gli stimatori LID tradizionali presentano i seguenti problemi:
- Elevata Complessità Computazionale: Dipendono dal calcolo delle distanze pairwise, con scarsa scalabilità rispetto alla dimensione del dataset e alla dimensionalità ambientale
- Maledizione della Dimensionalità: Prestazioni degradate in spazi ad alta dimensionalità
- Fondamenta Teoriche Incomplete: Sebbene FLIPD mostri prestazioni eccellenti, le sue fondamenta teoriche sono deboli
- Perfezionamento Teorico: Prova formale della correttezza di FLIPD sotto ipotesi realistiche, estendendo dai risultati su sottovarietà affini a sottovarietà immerse lisce generali
- Estensione dei Risultati: Dimostrazione che risultati analoghi valgono quando la convoluzione gaussiana viene sostituita da convoluzione uniforme
- Rigore Matematico: Fornisce prove matematiche complete, inclusa un'analisi geometrica differenziale complessa
- Valore Pratico: Fornisce garanzie teoriche per l'affidabilità di FLIPD nelle applicazioni pratiche
Il nucleo di questo articolo è provare che la seguente equazione chiave vale sotto condizioni generali:
LID(x)=D+limδ→−∞∂δ∂logϱN(x,δ)
dove:
- ϱN(x,δ) è la convoluzione della distribuzione dei dati con rumore gaussiano con deviazione standard logaritmica δ
- D è la dimensionalità dello spazio ambientale
- δ→−∞ corrisponde al limite in cui il rumore tende a zero
Teorema 1 (Caso Gaussiano): Sia M una sottovarietà immersa liscia d-dimensionale in RD, e sia p una funzione di densità di probabilità su M. Per x∈M, se p è continua in x, p(x)>0, e soddisfa la condizione di momento secondo finito, allora:
limδ→−∞∂δ∂logϱN(x,δ)=d−D
Teorema 2 (Caso Uniforme): Un risultato analogo vale per la convoluzione con distribuzione uniforme:
limδ→−∞∂δ∂logϱU(x,δ)=d−D
L'idea centrale della prova è utilizzare le proprietà di decomposizione delle densità gaussiana e uniforme:
- Caso Gaussiano: Utilizzo della relazione
ND(x−x′;0,δ)=(2π)2d−Deδ(d−D)Nd(x−x′;0,δ)
- Caso Uniforme: Utilizzo di una decomposizione analoga
UD(x;μ,δ)=CDU(CdU)−1eδ(d−D)Ud(x;μ,δ)
- Analisi del Limite: Attraverso un'analisi geometrica differenziale raffinata, si prova che il limite della derivata converge al valore atteso
Questo articolo è principalmente un lavoro teorico senza verifiche sperimentali su larga scala. Gli autori si concentrano su:
- Prova Matematica: Fornire analisi teorica rigorosa
- Verifica delle Condizioni: Assicurare che le condizioni proposte siano ragionevoli nelle applicazioni pratiche
- Analisi di Estensibilità: Estendere i risultati da una singola sottovarietà all'unione disgiunta di sottovarietà
L'articolo verifica la completezza della teoria attraverso i seguenti corollari:
Corollario 1: Per l'unione disgiunta di sottovarietà M=∪jMj, sotto appropriate condizioni di separazione, i risultati rimangono validi.
Corollario 2: Estensioni analoghe nel caso uniforme rimangono valide.
Questi risultati teorici implicano direttamente che:
- Correttezza di FLIPD: Quando la funzione di score è appresa perfettamente, limδ→−∞FLIPD(x;δ)=LID(x)
- Interpretazione dei Valori Negativi: Le stime negative prodotte da FLIPD possono essere attribuite solo all'apprendimento imperfetto della funzione di score, non a difetti teorici
- Metodi Tradizionali: Stimatori statistici basati su distanze pairwise o angoli (Fukunaga & Olsen, 1971; Levina & Bickel, 2004, ecc.)
- Metodi Basati su Modelli Generativi:
- Metodi basati su Autoencoder Variazionali (Zheng et al., 2022)
- Metodi basati su Flussi Normalizzati (Tempczyk et al., 2022)
- Metodi basati su Modelli di Diffusione (Stanczuk et al., 2024; Horvat & Pfister, 2024)
- Metodo di Stanczuk et al.: Basato anche su modelli di diffusione ma richiede più valutazioni di funzioni
- Metodo di Horvat & Pfister: Richiede la modifica del processo di addestramento del DM
- Vantaggi di FLIPD: Compatibile con modelli DM all'avanguardia pronti all'uso (come Stable Diffusion)
- Perfezionamento Teorico: Estensione riuscita delle fondamenta teoriche di FLIPD da sottovarietà affini a sottovarietà immerse lisce generali
- Universalità del Metodo: Dimostrazione di risultati analoghi nei casi di convoluzione gaussiana e uniforme
- Valore Pratico: Fornisce garanzie matematiche per l'affidabilità di FLIPD nelle applicazioni pratiche
- Ipotesi di Funzione di Score Perfetta: I risultati teorici assumono l'apprendimento perfetto della funzione di score, mentre nella pratica esistono errori di approssimazione
- Restrizioni sulle Condizioni: È necessario soddisfare condizioni di continuità e momento secondo finito
- Requisiti di Connessione: La condizione di momento secondo finito implicitamente richiede la connessione della varietà
- Analisi dell'Errore: Quantificazione dell'impatto dell'errore di apprendimento della funzione di score sulla stima della LID
- Estensione al Flow Matching: Estensione dei risultati ai metodi di flow matching
- Estensione della Distribuzione: Studio di risultati analoghi sotto altre distribuzioni di rumore
- Rigore Teorico: Fornisce prove matematiche complete utilizzando strumenti avanzati di geometria differenziale
- Valore Pratico: Fornisce fondamenta teoriche per un metodo ad alte prestazioni già esistente
- Completezza dei Risultati: Non solo prova il caso gaussiano, ma estende anche al caso di distribuzione uniforme
- Chiarezza della Presentazione: Il contenuto matematico complesso è ben organizzato e facile da comprendere
- Mancanza di Verifica Sperimentale: Come lavoro teorico, mancano verifiche sperimentali delle previsioni teoriche
- Restrizioni sulle Condizioni: Alcune ipotesi potrebbero non essere completamente soddisfatte nelle applicazioni pratiche
- Analisi dell'Errore Insufficiente: Manca un'analisi approfondita delle fonti di errore nelle applicazioni pratiche
- Contributo Accademico: Fornisce fondamenta teoriche importanti per il campo dell'intersezione tra modelli generativi e apprendimento di varietà
- Valore Pratico: Aumenta l'affidabilità di FLIPD nelle applicazioni pratiche
- Valore Ispirativo: Fornisce un quadro teorico per altri metodi di analisi geometrica basati su modelli generativi
I risultati teorici sono applicabili a:
- Analisi di Dati ad Alta Dimensionalità: Particolarmente per dati che seguono l'ipotesi della varietà
- Rilevamento di Anomalie: Utilizzo della LID per il rilevamento di punti anomali
- Valutazione di Modelli Generativi: Valutazione della capacità dei modelli generativi di apprendere la varietà dei dati
- Analisi di Reti Neurali: Analisi delle proprietà geometriche delle rappresentazioni di rete
L'articolo cita numerosi lavori correlati, inclusi:
- Kamkari et al. (2024b): Lavoro originale che propone FLIPD
- Metodi classici di stima della LID: Levina & Bickel (2004), Facco et al. (2017), ecc.
- Teoria dei modelli di diffusione: Song et al. (2021), De Bortoli (2022), ecc.
- Apprendimento di varietà correlato: Lee (2012, 2018) e altri testi di geometria differenziale
Sintesi: Questo è un articolo teorico di alta qualità che fornisce fondamenta matematiche rigorose per il metodo pratico importante FLIPD. Sebbene manchi di verifiche sperimentali, il suo contributo teorico è di grande valore per comprendere la relazione tra modelli generativi e geometria di varietà.