A Connection Between Score Matching and Local Intrinsic Dimension
Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios.
We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic
Una Conexión Entre Score Matching y Dimensión Intrínseca Local
La dimensión intrínseca local (Local Intrinsic Dimension, LID) es una cantidad fundamental en procesamiento de señales y teoría del aprendizaje, pero cuantificar la LID de datos complejos de alta dimensión ha sido históricamente una tarea desafiante. Investigaciones recientes han descubierto que los modelos de difusión capturan la LID de los datos a través del espectro de sus estimaciones de puntuación y la tasa de cambio de la estimación de densidad bajo diversas perturbaciones de ruido. Aunque estos métodos pueden cuantificar con precisión la LID, requieren múltiples pasadas hacia adelante del modelo de difusión o el uso de cálculos de gradientes, lo que limita su aplicabilidad en escenarios con recursos computacionales y de memoria limitados.
Este artículo demuestra que la LID es un límite inferior de la pérdida de score matching de denoising, proporcionando así una justificación teórica para usar la pérdida de score matching de denoising como estimador de LID. Además, los autores demuestran que la pérdida de score matching implícita equivalente también aproxima la LID a través de la dimensión normal y está estrechamente relacionada con el estimador reciente de LID denominado FLIPD. Los experimentos en puntos de referencia de variedades y en Stable Diffusion 3.5 demuestran que la pérdida de score matching de denoising es un estimador de LID altamente competitivo y escalable, logrando precisión superior y menor consumo de memoria a medida que aumentan la escala del problema y el nivel de cuantificación.
Los datos de alta dimensión típicamente poseen estructura de baja dimensión, lo que se conoce como la hipótesis de variedad, un supuesto central en el aprendizaje automático. La dimensión intrínseca local (LID) es una cantidad fundamental que encapsula la estructura de baja dimensión de los datos; para un punto x, la LID es la dimensión local necesaria para codificar sin pérdida los datos alrededor de x.
Significado en Procesamiento de Señales: La LID determina los límites de compresibilidad (local) de la distribución
Valor en Aprendizaje Profundo: Una LID más baja mejora la eficiencia estadística del aprendizaje, haciendo que el aprendizaje y la generalización sean más fáciles
Aplicaciones Prácticas: Se aplica ampliamente en tareas de ingeniería como detección de anomalías, agrupamiento y segmentación
Métodos No Paramétricos: Requieren grandes cantidades de datos muestreados, están fuertemente influenciados por la selección de hiperparámetros y no generalizan en configuraciones de datos limitados
Métodos Paramétricos: Aunque aprovechan modelos generativos profundos para escalabilidad, LIDL requiere múltiples modelos generativos, y FLIPD y los métodos de haz normal requieren cálculos de gradientes o múltiples pasadas hacia adelante
Los métodos paramétricos existentes de estimación de LID tienen limitaciones en eficiencia computacional y de memoria, particularmente en aplicaciones a gran escala. Este artículo tiene como objetivo descubrir un método de estimación de LID más eficiente y escalable.
Contribución Teórica: Demuestra que la pérdida de score matching de denoising tiene a la LID como límite inferior, proporcionando una base teórica para su uso como estimador escalable de LID
Asociación de Métodos: Establece relaciones cercanas entre la pérdida de score matching y los estimadores líderes actuales (FLIPD y métodos de haz normal)
Verificación Experimental: Los experimentos en puntos de referencia de variedades y en Stable Diffusion 3.5/2.0 demuestran que la pérdida de score matching de denoising es un estimador de LID altamente competitivo
Ventajas Prácticas: Demuestra escalabilidad superior en consumo de memoria y consistencia de cuantificación
Dado un punto x muestreado de una variedad de datos d-dimensional M⊂Rⁿ, estimar su dimensión intrínseca local d. La entrada es un punto de datos de alta dimensión y la salida es el valor de estimación de LID correspondiente.
El método de haz normal calcula los valores singulares de una matriz m×n, mientras que el método de haz de error propuesto en este artículo calcula los valores propios de la matriz de vectores de error. La pérdida de denoising es igual a la traza (área) de los valores propios de la matriz de Gram, que sigue siendo precisa con muestras pequeñas.
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
Vincent (2011): Conexión entre denoising y modelado generativo
Hyvärinen & Dayan (2005): Teoría fundamental de score matching
Kamkari et al. (2024): Método FLIPD
Stanczuk et al. (2024): Método de haz normal
Y literatura relacionada sobre modelos de difusión y flujos de emparejamiento
Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, proporcionando una nueva perspectiva teórica y un método práctico para estimación de LID. Aunque hay espacio para mejora en algunos detalles técnicos, sus contribuciones principales tienen valor importante para entender las propiedades geométricas de modelos de difusión y mejorar métodos de estimación de LID.