2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.

The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.

academic

Una Conexión Entre Score Matching y Dimensión Intrínseca Local

Información Básica

ID del Artículo: 2510.12975
Título: A Connection Between Score Matching and Local Intrinsic Dimension
Autores: Eric Yeats, Aaron Jacobson, Darryl Hannan, Yiran Jia, Timothy Doster, Henry Kvinge, Scott Mahan (PNNL, UNC Chapel Hill, UC San Diego)
Clasificación: cs.LG stat.ML
Fecha de Publicación/Conferencia: Aceptado en el 3er Taller SPIGM @ NeurIPS 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12975

Resumen

La dimensión intrínseca local (Local Intrinsic Dimension, LID) es una cantidad fundamental en procesamiento de señales y teoría del aprendizaje, pero cuantificar la LID de datos complejos de alta dimensión ha sido históricamente una tarea desafiante. Investigaciones recientes han descubierto que los modelos de difusión capturan la LID de los datos a través del espectro de sus estimaciones de puntuación y la tasa de cambio de la estimación de densidad bajo diversas perturbaciones de ruido. Aunque estos métodos pueden cuantificar con precisión la LID, requieren múltiples pasadas hacia adelante del modelo de difusión o el uso de cálculos de gradientes, lo que limita su aplicabilidad en escenarios con recursos computacionales y de memoria limitados.

Este artículo demuestra que la LID es un límite inferior de la pérdida de score matching de denoising, proporcionando así una justificación teórica para usar la pérdida de score matching de denoising como estimador de LID. Además, los autores demuestran que la pérdida de score matching implícita equivalente también aproxima la LID a través de la dimensión normal y está estrechamente relacionada con el estimador reciente de LID denominado FLIPD. Los experimentos en puntos de referencia de variedades y en Stable Diffusion 3.5 demuestran que la pérdida de score matching de denoising es un estimador de LID altamente competitivo y escalable, logrando precisión superior y menor consumo de memoria a medida que aumentan la escala del problema y el nivel de cuantificación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los datos de alta dimensión típicamente poseen estructura de baja dimensión, lo que se conoce como la hipótesis de variedad, un supuesto central en el aprendizaje automático. La dimensión intrínseca local (LID) es una cantidad fundamental que encapsula la estructura de baja dimensión de los datos; para un punto x, la LID es la dimensión local necesaria para codificar sin pérdida los datos alrededor de x.

Importancia

Significado en Procesamiento de Señales: La LID determina los límites de compresibilidad (local) de la distribución
Valor en Aprendizaje Profundo: Una LID más baja mejora la eficiencia estadística del aprendizaje, haciendo que el aprendizaje y la generalización sean más fáciles
Aplicaciones Prácticas: Se aplica ampliamente en tareas de ingeniería como detección de anomalías, agrupamiento y segmentación

Limitaciones de Métodos Existentes

Métodos No Paramétricos: Requieren grandes cantidades de datos muestreados, están fuertemente influenciados por la selección de hiperparámetros y no generalizan en configuraciones de datos limitados
Métodos Paramétricos: Aunque aprovechan modelos generativos profundos para escalabilidad, LIDL requiere múltiples modelos generativos, y FLIPD y los métodos de haz normal requieren cálculos de gradientes o múltiples pasadas hacia adelante

Motivación de la Investigación

Los métodos paramétricos existentes de estimación de LID tienen limitaciones en eficiencia computacional y de memoria, particularmente en aplicaciones a gran escala. Este artículo tiene como objetivo descubrir un método de estimación de LID más eficiente y escalable.

Contribuciones Principales

Contribución Teórica: Demuestra que la pérdida de score matching de denoising tiene a la LID como límite inferior, proporcionando una base teórica para su uso como estimador escalable de LID
Asociación de Métodos: Establece relaciones cercanas entre la pérdida de score matching y los estimadores líderes actuales (FLIPD y métodos de haz normal)
Verificación Experimental: Los experimentos en puntos de referencia de variedades y en Stable Diffusion 3.5/2.0 demuestran que la pérdida de score matching de denoising es un estimador de LID altamente competitivo
Ventajas Prácticas: Demuestra escalabilidad superior en consumo de memoria y consistencia de cuantificación

Explicación Detallada del Método

Definición de la Tarea

Dado un punto x muestreado de una variedad de datos d-dimensional M⊂Rⁿ, estimar su dimensión intrínseca local d. La entrada es un punto de datos de alta dimensión y la salida es el valor de estimación de LID correspondiente.

Teoría Principal

Teorema 3.1: Límite Inferior de la Pérdida de Score Matching de Denoising

Para una variable aleatoria x muestreada de una variedad d-dimensional M, cuando σ→0⁺ es suficientemente pequeño:

E_x[L_DSM(x,σ,θ)] ≥ d

donde la pérdida de score matching de denoising se define como:

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

Esquema de Prueba:

Descomponer el ruido ε en componentes de espacio tangente y espacio normal
Componentes de espacio tangente: el error cuadrado esperado para cada dimensión es aproximadamente 1
Componentes de espacio normal: debido a la estructura de la variedad, el error cuadrado esperado es aproximadamente 0
La suma produce la LID como límite inferior

Teorema 3.3: Límite Inferior de la Pérdida de Score Matching Implícita

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

Esto indica que la pérdida de score matching implícita tiene como límite inferior la dimensión normal negativa.

Conexiones con Métodos Existentes

Relación con FLIPD

El cálculo de FLIPD en el punto x es:

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

A través del Teorema 3.3 se puede demostrar que:

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

Relación con Métodos de Haz Normal

El método de haz normal calcula los valores singulares de una matriz m×n, mientras que el método de haz de error propuesto en este artículo calcula los valores propios de la matriz de vectores de error. La pérdida de denoising es igual a la traza (área) de los valores propios de la matriz de Gram, que sigue siendo precisa con muestras pequeñas.

Configuración Experimental

Conjuntos de Datos

Se utilizan variedades con LID conocida del paquete scikit-dimension:

Hiperesferas e hiperbolas con d=16, n=64
HyperTwinPeaks con d=128, n=256
Toro de Clifford y variedades no lineales con d=32, n=128

Arquitectura de Modelos

DiT (Diffusion Transformer): tamaño de parche=4, dimensión oculta=128, 16 cabezas de atención, 8 capas
MLP: con conexiones residuales, similar a la arquitectura utilizada en FLIPD

Métricas de Evaluación

Métrica Principal: Error absoluto medio (MAE) entre la LID verdadera y la LID estimada
Métricas Auxiliares: Uso máximo de memoria GPU, cambio de rendimiento después de cuantificación

Métodos de Comparación

Métodos No Paramétricos: MLE, TwoNN, ESS
Métodos Paramétricos: FLIPD
Niveles de Ruido: σ = 0.01, 0.02, 0.05

Resultados Experimentales

Resultados Principales

Experimentos en Puntos de Referencia de Variedades

Hallazgos Clave Mostrados en la Tabla 1:

Bajo Arquitectura DiT:
- MAE promedio del método de pérdida de denoising: 2.21 (σ=0.05)
- MAE promedio de FLIPD: 23.05 (σ=0.05)
- Las diferencias son significativas en variedades de alta dimensión y alta curvatura
Bajo Arquitectura MLP:
- MAE promedio del método de pérdida de denoising: 7.27 (σ=0.05)
- MAE promedio de FLIPD: 11.11 (σ=0.05)
- FLIPD muestra mejor rendimiento en MLP
Métodos No Paramétricos:
- ESS muestra el mejor rendimiento: MAE 7.12 (k=100)
- El rendimiento se degrada severamente en variedades de alta dimensión

Experimentos de Escalabilidad

Resultados en la Figura 2:

A medida que aumenta la dimensión de la variedad, ambos métodos paramétricos mantienen MAE bajo
El uso de memoria de FLIPD crece rápidamente debido al cálculo de gradientes
El crecimiento de memoria del método de pérdida de denoising es lento

Experimentos con Stable Diffusion

Hallazgos del Experimento SD 3.5

Correlación: Las estimaciones de FLIPD y pérdida de denoising están altamente correlacionadas
Diferencias Numéricas: FLIPD típicamente proporciona estimaciones de LID más altas
Estabilidad de Cuantificación: La pérdida de denoising muestra cambios menores después de cuantificación
Eficiencia de Memoria: La memoria máxima de pérdida de denoising es aproximadamente el 60% de la de FLIPD

Experimento SD 2.0

Patrones de alta correlación similares
FLIPD produce valores negativos en niveles de ruido alto (estimaciones inválidas)
Atribuido a la constante de Lipschitz alta de la arquitectura U-Net

Experimentos de Ablación

A través de experimentos con diferentes valores de σ se descubre que:

σ=0.05 típicamente proporciona el mejor rendimiento
Valores de σ más pequeños pueden conducir a inestabilidad numérica
La arquitectura DiT es más robusta a la selección de σ

Trabajo Relacionado

Estimación No Paramétrica de LID

Método MLE: Ajusta parámetros de distribución de Poisson mediante máxima verosimilitud
Método TwoNN: Analiza la razón de distancias al segundo y primer vecino más cercano
Método ESS: Mide la asimetría del volumen de símplex formado por un punto y sus vecinos
Métodos de Dimensión Fractal: Procesan datos con estructura autosimilar o fractal

Estimación Paramétrica de LID

LIDL: Utiliza un conjunto de modelos de flujos normalizados
Método de Haz Normal: Cuenta valores singulares de matriz de estimaciones de puntuación
FLIPD: Utiliza la ecuación de Fokker-Planck, requiere un único modelo de difusión

Conclusiones y Discusión

Conclusiones Principales

La pérdida de score matching de denoising proporciona un límite inferior teóricamente fundamentado para la LID
El método logra un buen equilibrio entre precisión y eficiencia computacional
Tiene conexiones teóricas profundas con métodos de vanguardia existentes

Perspectivas Teóricas

Explicación del Término Constante: C_DSM es el negativo de la LID promedio de los datos
Entrenamiento Multiescala: El entrenamiento en cada escala puede verse como identificación de la LID promedio de esa variedad de ruido específica
Cálculo de Verosimilitud: Puede ser posible asociar mayor verosimilitud con mayor dimensión normal aprendida

Limitaciones

Los experimentos utilizan solo una GPU H100, sin aprovechar computación distribuida
La cuantificación se limita a precisión media
No incluye búsqueda de "punto de rodilla" en curvas de LID
Los supuestos teóricos requieren que σ sea suficientemente pequeño y la curvatura de la variedad sea despreciable

Direcciones Futuras

Extender a experimentos distribuidos a mayor escala
Investigar rendimiento bajo condiciones de cuantificación más extremas
Desarrollar estrategias adaptativas de selección de σ
Explorar aplicaciones en estructuras de variedades más complejas

Evaluación Profunda

Fortalezas

Contribución Teórica Sólida: Proporciona pruebas matemáticas rigurosas que establecen conexiones fundamentales entre score matching y LID
Método Simple y Eficiente: No requiere cálculos de gradientes ni múltiples pasadas hacia adelante, con alta eficiencia computacional
Experimentos Comprehensivos: Cubre variedades sintéticas, datos reales y modelos a gran escala
Alto Valor Práctico: Presenta ventajas evidentes en escenarios con memoria limitada

Insuficiencias

Limitaciones de Supuestos Teóricos: Requiere condiciones de σ suficientemente pequeño y curvatura de variedad despreciable
Dependencia de Arquitectura: El rendimiento varía entre diferentes arquitecturas de redes neuronales
Sensibilidad de Parámetros: La selección de σ tiene un impacto importante en los resultados
Rango de Verificación Limitado: La verificación se realiza principalmente en variedades sintéticas relativamente simples

Impacto

Valor Teórico: Proporciona nuevas perspectivas para entender modelos de difusión y aprendizaje de variedades
Significado Práctico: Proporciona una solución viable para estimación de LID a gran escala
Contribución Metodológica: Demuestra cómo extraer información geométrica de pérdidas de entrenamiento

Escenarios Aplicables

Análisis de Datos a Gran Escala: Escenarios con recursos computacionales y de memoria limitados
Estimación de LID en Tiempo Real: Aplicaciones que requieren respuesta rápida
Modelos de Difusión Entrenados: Puede aprovechar directamente modelos existentes para estimación de LID
Investigación en Aprendizaje de Variedades: Como herramienta para entender la estructura geométrica de datos

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Vincent (2011): Conexión entre denoising y modelado generativo
Hyvärinen & Dayan (2005): Teoría fundamental de score matching
Kamkari et al. (2024): Método FLIPD
Stanczuk et al. (2024): Método de haz normal
Y literatura relacionada sobre modelos de difusión y flujos de emparejamiento

Evaluación General: Este es un excelente artículo que equilibra teoría y práctica, proporcionando una nueva perspectiva teórica y un método práctico para estimación de LID. Aunque hay espacio para mejora en algunos detalles técnicos, sus contribuciones principales tienen valor importante para entender las propiedades geométricas de modelos de difusión y mejorar métodos de estimación de LID.