2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.

The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.

academic

Связь между согласованием оценок и локальной внутренней размерностью

Основная информация

ID статьи: 2510.12975
Название: A Connection Between Score Matching and Local Intrinsic Dimension
Авторы: Eric Yeats, Aaron Jacobson, Darryl Hannan, Yiran Jia, Timothy Doster, Henry Kvinge, Scott Mahan (PNNL, UNC Chapel Hill, UC San Diego)
Классификация: cs.LG stat.ML
Время публикации/конференция: Принята на 3-й семинар SPIGM @ NeurIPS 2025
Ссылка на статью: https://arxiv.org/abs/2510.12975

Аннотация

Локальная внутренняя размерность (Local Intrinsic Dimension, LID) является фундаментальной величиной в обработке сигналов и теории обучения, однако количественное определение LID высокомерных сложных данных исторически являлось сложной задачей. Недавние исследования показали, что модели диффузии захватывают LID данных через спектр своих оценок и скорость изменения оценки плотности при различных возмущениях шума. Хотя эти методы могут точно количественно определить LID, они требуют множественных прямых проходов модели диффузии или использования вычисления градиентов, что ограничивает их применимость в сценариях с ограниченными вычислительными ресурсами и памятью.

В данной статье доказывается, что LID является нижней границей потерь при согласовании оценок с удалением шума, обеспечивая тем самым теоретическое обоснование использования потерь при согласовании оценок с удалением шума в качестве оценивателя LID. Кроме того, авторы доказывают, что эквивалентные потери при неявном согласовании оценок также приближают LID через нормальную размерность и тесно связаны с недавним оценивателем LID под названием FLIPD. Эксперименты на эталонных многообразиях и Stable Diffusion 3.5 показывают, что потери при согласовании оценок с удалением шума являются высококонкурентным и масштабируемым оценивателем LID, достигая превосходной точности и потребления памяти при увеличении масштаба задачи и уровня квантизации.

Предпосылки и мотивация исследования

Определение проблемы

Высокомерные данные обычно обладают низкомерной структурой, известной как гипотеза многообразия, которая является центральной гипотезой машинного обучения. Локальная внутренняя размерность (LID) для точки x — это фундаментальная величина, инкапсулирующая низкомерную структуру данных, представляющая локальную размерность, необходимую для безубыточного кодирования данных в окрестности x.

Значимость

Значение в обработке сигналов: LID определяет границы (локальной) сжимаемости распределения
Ценность в глубоком обучении: Более низкая LID повышает статистическую эффективность обучения, облегчая обучение и обобщение
Практическое применение: Широко применяется в инженерных задачах, таких как обнаружение аномалий, кластеризация и сегментация

Ограничения существующих методов

Непараметрические методы: Требуют большого объема выборочных данных, сильно зависят от выбора гиперпараметров, не обобщаются в условиях малого объема данных
Параметрические методы: Хотя они масштабируемы благодаря использованию глубоких генеративных моделей, LIDL требует нескольких генеративных моделей, а FLIPD и методы нормального расслоения требуют вычисления градиентов или множественных прямых проходов

Мотивация исследования

Существующие параметризованные методы оценки LID имеют ограничения в вычислительной и памятной эффективности, особенно в крупномасштабных приложениях. Данная работа направлена на обнаружение более эффективного и масштабируемого метода оценки LID.

Основные вклады

Теоретический вклад: Доказано, что потери при согласовании оценок с удалением шума имеют LID в качестве нижней границы, обеспечивая теоретическую основу для их использования в качестве масштабируемого оценивателя LID
Связь методов: Установлена тесная связь между потерями при согласовании оценок и текущими ведущими оценивателями (FLIPD и методы нормального расслоения)
Экспериментальная проверка: Эксперименты на эталонных многообразиях и Stable Diffusion 3.5/2.0 показывают, что потери при согласовании оценок с удалением шума являются высококонкурентным оценивателем LID
Практические преимущества: Демонстрирует превосходную масштабируемость в потреблении памяти и согласованности квантизации

Подробное описание метода

Определение задачи

Дана точка x, выбранная из d-мерного многообразия данных M⊂Rⁿ, необходимо оценить его локальную внутреннюю размерность d. Входные данные — точки высокомерных данных, выходные данные — соответствующие оценки LID.

Основная теория

Теорема 3.1: Нижняя граница потерь при согласовании оценок с удалением шума

Для случайной величины x, выбранной из d-мерного многообразия M, когда σ→0⁺ достаточно мало:

E_x[L_DSM(x,σ,θ)] ≥ d

где потери при согласовании оценок с удалением шума определяются как:

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

Идея доказательства:

Разложение шума ε на компоненты касательного и нормального пространств
Компоненты касательного пространства: ожидаемая квадратичная ошибка для каждого измерения примерно равна 1
Компоненты нормального пространства: из-за структуры многообразия ожидаемая квадратичная ошибка примерно равна 0
Сумма дает LID в качестве нижней границы

Теорема 3.3: Нижняя граница потерь при неявном согласовании оценок

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

Это показывает, что потери при неявном согласовании оценок имеют отрицательную нормальную размерность в качестве нижней границы.

Связь с существующими методами

Связь с FLIPD

Вычисление FLIPD в точке x:

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

Через теорему 3.3 можно доказать:

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

Связь с методом нормального расслоения

Метод нормального расслоения вычисляет сингулярные значения матрицы размером m×n, тогда как предложенный метод пучка ошибок вычисляет собственные значения матрицы векторов ошибок. Потери при согласовании оценок с удалением шума равны следу (площади) собственных значений матрицы Грама, остаются точными при малых выборках.

Экспериментальная установка

Наборы данных

Используются многообразия с известной LID из пакета scikit-dimension:

Гиперсферы и гиперболы с d=16, n=64
HyperTwinPeaks с d=128, n=256
Тор Клиффорда и нелинейные многообразия с d=32, n=128

Архитектура моделей

DiT (Diffusion Transformer): размер патча=4, скрытое измерение=128, 16 голов внимания, 8 слоев
MLP: с пропускающими соединениями, аналогично архитектуре, используемой в FLIPD

Метрики оценки

Основная метрика: Средняя абсолютная ошибка (MAE) между истинной LID и оценённой LID
Вспомогательные метрики: Пиковое использование памяти GPU, изменение производительности после квантизации

Методы сравнения

Непараметрические методы: MLE, TwoNN, ESS
Параметрические методы: FLIPD
Уровни шума: σ = 0.01, 0.02, 0.05

Результаты экспериментов

Основные результаты

Эксперименты на эталонных многообразиях

Ключевые выводы из таблицы 1:

При архитектуре DiT:
- Средняя MAE метода потерь при согласовании оценок с удалением шума: 2.21 (σ=0.05)
- Средняя MAE FLIPD: 23.05 (σ=0.05)
- Значительные различия на многообразиях высокой размерности и высокой кривизны
При архитектуре MLP:
- Средняя MAE метода потерь при согласовании оценок с удалением шума: 7.27 (σ=0.05)
- Средняя MAE FLIPD: 11.11 (σ=0.05)
- FLIPD показывает лучшие результаты на MLP
Непараметрические методы:
- ESS показывает лучший результат: MAE 7.12 (k=100)
- Производительность значительно снижается на многообразиях высокой размерности

Эксперименты масштабируемости

Результаты на рисунке 2:

С увеличением размерности многообразия оба параметрических метода сохраняют низкую MAE
Использование памяти FLIPD быстро растет из-за вычисления градиентов
Использование памяти методом потерь при согласовании оценок с удалением шума растет медленно

Эксперименты со Stable Diffusion

Выводы экспериментов SD 3.5

Корреляция: Оценки FLIPD и потерь при согласовании оценок с удалением шума высоко коррелированы
Числовые различия: FLIPD обычно дает более высокие оценки LID
Стабильность квантизации: Потери при согласовании оценок с удалением шума изменяются меньше после квантизации
Эффективность памяти: Пиковая память потерь при согласовании оценок с удалением шума составляет примерно 60% от FLIPD

Эксперименты SD 2.0

Аналогичные паттерны высокой корреляции
FLIPD выдает отрицательные значения при высоких уровнях шума (недействительные оценки)
Причина: высокая константа Липшица архитектуры U-Net

Абляционные эксперименты

Эксперименты с различными значениями σ показывают:

σ=0.05 обычно дает лучшую производительность
Меньшие значения σ могут привести к числовой нестабильности
Архитектура DiT более устойчива к выбору σ

Связанные работы

Непараметрическая оценка LID

Метод MLE: Подгонка параметров распределения Пуассона через максимальное правдоподобие
Метод TwoNN: Анализ отношения расстояний до второго и первого ближайших соседей
Метод ESS: Измерение асимметрии объема симплекса, образованного точкой и её соседями
Методы фрактальной размерности: Обработка самоподобных или фрактальных структурированных данных

Параметрическая оценка LID

LIDL: Использование ансамбля нормализованных потоков
Метод нормального расслоения: Подсчет сингулярных значений матрицы оценок
FLIPD: Использование уравнения Фоккера-Планка, требует одной модели диффузии

Заключение и обсуждение

Основные выводы

Потери при согласовании оценок с удалением шума обеспечивают теоретически обоснованную нижнюю границу для LID
Метод достигает хорошего баланса между точностью и вычислительной эффективностью
Имеет глубокие теоретические связи с существующими передовыми методами

Теоретические идеи

Интерпретация константного члена: C_DSM равна отрицательному значению средней LID данных
Многомасштабное обучение: Обучение на каждом масштабе можно рассматривать как идентификацию средней LID этого конкретного шумного многообразия
Вычисление правдоподобия: Возможно связать более высокое правдоподобие с более высокой изученной нормальной размерностью

Ограничения

Эксперименты используют только один GPU H100, не используют распределённые вычисления
Квантизация ограничена половинной точностью
Не включает поиск "точки колена" кривой LID
Теоретические предположения требуют достаточно малого σ и пренебрежимо малой кривизны многообразия

Направления будущих исследований

Расширение на крупномасштабные распределённые эксперименты
Исследование производительности при более экстремальных условиях квантизации
Разработка стратегий адаптивного выбора σ
Исследование приложений на более сложных структурах многообразий

Глубокая оценка

Преимущества

Надёжный теоретический вклад: Обеспечивает строгое математическое доказательство, устанавливающее фундаментальную связь между согласованием оценок и LID
Простой и эффективный метод: Не требует вычисления градиентов или множественных прямых проходов, высокая вычислительная эффективность
Комплексные эксперименты: Охватывают синтетические многообразия, реальные данные и крупномасштабные модели
Высокая практическая ценность: Имеет явные преимущества в сценариях с ограниченной памятью

Недостатки

Ограничения теоретических предположений: Требуют условия достаточно малого σ и пренебрежимо малой кривизны многообразия
Зависимость от архитектуры: Производительность различается на разных архитектурах нейронных сетей
Чувствительность параметров: Выбор σ оказывает важное влияние на результаты
Ограниченный диапазон проверки: Основная проверка проводится на относительно простых синтетических многообразиях

Влияние

Теоретическая ценность: Обеспечивает новую перспективу для понимания моделей диффузии и обучения на многообразиях
Практическое значение: Обеспечивает жизнеспособное решение для оценки LID в крупномасштабных приложениях
Методологический вклад: Демонстрирует, как извлекать геометрическую информацию из потерь при обучении

Применимые сценарии

Анализ крупномасштабных данных: Сценарии с ограниченными вычислительными ресурсами и памятью
Оценка LID в реальном времени: Приложения, требующие быстрого отклика
Уже обученные модели диффузии: Возможность прямого использования существующих моделей для оценки LID
Исследования обучения на многообразиях: Как инструмент для понимания геометрической структуры данных

Библиография

Статья цитирует множество важных связанных работ, включая:

Vincent (2011): Связь между удалением шума и генеративным моделированием
Hyvärinen & Dayan (2005): Основная теория согласования оценок
Kamkari et al. (2024): Метод FLIPD
Stanczuk et al. (2024): Метод нормального расслоения
А также соответствующую литературу по моделям диффузии и согласованию потоков

Общая оценка: Это отличная статья, сочетающая теорию и практику, обеспечивающая новую теоретическую перспективу и практический метод для оценки LID. Хотя некоторые технические детали могут быть улучшены, её основные вклады имеют важное значение для понимания геометрических свойств моделей диффузии и совершенствования методов оценки LID.