Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models
Li, Yan
This paper investigates score-based diffusion models when the underlying target distribution is concentrated on or near low-dimensional manifolds within the higher-dimensional space in which they formally reside, a common characteristic of natural image distributions. Despite previous efforts to understand the data generation process of diffusion models, existing theoretical support remains highly suboptimal in the presence of low-dimensional structure, which we strengthen in this paper. For the popular Denoising Diffusion Probabilistic Model (DDPM), we find that the dependency of the error incurred within each denoising step on the ambient dimension $d$ is in general unavoidable. We further identify a unique design of coefficients that yields a converges rate at the order of $O(k^{2}/\sqrt{T})$ (up to log factors), where $k$ is the intrinsic dimension of the target distribution and $T$ is the number of steps. This represents the first theoretical demonstration that the DDPM sampler can adapt to unknown low-dimensional structures in the target distribution, highlighting the critical importance of coefficient design. All of this is achieved by a novel set of analysis tools that characterize the algorithmic dynamics in a more deterministic manner.
academic
Адаптация к неизвестным низкоразмерным структурам в диффузионных моделях на основе оценок
В данной работе исследуются диффузионные модели на основе оценок в случае, когда целевое распределение сосредоточено на низкоразмерном многообразии в высокоразмерном пространстве или вблизи него, что является типичной характеристикой распределений естественных изображений. Несмотря на предыдущие усилия по пониманию процесса генерации данных в диффузионных моделях, существующая теоретическая поддержка остаётся крайне неоптимальной при наличии низкоразмерной структуры. Для популярной модели DDPM (Denoising Diffusion Probabilistic Model) авторы обнаруживают, что ошибка, возникающая на каждом этапе удаления шума, обычно неизбежно зависит от размерности окружающего пространства d. Кроме того, авторы выявляют уникальный дизайн коэффициентов, обеспечивающий скорость сходимости порядка O(k2/T) (с точностью до логарифмических множителей), где k — внутренняя размерность целевого распределения, а T — число шагов. Это представляет первое теоретическое доказательство того, что семплер DDPM способен адаптироваться к неизвестным низкоразмерным структурам в целевом распределении, подчёркивая критическую важность дизайна коэффициентов.
Диффузионные модели демонстрируют отличные результаты при генерации высококачественных изображений, аудио и текста, однако существующий теоретический анализ содержит значительный разрыв между теорией и практикой. В частности:
Разрыв между теоретическими предсказаниями и практической производительностью: Существующая теория предполагает, что для достижения точности ε требуется poly(d)/ε² шагов, где d — размерность задачи. Однако на практике CIFAR-10 (d=32×32×3) требует всего 50 шагов, а ImageNet — 250 шагов для генерации качественных образцов.
Универсальность низкоразмерной структуры: Распределения естественных изображений обычно сосредоточены на низкоразмерном многообразии в высокоразмерном пространстве или вблизи него, однако существующая теория не использует эту структурную особенность.
Недооценка важности дизайна коэффициентов: Существующий анализ недостаточно учитывает важность выбора коэффициентов в DDPM.
Зависимость от размерности: Лучшие существующие результаты (Benton et al. 2023) всё ещё демонстрируют линейную зависимость от размерности окружающего пространства d
Недостаточное использование низкоразмерной структуры: Хотя De Bortoli (2022) рассматривал низкоразмерные многообразия, граница ошибки всё ещё линейно зависит от размерности d и экспоненциально от диаметра многообразия
Ограничения инструментов анализа: Существующие методы анализа неэффективны при работе с низкоразмерными структурами
Первая теория адаптации к размерности: Доказано, что семплер DDPM способен адаптироваться к неизвестным низкоразмерным структурам со скоростью сходимости O(k2/T) (с точностью до логарифмических множителей), где k — внутренняя размерность, а не размерность окружающего пространства d.
Уникальный дизайн коэффициентов: Выявлены уникальные коэффициенты ηt∗=1−αt и (σt∗)2=1−αˉt(1−αt)(αt−αˉt), обеспечивающие отсутствие ошибки дискретизации, пропорциональной размерности d, на каждом этапе удаления шума.
Новые инструменты анализа: Разработан новый набор инструментов анализа для более детерминированной характеризации динамики алгоритма, включая идентификацию множеств высокой вероятности и методы связи условных плотностей.
Доказательство уникальности дизайна коэффициентов: Теоретически доказано, что предложенный выбор коэффициентов уникален в определённом смысле, и отклонение от этого дизайна приводит к ошибкам, пропорциональным размерности d.
Используется вырожденное гауссовское распределение pdata=N(0,Ik) в качестве управляемого примера, где Ik∈Rd×d — диагональная матрица с первыми k диагональными элементами, равными 1, остальные — 0.
Для целевого распределения pdata=N(0,Ik) любой выбор, отклоняющийся от оптимальных коэффициентов, приводит к:
Ext∼qt[KL(pXt−1∣Xt(⋅∣xt)∥pYt−1∣Yt(⋅∣xt))]≥4d(ηt−ηt∗)2+40d(σt2(σt∗)2−1)2
Первое теоретическое доказательство: Семплер DDPM способен адаптироваться к неизвестным низкоразмерным структурам со скоростью сходимости, зависящей от внутренней размерности k, а не от размерности окружающего пространства d
Мост между теорией и практикой: Предоставлена теоретическая основа для объяснения отличной практической производительности диффузионных моделей на высокоразмерных данных
Статья цитирует 30 связанных работ, охватывающих теорию диффузионных моделей, случайные процессы, теорию статистического обучения и другие важные области, обеспечивая прочную теоретическую основу для данного исследования.
Общая оценка: Это статья с важным теоретическим прорывом в области теории диффузионных моделей, первая теоретически доказывающая адаптацию DDPM к низкоразмерности и предоставляющая важное понимание отличной практической производительности диффузионных моделей. Несмотря на возможность улучшения в некоторых технических деталях, инновационность теоретического вклада и инструментов анализа делают её важным прогрессом в этой области.