Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models
Li, Yan
This paper investigates score-based diffusion models when the underlying target distribution is concentrated on or near low-dimensional manifolds within the higher-dimensional space in which they formally reside, a common characteristic of natural image distributions. Despite previous efforts to understand the data generation process of diffusion models, existing theoretical support remains highly suboptimal in the presence of low-dimensional structure, which we strengthen in this paper. For the popular Denoising Diffusion Probabilistic Model (DDPM), we find that the dependency of the error incurred within each denoising step on the ambient dimension $d$ is in general unavoidable. We further identify a unique design of coefficients that yields a converges rate at the order of $O(k^{2}/\sqrt{T})$ (up to log factors), where $k$ is the intrinsic dimension of the target distribution and $T$ is the number of steps. This represents the first theoretical demonstration that the DDPM sampler can adapt to unknown low-dimensional structures in the target distribution, highlighting the critical importance of coefficient design. All of this is achieved by a novel set of analysis tools that characterize the algorithmic dynamics in a more deterministic manner.
본 논문은 목표 분포가 고차원 공간의 저차원 다양체 위 또는 근처에 집중되어 있을 때의 스코어 기반 확산 모델을 연구합니다. 이는 자연 이미지 분포의 일반적인 특성입니다. 확산 모델의 데이터 생성 과정을 이해하기 위한 이전의 노력에도 불구하고, 저차원 구조가 존재할 때 기존의 이론적 지원은 여전히 매우 차선적입니다. 인기 있는 노이즈 제거 확산 확률 모델(DDPM)의 경우, 저자들은 각 노이즈 제거 단계에서 발생하는 오류가 환경 차원 d에 대한 의존성이 일반적으로 불가피함을 발견했습니다. 더 나아가, 저자들은 O(k2/T) 차수의 수렴율(로그 인수 무시)을 생성할 수 있는 고유한 계수 설계를 식별했습니다. 여기서 k는 목표 분포의 내재 차원이고 T는 단계 수입니다. 이는 DDPM 샘플러가 목표 분포의 미지의 저차원 구조에 적응할 수 있다는 첫 번째 이론적 증명을 나타내며, 계수 설계의 중요성을 강조합니다.
확산 모델은 고품질 이미지, 오디오 및 텍스트 생성에서 탁월한 성능을 보여주지만, 기존의 이론 분석에는 상당한 이론-실제 간격이 있습니다. 구체적으로:
이론 예측 대 실제 성능 간격: 기존 이론은 ε 정확도를 달성하기 위해 poly(d)/ε² 단계가 필요함을 시사합니다. 여기서 d는 문제 차원입니다. 그러나 실제로 CIFAR-10(d=32×32×3)은 50단계만으로, ImageNet은 250단계만으로 좋은 샘플을 생성할 수 있습니다.
저차원 구조의 보편성: 자연 이미지 분포는 일반적으로 고차원 공간의 저차원 다양체 위 또는 근처에 집중되어 있지만, 기존 이론은 이 구조적 특성을 활용하지 못합니다.
계수 설계의 중요성 간과: 기존 분석은 DDPM의 계수 선택의 중요성을 충분히 인식하지 못합니다.
본 논문은 30개의 관련 문헌을 인용하며, 확산 모델 이론, 확률 과정, 통계 학습 이론 등 여러 분야의 중요한 연구를 포함하고 있어 본 연구에 견고한 이론적 기초를 제공합니다.
전체 평가: 이는 확산 모델 이론 분야에서 중요한 돌파를 이루는 논문입니다. DDPM의 저차원 적응성을 이론적으로 처음 증명했으며, 확산 모델의 우수한 실제 성능을 이해하기 위한 중요한 통찰력을 제공합니다. 일부 기술적 세부사항에서 개선의 여지가 있지만, 이론적 기여와 분석 도구의 혁신성으로 인해 이 분야의 중요한 진전이 됩니다.