Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models
Li, Yan
This paper investigates score-based diffusion models when the underlying target distribution is concentrated on or near low-dimensional manifolds within the higher-dimensional space in which they formally reside, a common characteristic of natural image distributions. Despite previous efforts to understand the data generation process of diffusion models, existing theoretical support remains highly suboptimal in the presence of low-dimensional structure, which we strengthen in this paper. For the popular Denoising Diffusion Probabilistic Model (DDPM), we find that the dependency of the error incurred within each denoising step on the ambient dimension $d$ is in general unavoidable. We further identify a unique design of coefficients that yields a converges rate at the order of $O(k^{2}/\sqrt{T})$ (up to log factors), where $k$ is the intrinsic dimension of the target distribution and $T$ is the number of steps. This represents the first theoretical demonstration that the DDPM sampler can adapt to unknown low-dimensional structures in the target distribution, highlighting the critical importance of coefficient design. All of this is achieved by a novel set of analysis tools that characterize the algorithmic dynamics in a more deterministic manner.
academic
Adaptation aux Structures de Faible Dimension Inconnues dans les Modèles de Diffusion Basés sur les Scores
Cet article étudie les modèles de diffusion basés sur les scores lorsque la distribution cible est concentrée sur ou près d'une variété de faible dimension dans un espace de haute dimension, ce qui est une caractéristique commune des distributions d'images naturelles. Bien que des efforts antérieurs aient été consentis pour comprendre le processus de génération de données des modèles de diffusion, le soutien théorique existant reste hautement sous-optimal en présence de structures de faible dimension. Pour le modèle populaire de probabilité de diffusion avec débruitage (DDPM), les auteurs découvrent que l'erreur produite à chaque étape de débruitage dépend généralement inévitablement de la dimension ambiante d. De plus, les auteurs identifient une conception de coefficient unique qui produit un taux de convergence d'ordre O(k2/T) (en ignorant les facteurs logarithmiques), où k est la dimension intrinsèque de la distribution cible et T est le nombre d'étapes. Ceci représente la première preuve théorique que l'échantillonneur DDPM peut s'adapter aux structures de faible dimension inconnues dans la distribution cible, mettant en évidence l'importance critique de la conception des coefficients.
Les modèles de diffusion excellent dans la génération d'images, d'audio et de texte de haute qualité, mais l'analyse théorique existante présente un écart théorie-pratique significatif. Spécifiquement:
Écart entre prédictions théoriques et performance réelle: La théorie existante suggère que poly(d)/ε² étapes sont nécessaires pour atteindre une précision ε, où d est la dimension du problème. Cependant, en pratique, CIFAR-10 (d=32×32×3) ne nécessite que 50 étapes et ImageNet seulement 250 étapes pour générer de bons échantillons.
Universalité des structures de faible dimension: Les distributions d'images naturelles sont généralement concentrées sur ou près d'une variété de faible dimension dans un espace de haute dimension, mais la théorie existante n'exploite pas cette propriété structurelle.
Importance négligée de la conception des coefficients: L'analyse existante ne reconnaît pas suffisamment l'importance du choix des coefficients dans DDPM.
Dépendance dimensionnelle: Les meilleurs résultats existants (Benton et al. 2023) montrent toujours une dépendance linéaire à la dimension ambiante d
Utilisation insuffisante des structures de faible dimension: Bien que De Bortoli (2022) ait considéré les variétés de faible dimension, la borne d'erreur dépend toujours linéairement de la dimension ambiante d et exponentiellement du diamètre de la variété
Limitations des outils d'analyse: Les méthodes d'analyse existantes ne peuvent pas traiter efficacement les cas de structures de faible dimension
Première théorie d'adaptation dimensionnelle: Preuve que l'échantillonneur DDPM peut s'adapter aux structures de faible dimension inconnues, avec un taux de convergence de O(k2/T) (en ignorant les facteurs logarithmiques), où k est la dimension intrinsèque plutôt que la dimension ambiante d.
Conception de coefficient unique: Identification de la conception de coefficient unique ηt∗=1−αt et (σt∗)2=1−αˉt(1−αt)(αt−αˉt), garantissant que chaque étape de débruitage ne produit pas d'erreur de discrétisation proportionnelle à la dimension ambiante d.
Outils d'analyse novateurs: Développement d'un ensemble d'outils d'analyse nouveaux pour caractériser la dynamique de l'algorithme de manière plus déterministe, incluant l'identification d'ensembles de haute probabilité et les techniques de connexion de densité conditionnelle.
Preuve d'unicité de la conception des coefficients: Preuve théorique que le choix de coefficient proposé est unique en un certain sens, et tout écart par rapport à cette conception entraîne une erreur proportionnelle à la dimension ambiante d.
Utilisation de distributions gaussiennes dégénérées pdata=N(0,Ik) comme exemple traitable, où Ik∈Rd×d est une matrice diagonale avec les k premiers éléments diagonaux égaux à 1 et les autres à 0.
Pour la distribution cible pdata=N(0,Ik), tout choix s'écartant des coefficients optimaux entraîne:
Ext∼qt[KL(pXt−1∣Xt(⋅∣xt)∥pYt−1∣Yt(⋅∣xt))]≥4d(ηt−ηt∗)2+40d(σt2(σt∗)2−1)2
Première preuve théorique: L'échantillonneur DDPM peut s'adapter aux structures de faible dimension inconnues, avec un taux de convergence dépendant de la dimension intrinsèque k plutôt que de la dimension ambiante d
Importance cruciale de la conception des coefficients: Identification de la conception de coefficient unique rendant l'adaptation dimensionnelle possible
Pont théorie-pratique: Fourniture d'une base théorique pour expliquer la performance pratique excellente des modèles de diffusion sur les données de haute dimension
Dépendance dimensionnelle: Le taux de convergence présente toujours une dépendance de quatrième ordre à la dimension intrinsèque k, potentiellement sous-optimale
Portée d'analyse: Les résultats d'unicité concernent uniquement les bornes d'erreur plutôt que l'erreur elle-même
Limitation du taux d'apprentissage: L'analyse nécessite un calendrier de taux d'apprentissage spécifique
Dépendance dimensionnelle nécessitant amélioration: La dépendance en k4 peut ne pas être optimale
Limitations expérimentales: Validation principalement sur distributions gaussiennes simples, manque d'expériences sur données réelles
Complexité computationnelle: Les constantes dans l'analyse peuvent être importantes, nécessitant une vérification supplémentaire pour l'application pratique
L'article cite 30 références pertinentes couvrant la théorie des modèles de diffusion, les processus stochastiques, la théorie de l'apprentissage statistique et d'autres domaines importants, fournissant une base théorique solide pour cette recherche.
Évaluation Globale: Ceci est un article présentant une percée importante dans la théorie des modèles de diffusion, prouvant pour la première fois théoriquement l'adaptabilité de faible dimension du DDPM, fournissant un aperçu important pour comprendre la performance pratique excellente des modèles de diffusion. Bien que certains détails techniques puissent être améliorés, l'innovation de ses contributions théoriques et de ses outils d'analyse en fait un progrès important dans ce domaine.