Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic
Atténuation du décalage de bruit pour les modèles génératifs de débruitage via la guidance de sensibilisation au bruit
Les modèles génératifs de débruitage existants reposent sur la résolution d'équations différentielles stochastiques (EDS) ou d'équations différentielles ordinaires (EDO) inversées discrétisées. Cet article identifie un problème longtemps négligé mais omniprésent dans ces modèles : l'inadéquation entre les niveaux de bruit prédéfinis et les niveaux de bruit réels codés dans les états intermédiaires du processus d'échantillonnage. Les auteurs désignent cette inadéquation sous le terme de « décalage de bruit » (noise shift). Par une analyse empirique, les auteurs démontrent que le décalage de bruit est largement présent dans les modèles de diffusion modernes et présente des biais systématiques, entraînant des problèmes de généralisation hors distribution et des mises à jour de débruitage inexactes, produisant ainsi des résultats génératifs sous-optimaux. Pour résoudre ce problème, les auteurs proposent la guidance de sensibilisation au bruit (NAG), une méthode de correction simple mais efficace qui guide explicitement la trajectoire d'échantillonnage pour maintenir la cohérence avec le calendrier de bruit prédéfini.
Les modèles génératifs de débruitage, tels que les modèles de diffusion et les modèles de flux, ont remporté un succès remarquable dans les tâches de génération visuelle, notamment la synthèse d'images et la génération vidéo. Le principe fondamental de ces modèles consiste à récupérer progressivement l'échantillon cible à partir du bruit pur par un processus itératif. Cependant, au cours du processus d'échantillonnage itératif, le modèle accumule inévitablement des erreurs provenant de multiples sources, notamment :
L'approximation imparfaite du réseau
Les erreurs de discrétisation dans l'intégration numérique
Les auteurs découvrent qu'une manifestation clé de ces erreurs accumulées est que le niveau de bruit intrinsèquement codé dans les états intermédiaires peut s'écarter du calendrier prédéfini. Ce phénomène, appelé « décalage de bruit », a longtemps été ignoré par la communauté, mais est en réalité omniprésent et enraciné dans les effets collectifs de diverses sources d'erreur.
Le décalage de bruit entraîne une inadéquation fondamentale entre le réseau de débruitage lors de l'entraînement et de l'inférence, se manifestant par :
Problèmes de généralisation hors distribution : Le modèle entraîné est appliqué à des états intermédiaires décalés
Opérations de débruitage sous-optimales : Utilisation de coefficients prédéfinis inexacts pour calculer l'état suivant
Identification du problème de décalage de bruit : Première identification et analyse systématique du problème de décalage de bruit omniprésent mais longtemps négligé dans les modèles génératifs de débruitage
Proposition de la méthode NAG : Conception de la méthode de guidance de sensibilisation au bruit (NAG) pour atténuer le problème de décalage de bruit
Développement d'une variante sans classificateur : Proposition d'une variante sans classificateur de NAG, entraînant conjointement les modèles conditionnés et non conditionnés au bruit via un abandon conditionné au bruit
Vérification expérimentale complète : Validation de l'efficacité et de la généralité de NAG sur les tâches de génération ImageNet et d'ajustement supervisé
Pour un niveau de bruit t∈[0,T], l'interpolation aléatoire en temps continu est définie comme :
xt=αtx0+σtϵ
où α0=σT=1, αT=σ0=0, αt est monotone décroissant et σt est monotone croissant.
L'erreur accumulée e peut être considérée comme une perturbation gaussienne supplémentaire appliquée à xt : x^t=xt+e, où e∼N(0,σe2I).
Cette perturbation augmente la variance effective de σt2 à σt2+σe2, faisant en sorte que l'état perturbé se comporte comme s'il était échantillonné à un niveau de bruit décalé t′=t+δ :
σt+δ2=σt2+σe2
Énoncé 1 : Lorsque la variance d'erreur σe2 est faible, l'approximation au premier ordre du décalage δ est :
δ≈σ˙tσt2+σe2−σt
En utilisant pt(t∣x)∝pt(x∣t)/pt(x), un mélange de scores est utilisé pour approximer le gradient d'un prédicteur de bruit implicite :
swnag(x∣t)=(wnag+1)s(x∣t)−wnags(x)
Suivant la stratégie d'entraînement de CFG : abandon aléatoire de la condition de bruit t avec une probabilité fixe pendant l'entraînement, permettant au modèle de partager les poids entre les objectifs conditionnés et non conditionnés.
Ciblage direct du décalage de bruit : NAG cible directement le problème d'inadéquation du niveau de bruit plutôt que de l'atténuer indirectement
Orthogonalité avec CFG : L'axe de condition du niveau de bruit introduit par NAG est orthogonal à l'axe de condition de CFG, fournissant un contrôle complémentaire
Simplicité et efficacité : Pas besoin de classificateur externe, peut être directement intégré aux modèles existants
Guidance par classificateur : Utilisation d'un classificateur externe pour la génération conditionnelle
Guidance sans classificateur (CFG) : Réalisation de la guidance par mélange de modèles conditionnés et non conditionnés
Guidance de domaine (DoG) : Technique de guidance conçue spécifiquement pour les scénarios d'ajustement
NAG présenté dans cet article est la première méthode à utiliser explicitement le niveau de bruit lui-même comme signal de guidance, renforçant directement l'alignement avec la condition de bruit attendue.
Omniprésence du problème de décalage de bruit : Inadéquation entraînement-inférence largement découverte dans les modèles génératifs de débruitage modernes
NAG atténue efficacement le problème : En ciblant directement l'inadéquation du niveau de bruit, amélioration significative de la qualité générative
Forte généralité de la méthode : Améliorations cohérentes observées sur différentes architectures, tâches et méthodes de base
Dépendance à l'estimateur de bruit : L'analyse empirique dépend de la précision de l'estimateur de bruit externe
Simplification de l'analyse théorique : L'analyse théorique basée sur des hypothèses simplifiées peut ne pas capturer complètement la complexité réelle
Surcharge computationnelle : Nécessite l'entraînement d'une branche supplémentaire non conditionnée
Les auteurs espèrent que ce travail attirera l'attention des chercheurs sur le problème d'inadéquation entraînement-inférence largement présent dans la génération de débruitage, favorisant les directions de recherche suivantes :
Analyse théorique ou empirique du problème de décalage de bruit
Construction de modèles génératifs robustes aux décalages lors de la phase d'inférence
Exploration des limites de la génération de haute qualité
Contribution académique : Révèle un problème important dans les modèles génératifs de débruitage, ouvrant de nouvelles directions de recherche pour le domaine
Valeur pratique : Peut être directement appliquée pour améliorer les performances des modèles existants, avec une forte applicabilité pratique
Généralité de la méthode : Orthogonale et complémentaire aux méthodes de guidance existantes, avec une large applicabilité
L'article cite des travaux importants dans les domaines connexes des modèles de diffusion, modèles de flux et techniques de guidance, notamment :
Ho et al. (2020) : Article original DDPM
Peebles & Xie (2023) : Architecture DiT
Ma et al. (2024) : Architecture SiT
Ho & Salimans (2021) : Guidance sans classificateur
Dhariwal & Nichol (2021) : Guidance par classificateur
Évaluation globale : Cet article est un travail de recherche de haute qualité qui identifie un problème important mais longtemps négligé dans les modèles génératifs de débruitage, propose une solution simple et efficace, et valide l'efficacité et la généralité de la méthode par des expériences complètes. Ce travail possède une valeur académique et pratique importante pour le domaine des modèles de diffusion.