2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

Atténuation du décalage de bruit pour les modèles génératifs de débruitage via la guidance de sensibilisation au bruit

Informations de base

  • ID de l'article : 2510.12497
  • Titre : Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • Auteurs : Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • Classification : cs.LG (Apprentissage automatique)
  • Date de publication : 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12497

Résumé

Les modèles génératifs de débruitage existants reposent sur la résolution d'équations différentielles stochastiques (EDS) ou d'équations différentielles ordinaires (EDO) inversées discrétisées. Cet article identifie un problème longtemps négligé mais omniprésent dans ces modèles : l'inadéquation entre les niveaux de bruit prédéfinis et les niveaux de bruit réels codés dans les états intermédiaires du processus d'échantillonnage. Les auteurs désignent cette inadéquation sous le terme de « décalage de bruit » (noise shift). Par une analyse empirique, les auteurs démontrent que le décalage de bruit est largement présent dans les modèles de diffusion modernes et présente des biais systématiques, entraînant des problèmes de généralisation hors distribution et des mises à jour de débruitage inexactes, produisant ainsi des résultats génératifs sous-optimaux. Pour résoudre ce problème, les auteurs proposent la guidance de sensibilisation au bruit (NAG), une méthode de correction simple mais efficace qui guide explicitement la trajectoire d'échantillonnage pour maintenir la cohérence avec le calendrier de bruit prédéfini.

Contexte de recherche et motivation

Identification du problème

Les modèles génératifs de débruitage, tels que les modèles de diffusion et les modèles de flux, ont remporté un succès remarquable dans les tâches de génération visuelle, notamment la synthèse d'images et la génération vidéo. Le principe fondamental de ces modèles consiste à récupérer progressivement l'échantillon cible à partir du bruit pur par un processus itératif. Cependant, au cours du processus d'échantillonnage itératif, le modèle accumule inévitablement des erreurs provenant de multiples sources, notamment :

  • L'approximation imparfaite du réseau
  • Les erreurs de discrétisation dans l'intégration numérique
  • D'autres facteurs stochastiques

Problème fondamental

Les auteurs découvrent qu'une manifestation clé de ces erreurs accumulées est que le niveau de bruit intrinsèquement codé dans les états intermédiaires peut s'écarter du calendrier prédéfini. Ce phénomène, appelé « décalage de bruit », a longtemps été ignoré par la communauté, mais est en réalité omniprésent et enraciné dans les effets collectifs de diverses sources d'erreur.

Importance du problème

Le décalage de bruit entraîne une inadéquation fondamentale entre le réseau de débruitage lors de l'entraînement et de l'inférence, se manifestant par :

  1. Problèmes de généralisation hors distribution : Le modèle entraîné est appliqué à des états intermédiaires décalés
  2. Opérations de débruitage sous-optimales : Utilisation de coefficients prédéfinis inexacts pour calculer l'état suivant

Contributions principales

  1. Identification du problème de décalage de bruit : Première identification et analyse systématique du problème de décalage de bruit omniprésent mais longtemps négligé dans les modèles génératifs de débruitage
  2. Proposition de la méthode NAG : Conception de la méthode de guidance de sensibilisation au bruit (NAG) pour atténuer le problème de décalage de bruit
  3. Développement d'une variante sans classificateur : Proposition d'une variante sans classificateur de NAG, entraînant conjointement les modèles conditionnés et non conditionnés au bruit via un abandon conditionné au bruit
  4. Vérification expérimentale complète : Validation de l'efficacité et de la généralité de NAG sur les tâches de génération ImageNet et d'ajustement supervisé

Détails de la méthode

Formalisation du problème

Processus avant

Pour un niveau de bruit t[0,T]t \in [0,T], l'interpolation aléatoire en temps continu est définie comme : xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilonα0=σT=1\alpha_0 = \sigma_T = 1, αT=σ0=0\alpha_T = \sigma_0 = 0, αt\alpha_t est monotone décroissant et σt\sigma_t est monotone croissant.

Description mathématique du décalage de bruit

L'erreur accumulée ee peut être considérée comme une perturbation gaussienne supplémentaire appliquée à xtx_t : x^t=xt+e\hat{x}_t = x_t + e, où eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I).

Cette perturbation augmente la variance effective de σt2\sigma_t^2 à σt2+σe2\sigma_t^2 + \sigma_e^2, faisant en sorte que l'état perturbé se comporte comme s'il était échantillonné à un niveau de bruit décalé t=t+δt' = t + \delta : σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

Énoncé 1 : Lorsque la variance d'erreur σe2\sigma_e^2 est faible, l'approximation au premier ordre du décalage δ\delta est : δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

Guidance de sensibilisation au bruit (NAG)

NAG basée sur classificateur

Le score conditionné au bruit peut s'écrire comme : s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

Un signal de guidance loggϕ(tx)\nabla \log g_\phi(t|x) est fourni via un estimateur postérieur externe gϕg_\phi.

NAG sans classificateur

En utilisant pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x), un mélange de scores est utilisé pour approximer le gradient d'un prédicteur de bruit implicite : swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

wnagw_{nag} est le paramètre de guidance de NAG.

Stratégie d'implémentation

Suivant la stratégie d'entraînement de CFG : abandon aléatoire de la condition de bruit tt avec une probabilité fixe pendant l'entraînement, permettant au modèle de partager les poids entre les objectifs conditionnés et non conditionnés.

Points d'innovation technique

  1. Ciblage direct du décalage de bruit : NAG cible directement le problème d'inadéquation du niveau de bruit plutôt que de l'atténuer indirectement
  2. Orthogonalité avec CFG : L'axe de condition du niveau de bruit introduit par NAG est orthogonal à l'axe de condition de CFG, fournissant un contrôle complémentaire
  3. Simplicité et efficacité : Pas besoin de classificateur externe, peut être directement intégré aux modèles existants

Configuration expérimentale

Ensembles de données

  • ImageNet 256×256 : Utilisation du VAE Stable Diffusion pré-entraîné pour obtenir des vecteurs latents 32×32×4
  • Ensembles de données d'ajustement supervisé : Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

Architecture des modèles

  • DiT (Diffusion Transformers) : Variantes S/2, B/2, L/2, XL/2
  • SiT (Scalable Interpolant Transformers) : Variantes de configuration identiques

Métriques d'évaluation

  • FID (Fréchet Inception Distance) : Métrique d'évaluation principale
  • Précision et rappel : Utilisés pour l'évaluation des résultats convergents

Détails d'implémentation

  • Nombre d'étapes d'échantillonnage : Échantillonnage DDPM 250 étapes pour DiT, échantillonnage SDE-Euler-Maruyama 250 étapes pour SiT
  • Poids de guidance : wnag=3.0w_{nag} = 3.0 (sans CFG), wnag=2.0w_{nag} = 2.0 (avec CFG)
  • Abandon de bruit : Probabilité d'abandon de 10% de la condition de bruit pendant l'entraînement

Résultats expérimentaux

Résultats principaux

Génération ImageNet

Tableau 1 : Résultats de comparaison des modèles convergents

ModèleÉpoque d'entraînementGénération sans CFGGénération avec CFG
DiT-XL/21400FID : 9.62FID : 2.27
+NAG10+(1400*)FID : 2.59FID : 2.14
SiT-XL/21400FID : 8.61FID : 2.06
+NAG10+(1400*)FID : 2.26FID : 1.72

Découvertes clés :

  • NAG seul peut atteindre une qualité de génération proche de celle guidée par CFG
  • Combiné avec CFG, NAG continue de fournir des améliorations supplémentaires
  • Seul un ajustement fin supplémentaire de 10 époque (environ 0,7% du coût de pré-entraînement) est nécessaire pour activer NAG

Résultats d'ajustement supervisé

Tableau 2 : Comparaison FID des tâches d'ajustement

MéthodeFoodSUNCaltechCUBStanford CarDF-20MArtBenchFID moyen
Ajustement (sans CFG)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
Ajustement (avec CFG)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

Effet d'atténuation du décalage de bruit

L'analyse empirique via un estimateur de bruit externe gϕg_\phi révèle :

  • Le décalage de bruit est largement présent dans les modèles de diffusion modernes
  • Se manifeste par un biais systématique vers des niveaux de bruit plus élevés
  • NAG réduit efficacement ce décalage, particulièrement dans la plage où le rapport signal-bruit est supérieur à 1

Études d'ablation

  • Sensibilité du poids de guidance : wnagw_{nag} montre une performance stable dans la plage 2.0-4.0
  • Impact du nombre d'étapes d'échantillonnage : NAG est efficace avec différents nombres d'étapes d'échantillonnage
  • Généralité architecturale : Améliorations cohérentes observées sur les architectures DiT et SiT

Travaux connexes

Modèles génératifs de débruitage

  • Modèles de diffusion : DDPM, DiT et autres se concentrent sur les calendriers de bruit, les objectifs d'entraînement et les architectures de modèles
  • Modèles de flux : Méthodes telles que Flow Matching
  • Accélération de l'échantillonnage : Solveurs d'ordre supérieur, modélisation d'intervalle améliorée, etc.

Techniques de guidance

  • Guidance par classificateur : Utilisation d'un classificateur externe pour la génération conditionnelle
  • Guidance sans classificateur (CFG) : Réalisation de la guidance par mélange de modèles conditionnés et non conditionnés
  • Guidance de domaine (DoG) : Technique de guidance conçue spécifiquement pour les scénarios d'ajustement

NAG présenté dans cet article est la première méthode à utiliser explicitement le niveau de bruit lui-même comme signal de guidance, renforçant directement l'alignement avec la condition de bruit attendue.

Conclusion et discussion

Conclusions principales

  1. Omniprésence du problème de décalage de bruit : Inadéquation entraînement-inférence largement découverte dans les modèles génératifs de débruitage modernes
  2. NAG atténue efficacement le problème : En ciblant directement l'inadéquation du niveau de bruit, amélioration significative de la qualité générative
  3. Forte généralité de la méthode : Améliorations cohérentes observées sur différentes architectures, tâches et méthodes de base

Limitations

  1. Dépendance à l'estimateur de bruit : L'analyse empirique dépend de la précision de l'estimateur de bruit externe
  2. Simplification de l'analyse théorique : L'analyse théorique basée sur des hypothèses simplifiées peut ne pas capturer complètement la complexité réelle
  3. Surcharge computationnelle : Nécessite l'entraînement d'une branche supplémentaire non conditionnée

Directions futures

Les auteurs espèrent que ce travail attirera l'attention des chercheurs sur le problème d'inadéquation entraînement-inférence largement présent dans la génération de débruitage, favorisant les directions de recherche suivantes :

  • Analyse théorique ou empirique du problème de décalage de bruit
  • Construction de modèles génératifs robustes aux décalages lors de la phase d'inférence
  • Exploration des limites de la génération de haute qualité
  • Méthodes d'échantillonnage plus rapides

Évaluation approfondie

Avantages

  1. Innovation dans l'identification du problème : Première identification et analyse systématique du décalage de bruit, problème omniprésent mais négligé
  2. Méthode simple et efficace : NAG est simple à concevoir, facile à intégrer aux modèles existants, avec des résultats remarquables
  3. Expériences complètes : Couvre plusieurs architectures, ensembles de données et tâches, validant la généralité de la méthode
  4. Support théorique : Fournit une analyse mathématique et des formules d'approximation du décalage de bruit
  5. Valeur pratique élevée : Amélioration significative des performances des modèles existants avec peu d'entraînement supplémentaire

Insuffisances

  1. Limitations de l'analyse théorique : Basée sur des hypothèses simplifiées, peut ne pas expliquer complètement les situations réelles complexes
  2. Problème d'estimateur de bruit : L'analyse empirique dépend d'un estimateur externe, pouvant introduire des erreurs supplémentaires
  3. Coût computationnel : Nécessite l'entraînement d'une branche non conditionnée supplémentaire, augmentant les coûts d'entraînement et d'inférence
  4. Portée d'application : Principalement validée sur les tâches de génération visuelle, l'applicabilité à d'autres modalités reste inconnue

Impact

  1. Contribution académique : Révèle un problème important dans les modèles génératifs de débruitage, ouvrant de nouvelles directions de recherche pour le domaine
  2. Valeur pratique : Peut être directement appliquée pour améliorer les performances des modèles existants, avec une forte applicabilité pratique
  3. Généralité de la méthode : Orthogonale et complémentaire aux méthodes de guidance existantes, avec une large applicabilité

Scénarios d'application

  • Tâches de génération d'images à grande échelle
  • Ajustement supervisé de modèles pré-entraînés
  • Scénarios d'application nécessitant une génération de haute qualité
  • Environnements disposant de ressources computationnelles relativement abondantes

Références

L'article cite des travaux importants dans les domaines connexes des modèles de diffusion, modèles de flux et techniques de guidance, notamment :

  • Ho et al. (2020) : Article original DDPM
  • Peebles & Xie (2023) : Architecture DiT
  • Ma et al. (2024) : Architecture SiT
  • Ho & Salimans (2021) : Guidance sans classificateur
  • Dhariwal & Nichol (2021) : Guidance par classificateur

Évaluation globale : Cet article est un travail de recherche de haute qualité qui identifie un problème important mais longtemps négligé dans les modèles génératifs de débruitage, propose une solution simple et efficace, et valide l'efficacité et la généralité de la méthode par des expériences complètes. Ce travail possède une valeur académique et pratique importante pour le domaine des modèles de diffusion.