2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

Synthèse Réaliste de Bruit avec Modèles de Diffusion

Informations Fondamentales

  • ID de l'article: 2305.14022
  • Titre: Realistic Noise Synthesis with Diffusion Models
  • Auteurs: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
  • Institutions: Megvii Technology Inc., University of Electronic Science and Technology of China
  • Classification: cs.CV eess.IV
  • Date de Publication: 2 janvier 2025 (arXiv v4)
  • Lien de l'article: https://arxiv.org/abs/2305.14022
  • Lien du code: https://github.com/wuqi-coder/RNSD

Résumé

Les modèles profonds de débruitage nécessitent de grandes quantités de données d'entraînement du monde réel, mais ces données sont difficiles à obtenir. Les techniques existantes de synthèse de bruit ont du mal à modéliser avec précision les distributions de bruit complexes. Cet article propose une nouvelle méthode de diffuseur de synthèse de bruit réaliste (RNSD) utilisant des modèles de diffusion pour résoudre ces défis. En codant les paramètres de la caméra comme une modulation affine conditionnée par la caméra consciente du temps (TCCAM), RNSD génère des distributions de bruit plus réalistes dans diverses conditions de caméra. De plus, RNSD intègre un module de contenu multi-échelle conscient (MCAM) capable de générer du bruit structuré avec corrélation spatiale à plusieurs fréquences. L'article introduit également une séquence d'échantillonnage apprenable basée sur les a priori d'images profondes — l'échantillonnage par a priori d'images profondes (DIPS) — qui accélère considérablement le processus d'échantillonnage tout en maintenant une haute qualité du bruit synthétisé.

Contexte de Recherche et Motivation

Définition du Problème

Le débruitage d'images par apprentissage profond est un problème mal posé qui nécessite généralement de grandes quantités de paires image-bruit/image-propre pour l'entraînement supervisé. Dans le domaine RGB, l'image bruitée y peut être modélisée comme :

y = ISP(s + n)

où s est la version sans bruit, n est le bruit après traitement du signal d'image (ISP).

Défis Fondamentaux

  1. Distributions de bruit irrégulières et diversifiées: Les paramètres de post-traitement ISP (tels que AWB, CCM, GAMMA) entraînent des variations de bruit non uniformes entre différentes scènes, canaux, niveaux ISO et pixels
  2. Bruit structuré et corrélation spatiale: Les opérations ISP corrélées spatialement (démosaïquage, débruitage, accentuation) introduisent des motifs de structure locale dans le bruit, augmentant sa corrélation avec le rapport signal-bruit

Limitations des Méthodes Existantes

  • Méthodes de moyenne multi-images: Difficiles à obtenir et incapables de fournir des types de bruit diversifiés, ne peuvent pas traiter le bruit structuré
  • Méthodes de modélisation traditionnelle: Modélisent le bruit comme du bruit blanc gaussien, ignorant la corrélation spatiale du bruit réel
  • Méthodes GAN: Confrontées à l'instabilité et à l'effondrement de mode en raison de l'absence de fonction de vraisemblance stricte, entraînant une inadéquation entre le bruit généré et la distribution de bruit réelle

Contributions Fondamentales

  1. Première proposition d'une méthode de synthèse de données de bruit réaliste basée sur les modèles de diffusion (RNSD)
  2. Conception de la modulation affine conditionnée par la caméra consciente du temps (TCCAM), capable de mieux contrôler la distribution et le niveau du bruit généré
  3. Construction d'un module de contenu multi-échelle conscient (MCAM), introduisant le couplage d'informations multi-fréquences pour générer du bruit plus réaliste avec corrélation spatiale
  4. Proposition de l'échantillonnage par a priori d'images profondes (DIPS): Basé sur l'observation que le réseau apprend d'abord les composantes basse fréquence puis haute fréquence, réduisant le modèle de 1000 étapes à seulement 5 étapes, avec une perte de précision de seulement 4%
  5. Réalisation de résultats à l'état de l'art sur plusieurs repères et métriques, améliorant significativement les performances des modèles de débruitage

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Image propre s et paramètres de caméra cs Sortie: Image bruitée y avec distribution de bruit réaliste Objectif: Le bruit généré doit correspondre à la distribution de bruit produite par une caméra réelle dans les paramètres correspondants

Architecture du Modèle

1. Génération de Bruit Basée sur la Diffusion

RNSD utilise l'image bruitée réaliste y comme état initial x₀ pour construire le processus de diffusion. Adopte le modèle probabiliste DDPM :

Processus avant:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Processus inverse:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. Modulation Affine Conditionnée par la Caméra Consciente du Temps (TCCAM)

Pour traiter les distributions de bruit diversifiées dans différentes conditions, TCCAM encode cinq facteurs clés :

cs = φ(iso, ss, st, ct, bm)

où iso est la valeur ISO, ss est la vitesse d'obturation, st est le type de capteur, ct est la température de couleur, bm est le mode de luminosité.

TCCAM est implémenté via un mécanisme de paramétrage dynamique :

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. Module de Contenu Multi-Échelle Conscient (MCAM)

MCAM extrait les caractéristiques de xₜ et de l'image propre s à trois étapes de sous-échantillonnage :

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. Échantillonnage par A Priori d'Images Profondes (DIPS)

Basé sur l'observation que le réseau apprend d'abord les basses fréquences puis les hautes fréquences, DIPS propose une nouvelle stratégie d'échantillonnage :

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced utilise la distillation de modèle à une seule étape :

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

Points d'Innovation Technique

  1. Conception de diffusion conditionnelle: Première application des modèles de diffusion à la synthèse de bruit, réalisant un contrôle précis via les conditions de caméra et la conscience du contenu
  2. Modulation adaptative au temps: TCCAM ajuste dynamiquement les poids d'influence des paramètres de caméra selon les étapes d'échantillonnage
  3. Couplage multi-fréquence: MCAM modélise la corrélation entre le bruit et le contenu d'image à plusieurs échelles
  4. Stratégie d'échantillonnage intelligente: DIPS améliore considérablement l'efficacité d'échantillonnage basée sur les a priori d'images profondes

Configuration Expérimentale

Ensembles de Données

  • SIDD: Contient SIDD small (160 paires d'images de 5 caméras de smartphones) et SIDD medium (double échantillonnage de bruit)
  • DND: 50 images de référence et leurs images bruitées correspondantes générées à l'aide d'un modèle de bruit de capteur précis
  • LSDIR: 84 991 échantillons propres de haute qualité

Métriques d'Évaluation

  • AKLD: Évalue la similarité de distribution de bruit, plus bas est mieux
  • PGap: Évalue la qualité de génération de bruit, plus bas est mieux
  • PSNR/SSIM: Évalue les performances du modèle de débruitage

Méthodes de Comparaison

  • Méthodes de synthèse de bruit: C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA, etc.
  • Modèles de débruitage: DnCNN, RIDNet, NAFNet, etc.

Détails d'Implémentation

  • Entraînement DDPM 1000 étapes, longueur d'accumulation de gradient 2, optimiseur Adam (lr=8×10⁻⁵)
  • Échantillons d'entraînement: recadrage 128×128, taille de lot 16
  • GPU NVIDIA GeForce RTX 2080 Ti, 2×10⁵ itérations d'entraînement
  • Décroissance EMA 0.995

Résultats Expérimentaux

Résultats Principaux

Comparaison de la Qualité de Génération de Bruit

MéthodeAKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

RNSD améliore SOTA de 0.027 sur AKLD et réduit PGap de 0.30, surpassant significativement les méthodes existantes.

Amélioration des Performances de Débruitage

L'entraînement de DnCNN avec des données synthétisées par RNSD atteint un PSNR de 38.11dB, proche des 38.40dB d'entraînement sur données réelles, améliorant de 0.75dB par rapport aux méthodes SOTA.

Études d'Ablation

Validation de l'Efficacité des Modules

MéthodeAKLD↓
Baseline0.169
+ concat camera settings0.137
+ TCCAM0.126
+ MCAM0.117

Efficacité d'Échantillonnage DIPS

ÉtapesDDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

DIPS-Advanced avec 5 étapes d'échantillonnage n'a qu'une perte de précision de 4%, surpassant considérablement DDIM.

Effets d'Augmentation de Données

Augmentation des Échantillons de Bruit

Sur l'ensemble de validation SIDD, après augmentation par RNSD :

  • DnCNN-B: Amélioration PSNR de 0.57dB
  • RIDNet: Amélioration PSNR de 0.54dB
  • NAFNet: Amélioration PSNR de 0.61dB

Augmentation des Échantillons de Scène

Utilisant les données LSDIR pour augmenter la diversité des scènes :

  • RIDNet améliore de 0.33dB sur SIDD, 0.14dB sur DND
  • NAFNet améliore significativement de 0.62dB sur DND

Travaux Connexes

Modélisation du Bruit

Les méthodes traditionnelles utilisent le modèle gaussien-Poisson, mais les opérations ISP complexes détruisent la régularité du bruit et introduisent une corrélation spatiale complexe.

Méthodes GAN

Bien que les GAN montrent des performances fortes dans l'ajustement des distributions de données, ils font face à l'instabilité et à une mauvaise convergence en raison de l'absence de vraisemblance maximale explicite.

Méthodes de Diffusion

Les modèles de diffusion peuvent traiter les distributions de bruit réaliste complexes et diversifiées, évitant l'effondrement de mode et fournissant des résultats plus diversifiés, mais n'ont pas été efficacement appliqués à la génération de bruit synthétisé auparavant.

Conclusion et Discussion

Conclusions Principales

  1. RNSD applique avec succès pour la première fois les modèles de diffusion à la synthèse de bruit réaliste, surpassant significativement les méthodes existantes
  2. La conception de TCCAM et MCAM résout efficacement les problèmes de contrôle des conditions de caméra et de modélisation de la corrélation spatiale
  3. DIPS améliore considérablement l'efficacité d'échantillonnage, rendant l'application pratique possible
  4. Les données synthétisées générées améliorent significativement les performances et la capacité de généralisation des modèles de débruitage

Limitations

  1. L'entraînement nécessite des données de bruit réaliste comme supervision, rendant l'acquisition de données toujours difficile dans certains scénarios d'application
  2. Bien que DIPS améliore l'efficacité, cela nécessite toujours des frais de calcul supplémentaires par rapport à l'utilisation directe de données réelles
  3. La méthode cible principalement le bruit dans le domaine RGB, l'applicabilité au bruit dans le domaine RAW nécessite une vérification supplémentaire

Directions Futures

  1. Explorer les méthodes de synthèse de bruit non supervisées ou faiblement supervisées
  2. Étendre à la synthèse de bruit vidéo et à d'autres modalités d'imagerie
  3. Optimiser davantage l'efficacité d'échantillonnage pour réaliser la génération de bruit en temps réel

Évaluation Approfondie

Avantages

  1. Innovation méthodologique forte: Première application réussie des modèles de diffusion à la synthèse de bruit, avec TCCAM, MCAM et DIPS possédant tous des motivations théoriques claires
  2. Conception expérimentale complète: Valide l'efficacité de la méthode sous plusieurs dimensions incluant la qualité du bruit, les performances de débruitage et les études d'ablation
  3. Valeur d'application pratique élevée: Améliore significativement les performances des modèles de débruitage, résolvant le problème pratique de la rareté des données d'entraînement réelles
  4. Détails techniques complets: Fournit le flux d'algorithme complet et les détails d'implémentation, facilitant la reproduction

Insuffisances

  1. Analyse de complexité computationnelle insuffisante: Bien que le temps d'inférence soit mentionné, manque d'analyse détaillée de la complexité computationnelle et de la comparaison de la consommation mémoire
  2. Vérification de généralisation limitée: Principalement validé sur les données de caméras de smartphones, la généralisation à d'autres types de caméras nécessite plus de vérification
  3. Profondeur d'analyse théorique insuffisante: Manque d'analyse théorique approfondie sur pourquoi les modèles de diffusion sont particulièrement adaptés à la synthèse de bruit

Impact

  1. Contribution académique: Fournit une nouvelle voie technologique pour le domaine de la synthèse de bruit, pouvant inspirer des recherches ultérieures
  2. Valeur pratique: Résout effectivement le problème du manque de données d'entraînement pour les modèles de débruitage
  3. Reproductibilité: Fournit le code et l'implémentation détaillée, facilitant l'utilisation et l'amélioration par les chercheurs

Scénarios Applicables

  1. Augmentation de données pour l'entraînement de modèles de débruitage d'images
  2. Analyse et modélisation des caractéristiques de bruit de caméra
  3. Évaluation et optimisation de la qualité d'image
  4. Applications de photographie computationnelle

Références

L'article cite des travaux importants dans les domaines des modèles de diffusion, de la modélisation du bruit et du débruitage d'images, incluant les articles classiques des modèles de diffusion tels que DDPM et DDIM, ainsi que les littératures des ensembles de données importants tels que SIDD et DND, fournissant une base théorique solide pour le travail.