2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.

Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.

academic

Synthèse Réaliste de Bruit avec Modèles de Diffusion

Informations Fondamentales

ID de l'article: 2305.14022
Titre: Realistic Noise Synthesis with Diffusion Models
Auteurs: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
Institutions: Megvii Technology Inc., University of Electronic Science and Technology of China
Classification: cs.CV eess.IV
Date de Publication: 2 janvier 2025 (arXiv v4)
Lien de l'article: https://arxiv.org/abs/2305.14022
Lien du code: https://github.com/wuqi-coder/RNSD

Résumé

Les modèles profonds de débruitage nécessitent de grandes quantités de données d'entraînement du monde réel, mais ces données sont difficiles à obtenir. Les techniques existantes de synthèse de bruit ont du mal à modéliser avec précision les distributions de bruit complexes. Cet article propose une nouvelle méthode de diffuseur de synthèse de bruit réaliste (RNSD) utilisant des modèles de diffusion pour résoudre ces défis. En codant les paramètres de la caméra comme une modulation affine conditionnée par la caméra consciente du temps (TCCAM), RNSD génère des distributions de bruit plus réalistes dans diverses conditions de caméra. De plus, RNSD intègre un module de contenu multi-échelle conscient (MCAM) capable de générer du bruit structuré avec corrélation spatiale à plusieurs fréquences. L'article introduit également une séquence d'échantillonnage apprenable basée sur les a priori d'images profondes — l'échantillonnage par a priori d'images profondes (DIPS) — qui accélère considérablement le processus d'échantillonnage tout en maintenant une haute qualité du bruit synthétisé.

Contexte de Recherche et Motivation

Définition du Problème

Le débruitage d'images par apprentissage profond est un problème mal posé qui nécessite généralement de grandes quantités de paires image-bruit/image-propre pour l'entraînement supervisé. Dans le domaine RGB, l'image bruitée y peut être modélisée comme :

y = ISP(s + n)

où s est la version sans bruit, n est le bruit après traitement du signal d'image (ISP).

Défis Fondamentaux

Distributions de bruit irrégulières et diversifiées: Les paramètres de post-traitement ISP (tels que AWB, CCM, GAMMA) entraînent des variations de bruit non uniformes entre différentes scènes, canaux, niveaux ISO et pixels
Bruit structuré et corrélation spatiale: Les opérations ISP corrélées spatialement (démosaïquage, débruitage, accentuation) introduisent des motifs de structure locale dans le bruit, augmentant sa corrélation avec le rapport signal-bruit

Limitations des Méthodes Existantes

Méthodes de moyenne multi-images: Difficiles à obtenir et incapables de fournir des types de bruit diversifiés, ne peuvent pas traiter le bruit structuré
Méthodes de modélisation traditionnelle: Modélisent le bruit comme du bruit blanc gaussien, ignorant la corrélation spatiale du bruit réel
Méthodes GAN: Confrontées à l'instabilité et à l'effondrement de mode en raison de l'absence de fonction de vraisemblance stricte, entraînant une inadéquation entre le bruit généré et la distribution de bruit réelle

Contributions Fondamentales

Première proposition d'une méthode de synthèse de données de bruit réaliste basée sur les modèles de diffusion (RNSD)
Conception de la modulation affine conditionnée par la caméra consciente du temps (TCCAM), capable de mieux contrôler la distribution et le niveau du bruit généré
Construction d'un module de contenu multi-échelle conscient (MCAM), introduisant le couplage d'informations multi-fréquences pour générer du bruit plus réaliste avec corrélation spatiale
Proposition de l'échantillonnage par a priori d'images profondes (DIPS): Basé sur l'observation que le réseau apprend d'abord les composantes basse fréquence puis haute fréquence, réduisant le modèle de 1000 étapes à seulement 5 étapes, avec une perte de précision de seulement 4%
Réalisation de résultats à l'état de l'art sur plusieurs repères et métriques, améliorant significativement les performances des modèles de débruitage

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Image propre s et paramètres de caméra cs Sortie: Image bruitée y avec distribution de bruit réaliste Objectif: Le bruit généré doit correspondre à la distribution de bruit produite par une caméra réelle dans les paramètres correspondants

Architecture du Modèle

1. Génération de Bruit Basée sur la Diffusion

RNSD utilise l'image bruitée réaliste y comme état initial x₀ pour construire le processus de diffusion. Adopte le modèle probabiliste DDPM :

Processus avant:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Processus inverse:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. Modulation Affine Conditionnée par la Caméra Consciente du Temps (TCCAM)

Pour traiter les distributions de bruit diversifiées dans différentes conditions, TCCAM encode cinq facteurs clés :

cs = φ(iso, ss, st, ct, bm)

où iso est la valeur ISO, ss est la vitesse d'obturation, st est le type de capteur, ct est la température de couleur, bm est le mode de luminosité.

TCCAM est implémenté via un mécanisme de paramétrage dynamique :

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. Module de Contenu Multi-Échelle Conscient (MCAM)

MCAM extrait les caractéristiques de xₜ et de l'image propre s à trois étapes de sous-échantillonnage :

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. Échantillonnage par A Priori d'Images Profondes (DIPS)

Basé sur l'observation que le réseau apprend d'abord les basses fréquences puis les hautes fréquences, DIPS propose une nouvelle stratégie d'échantillonnage :

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced utilise la distillation de modèle à une seule étape :

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

Points d'Innovation Technique

Conception de diffusion conditionnelle: Première application des modèles de diffusion à la synthèse de bruit, réalisant un contrôle précis via les conditions de caméra et la conscience du contenu
Modulation adaptative au temps: TCCAM ajuste dynamiquement les poids d'influence des paramètres de caméra selon les étapes d'échantillonnage
Couplage multi-fréquence: MCAM modélise la corrélation entre le bruit et le contenu d'image à plusieurs échelles
Stratégie d'échantillonnage intelligente: DIPS améliore considérablement l'efficacité d'échantillonnage basée sur les a priori d'images profondes

Configuration Expérimentale

Ensembles de Données

SIDD: Contient SIDD small (160 paires d'images de 5 caméras de smartphones) et SIDD medium (double échantillonnage de bruit)
DND: 50 images de référence et leurs images bruitées correspondantes générées à l'aide d'un modèle de bruit de capteur précis
LSDIR: 84 991 échantillons propres de haute qualité

Métriques d'Évaluation

AKLD: Évalue la similarité de distribution de bruit, plus bas est mieux
PGap: Évalue la qualité de génération de bruit, plus bas est mieux
PSNR/SSIM: Évalue les performances du modèle de débruitage

Méthodes de Comparaison

Méthodes de synthèse de bruit: C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA, etc.
Modèles de débruitage: DnCNN, RIDNet, NAFNet, etc.

Détails d'Implémentation

Entraînement DDPM 1000 étapes, longueur d'accumulation de gradient 2, optimiseur Adam (lr=8×10⁻⁵)
Échantillons d'entraînement: recadrage 128×128, taille de lot 16
GPU NVIDIA GeForce RTX 2080 Ti, 2×10⁵ itérations d'entraînement
Décroissance EMA 0.995

Résultats Expérimentaux

Résultats Principaux

Comparaison de la Qualité de Génération de Bruit

Méthode	AKLD↓	PGap↓
GRDN	0.443	2.28
C2N	0.314	6.85
sRGB2Flow	0.237	6.3
DANet	0.212	2.06
NeCA	0.156	0.97
PNGAN	0.153	0.84
RNSD	0.117	0.54

RNSD améliore SOTA de 0.027 sur AKLD et réduit PGap de 0.30, surpassant significativement les méthodes existantes.

Amélioration des Performances de Débruitage

L'entraînement de DnCNN avec des données synthétisées par RNSD atteint un PSNR de 38.11dB, proche des 38.40dB d'entraînement sur données réelles, améliorant de 0.75dB par rapport aux méthodes SOTA.

Études d'Ablation

Validation de l'Efficacité des Modules

Méthode	AKLD↓
Baseline	0.169
+ concat camera settings	0.137
+ TCCAM	0.126
+ MCAM	0.117

Efficacité d'Échantillonnage DIPS

Étapes	DDIM	DIPS-Basic	DIPS-Advanced
5	0.356	0.208	0.122
30	0.131	0.117	0.120

DIPS-Advanced avec 5 étapes d'échantillonnage n'a qu'une perte de précision de 4%, surpassant considérablement DDIM.

Effets d'Augmentation de Données

Augmentation des Échantillons de Bruit

Sur l'ensemble de validation SIDD, après augmentation par RNSD :

DnCNN-B: Amélioration PSNR de 0.57dB
RIDNet: Amélioration PSNR de 0.54dB
NAFNet: Amélioration PSNR de 0.61dB

Augmentation des Échantillons de Scène

Utilisant les données LSDIR pour augmenter la diversité des scènes :

RIDNet améliore de 0.33dB sur SIDD, 0.14dB sur DND
NAFNet améliore significativement de 0.62dB sur DND

Travaux Connexes

Modélisation du Bruit

Les méthodes traditionnelles utilisent le modèle gaussien-Poisson, mais les opérations ISP complexes détruisent la régularité du bruit et introduisent une corrélation spatiale complexe.

Méthodes GAN

Bien que les GAN montrent des performances fortes dans l'ajustement des distributions de données, ils font face à l'instabilité et à une mauvaise convergence en raison de l'absence de vraisemblance maximale explicite.

Méthodes de Diffusion

Les modèles de diffusion peuvent traiter les distributions de bruit réaliste complexes et diversifiées, évitant l'effondrement de mode et fournissant des résultats plus diversifiés, mais n'ont pas été efficacement appliqués à la génération de bruit synthétisé auparavant.

Conclusion et Discussion

Conclusions Principales

RNSD applique avec succès pour la première fois les modèles de diffusion à la synthèse de bruit réaliste, surpassant significativement les méthodes existantes
La conception de TCCAM et MCAM résout efficacement les problèmes de contrôle des conditions de caméra et de modélisation de la corrélation spatiale
DIPS améliore considérablement l'efficacité d'échantillonnage, rendant l'application pratique possible
Les données synthétisées générées améliorent significativement les performances et la capacité de généralisation des modèles de débruitage

Limitations

L'entraînement nécessite des données de bruit réaliste comme supervision, rendant l'acquisition de données toujours difficile dans certains scénarios d'application
Bien que DIPS améliore l'efficacité, cela nécessite toujours des frais de calcul supplémentaires par rapport à l'utilisation directe de données réelles
La méthode cible principalement le bruit dans le domaine RGB, l'applicabilité au bruit dans le domaine RAW nécessite une vérification supplémentaire

Directions Futures

Explorer les méthodes de synthèse de bruit non supervisées ou faiblement supervisées
Étendre à la synthèse de bruit vidéo et à d'autres modalités d'imagerie
Optimiser davantage l'efficacité d'échantillonnage pour réaliser la génération de bruit en temps réel

Évaluation Approfondie

Avantages

Innovation méthodologique forte: Première application réussie des modèles de diffusion à la synthèse de bruit, avec TCCAM, MCAM et DIPS possédant tous des motivations théoriques claires
Conception expérimentale complète: Valide l'efficacité de la méthode sous plusieurs dimensions incluant la qualité du bruit, les performances de débruitage et les études d'ablation
Valeur d'application pratique élevée: Améliore significativement les performances des modèles de débruitage, résolvant le problème pratique de la rareté des données d'entraînement réelles
Détails techniques complets: Fournit le flux d'algorithme complet et les détails d'implémentation, facilitant la reproduction

Insuffisances

Analyse de complexité computationnelle insuffisante: Bien que le temps d'inférence soit mentionné, manque d'analyse détaillée de la complexité computationnelle et de la comparaison de la consommation mémoire
Vérification de généralisation limitée: Principalement validé sur les données de caméras de smartphones, la généralisation à d'autres types de caméras nécessite plus de vérification
Profondeur d'analyse théorique insuffisante: Manque d'analyse théorique approfondie sur pourquoi les modèles de diffusion sont particulièrement adaptés à la synthèse de bruit

Impact

Contribution académique: Fournit une nouvelle voie technologique pour le domaine de la synthèse de bruit, pouvant inspirer des recherches ultérieures
Valeur pratique: Résout effectivement le problème du manque de données d'entraînement pour les modèles de débruitage
Reproductibilité: Fournit le code et l'implémentation détaillée, facilitant l'utilisation et l'amélioration par les chercheurs

Scénarios Applicables

Augmentation de données pour l'entraînement de modèles de débruitage d'images
Analyse et modélisation des caractéristiques de bruit de caméra
Évaluation et optimisation de la qualité d'image
Applications de photographie computationnelle

Références

L'article cite des travaux importants dans les domaines des modèles de diffusion, de la modélisation du bruit et du débruitage d'images, incluant les articles classiques des modèles de diffusion tels que DDPM et DDIM, ainsi que les littératures des ensembles de données importants tels que SIDD et DND, fournissant une base théorique solide pour le travail.