Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic
Synthèse Réaliste de Bruit avec Modèles de Diffusion
Les modèles profonds de débruitage nécessitent de grandes quantités de données d'entraînement du monde réel, mais ces données sont difficiles à obtenir. Les techniques existantes de synthèse de bruit ont du mal à modéliser avec précision les distributions de bruit complexes. Cet article propose une nouvelle méthode de diffuseur de synthèse de bruit réaliste (RNSD) utilisant des modèles de diffusion pour résoudre ces défis. En codant les paramètres de la caméra comme une modulation affine conditionnée par la caméra consciente du temps (TCCAM), RNSD génère des distributions de bruit plus réalistes dans diverses conditions de caméra. De plus, RNSD intègre un module de contenu multi-échelle conscient (MCAM) capable de générer du bruit structuré avec corrélation spatiale à plusieurs fréquences. L'article introduit également une séquence d'échantillonnage apprenable basée sur les a priori d'images profondes — l'échantillonnage par a priori d'images profondes (DIPS) — qui accélère considérablement le processus d'échantillonnage tout en maintenant une haute qualité du bruit synthétisé.
Le débruitage d'images par apprentissage profond est un problème mal posé qui nécessite généralement de grandes quantités de paires image-bruit/image-propre pour l'entraînement supervisé. Dans le domaine RGB, l'image bruitée y peut être modélisée comme :
y = ISP(s + n)
où s est la version sans bruit, n est le bruit après traitement du signal d'image (ISP).
Distributions de bruit irrégulières et diversifiées: Les paramètres de post-traitement ISP (tels que AWB, CCM, GAMMA) entraînent des variations de bruit non uniformes entre différentes scènes, canaux, niveaux ISO et pixels
Bruit structuré et corrélation spatiale: Les opérations ISP corrélées spatialement (démosaïquage, débruitage, accentuation) introduisent des motifs de structure locale dans le bruit, augmentant sa corrélation avec le rapport signal-bruit
Méthodes de moyenne multi-images: Difficiles à obtenir et incapables de fournir des types de bruit diversifiés, ne peuvent pas traiter le bruit structuré
Méthodes de modélisation traditionnelle: Modélisent le bruit comme du bruit blanc gaussien, ignorant la corrélation spatiale du bruit réel
Méthodes GAN: Confrontées à l'instabilité et à l'effondrement de mode en raison de l'absence de fonction de vraisemblance stricte, entraînant une inadéquation entre le bruit généré et la distribution de bruit réelle
Première proposition d'une méthode de synthèse de données de bruit réaliste basée sur les modèles de diffusion (RNSD)
Conception de la modulation affine conditionnée par la caméra consciente du temps (TCCAM), capable de mieux contrôler la distribution et le niveau du bruit généré
Construction d'un module de contenu multi-échelle conscient (MCAM), introduisant le couplage d'informations multi-fréquences pour générer du bruit plus réaliste avec corrélation spatiale
Proposition de l'échantillonnage par a priori d'images profondes (DIPS): Basé sur l'observation que le réseau apprend d'abord les composantes basse fréquence puis haute fréquence, réduisant le modèle de 1000 étapes à seulement 5 étapes, avec une perte de précision de seulement 4%
Réalisation de résultats à l'état de l'art sur plusieurs repères et métriques, améliorant significativement les performances des modèles de débruitage
Entrée: Image propre s et paramètres de caméra cs
Sortie: Image bruitée y avec distribution de bruit réaliste
Objectif: Le bruit généré doit correspondre à la distribution de bruit produite par une caméra réelle dans les paramètres correspondants
Basé sur l'observation que le réseau apprend d'abord les basses fréquences puis les hautes fréquences, DIPS propose une nouvelle stratégie d'échantillonnage :
Conception de diffusion conditionnelle: Première application des modèles de diffusion à la synthèse de bruit, réalisant un contrôle précis via les conditions de caméra et la conscience du contenu
Modulation adaptative au temps: TCCAM ajuste dynamiquement les poids d'influence des paramètres de caméra selon les étapes d'échantillonnage
Couplage multi-fréquence: MCAM modélise la corrélation entre le bruit et le contenu d'image à plusieurs échelles
Stratégie d'échantillonnage intelligente: DIPS améliore considérablement l'efficacité d'échantillonnage basée sur les a priori d'images profondes
L'entraînement de DnCNN avec des données synthétisées par RNSD atteint un PSNR de 38.11dB, proche des 38.40dB d'entraînement sur données réelles, améliorant de 0.75dB par rapport aux méthodes SOTA.
Les méthodes traditionnelles utilisent le modèle gaussien-Poisson, mais les opérations ISP complexes détruisent la régularité du bruit et introduisent une corrélation spatiale complexe.
Bien que les GAN montrent des performances fortes dans l'ajustement des distributions de données, ils font face à l'instabilité et à une mauvaise convergence en raison de l'absence de vraisemblance maximale explicite.
Les modèles de diffusion peuvent traiter les distributions de bruit réaliste complexes et diversifiées, évitant l'effondrement de mode et fournissant des résultats plus diversifiés, mais n'ont pas été efficacement appliqués à la génération de bruit synthétisé auparavant.
RNSD applique avec succès pour la première fois les modèles de diffusion à la synthèse de bruit réaliste, surpassant significativement les méthodes existantes
La conception de TCCAM et MCAM résout efficacement les problèmes de contrôle des conditions de caméra et de modélisation de la corrélation spatiale
DIPS améliore considérablement l'efficacité d'échantillonnage, rendant l'application pratique possible
Les données synthétisées générées améliorent significativement les performances et la capacité de généralisation des modèles de débruitage
L'entraînement nécessite des données de bruit réaliste comme supervision, rendant l'acquisition de données toujours difficile dans certains scénarios d'application
Bien que DIPS améliore l'efficacité, cela nécessite toujours des frais de calcul supplémentaires par rapport à l'utilisation directe de données réelles
La méthode cible principalement le bruit dans le domaine RGB, l'applicabilité au bruit dans le domaine RAW nécessite une vérification supplémentaire
Innovation méthodologique forte: Première application réussie des modèles de diffusion à la synthèse de bruit, avec TCCAM, MCAM et DIPS possédant tous des motivations théoriques claires
Conception expérimentale complète: Valide l'efficacité de la méthode sous plusieurs dimensions incluant la qualité du bruit, les performances de débruitage et les études d'ablation
Valeur d'application pratique élevée: Améliore significativement les performances des modèles de débruitage, résolvant le problème pratique de la rareté des données d'entraînement réelles
Détails techniques complets: Fournit le flux d'algorithme complet et les détails d'implémentation, facilitant la reproduction
Analyse de complexité computationnelle insuffisante: Bien que le temps d'inférence soit mentionné, manque d'analyse détaillée de la complexité computationnelle et de la comparaison de la consommation mémoire
Vérification de généralisation limitée: Principalement validé sur les données de caméras de smartphones, la généralisation à d'autres types de caméras nécessite plus de vérification
Profondeur d'analyse théorique insuffisante: Manque d'analyse théorique approfondie sur pourquoi les modèles de diffusion sont particulièrement adaptés à la synthèse de bruit
L'article cite des travaux importants dans les domaines des modèles de diffusion, de la modélisation du bruit et du débruitage d'images, incluant les articles classiques des modèles de diffusion tels que DDPM et DDIM, ainsi que les littératures des ensembles de données importants tels que SIDD et DND, fournissant une base théorique solide pour le travail.