Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic
Sintesi Realistica del Rumore con Modelli di Diffusione
I modelli di denoising profondo richiedono grandi quantità di dati di addestramento dal mondo reale, ma tali dati sono difficili da ottenere. Le tecniche di sintesi del rumore esistenti faticano a modellare accuratamente distribuzioni di rumore complesse. Questo articolo propone un nuovo metodo di diffusore di sintesi del rumore realistico (RNSD), utilizzando modelli di diffusione per affrontare queste sfide. Codificando le impostazioni della fotocamera come modulazione affine della fotocamera consapevole del tempo (TCCAM), RNSD genera distribuzioni di rumore più realistiche in varie condizioni di fotocamera. Inoltre, RNSD integra un modulo multi-scala consapevole del contenuto (MCAM), in grado di generare rumore strutturato con correlazione spaziale a più frequenze. L'articolo introduce inoltre una sequenza di campionamento apprendibile basata sul prior di immagine profonda — campionamento del prior di immagine profonda (DIPS) — che accelera significativamente il processo di campionamento mantenendo un'elevata qualità del rumore sintetizzato.
Il denoising di immagini nell'apprendimento profondo è un problema mal posto, che tipicamente richiede un addestramento supervisionato con numerose coppie di immagini rumorose-pulite. Nel dominio RGB, un'immagine rumorosa y può essere modellata come:
y = ISP(s + n)
dove s è la versione priva di rumore, n è il rumore dopo l'elaborazione del segnale di immagine (ISP).
Distribuzioni di rumore irregolari e diversificate: I parametri di post-elaborazione ISP (come AWB, CCM, GAMMA) causano variazioni di rumore non uniformi tra scene diverse, canali, livelli ISO e pixel
Rumore strutturato e correlazione spaziale: Le operazioni ISP correlate spazialmente (demosaicing, denoising, sharpening) introducono modelli di struttura locale nel rumore, aumentandone la correlazione con il rapporto segnale-rumore
Metodi di media multi-frame: Difficili da ottenere e non forniscono tipi di rumore diversificati, non riescono a gestire il rumore strutturato
Metodi di modellazione tradizionali: Modellano il rumore come rumore bianco gaussiano, ignorando la correlazione spaziale nel rumore reale
Metodi GAN: Affrontano frequentemente instabilità e collasso di modalità a causa della mancanza di una rigorosa funzione di verosimiglianza, portando a rumore generato che non corrisponde alla distribuzione del rumore reale
Primo metodo di sintesi di dati di rumore reale basato su modelli di diffusione RNSD
Progettazione della modulazione affine della fotocamera consapevole del tempo (TCCAM), in grado di controllare meglio la distribuzione e il livello del rumore generato
Costruzione del modulo multi-scala consapevole del contenuto (MCAM), che introduce accoppiamento di informazioni multi-frequenza per generare rumore più realistico con correlazione spaziale
Proposta del campionamento del prior di immagine profonda (DIPS): Basato sul prior di immagine profonda in cui la rete apprende prima le componenti a bassa frequenza e poi quelle ad alta frequenza, riducendo il modello da 1000 passi a soli 5 passi, con una perdita di precisione di solo il 4%
Raggiungimento di risultati all'avanguardia su più benchmark e metriche, migliorando significativamente le prestazioni del modello di denoising
Input: immagine pulita s e impostazioni della fotocamera cs
Output: immagine rumorosa y con distribuzione di rumore realistico
Obiettivo: il rumore generato deve corrispondere alla distribuzione del rumore prodotta dalla fotocamera reale nelle impostazioni corrispondenti
Basato sull'osservazione che la rete apprende prima le componenti a bassa frequenza e poi quelle ad alta frequenza, DIPS propone una nuova strategia di campionamento:
Progettazione di Diffusione Condizionata: Prima applicazione di modelli di diffusione alla sintesi del rumore, realizzando un controllo preciso attraverso condizioni di fotocamera e consapevolezza del contenuto
Modulazione Adattiva nel Tempo: TCCAM regola dinamicamente i pesi dell'influenza delle impostazioni della fotocamera in base al passo di campionamento
Accoppiamento Multi-frequenza: MCAM modella la correlazione tra rumore e contenuto dell'immagine su più scale
Strategia di Campionamento Intelligente: DIPS migliora significativamente l'efficienza di campionamento basandosi sul prior di immagine profonda
Utilizzando dati sintetizzati da RNSD per addestrare DnCNN, il PSNR raggiunge 38.11dB, vicino ai 38.40dB dell'addestramento con dati reali, migliorando di 0.75dB rispetto ai metodi SOTA.
I metodi tradizionali utilizzano il modello gaussiano-poissoniano, ma le complesse operazioni ISP compromettono la regolarità del rumore e introducono correlazione spaziale complessa.
Sebbene i GAN mostrino prestazioni forti nell'adattamento della distribuzione dei dati, affrontano frequentemente instabilità e scarsa convergenza a causa della mancanza di una massima verosimiglianza esplicita.
I modelli di diffusione possono gestire distribuzioni di rumore reale complesse e diversificate, evitando il collasso di modalità e fornendo risultati più diversificati, ma non erano stati precedentemente applicati efficacemente alla generazione di rumore sintetizzato.
RNSD applica con successo per la prima volta modelli di diffusione alla sintesi del rumore reale, superando significativamente i metodi esistenti
La progettazione di TCCAM e MCAM affronta efficacemente i problemi del controllo delle condizioni della fotocamera e della modellazione della correlazione spaziale
DIPS migliora significativamente l'efficienza di campionamento, rendendo possibile l'applicazione pratica
I dati sintetizzati generati possono migliorare significativamente le prestazioni e la capacità di generalizzazione del modello di denoising
L'addestramento richiede dati di rumore reale come supervisione, in alcuni scenari di applicazione persiste ancora la difficoltà di acquisizione dei dati
Sebbene DIPS migliori l'efficienza, rispetto all'utilizzo diretto di dati reali richiede ancora un sovraccarico computazionale aggiuntivo
Il metodo è principalmente orientato al rumore nel dominio RGB, l'applicabilità al rumore nel dominio RAW richiede ulteriore verifica
Forte innovazione metodologica: Prima applicazione riuscita di modelli di diffusione alla sintesi del rumore, con TCCAM, MCAM e DIPS che hanno chiari motivi teorici
Progettazione sperimentale completa: Verifica dell'efficacia del metodo da più dimensioni incluse qualità del rumore, prestazioni di denoising e esperimenti di ablazione
Alto valore di applicazione pratica: Migliora significativamente le prestazioni del modello di denoising, risolvendo il problema pratico della scarsità di dati di addestramento reali
Dettagli tecnici completi: Fornisce algoritmi completi e dettagli di implementazione, facilitando la riproduzione
Analisi della complessità computazionale insufficiente: Sebbene menzioni il tempo di inferenza, manca un'analisi dettagliata della complessità computazionale e del confronto del consumo di memoria
Verifica della generalizzabilità limitata: Principalmente verificato su dati di fotocamere smartphone, la generalizzabilità ad altri tipi di fotocamere richiede ulteriore verifica
Profondità di analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché i modelli di diffusione siano particolarmente adatti alla sintesi del rumore
L'articolo cita importanti lavori nei campi dei modelli di diffusione, della modellazione del rumore e del denoising di immagini, inclusi articoli classici su modelli di diffusione come DDPM e DDIM, nonché letteratura su importanti dataset come SIDD e DND, fornendo una base teorica solida per il lavoro.