2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

विसरण मॉडल के साथ यथार्थवादी शोर संश्लेषण

मूल जानकारी

  • पेपर ID: 2305.14022
  • शीर्षक: Realistic Noise Synthesis with Diffusion Models
  • लेखक: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
  • संस्थान: Megvii Technology Inc., University of Electronic Science and Technology of China
  • वर्गीकरण: cs.CV eess.IV
  • प्रकाशन तिथि: 2 जनवरी 2025 (arXiv v4)
  • पेपर लिंक: https://arxiv.org/abs/2305.14022
  • कोड लिंक: https://github.com/wuqi-coder/RNSD

सारांश

गहन विनोइसिंग मॉडल को बड़ी मात्रा में वास्तविक दुनिया के प्रशिक्षण डेटा की आवश्यकता होती है, लेकिन ऐसा डेटा प्राप्त करना कठिन है। मौजूदा शोर संश्लेषण तकनीकें जटिल शोर वितरण को सटीक रूप से मॉडल करने में विफल रहती हैं। यह पेपर एक नोवल यथार्थवादी शोर संश्लेषण विसरणकारी (RNSD) विधि प्रस्तावित करता है जो इन चुनौतियों को हल करने के लिए विसरण मॉडल का उपयोग करता है। कैमरा सेटिंग्स को समय-सचेत कैमरा शर्त सजीन मॉड्यूलेशन (TCCAM) के रूप में एन्कोड करके, RNSD विभिन्न कैमरा स्थितियों के तहत अधिक यथार्थवादी शोर वितरण उत्पन्न करता है। इसके अतिरिक्त, RNSD बहु-स्केल सामग्री-सचेत मॉड्यूल (MCAM) को एकीकृत करता है, जो कई आवृत्तियों पर स्थानिक सहसंबंध वाले संरचित शोर उत्पन्न कर सकता है। पेपर गहन छवि पूर्वज्ञान पर आधारित एक सीखने योग्य नमूनाकरण अनुक्रम भी प्रस्तुत करता है—गहन छवि पूर्वज्ञान नमूनाकरण (DIPS)—जो संश्लेषित शोर की उच्च गुणवत्ता बनाए रखते हुए नमूनाकरण प्रक्रिया को महत्वपूर्ण रूप से तेज करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

गहन शिक्षा में छवि विनोइसिंग एक बीमार समस्या है, जिसमें आमतौर पर पर्यवेक्षित प्रशिक्षण के लिए बड़ी संख्या में शोर-स्वच्छ छवि जोड़ी की आवश्यकता होती है। RGB डोमेन में, शोर छवि y को इस प्रकार मॉडल किया जा सकता है:

y = ISP(s + n)

जहाँ s शोर-मुक्त संस्करण है, n छवि सिग्नल प्रसंस्करण (ISP) के बाद का शोर है।

मुख्य चुनौतियाँ

  1. अनियमित और विविध शोर वितरण: ISP पोस्ट-प्रोसेसिंग पैरामीटर (जैसे AWB, CCM, GAMMA) विभिन्न दृश्यों, चैनलों, ISO स्तरों और पिक्सेल के बीच गैर-समान शोर भिन्नता का कारण बनते हैं
  2. शोर की संरचना और स्थानिक सहसंबंध: स्थानिक रूप से सहसंबद्ध ISP संचालन (डेमोसैकिंग, विनोइसिंग, शार्पनिंग) शोर में स्थानीय संरचना पैटर्न प्रस्तुत करते हैं, जिससे इसकी संकेत-से-शोर अनुपात के साथ सहसंबंध बढ़ता है

मौजूदा विधियों की सीमाएँ

  • बहु-फ्रेम औसत विधि: प्राप्त करना कठिन है और विविध शोर प्रकार प्रदान नहीं कर सकता, संरचित शोर को संभाल नहीं सकता
  • पारंपरिक मॉडलिंग विधि: शोर को गाऊसी श्वेत शोर के रूप में मॉडल करता है, वास्तविक शोर में स्थानिक सहसंबंध को नजरअंदाज करता है
  • GAN विधि: कठोर संभावना फ़ंक्शन की कमी के कारण, अक्सर अस्थिरता और मोड पतन का सामना करता है, जिससे उत्पन्न शोर वास्तविक शोर वितरण से मेल नहीं खाता

मुख्य योगदान

  1. विसरण मॉडल पर आधारित वास्तविक शोर डेटा संश्लेषण विधि RNSD पहली बार प्रस्तावित करना
  2. समय-सचेत कैमरा शर्त सजीन मॉड्यूलेशन (TCCAM) डिजाइन करना, जो उत्पन्न शोर के वितरण और स्तर को बेहतर ढंग से नियंत्रित कर सकता है
  3. बहु-स्केल सामग्री-सचेत मॉड्यूल (MCAM) का निर्माण करना, जो बहु-आवृत्ति जानकारी युग्मन प्रस्तुत करता है, स्थानिक सहसंबंध वाले अधिक यथार्थवादी शोर उत्पन्न करता है
  4. गहन छवि पूर्वज्ञान नमूनाकरण (DIPS) प्रस्तावित करना: नेटवर्क पहले निम्न आवृत्ति फिर उच्च आवृत्ति घटकों को सीखने के गहन छवि पूर्वज्ञान के आधार पर, 1000-चरण मॉडल को केवल 5 चरणों तक कम करता है, केवल 4% सटीकता हानि के साथ
  5. कई बेंचमार्क और मेट्रिक्स पर अत्याधुनिक परिणाम प्राप्त करना, विनोइसिंग मॉडल के प्रदर्शन में महत्वपूर्ण सुधार

विधि विवरण

कार्य परिभाषा

इनपुट: स्वच्छ छवि s और कैमरा सेटिंग्स cs आउटपुट: वास्तविक शोर वितरण वाली शोर छवि y उद्देश्य: उत्पन्न शोर वास्तविक कैमरे द्वारा संबंधित सेटिंग्स के तहत उत्पन्न शोर वितरण से मेल खाना चाहिए

मॉडल आर्किटेक्चर

1. विसरण-आधारित शोर पीढ़ी

RNSD वास्तविक शोर छवि y को प्रारंभिक अवस्था x₀ के रूप में लेता है विसरण प्रक्रिया का निर्माण करने के लिए। DDPM की संभाव्य मॉडल को अपनाता है:

अग्रगामी प्रक्रिया:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

विपरीत प्रक्रिया:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. समय-सचेत कैमरा शर्त सजीन मॉड्यूलेशन (TCCAM)

विभिन्न स्थितियों के तहत विविध शोर वितरण को संभालने के लिए, TCCAM पाँच प्रमुख कारकों को एन्कोड करता है:

cs = φ(iso, ss, st, ct, bm)

जहाँ iso ISO मान है, ss शटर गति है, st सेंसर प्रकार है, ct रंग तापमान है, bm चमक मोड है।

TCCAM गतिशील सेटिंग तंत्र के माध्यम से कार्यान्वित होता है:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. बहु-स्केल सामग्री-सचेत मॉड्यूल (MCAM)

MCAM तीन डाउनसैंपलिंग चरणों पर xₜ और स्वच्छ छवि s की विशेषताएँ निकालता है:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. गहन छवि पूर्वज्ञान नमूनाकरण (DIPS)

नेटवर्क पहले निम्न आवृत्ति फिर उच्च आवृत्ति के अवलोकन पर आधारित, DIPS एक नई नमूनाकरण रणनीति प्रस्तावित करता है:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced एकल-चरण मॉडल आसवन का उपयोग करता है:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

तकनीकी नवाचार बिंदु

  1. शर्त विसरण डिजाइन: पहली बार विसरण मॉडल को शोर संश्लेषण में लागू करता है, कैमरा शर्त और सामग्री-सचेतता के माध्यम से सटीक नियंत्रण प्राप्त करता है
  2. समय-अनुकूली मॉड्यूलेशन: TCCAM नमूनाकरण चरण के अनुसार कैमरा सेटिंग्स प्रभाव वजन को गतिशील रूप से समायोजित करता है
  3. बहु-आवृत्ति युग्मन: MCAM कई स्केल पर शोर और छवि सामग्री के सहसंबंध को मॉडल करता है
  4. बुद्धिमान नमूनाकरण रणनीति: DIPS गहन छवि पूर्वज्ञान के आधार पर नमूनाकरण दक्षता में महत्वपूर्ण सुधार करता है

प्रायोगिक सेटअप

डेटासेट

  • SIDD: SIDD small (160 छवि जोड़े, 5 स्मार्टफोन कैमरों से) और SIDD medium (दोगुना शोर नमूनाकरण) शामिल
  • DND: 50 संदर्भ छवियाँ और सटीक सेंसर शोर मॉडल का उपयोग करके उत्पन्न वास्तविक शोर संबंधित छवियाँ
  • LSDIR: 84,991 उच्च गुणवत्ता वाली स्वच्छ नमूने

मूल्यांकन मेट्रिक्स

  • AKLD: शोर वितरण समानता का मूल्यांकन, जितना कम उतना अच्छा
  • PGap: शोर पीढ़ी गुणवत्ता का मूल्यांकन, जितना कम उतना अच्छा
  • PSNR/SSIM: विनोइसिंग मॉडल प्रदर्शन का मूल्यांकन

तुलना विधियाँ

  • C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA आदि शोर संश्लेषण विधियाँ
  • DnCNN, RIDNet, NAFNet आदि विनोइसिंग मॉडल

कार्यान्वयन विवरण

  • 1000-चरण DDPM प्रशिक्षण, ग्रेडिएंट संचय चरण 2, Adam अनुकूलक (lr=8×10⁻⁵)
  • प्रशिक्षण नमूने: 128×128 क्रॉप, बैच आकार 16
  • NVIDIA GeForce RTX 2080 Ti GPU 2×10⁵ पुनरावृत्तियों के लिए प्रशिक्षण
  • EMA क्षय 0.995

प्रायोगिक परिणाम

मुख्य परिणाम

शोर पीढ़ी गुणवत्ता तुलना

विधिAKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

RNSD AKLD पर SOTA से 0.027 सुधार, PGap में 0.30 की कमी, मौजूदा विधियों से महत्वपूर्ण रूप से बेहतर।

विनोइसिंग प्रदर्शन सुधार

RNSD संश्लेषित डेटा का उपयोग करके DnCNN को प्रशिक्षित करने पर PSNR 38.11dB तक पहुँचता है, वास्तविक डेटा प्रशिक्षण के 38.40dB के करीब, SOTA विधि से 0.75dB सुधार।

विलोपन प्रयोग

मॉड्यूल प्रभावशीलता सत्यापन

विधिAKLD↓
Baseline0.169
+ concat camera settings0.137
+ TCCAM0.126
+ MCAM0.117

DIPS नमूनाकरण दक्षता

चरणDDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

DIPS-Advanced 5-चरण नमूनाकरण में केवल 4% सटीकता हानि के साथ, DDIM से महत्वपूर्ण रूप से बेहतर।

डेटा वृद्धि प्रभाव

शोर नमूने बढ़ाना

SIDD सत्यापन सेट पर, RNSD वृद्धि के बाद:

  • DnCNN-B: PSNR में 0.57dB सुधार
  • RIDNet: PSNR में 0.54dB सुधार
  • NAFNet: PSNR में 0.61dB सुधार

दृश्य नमूना वृद्धि

LSDIR डेटा का उपयोग करके दृश्य विविधता बढ़ाना:

  • RIDNet SIDD पर 0.33dB, DND पर 0.14dB सुधार
  • NAFNet DND पर महत्वपूर्ण 0.62dB सुधार

संबंधित कार्य

शोर मॉडलिंग

पारंपरिक विधियाँ गाऊसी-पॉइसन मॉडल का उपयोग करती हैं, लेकिन जटिल ISP संचालन शोर नियमितता को नष्ट करते हैं और जटिल स्थानिक सहसंबंध प्रस्तुत करते हैं।

GAN विधि

हालाँकि GAN डेटा वितरण फिटिंग में मजबूत प्रदर्शन करते हैं, लेकिन स्पष्ट अधिकतम संभावना की कमी के कारण, अक्सर अस्थिरता और अभिसरण समस्याओं का सामना करते हैं।

विसरण विधि

विसरण मॉडल जटिल विविध वास्तविक शोर वितरण को संभाल सकते हैं, मोड पतन से बचते हैं और अधिक विविध परिणाम प्रदान करते हैं, लेकिन पहले संश्लेषित शोर पीढ़ी में प्रभावी रूप से लागू नहीं किए गए थे।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. RNSD पहली बार विसरण मॉडल को वास्तविक शोर संश्लेषण में सफलतापूर्वक लागू करता है, मौजूदा विधियों से महत्वपूर्ण रूप से बेहतर
  2. TCCAM और MCAM का डिजाइन कैमरा शर्त नियंत्रण और स्थानिक सहसंबंध मॉडलिंग समस्याओं को प्रभावी ढंग से हल करता है
  3. DIPS नमूनाकरण दक्षता में महत्वपूर्ण सुधार करता है, व्यावहारिक अनुप्रयोग को संभव बनाता है
  4. उत्पन्न संश्लेषित डेटा विनोइसिंग मॉडल प्रदर्शन और सामान्यीकरण क्षमता में महत्वपूर्ण सुधार कर सकता है

सीमाएँ

  1. प्रशिक्षण को पर्यवेक्षण के रूप में वास्तविक शोर डेटा की आवश्यकता होती है, कुछ अनुप्रयोग परिदृश्यों में डेटा प्राप्ति में कठिनाई अभी भी मौजूद है
  2. हालाँकि DIPS दक्षता में सुधार करता है, लेकिन सीधे वास्तविक डेटा का उपयोग करने की तुलना में अभी भी अतिरिक्त कम्प्यूटेशनल ओवरहेड की आवश्यकता है
  3. विधि मुख्य रूप से RGB डोमेन शोर पर केंद्रित है, RAW डोमेन शोर के लिए प्रयोज्यता को आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएँ

  1. अनुपर्यवेक्षित या कमजोर पर्यवेक्षित शोर संश्लेषण विधियों की खोज करना
  2. वीडियो शोर संश्लेषण और अन्य इमेजिंग तौर-तरीकों तक विस्तार करना
  3. नमूनाकरण दक्षता को आगे अनुकूलित करना, वास्तविक समय शोर पीढ़ी को प्राप्त करना

गहन मूल्यांकन

लाभ

  1. विधि नवाचार मजबूत: पहली बार विसरण मॉडल को शोर संश्लेषण में सफलतापूर्वक लागू करता है, प्रस्तावित TCCAM, MCAM, DIPS सभी स्पष्ट सैद्धांतिक प्रेरणा रखते हैं
  2. प्रयोग डिजाइन व्यापक: शोर गुणवत्ता, विनोइसिंग प्रदर्शन, विलोपन प्रयोग आदि कई आयामों से विधि प्रभावशीलता सत्यापित करता है
  3. व्यावहारिक अनुप्रयोग मूल्य उच्च: विनोइसिंग मॉडल प्रदर्शन में महत्वपूर्ण सुधार, वास्तविक प्रशिक्षण डेटा की कमी की व्यावहारिक समस्या को हल करता है
  4. तकनीकी विवरण पूर्ण: पूर्ण एल्गोरिथम प्रवाह और कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

कमियाँ

  1. कम्प्यूटेशनल जटिलता विश्लेषण अपर्याप्त: हालाँकि अनुमान समय का उल्लेख किया गया है, लेकिन विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण और मेमोरी खपत तुलना की कमी है
  2. सीमित सामान्यीकरण सत्यापन: मुख्य रूप से स्मार्टफोन कैमरा डेटा पर सत्यापित, अन्य प्रकार के कैमरों के लिए सामान्यीकरण क्षमता को अधिक सत्यापन की आवश्यकता है
  3. सैद्धांतिक विश्लेषण गहराई अपर्याप्त: विसरण मॉडल विशेष रूप से शोर संश्लेषण के लिए उपयुक्त क्यों हैं इसके गहन सैद्धांतिक विश्लेषण की कमी है

प्रभाव

  1. शैक्षणिक योगदान: शोर संश्लेषण क्षेत्र के लिए नई तकनीकी पथ प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है
  2. व्यावहारिक मूल्य: विनोइसिंग मॉडल प्रशिक्षण डेटा अपर्याप्तता की समस्या को व्यावहारिक रूप से हल कर सकता है
  3. पुनरुत्पादनशीलता: कोड और विस्तृत कार्यान्वयन प्रदान करता है, शोधकर्ताओं को उपयोग और सुधार करने में सुविधा देता है

प्रयोज्य परिदृश्य

  1. छवि विनोइसिंग मॉडल प्रशिक्षण के लिए डेटा वृद्धि
  2. कैमरा शोर विशेषता विश्लेषण और मॉडलिंग
  3. छवि गुणवत्ता मूल्यांकन और अनुकूलन
  4. कम्प्यूटेशनल फोटोग्राफी संबंधित अनुप्रयोग

संदर्भ

पेपर विसरण मॉडल, शोर मॉडलिंग, छवि विनोइसिंग आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें DDPM, DDIM आदि शास्त्रीय विसरण मॉडल पेपर, साथ ही SIDD, DND आदि महत्वपूर्ण डेटासेट के संबंधित साहित्य शामिल हैं, जो कार्य के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।