Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
गहन विनोइसिंग मॉडल को बड़ी मात्रा में वास्तविक दुनिया के प्रशिक्षण डेटा की आवश्यकता होती है, लेकिन ऐसा डेटा प्राप्त करना कठिन है। मौजूदा शोर संश्लेषण तकनीकें जटिल शोर वितरण को सटीक रूप से मॉडल करने में विफल रहती हैं। यह पेपर एक नोवल यथार्थवादी शोर संश्लेषण विसरणकारी (RNSD) विधि प्रस्तावित करता है जो इन चुनौतियों को हल करने के लिए विसरण मॉडल का उपयोग करता है। कैमरा सेटिंग्स को समय-सचेत कैमरा शर्त सजीन मॉड्यूलेशन (TCCAM) के रूप में एन्कोड करके, RNSD विभिन्न कैमरा स्थितियों के तहत अधिक यथार्थवादी शोर वितरण उत्पन्न करता है। इसके अतिरिक्त, RNSD बहु-स्केल सामग्री-सचेत मॉड्यूल (MCAM) को एकीकृत करता है, जो कई आवृत्तियों पर स्थानिक सहसंबंध वाले संरचित शोर उत्पन्न कर सकता है। पेपर गहन छवि पूर्वज्ञान पर आधारित एक सीखने योग्य नमूनाकरण अनुक्रम भी प्रस्तुत करता है—गहन छवि पूर्वज्ञान नमूनाकरण (DIPS)—जो संश्लेषित शोर की उच्च गुणवत्ता बनाए रखते हुए नमूनाकरण प्रक्रिया को महत्वपूर्ण रूप से तेज करता है।
गहन शिक्षा में छवि विनोइसिंग एक बीमार समस्या है, जिसमें आमतौर पर पर्यवेक्षित प्रशिक्षण के लिए बड़ी संख्या में शोर-स्वच्छ छवि जोड़ी की आवश्यकता होती है। RGB डोमेन में, शोर छवि y को इस प्रकार मॉडल किया जा सकता है:
y = ISP(s + n)
जहाँ s शोर-मुक्त संस्करण है, n छवि सिग्नल प्रसंस्करण (ISP) के बाद का शोर है।
अनियमित और विविध शोर वितरण: ISP पोस्ट-प्रोसेसिंग पैरामीटर (जैसे AWB, CCM, GAMMA) विभिन्न दृश्यों, चैनलों, ISO स्तरों और पिक्सेल के बीच गैर-समान शोर भिन्नता का कारण बनते हैं
शोर की संरचना और स्थानिक सहसंबंध: स्थानिक रूप से सहसंबद्ध ISP संचालन (डेमोसैकिंग, विनोइसिंग, शार्पनिंग) शोर में स्थानीय संरचना पैटर्न प्रस्तुत करते हैं, जिससे इसकी संकेत-से-शोर अनुपात के साथ सहसंबंध बढ़ता है
विसरण मॉडल पर आधारित वास्तविक शोर डेटा संश्लेषण विधि RNSD पहली बार प्रस्तावित करना
समय-सचेत कैमरा शर्त सजीन मॉड्यूलेशन (TCCAM) डिजाइन करना, जो उत्पन्न शोर के वितरण और स्तर को बेहतर ढंग से नियंत्रित कर सकता है
बहु-स्केल सामग्री-सचेत मॉड्यूल (MCAM) का निर्माण करना, जो बहु-आवृत्ति जानकारी युग्मन प्रस्तुत करता है, स्थानिक सहसंबंध वाले अधिक यथार्थवादी शोर उत्पन्न करता है
गहन छवि पूर्वज्ञान नमूनाकरण (DIPS) प्रस्तावित करना: नेटवर्क पहले निम्न आवृत्ति फिर उच्च आवृत्ति घटकों को सीखने के गहन छवि पूर्वज्ञान के आधार पर, 1000-चरण मॉडल को केवल 5 चरणों तक कम करता है, केवल 4% सटीकता हानि के साथ
कई बेंचमार्क और मेट्रिक्स पर अत्याधुनिक परिणाम प्राप्त करना, विनोइसिंग मॉडल के प्रदर्शन में महत्वपूर्ण सुधार
इनपुट: स्वच्छ छवि s और कैमरा सेटिंग्स cs
आउटपुट: वास्तविक शोर वितरण वाली शोर छवि y
उद्देश्य: उत्पन्न शोर वास्तविक कैमरे द्वारा संबंधित सेटिंग्स के तहत उत्पन्न शोर वितरण से मेल खाना चाहिए
RNSD संश्लेषित डेटा का उपयोग करके DnCNN को प्रशिक्षित करने पर PSNR 38.11dB तक पहुँचता है, वास्तविक डेटा प्रशिक्षण के 38.40dB के करीब, SOTA विधि से 0.75dB सुधार।
हालाँकि GAN डेटा वितरण फिटिंग में मजबूत प्रदर्शन करते हैं, लेकिन स्पष्ट अधिकतम संभावना की कमी के कारण, अक्सर अस्थिरता और अभिसरण समस्याओं का सामना करते हैं।
विसरण मॉडल जटिल विविध वास्तविक शोर वितरण को संभाल सकते हैं, मोड पतन से बचते हैं और अधिक विविध परिणाम प्रदान करते हैं, लेकिन पहले संश्लेषित शोर पीढ़ी में प्रभावी रूप से लागू नहीं किए गए थे।
विधि नवाचार मजबूत: पहली बार विसरण मॉडल को शोर संश्लेषण में सफलतापूर्वक लागू करता है, प्रस्तावित TCCAM, MCAM, DIPS सभी स्पष्ट सैद्धांतिक प्रेरणा रखते हैं
प्रयोग डिजाइन व्यापक: शोर गुणवत्ता, विनोइसिंग प्रदर्शन, विलोपन प्रयोग आदि कई आयामों से विधि प्रभावशीलता सत्यापित करता है
व्यावहारिक अनुप्रयोग मूल्य उच्च: विनोइसिंग मॉडल प्रदर्शन में महत्वपूर्ण सुधार, वास्तविक प्रशिक्षण डेटा की कमी की व्यावहारिक समस्या को हल करता है
तकनीकी विवरण पूर्ण: पूर्ण एल्गोरिथम प्रवाह और कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है
कम्प्यूटेशनल जटिलता विश्लेषण अपर्याप्त: हालाँकि अनुमान समय का उल्लेख किया गया है, लेकिन विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण और मेमोरी खपत तुलना की कमी है
सीमित सामान्यीकरण सत्यापन: मुख्य रूप से स्मार्टफोन कैमरा डेटा पर सत्यापित, अन्य प्रकार के कैमरों के लिए सामान्यीकरण क्षमता को अधिक सत्यापन की आवश्यकता है
सैद्धांतिक विश्लेषण गहराई अपर्याप्त: विसरण मॉडल विशेष रूप से शोर संश्लेषण के लिए उपयुक्त क्यों हैं इसके गहन सैद्धांतिक विश्लेषण की कमी है
पेपर विसरण मॉडल, शोर मॉडलिंग, छवि विनोइसिंग आदि क्षेत्रों के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें DDPM, DDIM आदि शास्त्रीय विसरण मॉडल पेपर, साथ ही SIDD, DND आदि महत्वपूर्ण डेटासेट के संबंधित साहित्य शामिल हैं, जो कार्य के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।