Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
تتطلب نماذج إزالة الضوضاء العميقة كميات كبيرة من بيانات التدريب من العالم الحقيقي، لكن هذه البيانات يصعب الحصول عليها. تواجه تقنيات تركيب الضوضاء الحالية صعوبات في نمذجة توزيعات الضوضاء المعقدة بدقة. تقترح هذه الورقة طريقة جديدة لمركب تركيب الضوضاء الواقعية (RNSD) باستخدام نماذج الانتشار لمعالجة هذه التحديات. من خلال ترميز إعدادات الكاميرا كتعديل أفيني للكاميرا المدرك للوقت (TCCAM)، ينتج RNSD توزيعات ضوضاء أكثر واقعية في ظروف كاميرا متنوعة. بالإضافة إلى ذلك، يدمج RNSD وحدة محتوى متعددة المقاييس (MCAM) قادرة على توليد ضوضاء منظمة ذات ارتباط مكاني على ترددات متعددة. تقدم الورقة أيضاً تسلسل أخذ عينات قابل للتعلم بناءً على الأولويات العميقة للصور - أخذ عينات الأولويات العميقة للصور (DIPS)، مما يسرع بشكل كبير عملية الأخذ مع الحفاظ على جودة عالية للضوضاء المركبة.
إزالة الضوضاء من الصور في التعلم العميق مشكلة سيئة التحديد، وعادة ما تتطلب عدداً كبيراً من أزواج الصور الضوضائية والنظيفة للتدريب الخاضع للإشراف. في مجال RGB، يمكن نمذجة الصورة الضوضائية y كما يلي:
y = ISP(s + n)
حيث s هي النسخة الخالية من الضوضاء، و n هي الضوضاء بعد معالجة إشارة الصورة (ISP).
التوزيعات غير المنتظمة والمتنوعة للضوضاء: معاملات المعالجة اللاحقة لـ ISP (مثل AWB و CCM و GAMMA) تسبب تغييرات ضوضاء غير متجانسة عبر المشاهد والقنوات ومستويات ISO والبكسلات
الطبيعة المنظمة والارتباط المكاني للضوضاء: العمليات المكانية المرتبطة بـ ISP (إزالة التشويش، إزالة الضوضاء، الشحذ) تدخل أنماط هيكلية محلية في الضوضاء، مما يزيد من ارتباطها بنسبة الإشارة إلى الضوضاء
طرق المتوسط متعدد الإطارات: يصعب الحصول عليها ولا يمكنها توفير أنواع ضوضاء متنوعة، وغير قادرة على التعامل مع الضوضاء المنظمة
طرق النمذجة التقليدية: تنمذج الضوضاء كضوضاء بيضاء غاوسية، متجاهلة الارتباط المكاني في الضوضاء الحقيقية
طرق GAN: غالباً ما تواجه عدم الاستقرار وانهيار الأنماط بسبب افتقارها إلى دالة احتمالية صارمة، مما يؤدي إلى عدم تطابق بين الضوضاء المولدة والتوزيع الحقيقي
أول اقتراح لطريقة تركيب بيانات ضوضاء واقعية قائمة على نماذج الانتشار RNSD
تصميم تعديل أفيني للكاميرا المدرك للوقت (TCCAM)، الذي يمكنه التحكم بشكل أفضل في توزيع ومستوى الضوضاء المولدة
بناء وحدة محتوى متعددة المقاييس (MCAM)، مما يدخل معلومات متعددة الترددات، مما يولد ضوضاء أكثر واقعية ذات ارتباط مكاني
اقتراح أخذ عينات الأولويات العميقة للصور (DIPS): بناءً على الملاحظة أن الشبكة تتعلم الترددات المنخفضة أولاً ثم الترددات العالية، يقلل من 1000 خطوة نموذج إلى 5 خطوات فقط، مع فقدان دقة بنسبة 4% فقط
تحقيق نتائج متقدمة على معايير ومؤشرات متعددة، مما يحسن بشكل كبير أداء نموذج إزالة الضوضاء
الإدخال: صورة نظيفة s وإعدادات الكاميرا cs
الإخراج: صورة ضوضائية y بتوزيع ضوضاء واقعي
الهدف: يجب أن تطابق الضوضاء المولدة توزيع الضوضاء الذي تنتجه الكاميرا الحقيقية في الإعدادات المقابلة
يصل PSNR لـ DnCNN المدرب على البيانات المركبة من RNSD إلى 38.11dB، وهو قريب من 38.40dB للتدريب على البيانات الحقيقية، مع تحسن بمقدار 0.75dB مقارنة بطرق SOTA.
على الرغم من أن GAN تظهر أداءً قوية في ملاءمة توزيع البيانات، إلا أنها غالباً ما تواجه عدم الاستقرار ومشاكل التقارب السيئة بسبب افتقارها إلى احتمالية قصوى صريحة.
يمكن لنماذج الانتشار التعامل مع توزيعات ضوضاء حقيقية معقدة ومتنوعة، وتجنب انهيار الأنماط وتوفير نتائج أكثر تنوعاً، لكن لم يتم تطبيقها بشكل فعال سابقاً على توليد الضوضاء المركبة.
تستشهد الورقة بأعمال مهمة في مجالات نماذج الانتشار ونمذجة الضوضاء وإزالة الضوضاء من الصور، بما في ذلك أوراق نماذج الانتشار الكلاسيكية مثل DDPM و DDIM، وكذلك الأدب المتعلق بمجموعات البيانات المهمة مثل SIDD و DND، مما يوفر أساساً نظرياً متيناً للعمل.