2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

تركيب الضوضاء الواقعي باستخدام نماذج الانتشار

المعلومات الأساسية

  • معرّف الورقة: 2305.14022
  • العنوان: تركيب الضوضاء الواقعي باستخدام نماذج الانتشار
  • المؤلفون: تشي وو، مينجيان هان، تينج جيانج، تشنجتشي جيانج، جينتينج لوو، مان جيانج، هاوتشيانج فان، شوايتشنج ليو
  • المؤسسات: شركة ميجفي للتكنولوجيا، جامعة العلوم والتكنولوجيا الإلكترونية بالصين
  • التصنيف: cs.CV eess.IV
  • تاريخ النشر: 2 يناير 2025 (arXiv v4)
  • رابط الورقة: https://arxiv.org/abs/2305.14022
  • رابط الكود: https://github.com/wuqi-coder/RNSD

الملخص

تتطلب نماذج إزالة الضوضاء العميقة كميات كبيرة من بيانات التدريب من العالم الحقيقي، لكن هذه البيانات يصعب الحصول عليها. تواجه تقنيات تركيب الضوضاء الحالية صعوبات في نمذجة توزيعات الضوضاء المعقدة بدقة. تقترح هذه الورقة طريقة جديدة لمركب تركيب الضوضاء الواقعية (RNSD) باستخدام نماذج الانتشار لمعالجة هذه التحديات. من خلال ترميز إعدادات الكاميرا كتعديل أفيني للكاميرا المدرك للوقت (TCCAM)، ينتج RNSD توزيعات ضوضاء أكثر واقعية في ظروف كاميرا متنوعة. بالإضافة إلى ذلك، يدمج RNSD وحدة محتوى متعددة المقاييس (MCAM) قادرة على توليد ضوضاء منظمة ذات ارتباط مكاني على ترددات متعددة. تقدم الورقة أيضاً تسلسل أخذ عينات قابل للتعلم بناءً على الأولويات العميقة للصور - أخذ عينات الأولويات العميقة للصور (DIPS)، مما يسرع بشكل كبير عملية الأخذ مع الحفاظ على جودة عالية للضوضاء المركبة.

الخلفية البحثية والدافع

تعريف المشكلة

إزالة الضوضاء من الصور في التعلم العميق مشكلة سيئة التحديد، وعادة ما تتطلب عدداً كبيراً من أزواج الصور الضوضائية والنظيفة للتدريب الخاضع للإشراف. في مجال RGB، يمكن نمذجة الصورة الضوضائية y كما يلي:

y = ISP(s + n)

حيث s هي النسخة الخالية من الضوضاء، و n هي الضوضاء بعد معالجة إشارة الصورة (ISP).

التحديات الأساسية

  1. التوزيعات غير المنتظمة والمتنوعة للضوضاء: معاملات المعالجة اللاحقة لـ ISP (مثل AWB و CCM و GAMMA) تسبب تغييرات ضوضاء غير متجانسة عبر المشاهد والقنوات ومستويات ISO والبكسلات
  2. الطبيعة المنظمة والارتباط المكاني للضوضاء: العمليات المكانية المرتبطة بـ ISP (إزالة التشويش، إزالة الضوضاء، الشحذ) تدخل أنماط هيكلية محلية في الضوضاء، مما يزيد من ارتباطها بنسبة الإشارة إلى الضوضاء

قيود الطرق الموجودة

  • طرق المتوسط متعدد الإطارات: يصعب الحصول عليها ولا يمكنها توفير أنواع ضوضاء متنوعة، وغير قادرة على التعامل مع الضوضاء المنظمة
  • طرق النمذجة التقليدية: تنمذج الضوضاء كضوضاء بيضاء غاوسية، متجاهلة الارتباط المكاني في الضوضاء الحقيقية
  • طرق GAN: غالباً ما تواجه عدم الاستقرار وانهيار الأنماط بسبب افتقارها إلى دالة احتمالية صارمة، مما يؤدي إلى عدم تطابق بين الضوضاء المولدة والتوزيع الحقيقي

المساهمات الأساسية

  1. أول اقتراح لطريقة تركيب بيانات ضوضاء واقعية قائمة على نماذج الانتشار RNSD
  2. تصميم تعديل أفيني للكاميرا المدرك للوقت (TCCAM)، الذي يمكنه التحكم بشكل أفضل في توزيع ومستوى الضوضاء المولدة
  3. بناء وحدة محتوى متعددة المقاييس (MCAM)، مما يدخل معلومات متعددة الترددات، مما يولد ضوضاء أكثر واقعية ذات ارتباط مكاني
  4. اقتراح أخذ عينات الأولويات العميقة للصور (DIPS): بناءً على الملاحظة أن الشبكة تتعلم الترددات المنخفضة أولاً ثم الترددات العالية، يقلل من 1000 خطوة نموذج إلى 5 خطوات فقط، مع فقدان دقة بنسبة 4% فقط
  5. تحقيق نتائج متقدمة على معايير ومؤشرات متعددة، مما يحسن بشكل كبير أداء نموذج إزالة الضوضاء

شرح الطريقة

تعريف المهمة

الإدخال: صورة نظيفة s وإعدادات الكاميرا cs الإخراج: صورة ضوضائية y بتوزيع ضوضاء واقعي الهدف: يجب أن تطابق الضوضاء المولدة توزيع الضوضاء الذي تنتجه الكاميرا الحقيقية في الإعدادات المقابلة

معمارية النموذج

1. توليد الضوضاء القائم على الانتشار

يأخذ RNSD صورة الضوضاء الحقيقية y كحالة أولية x₀ لبناء عملية الانتشار. يستخدم النموذج الاحتمالي لـ DDPM:

العملية الأمامية:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

العملية العكسية:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. تعديل أفيني للكاميرا المدرك للوقت (TCCAM)

للتعامل مع توزيعات ضوضاء متنوعة في ظروف مختلفة، يرمز TCCAM خمسة عوامل رئيسية:

cs = φ(iso, ss, st, ct, bm)

حيث iso هي قيمة ISO، و ss هي سرعة الغالق، و st هي نوع المستشعر، و ct هي درجة حرارة اللون، و bm هي وضع السطوع.

يتم تنفيذ TCCAM من خلال آلية الإعداد الديناميكي:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. وحدة محتوى متعددة المقاييس (MCAM)

تستخرج MCAM ميزات xₜ والصورة النظيفة s في ثلاث مراحل أخذ عينات:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. أخذ عينات الأولويات العميقة للصور (DIPS)

بناءً على الملاحظة أن الشبكة تتعلم الترددات المنخفضة أولاً ثم الترددات العالية، تقترح DIPS استراتيجية أخذ عينات جديدة:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced تستخدم تقطير نموذج أحادي الخطوة:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

نقاط الابتكار التقني

  1. تصميم الانتشار المشروط: أول تطبيق لنماذج الانتشار في تركيب الضوضاء، مع تحقيق تحكم دقيق من خلال شروط الكاميرا والوعي بالمحتوى
  2. التعديل المتكيف مع الوقت: يقوم TCCAM بتعديل أوزان تأثير إعدادات الكاميرا بشكل ديناميكي وفقاً لخطوات الأخذ
  3. الاقتران متعدد الترددات: تنمذج MCAM الارتباط بين الضوضاء ومحتوى الصورة على مقاييس متعددة
  4. استراتيجية أخذ عينات ذكية: تحسن DIPS كفاءة الأخذ بشكل كبير بناءً على الأولويات العميقة للصور

إعداد التجارب

مجموعات البيانات

  • SIDD: تتضمن SIDD صغير (160 زوج صورة من 5 كاميرات هواتف ذكية) و SIDD متوسط (أخذ عينات ضوضاء مضاعف)
  • DND: 50 صورة مرجعية وصورها الضوضائية الحقيقية المقابلة المولدة باستخدام نموذج ضوضاء مستشعر دقيق
  • LSDIR: 84,991 عينة نظيفة عالية الجودة

مؤشرات التقييم

  • AKLD: تقييم تشابه توزيع الضوضاء، كلما انخفض كان أفضل
  • PGap: تقييم جودة توليد الضوضاء، كلما انخفض كان أفضل
  • PSNR/SSIM: تقييم أداء نموذج إزالة الضوضاء

طرق المقارنة

  • طرق تركيب الضوضاء: C2N و DANet و sRGB2Flow و GRDN و PNGAN و NeCA وغيرها
  • نماذج إزالة الضوضاء: DnCNN و RIDNet و NAFNet وغيرها

تفاصيل التنفيذ

  • تدريب DDPM لـ 1000 خطوة، تراكم التدرج 2، محسّن Adam (lr=8×10⁻⁵)
  • عينات التدريب: قص 128×128، حجم الدفعة 16
  • وحدة معالجة الرسومات NVIDIA GeForce RTX 2080 Ti، تدريب لـ 2×10⁵ تكرار
  • تحلل EMA 0.995

نتائج التجارب

النتائج الرئيسية

مقارنة جودة توليد الضوضاء

الطريقةAKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

يحقق RNSD تحسناً بمقدار 0.027 على AKLD مقارنة بـ SOTA، وانخفاض PGap بمقدار 0.30، متفوقاً بشكل كبير على الطرق الموجودة.

تحسن أداء إزالة الضوضاء

يصل PSNR لـ DnCNN المدرب على البيانات المركبة من RNSD إلى 38.11dB، وهو قريب من 38.40dB للتدريب على البيانات الحقيقية، مع تحسن بمقدار 0.75dB مقارنة بطرق SOTA.

تجارب الاستئصال

التحقق من فعالية الوحدات

الطريقةAKLD↓
الخط الأساسي0.169
+ ربط إعدادات الكاميرا0.137
+ TCCAM0.126
+ MCAM0.117

كفاءة أخذ عينات DIPS

الخطواتDDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

يحقق DIPS-Advanced في أخذ عينات 5 خطوات فقط فقدان دقة بنسبة 4%، متفوقاً بشكل كبير على DDIM.

تأثير تعزيز البيانات

زيادة عينات الضوضاء

على مجموعة التحقق من SIDD، بعد التعزيز باستخدام RNSD:

  • DnCNN-B: تحسن PSNR بمقدار 0.57dB
  • RIDNet: تحسن PSNR بمقدار 0.54dB
  • NAFNet: تحسن PSNR بمقدار 0.61dB

تعزيز عينات المشهد

استخدام بيانات LSDIR لتعزيز تنوع المشهد:

  • RIDNet تحسن بمقدار 0.33dB على SIDD وبمقدار 0.14dB على DND
  • NAFNet تحسن بشكل كبير بمقدار 0.62dB على DND

الأعمال ذات الصلة

نمذجة الضوضاء

تستخدم الطرق التقليدية نموذج غاوسي-بواسون، لكن عمليات ISP المعقدة تكسر انتظام الضوضاء وتدخل ارتباطاً مكانياً معقداً.

طرق GAN

على الرغم من أن GAN تظهر أداءً قوية في ملاءمة توزيع البيانات، إلا أنها غالباً ما تواجه عدم الاستقرار ومشاكل التقارب السيئة بسبب افتقارها إلى احتمالية قصوى صريحة.

طرق الانتشار

يمكن لنماذج الانتشار التعامل مع توزيعات ضوضاء حقيقية معقدة ومتنوعة، وتجنب انهيار الأنماط وتوفير نتائج أكثر تنوعاً، لكن لم يتم تطبيقها بشكل فعال سابقاً على توليد الضوضاء المركبة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجح RNSD لأول مرة في تطبيق نماذج الانتشار على تركيب الضوضاء الواقعية، متفوقاً بشكل كبير على الطرق الموجودة
  2. يحل تصميم TCCAM و MCAM بشكل فعال مشاكل التحكم في ظروف الكاميرا ونمذجة الارتباط المكاني
  3. يحسن DIPS كفاءة الأخذ بشكل كبير، مما يجعل التطبيق العملي ممكناً
  4. يمكن للبيانات المركبة المولدة أن تحسن بشكل كبير أداء ونقل نموذج إزالة الضوضاء

القيود

  1. يتطلب التدريب بيانات ضوضاء حقيقية كإشراف، مما يظل يشكل صعوبة في الحصول على البيانات في بعض سيناريوهات التطبيق
  2. على الرغم من أن DIPS يحسن الكفاءة، إلا أنه لا يزال يتطلب تكاليف حسابية إضافية مقارنة باستخدام البيانات الحقيقية مباشرة
  3. تركز الطريقة بشكل أساسي على ضوضاء مجال RGB، وتحتاج قابلية التطبيق على ضوضاء مجال RAW إلى مزيد من التحقق

الاتجاهات المستقبلية

  1. استكشاف طرق تركيب ضوضاء غير خاضعة للإشراف أو ضعيفة الإشراف
  2. التوسع إلى تركيب ضوضاء الفيديو والأنماط التصويرية الأخرى
  3. تحسين كفاءة الأخذ بشكل أكبر، لتحقيق توليد ضوضاء في الوقت الفعلي

التقييم المتعمق

المزايا

  1. ابتكار الطريقة قوي: أول تطبيق ناجح لنماذج الانتشار في تركيب الضوضاء، مع وجود دوافع نظرية واضحة لـ TCCAM و MCAM و DIPS
  2. تصميم التجارب شامل: التحقق من فعالية الطريقة من أبعاد متعددة بما في ذلك جودة الضوضاء وأداء إزالة الضوضاء وتجارب الاستئصال
  3. قيمة التطبيق العملي عالية: تحسن بشكل كبير أداء نموذج إزالة الضوضاء، وحل المشكلة العملية لندرة بيانات التدريب الحقيقية
  4. تفاصيل تقنية كاملة: توفير عملية خوارزمية كاملة وتفاصيل التنفيذ، مما يسهل إعادة الإنتاج

أوجه القصور

  1. تحليل التعقيد الحسابي غير كافٍ: على الرغم من الإشارة إلى وقت الاستدلال، إلا أن هناك نقصاً في تحليل التعقيد الحسابي التفصيلي ومقارنة استهلاك الذاكرة
  2. التحقق من القابلية للتعميم محدود: التحقق بشكل أساسي على بيانات كاميرات الهواتف الذكية، وتحتاج قابلية التعميم على أنواع كاميرات أخرى إلى مزيد من التحقق
  3. عمق التحليل النظري غير كافٍ: نقص التحليل النظري العميق لسبب كون نماذج الانتشار مناسبة بشكل خاص لتركيب الضوضاء

التأثير

  1. المساهمة الأكاديمية: توفير مسار تقني جديد لمجال تركيب الضوضاء، قد يثير أبحاثاً لاحقة
  2. القيمة العملية: يمكن أن يحل فعلياً مشكلة نقص بيانات التدريب الحقيقية لنموذج إزالة الضوضاء
  3. قابلية إعادة الإنتاج: توفير الكود والتنفيذ التفصيلي، مما يسهل على الباحثين الاستخدام والتحسين

السيناريوهات المطبقة

  1. تعزيز البيانات لتدريب نموذج إزالة الضوضاء
  2. تحليل ونمذجة خصائص ضوضاء الكاميرا
  3. تقييم وتحسين جودة الصور
  4. التطبيقات المرتبطة بالتصوير الحسابي

المراجع

تستشهد الورقة بأعمال مهمة في مجالات نماذج الانتشار ونمذجة الضوضاء وإزالة الضوضاء من الصور، بما في ذلك أوراق نماذج الانتشار الكلاسيكية مثل DDPM و DDIM، وكذلك الأدب المتعلق بمجموعات البيانات المهمة مثل SIDD و DND، مما يوفر أساساً نظرياً متيناً للعمل.