2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

বাস্তবসম্মত শব্দ সংশ্লেষণ বিস্তার মডেলের সাথে

মৌলিক তথ্য

  • পেপার আইডি: 2305.14022
  • শিরোনাম: বাস্তবসম্মত শব্দ সংশ্লেষণ বিস্তার মডেলের সাথে
  • লেখক: কি উ, মিংইয়ান হান, টিং জিয়াং, চেংজি জিয়াং, জিন্টিং লুও, ম্যান জিয়াং, হাওকিয়াং ফ্যান, শুয়াইচেং লিউ
  • প্রতিষ্ঠান: মেগভিআই প্রযুক্তি ইনক., চীনের ইলেকট্রনিক্স বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়
  • শ্রেণীবিভাগ: cs.CV eess.IV
  • প্রকাশনার সময়: ২০২৫ সালের ১ জানুয়ারি (arXiv v4)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2305.14022
  • কোড লিঙ্ক: https://github.com/wuqi-coder/RNSD

সারসংক্ষেপ

গভীর অপ্রশস্ত মডেলগুলির জন্য বিপুল পরিমাণে বাস্তব-বিশ্বের প্রশিক্ষণ ডেটা প্রয়োজন, তবে এই ধরনের ডেটা অর্জন করা অত্যন্ত কঠিন। বিদ্যমান শব্দ সংশ্লেষণ কৌশলগুলি জটিল শব্দ বিতরণ সঠিকভাবে মডেল করতে অসমর্থ। এই পেপারটি একটি উপন্যাস বাস্তবসম্মত শব্দ সংশ্লেষণ বিস্তারক (RNSD) পদ্ধতি প্রস্তাব করে যা এই চ্যালেঞ্জগুলি সমাধান করতে বিস্তার মডেল ব্যবহার করে। ক্যামেরা সেটিংসকে সময়-সচেতন ক্যামেরা শর্তযুক্ত অ্যাফাইন মডুলেশন (TCCAM) হিসাবে এনকোড করার মাধ্যমে, RNSD বিভিন্ন ক্যামেরা শর্তের অধীনে আরও বাস্তবসম্মত শব্দ বিতরণ তৈরি করে। অতিরিক্তভাবে, RNSD একটি বহু-স্কেল বিষয়বস্তু-সচেতন মডিউল (MCAM) একীভূত করে যা একাধিক ফ্রিকোয়েন্সিতে স্থানিক সম্পর্ক সহ কাঠামোগত শব্দ তৈরি করতে পারে। নিবন্ধটি গভীর চিত্র পূর্বাভাসের উপর ভিত্তি করে একটি শিক্ষণীয় নমুনা ক্রম প্রবর্তন করে—গভীর চিত্র পূর্বাভাস নমুনা (DIPS), যা সংশ্লেষিত শব্দের উচ্চ গুণমান বজায় রেখে নমুনা প্রক্রিয়াকে উল্লেখযোগ্যভাবে ত্বরান্বিত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

গভীর শিক্ষায় চিত্র অপ্রশস্তকরণ একটি অসুস্থ সমস্যা যা সাধারণত তত্ত্বাবধানকৃত প্রশিক্ষণের জন্য প্রচুর পরিমাণে শব্দ-পরিষ্কার চিত্র জোড়া প্রয়োজন। RGB ডোমেনে, শব্দ চিত্র y মডেল করা যায়:

y = ISP(s + n)

যেখানে s হল শব্দমুক্ত সংস্করণ এবং n হল চিত্র সংকেত প্রক্রিয়াকরণ (ISP) এর পরে শব্দ।

মূল চ্যালেঞ্জগুলি

  1. অনিয়মিত এবং বৈচিত্র্যময় শব্দ বিতরণ: ISP পরবর্তী-প্রক্রিয়াকরণ পরামিতি (যেমন AWB, CCM, GAMMA) বিভিন্ন দৃশ্য, চ্যানেল, ISO স্তর এবং পিক্সেল জুড়ে অ-সমান শব্দ পরিবর্তন ঘটায়
  2. শব্দের কাঠামোগত এবং স্থানিক সম্পর্ক: স্থানিয়ভাবে সম্পর্কিত ISP অপারেশন (ডেমোসাইসিং, অপ্রশস্তকরণ, তীক্ষ্ণকরণ) শব্দে স্থানীয় কাঠামো প্যাটার্ন প্রবর্তন করে, এর সংকেত-থেকে-শব্দ অনুপাতের সাথে সম্পর্ক বৃদ্ধি করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • বহু-ফ্রেম গড় পদ্ধতি: অর্জন করা কঠিন এবং বৈচিত্র্যময় শব্দ প্রকার প্রদান করতে পারে না, কাঠামোগত শব্দ পরিচালনা করতে পারে না
  • ঐতিহ্যবাহী মডেলিং পদ্ধতি: শব্দকে গাউসীয় সাদা শব্দ হিসাবে মডেল করে, বাস্তব শব্দে স্থানিক সম্পর্ক উপেক্ষা করে
  • GAN পদ্ধতি: কঠোর সম্ভাবনা ফাংশনের অভাবের কারণে প্রায়শই অস্থিরতা এবং মোড সংকোচনের সম্মুখীন হয়, যার ফলে উৎপাদিত শব্দ বাস্তব শব্দ বিতরণের সাথে মেলে না

মূল অবদান

  1. বিস্তার মডেলের উপর ভিত্তি করে বাস্তব শব্দ ডেটা সংশ্লেষণের জন্য প্রথম পদ্ধতি RNSD প্রস্তাব করা
  2. সময়-সচেতন ক্যামেরা শর্তযুক্ত অ্যাফাইন মডুলেশন (TCCAM) ডিজাইন করা, যা উৎপাদিত শব্দের বিতরণ এবং স্তর আরও ভালভাবে নিয়ন্ত্রণ করতে পারে
  3. বহু-স্কেল বিষয়বস্তু-সচেতন মডিউল (MCAM) নির্মাণ করা, বহু-ফ্রিকোয়েন্সি তথ্য সংযোগ প্রবর্তন করে, স্থানিক সম্পর্ক সহ আরও বাস্তবসম্মত শব্দ তৈরি করে
  4. গভীর চিত্র পূর্বাভাস নমুনা (DIPS) প্রস্তাব করা: নেটওয়ার্ক প্রথমে নিম্ন ফ্রিকোয়েন্সি এবং তারপর উচ্চ ফ্রিকোয়েন্সি উপাদান শেখার গভীর চিত্র পূর্বাভাসের উপর ভিত্তি করে, ১০০০ ধাপের মডেলকে মাত্র ৫ ধাপে হ্রাস করে, নির্ভুলতার ক্ষতি মাত্র ৪%
  5. একাধিক বেঞ্চমার্ক এবং মেট্রিক্সে অত্যাধুনিক ফলাফল অর্জন করা, অপ্রশস্তকরণ মডেলের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: পরিষ্কার চিত্র s এবং ক্যামেরা সেটিংস cs আউটপুট: বাস্তবসম্মত শব্দ বিতরণ সহ শব্দ চিত্র y লক্ষ্য: উৎপাদিত শব্দ সংশ্লিষ্ট সেটিংসের অধীনে বাস্তব ক্যামেরা দ্বারা উৎপাদিত শব্দ বিতরণের সাথে মেলে

মডেল আর্কিটেকচার

১. বিস্তার-ভিত্তিক শব্দ প্রজন্ম

RNSD বাস্তব শব্দ চিত্র y কে প্রাথমিক অবস্থা x₀ হিসাবে ব্যবহার করে বিস্তার প্রক্রিয়া তৈরি করে। DDPM এর সম্ভাব্যতা মডেল গ্রহণ করে:

এগিয়ে যাওয়ার প্রক্রিয়া:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

বিপরীত প্রক্রিয়া:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

২. সময়-সচেতন ক্যামেরা শর্তযুক্ত অ্যাফাইন মডুলেশন (TCCAM)

বিভিন্ন শর্তের অধীনে বৈচিত্র্যময় শব্দ বিতরণ পরিচালনা করার জন্য, TCCAM পাঁচটি মূল কারণ এনকোড করে:

cs = φ(iso, ss, st, ct, bm)

যেখানে iso হল ISO মান, ss হল শাটার গতি, st হল সেন্সর প্রকার, ct হল রঙের তাপমাত্রা, bm হল উজ্জ্বলতা মোড।

TCCAM গতিশীল সেটিং মেকানিজমের মাধ্যমে বাস্তবায়িত হয়:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

३. বহু-স্কেল বিষয়বস্তু-সচেতন মডিউল (MCAM)

MCAM তিনটি ডাউনস্যাম্পলিং পর্যায়ে xₜ এবং পরিষ্কার চিত্র s এর বৈশিষ্ট্য নিষ্কাশন করে:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

४. গভীর চিত্র পূর্বাভাস নমুনা (DIPS)

নেটওয়ার্ক প্রথমে নিম্ন ফ্রিকোয়েন্সি এবং তারপর উচ্চ ফ্রিকোয়েন্সি শেখার পর্যবেক্ষণের উপর ভিত্তি করে, DIPS একটি নতুন নমুনা কৌশল প্রস্তাব করে:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced একক-ধাপ মডেল পাতন ব্যবহার করে:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. শর্তযুক্ত বিস্তার ডিজাইন: প্রথমবারের মতো বিস্তার মডেলকে শব্দ সংশ্লেষণে প্রয়োগ করা, ক্যামেরা শর্ত এবং বিষয়বস্তু-সচেতনতার মাধ্যমে নির্ভুল নিয়ন্ত্রণ বাস্তবায়ন করা
  2. সময় স্ব-অভিযোজিত মডুলেশন: TCCAM নমুনা পদক্ষেপ অনুযায়ী ক্যামেরা সেটিংসের প্রভাব ওজন গতিশীলভাবে সামঞ্জস্য করে
  3. বহু-ফ্রিকোয়েন্সি সংযোগ: MCAM একাধিক স্কেলে শব্দ এবং চিত্র বিষয়বস্তুর মধ্যে সম্পর্ক মডেল করে
  4. বুদ্ধিমান নমুনা কৌশল: DIPS গভীর চিত্র পূর্বাভাসের উপর ভিত্তি করে নমুনা দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • SIDD: SIDD ছোট (১৬০ চিত্র জোড়া, ৫টি স্মার্টফোন ক্যামেরা থেকে) এবং SIDD মাঝারি (দ্বিগুণ শব্দ নমুনা) অন্তর্ভুক্ত করে
  • DND: ৫০টি রেফারেন্স চিত্র এবং নির্ভুল সেন্সর শব্দ মডেল ব্যবহার করে উৎপাদিত সংশ্লিষ্ট বাস্তব শব্দ চিত্র
  • LSDIR: ৮৪,৯৯১টি উচ্চ-মানের পরিষ্কার নমুনা

মূল্যায়ন মেট্রিক্স

  • AKLD: শব্দ বিতরণ সাদৃশ্য মূল্যায়ন করে, যত কম তত ভাল
  • PGap: শব্দ প্রজন্ম গুণমান মূল্যায়ন করে, যত কম তত ভাল
  • PSNR/SSIM: অপ্রশস্তকরণ মডেল কর্মক্ষমতা মূল্যায়ন করে

তুলনামূলক পদ্ধতি

  • C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA ইত্যাদি শব্দ সংশ্লেষণ পদ্ধতি
  • DnCNN, RIDNet, NAFNet ইত্যাদি অপ্রশস্তকরণ মডেল

বাস্তবায়ন বিবরণ

  • ১০০০ ধাপ DDPM প্রশিক্ষণ, গ্রেডিয়েন্ট সংগ্রহ পদক্ষেপ ২, Adam অপ্টিমাইজার (lr=8×10⁻⁵)
  • প্রশিক্ষণ নমুনা: ১২৮×१२८ ক্রপ, ব্যাচ আকার ১६
  • NVIDIA GeForce RTX 2080 Ti GPU প্রশিক্ষণ २×१०⁵ পুনরাবৃত্তি
  • EMA ক্ষয় ०.९९५

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

শব্দ প্রজন্ম গুণমান তুলনা

পদ্ধতিAKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

RNSD AKLD-তে SOTA এর চেয়ে ०.०२७ উন্নতি করে, PGap ०.३० হ্রাস করে, বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল।

অপ্রশস্তকরণ কর্মক্ষমতা উন্নতি

RNSD সংশ্লেষিত ডেটা ব্যবহার করে DnCNN প্রশিক্ষণের PSNR ३८.११ dB এ পৌঁছায়, বাস্তব ডেটা প্রশিক্ষণের ३८.४० dB এর কাছাকাছি, SOTA পদ্ধতির চেয়ে ०.७५ dB উন্নতি।

বিলোপন পরীক্ষা

মডিউল কার্যকারিতা যাচাইকরণ

পদ্ধতিAKLD↓
Baseline0.169
+ concat camera settings0.137
+ TCCAM0.126
+ MCAM0.117

DIPS নমুনা দক্ষতা

ধাপDDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

DIPS-Advanced ৫ ধাপ নমুনায় মাত্র ४% নির্ভুলতার ক্ষতি সহ, DDIM এর চেয়ে উল্লেখযোগ্যভাবে ভাল।

ডেটা বর্ধন প্রভাব

শব্দ নমুনা বৃদ্ধি

SIDD যাচাইকরণ সেটে, RNSD বর্ধনের পরে:

  • DnCNN-B: PSNR ०.५७ dB উন্নতি
  • RIDNet: PSNR ०.५४ dB উন্নতি
  • NAFNet: PSNR ०.६१ dB উন্নতি

দৃশ্য নমুনা বর্ধন

LSDIR ডেটা ব্যবহার করে দৃশ্য বৈচিত্র্য বর্ধন:

  • RIDNet SIDD-তে ०.३३ dB, DND-তে ०.१४ dB উন্নতি
  • NAFNet DND-তে উল্লেখযোগ্য ०.६२ dB উন্নতি

সম্পর্কিত কাজ

শব্দ মডেলিং

ঐতিহ্যবাহী পদ্ধতি গাউসীয়-পয়সন মডেল ব্যবহার করে, তবে জটিল ISP অপারেশন শব্দ নিয়মিততা ভেঙে দেয় এবং জটিল স্থানিক সম্পর্ক প্রবর্তন করে।

GAN পদ্ধতি

যদিও GAN ডেটা বিতরণ ফিটিংয়ে শক্তিশালী পারফরম্যান্স দেখায়, তবে স্পষ্ট সর্বাধিক সম্ভাবনার অভাবের কারণে প্রায়শই অস্থিরতা এবং দুর্বল সংবেদনশীলতার সম্মুখীন হয়।

বিস্তার পদ্ধতি

বিস্তার মডেল জটিল এবং বৈচিত্র্যময় বাস্তব শব্দ বিতরণ পরিচালনা করতে পারে, মোড সংকোচন এড়ায় এবং আরও বৈচিত্র্যময় ফলাফল প্রদান করে, তবে এর আগে শব্দ সংশ্লেষণ প্রজন্মে কার্যকরভাবে প্রয়োগ করা হয়নি।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. RNSD প্রথমবারের মতো বাস্তব শব্দ সংশ্লেষণে বিস্তার মডেল সফলভাবে প্রয়োগ করে, বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল २. TCCAM এবং MCAM এর ডিজাইন ক্যামেরা শর্ত নিয়ন্ত্রণ এবং স্থানিক সম্পর্ক মডেলিং সমস্যা কার্যকরভাবে সমাধান করে ३. DIPS নমুনা দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে, বাস্তব প্রয়োগ সম্ভব করে তোলে ४. উৎপাদিত সংশ্লেষিত ডেটা অপ্রশস্তকরণ মডেল কর্মক্ষমতা এবং সাধারণীকরণ ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে

সীমাবদ্ধতা

१. প্রশিক্ষণের জন্য তত্ত্বাবধানের জন্য বাস্তব শব্দ ডেটা প্রয়োজন, নির্দিষ্ট প্রয়োগ দৃশ্যে ডেটা অধিগ্রহণ এখনও কঠিন २. যদিও DIPS দক্ষতা উন্নত করে, তবে সরাসরি বাস্তব ডেটা ব্যবহারের তুলনায় অতিরিক্ত গণনামূলক ওভারহেড প্রয়োজন ३. পদ্ধতি প্রধানত RGB ডোমেন শব্দের জন্য লক্ষ্য করা, RAW ডোমেন শব্দের প্রয়োজনীয়তা আরও যাচাইকরণ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. তত্ত্বাবধানহীন বা দুর্বল তত্ত্বাবধানকৃত শব্দ সংশ্লেষণ পদ্ধতি অন্বেষণ করা २. ভিডিও শব্দ সংশ্লেষণ এবং অন্যান্য ইমেজিং পদ্ধতিতে সম্প্রসারণ ३. নমুনা দক্ষতা আরও অপ্টিমাইজ করা, রিয়েল-টাইম শব্দ প্রজন্ম বাস্তবায়ন করা

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবন শক্তিশালী: প্রথমবারের মতো বিস্তার মডেলকে শব্দ সংশ্লেষণে সফলভাবে প্রয়োগ করা, প্রস্তাবিত TCCAM, MCAM, DIPS সবই স্পষ্ট তাত্ত্বিক প্রেরণা আছে २. পরীক্ষামূলক ডিজাইন পর্যাপ্ত: শব্দ গুণমান, অপ্রশস্তকরণ কর্মক্ষমতা, বিলোপন পরীক্ষা ইত্যাদি একাধিক মাত্রা থেকে পদ্ধতির কার্যকারিতা যাচাই করা ३. বাস্তব প্রয়োগ মূল্য উচ্চ: অপ্রশস্তকরণ মডেল কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, বাস্তব প্রশিক্ষণ ডেটা স্বল্পতার বাস্তব সমস্যা সমাধান করে ४. প্রযুক্তিগত বিবরণ সম্পূর্ণ: সম্পূর্ণ অ্যালগরিদম প্রবাহ এবং বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন সুবিধাজনক করে

অপূর্ণতা

१. গণনামূলক জটিলতা বিশ্লেষণ অপর্যাপ্ত: যদিও অনুমান সময় উল্লেখ করা হয়, তবে বিস্তারিত গণনামূলক জটিলতা বিশ্লেষণ এবং স্মৃতি খরচ তুলনা অনুপস্থিত २. সাধারণীকরণ যাচাইকরণ সীমিত: প্রধানত স্মার্টফোন ক্যামেরা ডেটায় যাচাই করা, অন্যান্য ধরনের ক্যামেরার সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন ३. তাত্ত্বিক বিশ্লেষণ গভীরতা অপর্যাপ্ত: কেন বিস্তার মডেল বিশেষভাবে শব্দ সংশ্লেষণের জন্য উপযুক্ত তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত

প্রভাব

१. একাডেমিক অবদান: শব্দ সংশ্লেষণ ক্ষেত্রে নতুন প্রযুক্তি পথ প্রদান করে, পরবর্তী গবেষণা উদ্দীপিত করতে পারে २. ব্যবহারিক মূল্য: অপ্রশস্তকরণ মডেল প্রশিক্ষণ ডেটা অভাবের সমস্যা বাস্তবে সমাধান করতে পারে ३. পুনরুৎপাদনযোগ্যতা: কোড এবং বিস্তারিত বাস্তবায়ন প্রদান করে, গবেষকদের ব্যবহার এবং উন্নতি সুবিধাজনক করে

প্রযোজ্য দৃশ্য

१. চিত্র অপ্রশস্তকরণ মডেল প্রশিক্ষণের ডেটা বর্ধন २. ক্যামেরা শব্দ বৈশিষ্ট্য বিশ্লেষণ এবং মডেলিং ३. চিত্র গুণমান মূল্যায়ন এবং অপ্টিমাইজেশন ४. গণনামূলক ফটোগ্রাফি সম্পর্কিত প্রয়োগ

সংদর্ভ

পেপারটি বিস্তার মডেল, শব্দ মডেলিং, চিত্র অপ্রশস্তকরণ ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, DDPM, DDIM ইত্যাদি ক্লাসিক বিস্তার মডেল পেপার এবং SIDD, DND ইত্যাদি গুরুত্বপূর্ণ ডেটাসেটের সম্পর্কিত সাহিত্য অন্তর্ভুক্ত করে, কাজের জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।