গভীর অপ্রশস্ত মডেলগুলির জন্য বিপুল পরিমাণে বাস্তব-বিশ্বের প্রশিক্ষণ ডেটা প্রয়োজন, তবে এই ধরনের ডেটা অর্জন করা অত্যন্ত কঠিন। বিদ্যমান শব্দ সংশ্লেষণ কৌশলগুলি জটিল শব্দ বিতরণ সঠিকভাবে মডেল করতে অসমর্থ। এই পেপারটি একটি উপন্যাস বাস্তবসম্মত শব্দ সংশ্লেষণ বিস্তারক (RNSD) পদ্ধতি প্রস্তাব করে যা এই চ্যালেঞ্জগুলি সমাধান করতে বিস্তার মডেল ব্যবহার করে। ক্যামেরা সেটিংসকে সময়-সচেতন ক্যামেরা শর্তযুক্ত অ্যাফাইন মডুলেশন (TCCAM) হিসাবে এনকোড করার মাধ্যমে, RNSD বিভিন্ন ক্যামেরা শর্তের অধীনে আরও বাস্তবসম্মত শব্দ বিতরণ তৈরি করে। অতিরিক্তভাবে, RNSD একটি বহু-স্কেল বিষয়বস্তু-সচেতন মডিউল (MCAM) একীভূত করে যা একাধিক ফ্রিকোয়েন্সিতে স্থানিক সম্পর্ক সহ কাঠামোগত শব্দ তৈরি করতে পারে। নিবন্ধটি গভীর চিত্র পূর্বাভাসের উপর ভিত্তি করে একটি শিক্ষণীয় নমুনা ক্রম প্রবর্তন করে—গভীর চিত্র পূর্বাভাস নমুনা (DIPS), যা সংশ্লেষিত শব্দের উচ্চ গুণমান বজায় রেখে নমুনা প্রক্রিয়াকে উল্লেখযোগ্যভাবে ত্বরান্বিত করে।
গভীর শিক্ষায় চিত্র অপ্রশস্তকরণ একটি অসুস্থ সমস্যা যা সাধারণত তত্ত্বাবধানকৃত প্রশিক্ষণের জন্য প্রচুর পরিমাণে শব্দ-পরিষ্কার চিত্র জোড়া প্রয়োজন। RGB ডোমেনে, শব্দ চিত্র y মডেল করা যায়:
y = ISP(s + n)
যেখানে s হল শব্দমুক্ত সংস্করণ এবং n হল চিত্র সংকেত প্রক্রিয়াকরণ (ISP) এর পরে শব্দ।
ইনপুট: পরিষ্কার চিত্র s এবং ক্যামেরা সেটিংস cs আউটপুট: বাস্তবসম্মত শব্দ বিতরণ সহ শব্দ চিত্র y লক্ষ্য: উৎপাদিত শব্দ সংশ্লিষ্ট সেটিংসের অধীনে বাস্তব ক্যামেরা দ্বারা উৎপাদিত শব্দ বিতরণের সাথে মেলে
RNSD বাস্তব শব্দ চিত্র y কে প্রাথমিক অবস্থা x₀ হিসাবে ব্যবহার করে বিস্তার প্রক্রিয়া তৈরি করে। DDPM এর সম্ভাব্যতা মডেল গ্রহণ করে:
এগিয়ে যাওয়ার প্রক্রিয়া:
q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)
বিপরীত প্রক্রিয়া:
pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)
বিভিন্ন শর্তের অধীনে বৈচিত্র্যময় শব্দ বিতরণ পরিচালনা করার জন্য, TCCAM পাঁচটি মূল কারণ এনকোড করে:
cs = φ(iso, ss, st, ct, bm)
যেখানে iso হল ISO মান, ss হল শাটার গতি, st হল সেন্সর প্রকার, ct হল রঙের তাপমাত্রা, bm হল উজ্জ্বলতা মোড।
TCCAM গতিশীল সেটিং মেকানিজমের মাধ্যমে বাস্তবায়িত হয়:
γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β
MCAM তিনটি ডাউনস্যাম্পলিং পর্যায়ে xₜ এবং পরিষ্কার চিত্র s এর বৈশিষ্ট্য নিষ্কাশন করে:
F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))
নেটওয়ার্ক প্রথমে নিম্ন ফ্রিকোয়েন্সি এবং তারপর উচ্চ ফ্রিকোয়েন্সি শেখার পর্যবেক্ষণের উপর ভিত্তি করে, DIPS একটি নতুন নমুনা কৌশল প্রস্তাব করে:
t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)
DIPS-Advanced একক-ধাপ মডেল পাতন ব্যবহার করে:
∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||
| পদ্ধতি | AKLD↓ | PGap↓ |
|---|---|---|
| GRDN | 0.443 | 2.28 |
| C2N | 0.314 | 6.85 |
| sRGB2Flow | 0.237 | 6.3 |
| DANet | 0.212 | 2.06 |
| NeCA | 0.156 | 0.97 |
| PNGAN | 0.153 | 0.84 |
| RNSD | 0.117 | 0.54 |
RNSD AKLD-তে SOTA এর চেয়ে ०.०२७ উন্নতি করে, PGap ०.३० হ্রাস করে, বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল।
RNSD সংশ্লেষিত ডেটা ব্যবহার করে DnCNN প্রশিক্ষণের PSNR ३८.११ dB এ পৌঁছায়, বাস্তব ডেটা প্রশিক্ষণের ३८.४० dB এর কাছাকাছি, SOTA পদ্ধতির চেয়ে ०.७५ dB উন্নতি।
| পদ্ধতি | AKLD↓ |
|---|---|
| Baseline | 0.169 |
| + concat camera settings | 0.137 |
| + TCCAM | 0.126 |
| + MCAM | 0.117 |
| ধাপ | DDIM | DIPS-Basic | DIPS-Advanced |
|---|---|---|---|
| 5 | 0.356 | 0.208 | 0.122 |
| 30 | 0.131 | 0.117 | 0.120 |
DIPS-Advanced ৫ ধাপ নমুনায় মাত্র ४% নির্ভুলতার ক্ষতি সহ, DDIM এর চেয়ে উল্লেখযোগ্যভাবে ভাল।
SIDD যাচাইকরণ সেটে, RNSD বর্ধনের পরে:
LSDIR ডেটা ব্যবহার করে দৃশ্য বৈচিত্র্য বর্ধন:
ঐতিহ্যবাহী পদ্ধতি গাউসীয়-পয়সন মডেল ব্যবহার করে, তবে জটিল ISP অপারেশন শব্দ নিয়মিততা ভেঙে দেয় এবং জটিল স্থানিক সম্পর্ক প্রবর্তন করে।
যদিও GAN ডেটা বিতরণ ফিটিংয়ে শক্তিশালী পারফরম্যান্স দেখায়, তবে স্পষ্ট সর্বাধিক সম্ভাবনার অভাবের কারণে প্রায়শই অস্থিরতা এবং দুর্বল সংবেদনশীলতার সম্মুখীন হয়।
বিস্তার মডেল জটিল এবং বৈচিত্র্যময় বাস্তব শব্দ বিতরণ পরিচালনা করতে পারে, মোড সংকোচন এড়ায় এবং আরও বৈচিত্র্যময় ফলাফল প্রদান করে, তবে এর আগে শব্দ সংশ্লেষণ প্রজন্মে কার্যকরভাবে প্রয়োগ করা হয়নি।
१. RNSD প্রথমবারের মতো বাস্তব শব্দ সংশ্লেষণে বিস্তার মডেল সফলভাবে প্রয়োগ করে, বিদ্যমান পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল २. TCCAM এবং MCAM এর ডিজাইন ক্যামেরা শর্ত নিয়ন্ত্রণ এবং স্থানিক সম্পর্ক মডেলিং সমস্যা কার্যকরভাবে সমাধান করে ३. DIPS নমুনা দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে, বাস্তব প্রয়োগ সম্ভব করে তোলে ४. উৎপাদিত সংশ্লেষিত ডেটা অপ্রশস্তকরণ মডেল কর্মক্ষমতা এবং সাধারণীকরণ ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে
१. প্রশিক্ষণের জন্য তত্ত্বাবধানের জন্য বাস্তব শব্দ ডেটা প্রয়োজন, নির্দিষ্ট প্রয়োগ দৃশ্যে ডেটা অধিগ্রহণ এখনও কঠিন २. যদিও DIPS দক্ষতা উন্নত করে, তবে সরাসরি বাস্তব ডেটা ব্যবহারের তুলনায় অতিরিক্ত গণনামূলক ওভারহেড প্রয়োজন ३. পদ্ধতি প্রধানত RGB ডোমেন শব্দের জন্য লক্ষ্য করা, RAW ডোমেন শব্দের প্রয়োজনীয়তা আরও যাচাইকরণ প্রয়োজন
१. তত্ত্বাবধানহীন বা দুর্বল তত্ত্বাবধানকৃত শব্দ সংশ্লেষণ পদ্ধতি অন্বেষণ করা २. ভিডিও শব্দ সংশ্লেষণ এবং অন্যান্য ইমেজিং পদ্ধতিতে সম্প্রসারণ ३. নমুনা দক্ষতা আরও অপ্টিমাইজ করা, রিয়েল-টাইম শব্দ প্রজন্ম বাস্তবায়ন করা
१. পদ্ধতি উদ্ভাবন শক্তিশালী: প্রথমবারের মতো বিস্তার মডেলকে শব্দ সংশ্লেষণে সফলভাবে প্রয়োগ করা, প্রস্তাবিত TCCAM, MCAM, DIPS সবই স্পষ্ট তাত্ত্বিক প্রেরণা আছে २. পরীক্ষামূলক ডিজাইন পর্যাপ্ত: শব্দ গুণমান, অপ্রশস্তকরণ কর্মক্ষমতা, বিলোপন পরীক্ষা ইত্যাদি একাধিক মাত্রা থেকে পদ্ধতির কার্যকারিতা যাচাই করা ३. বাস্তব প্রয়োগ মূল্য উচ্চ: অপ্রশস্তকরণ মডেল কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, বাস্তব প্রশিক্ষণ ডেটা স্বল্পতার বাস্তব সমস্যা সমাধান করে ४. প্রযুক্তিগত বিবরণ সম্পূর্ণ: সম্পূর্ণ অ্যালগরিদম প্রবাহ এবং বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন সুবিধাজনক করে
१. গণনামূলক জটিলতা বিশ্লেষণ অপর্যাপ্ত: যদিও অনুমান সময় উল্লেখ করা হয়, তবে বিস্তারিত গণনামূলক জটিলতা বিশ্লেষণ এবং স্মৃতি খরচ তুলনা অনুপস্থিত २. সাধারণীকরণ যাচাইকরণ সীমিত: প্রধানত স্মার্টফোন ক্যামেরা ডেটায় যাচাই করা, অন্যান্য ধরনের ক্যামেরার সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন ३. তাত্ত্বিক বিশ্লেষণ গভীরতা অপর্যাপ্ত: কেন বিস্তার মডেল বিশেষভাবে শব্দ সংশ্লেষণের জন্য উপযুক্ত তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত
१. একাডেমিক অবদান: শব্দ সংশ্লেষণ ক্ষেত্রে নতুন প্রযুক্তি পথ প্রদান করে, পরবর্তী গবেষণা উদ্দীপিত করতে পারে २. ব্যবহারিক মূল্য: অপ্রশস্তকরণ মডেল প্রশিক্ষণ ডেটা অভাবের সমস্যা বাস্তবে সমাধান করতে পারে ३. পুনরুৎপাদনযোগ্যতা: কোড এবং বিস্তারিত বাস্তবায়ন প্রদান করে, গবেষকদের ব্যবহার এবং উন্নতি সুবিধাজনক করে
१. চিত্র অপ্রশস্তকরণ মডেল প্রশিক্ষণের ডেটা বর্ধন २. ক্যামেরা শব্দ বৈশিষ্ট্য বিশ্লেষণ এবং মডেলিং ३. চিত্র গুণমান মূল্যায়ন এবং অপ্টিমাইজেশন ४. গণনামূলক ফটোগ্রাফি সম্পর্কিত প্রয়োগ
পেপারটি বিস্তার মডেল, শব্দ মডেলিং, চিত্র অপ্রশস্তকরণ ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, DDPM, DDIM ইত্যাদি ক্লাসিক বিস্তার মডেল পেপার এবং SIDD, DND ইত্যাদি গুরুত্বপূর্ণ ডেটাসেটের সম্পর্কিত সাহিত্য অন্তর্ভুক্ত করে, কাজের জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।