2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

ডিনয়েজিং জেনারেটিভ মডেলের জন্য নয়েজ সচেতনতা গাইডেন্সের মাধ্যমে নয়েজ শিফট হ্রাস করা

মৌলিক তথ্য

  • পেপার আইডি: 2510.12497
  • শিরোনাম: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • লেখক: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
  • প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.12497

সারসংক্ষেপ

বিদ্যমান ডিনয়েজিং জেনারেটিভ মডেলগুলি বিচ্ছিন্নকৃত বিপরীত সময় SDE বা ODE সমাধানের উপর নির্ভর করে। এই পেপারটি এই ধরনের মডেলগুলিতে একটি দীর্ঘদিন ধরে উপেক্ষা করা কিন্তু সর্বজনীন সমস্যা চিহ্নিত করে: পূর্বনির্ধারিত নয়েজ স্তর এবং স্যাম্পলিং প্রক্রিয়ার সময় মধ্যবর্তী অবস্থায় এনকোড করা প্রকৃত নয়েজ স্তরের মধ্যে অসামঞ্জস্য। লেখকরা এই অসামঞ্জস্যকে নয়েজ শিফট (noise shift) বলে অভিহিত করেন। অভিজ্ঞতামূলক বিশ্লেষণের মাধ্যমে, লেখকরা প্রমাণ করেন যে নয়েজ শিফট আধুনিক ডিফিউশন মডেলে ব্যাপকভাবে বিদ্যমান এবং পদ্ধতিগত বিচ্যুতি প্রদর্শন করে, যা বিতরণ বহিরাগত সাধারণীকরণ এবং অনুপযুক্ত ডিনয়েজিং আপডেটের সমস্যা সৃষ্টি করে, ফলে উপ-সর্বোত্তম উৎপাদন ফলাফল হয়। এই সমস্যা সমাধানের জন্য, লেখকরা নয়েজ সচেতনতা গাইডেন্স (NAG) প্রস্তাব করেন, যা একটি সহজ কিন্তু কার্যকর সংশোধন পদ্ধতি যা স্পষ্টভাবে স্যাম্পলিং ট্র্যাজেক্টরিকে পূর্বনির্ধারিত নয়েজ সময়সূচীর সাথে সামঞ্জস্যপূর্ণ রাখতে গাইড করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা চিহ্নিতকরণ

ডিফিউশন মডেল এবং ফ্লো মডেলের মতো ডিনয়েজিং জেনারেটিভ মডেলগুলি ইমেজ সংশ্লেষণ, ভিডিও প্রজন্মের মতো ভিজ্যুয়াল উৎপাদন কাজে উল্লেখযোগ্য সাফল্য অর্জন করেছে। এই মডেলগুলির মূল নীতি হল পুনরাবৃত্তিমূলক প্রক্রিয়ার মাধ্যমে খাঁটি নয়েজ থেকে ক্রমান্বয়ে লক্ষ্য নমুনা পুনরুদ্ধার করা। তবে, পুনরাবৃত্তিমূলক স্যাম্পলিং প্রক্রিয়ায়, মডেল অনিবার্যভাবে একাধিক উৎস থেকে ত্রুটি জমা করে, যার মধ্যে রয়েছে:

  • অসম্পূর্ণ নেটওয়ার্ক অনুমান
  • সংখ্যাগত একীকরণে বিচ্ছিন্নকরণ ত্রুটি
  • অন্যান্য র্যান্ডম কারণ

মূল সমস্যা

লেখকরা আবিষ্কার করেন যে এই জমা হওয়া ত্রুটিগুলির একটি মূল প্রকাশ হল: মধ্যবর্তী অবস্থায় অন্তর্নিহিত এনকোড করা নয়েজ স্তর পূর্বনির্ধারিত সময়সূচী থেকে বিচ্যুত হতে পারে। এই "নয়েজ শিফট" নামক ঘটনা দীর্ঘদিন ধরে সম্প্রদায় দ্বারা উপেক্ষা করা হয়েছে, কিন্তু প্রকৃতপক্ষে এটি ব্যাপকভাবে বিদ্যমান এবং বিভিন্ন ত্রুটি উৎসের সম্মিলিত প্রভাবে নিহিত।

সমস্যার গুরুত্ব

নয়েজ শিফট ডিনয়েজিং নেটওয়ার্কে প্রশিক্ষণ এবং অনুমানের মধ্যে মৌলিক অসামঞ্জস্য সৃষ্টি করে, যা নিম্নরূপ প্রকাশ পায়:

  1. বিতরণ বহিরাগত সাধারণীকরণ সমস্যা: প্রশিক্ষিত মডেল স্থানান্তরিত মধ্যবর্তী অবস্থায় প্রয়োগ করা হয়
  2. উপ-সর্বোত্তম ডিনয়েজিং অপারেশন: অনুপযুক্ত পূর্বনির্ধারিত সহগ ব্যবহার করে পরবর্তী অবস্থা গণনা করা

মূল অবদান

  1. নয়েজ শিফট সমস্যা চিহ্নিতকরণ: ডিনয়েজিং জেনারেটিভ মডেলে ব্যাপকভাবে বিদ্যমান কিন্তু দীর্ঘদিন উপেক্ষা করা নয়েজ শিফট সমস্যা প্রথমবারের মতো পদ্ধতিগতভাবে চিহ্নিত এবং বিশ্লেষণ করা
  2. NAG পদ্ধতি প্রস্তাব: নয়েজ শিফট সমস্যা হ্রাস করার জন্য নয়েজ সচেতনতা গাইডেন্স (NAG) পদ্ধতি ডিজাইন করা
  3. শ্রেণীবিভাগ-মুক্ত রূপান্তর বিকাশ: নয়েজ শর্তাধীন ড্রপআউটের মাধ্যমে নয়েজ শর্তাধীন এবং নয়েজ অশর্তাধীন মডেল যৌথ প্রশিক্ষণের মাধ্যমে NAG এর একটি শ্রেণীবিভাগ-মুক্ত রূপান্তর প্রস্তাব করা
  4. ব্যাপক পরীক্ষামূলক যাচাইকরণ: ImageNet প্রজন্ম এবং তত্ত্বাবধানকৃত সূক্ষ্ম-টিউনিং কাজে NAG এর কার্যকারিতা এবং সর্বজনীনতা যাচাই করা

পদ্ধতি বিস্তারিত

সমস্যা আনুষ্ঠানিকীকরণ

এগিয়ে যাওয়ার প্রক্রিয়া

নয়েজ স্তর t[0,T]t \in [0,T] এর জন্য, ক্রমাগত সময় র্যান্ডম ইন্টারপোলেশন সংজ্ঞায়িত করা হয়: xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilon যেখানে α0=σT=1\alpha_0 = \sigma_T = 1, αT=σ0=0\alpha_T = \sigma_0 = 0, αt\alpha_t একঘেয়ে হ্রাসমান, σt\sigma_t একঘেয়ে বর্ধমান।

নয়েজ শিফটের গাণিতিক বর্ণনা

জমা হওয়া ত্রুটি ee কে xtx_t এ প্রয়োগ করা অতিরিক্ত গাউসিয়ান বিঘ্ন হিসাবে দেখা যায়: x^t=xt+e\hat{x}_t = x_t + e, যেখানে eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I)

এই বিঘ্ন কার্যকর বৈচিত্র্যকে σt2\sigma_t^2 থেকে σt2+σe2\sigma_t^2 + \sigma_e^2 এ বৃদ্ধি করে, বিঘ্নিত অবস্থাকে স্থানান্তরিত নয়েজ স্তর t=t+δt' = t + \delta এ নমুনা করা হয়েছে বলে মনে করায়: σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

বিবৃতি ১: যখন ত্রুটি বৈচিত্র্য σe2\sigma_e^2 ছোট হয়, স্থানান্তর δ\delta এর প্রথম-ক্রম অনুমান: δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

নয়েজ সচেতনতা গাইডেন্স (NAG)

শ্রেণীবিভাগ-ভিত্তিক NAG

নয়েজ শর্তাধীন স্কোর লেখা যায়: s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

বাহ্যিক পোস্টেরিয়র অনুমানকারী gϕg_\phi এর মাধ্যমে গাইডেন্স সংকেত loggϕ(tx)\nabla \log g_\phi(t|x) প্রদান করা।

শ্রেণীবিভাগ-মুক্ত NAG

pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x) ব্যবহার করে, স্কোর মিশ্রণ ব্যবহার করে অন্তর্নিহিত নয়েজ প্রেডিক্টরের গ্রেডিয়েন্ট অনুমান করা: swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

যেখানে wnagw_{nag} হল NAG এর গাইডেন্স প্যারামিটার।

বাস্তবায়ন কৌশল

CFG এর প্রশিক্ষণ কৌশল অনুসরণ করা: প্রশিক্ষণের সময় নির্দিষ্ট সম্ভাবনার সাথে র্যান্ডমভাবে নয়েজ শর্ত tt ড্রপ করা, মডেলকে শর্তাধীন এবং অশর্তাধীন উদ্দেশ্যগুলির মধ্যে ওজন ভাগ করতে সক্ষম করা।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. সরাসরি নয়েজ শিফট লক্ষ্য করা: NAG সরাসরি নয়েজ স্তর অসামঞ্জস্য সমস্যা লক্ষ্য করে, পরোক্ষভাবে নয়
  2. CFG এর সাথে অর্থোগোনাল: NAG দ্বারা প্রবর্তিত নয়েজ স্তর শর্ত অক্ষ CFG এর শর্ত অক্ষের সাথে অর্থোগোনাল, পরিপূরক নিয়ন্ত্রণ প্রদান করে
  3. সহজ এবং কার্যকর: বাহ্যিক শ্রেণীবিভাগকারীর প্রয়োজন নেই, বিদ্যমান মডেলে সরাসরি একীভূত করা যায়

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • ImageNet 256×256: পূর্ব-প্রশিক্ষিত Stable Diffusion VAE ব্যবহার করে 32×32×4 সুপ্ত ভেক্টর পেতে
  • তত্ত্বাবধানকৃত সূক্ষ্ম-টিউনিং ডেটাসেট: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

মডেল আর্কিটেকচার

  • DiT (ডিফিউশন ট্রান্সফর্মার): S/2, B/2, L/2, XL/2 রূপান্তর
  • SiT (স্কেলেবল ইন্টারপোল্যান্ট ট্রান্সফর্মার): একই কনফিগারেশন রূপান্তর

মূল্যায়ন মেট্রিক্স

  • FID (Fréchet Inception Distance): প্রধান মূল্যায়ন মেট্রিক
  • নির্ভুলতা এবং স্মরণ: সংগৃহীত ফলাফল মূল্যায়নের জন্য ব্যবহৃত

বাস্তবায়ন বিবরণ

  • স্যাম্পলিং পদক্ষেপ: DiT 250-পদক্ষেপ DDPM স্যাম্পলিং ব্যবহার করে, SiT 250-পদক্ষেপ SDE-Euler-Maruyama স্যাম্পলিং ব্যবহার করে
  • গাইডেন্স ওজন: wnag=3.0w_{nag} = 3.0 (CFG ছাড়া), wnag=2.0w_{nag} = 2.0 (CFG সহ)
  • নয়েজ ড্রপআউট: প্রশিক্ষণের সময় 10% সম্ভাবনা নয়েজ শর্ত ড্রপ করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ImageNet প্রজন্ম

টেবিল ১: সংগৃহীত মডেল তুলনা ফলাফল

মডেলপ্রশিক্ষণ পর্বCFG ছাড়া প্রজন্মCFG সহ প্রজন্ম
DiT-XL/21400FID: 9.62FID: 2.27
+NAG10+(1400*)FID: 2.59FID: 2.14
SiT-XL/21400FID: 8.61FID: 2.06
+NAG10+(1400*)FID: 2.26FID: 1.72

মূল আবিষ্কার:

  • NAG একা CFG গাইডেন্সের কাছাকাছি প্রজন্ম গুণমান অর্জন করতে পারে
  • CFG এর সাথে মিলিত হলে, NAG অতিরিক্ত উন্নতি প্রদান করে চলেছে
  • শুধুমাত্র অতিরিক্ত 10 পর্ব সূক্ষ্ম-টিউনিং (প্রাক-প্রশিক্ষণ খরচের ~0.7%) NAG সক্ষম করতে প্রয়োজন

তত্ত্বাবধানকৃত সূক্ষ্ম-টিউনিং ফলাফল

টেবিল ২: সূক্ষ্ম-টিউনিং কাজ FID তুলনা

পদ্ধতিFoodSUNCaltechCUBStanford CarDF-20MArtBenchগড় FID
সূক্ষ্ম-টিউনিং (CFG ছাড়া)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
সূক্ষ্ম-টিউনিং (CFG সহ)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

নয়েজ শিফট হ্রাস প্রভাব

বাহ্যিক নয়েজ অনুমানকারী gϕg_\phi এর অভিজ্ঞতামূলক বিশ্লেষণ দ্বারা প্রদর্শিত:

  • নয়েজ শিফট আধুনিক ডিফিউশন মডেলে ব্যাপকভাবে বিদ্যমান
  • বৃহত্তর নয়েজ স্তরের দিকে পদ্ধতিগত স্থানান্তর হিসাবে প্রকাশ পায়
  • NAG কার্যকরভাবে এই স্থানান্তর হ্রাস করে, বিশেষত সংকেত-থেকে-নয়েজ অনুপাত 1 এর চেয়ে বেশি পরিসরে

অপসারণ পরীক্ষা

  • গাইডেন্স ওজন সংবেদনশীলতা: wnagw_{nag} 2.0-4.0 পরিসরে স্থিতিশীল কর্মক্ষমতা প্রদর্শন করে
  • স্যাম্পলিং পদক্ষেপ প্রভাব: NAG বিভিন্ন স্যাম্পলিং পদক্ষেপে কার্যকর
  • আর্কিটেকচার সর্বজনীনতা: DiT এবং SiT আর্কিটেকচারে সামঞ্জস্যপূর্ণ উন্নতি প্রদর্শন করে

সম্পর্কিত কাজ

ডিনয়েজিং জেনারেটিভ মডেল

  • ডিফিউশন মডেল: DDPM, DiT ইত্যাদি নয়েজ সময়সূচী, প্রশিক্ষণ উদ্দেশ্য এবং মডেল আর্কিটেকচারে ফোকাস করে
  • ফ্লো মডেল: ফ্লো ম্যাচিং ইত্যাদি পদ্ধতি
  • ত্বরান্বিত স্যাম্পলিং: উচ্চ-ক্রম সমাধানকারী, উন্নত ব্যবধান মডেলিং ইত্যাদি

গাইডেন্স কৌশল

  • শ্রেণীবিভাগকারী গাইডেন্স: শর্তাধীন প্রজন্মের জন্য বাহ্যিক শ্রেণীবিভাগকারী ব্যবহার করা
  • শ্রেণীবিভাগ-মুক্ত গাইডেন্স (CFG): শর্তাধীন এবং অশর্তাধীন মডেল মিশ্রণের মাধ্যমে গাইডেন্স বাস্তবায়ন করা
  • ডোমেইন গাইডেন্স (DoG): সূক্ষ্ম-টিউনিং পরিস্থিতির জন্য বিশেষভাবে ডিজাইন করা গাইডেন্স পদ্ধতি

এই পেপারের NAG হল প্রথম পদ্ধতি যা স্পষ্টভাবে নয়েজ স্তর নিজেই গাইডেন্স সংকেত হিসাবে ব্যবহার করে, প্রত্যাশিত নয়েজ শর্তের সাথে সারিবদ্ধতা সরাসরি বৃদ্ধি করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. নয়েজ শিফট সমস্যা সর্বজনীন: আধুনিক ডিনয়েজিং জেনারেটিভ মডেলে প্রশিক্ষণ-অনুমান অসামঞ্জস্য ব্যাপকভাবে আবিষ্কৃত
  2. NAG কার্যকরভাবে সমস্যা হ্রাস করে: নয়েজ স্তর অসামঞ্জস্য সরাসরি লক্ষ্য করে, উল্লেখযোগ্যভাবে প্রজন্ম গুণমান উন্নত করে
  3. পদ্ধতি সর্বজনীনতা শক্তিশালী: বিভিন্ন আর্কিটেকচার, কাজ এবং ভিত্তি পদ্ধতিতে সামঞ্জস্যপূর্ণ উন্নতি প্রদর্শন করে

সীমাবদ্ধতা

  1. নয়েজ অনুমানকারী নির্ভরতা: অভিজ্ঞতামূলক বিশ্লেষণ বাহ্যিক নয়েজ অনুমানকারীর নির্ভুলতার উপর নির্ভর করে
  2. তাত্ত্বিক বিশ্লেষণ সরলীকরণ: সরলীকৃত অনুমানের উপর ভিত্তি করে তাত্ত্বিক বিশ্লেষণ প্রকৃত জটিলতা সম্পূর্ণভাবে ক্যাপচার করতে পারে না
  3. গণনামূলক ওভারহেড: অতিরিক্ত অশর্তাধীন শাখা প্রশিক্ষণের প্রয়োজন, প্রশিক্ষণ এবং অনুমান খরচ বৃদ্ধি করে
  4. প্রয়োগের পরিসীমা: প্রধানত ভিজ্যুয়াল প্রজন্ম কাজে যাচাই করা হয়েছে, অন্যান্য মোডালিটির প্রয়োগযোগ্যতা অজানা

প্রভাব

  1. একাডেমিক অবদান: ডিনয়েজিং জেনারেটিভ মডেলে গুরুত্বপূর্ণ সমস্যা প্রকাশ করে, ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে
  2. ব্যবহারিক মূল্য: বিদ্যমান মডেল কর্মক্ষমতা উন্নত করতে সরাসরি প্রয়োগ করা যায়, অত্যন্ত ব্যবহারিক
  3. পদ্ধতি সর্বজনীনতা: বিদ্যমান গাইডেন্স পদ্ধতির সাথে অর্থোগোনাল এবং পরিপূরক, ব্যাপক প্রয়োগযোগ্যতা রয়েছে

প্রযোজ্য পরিস্থিতি

  • বৃহৎ-স্কেল ইমেজ প্রজন্ম কাজ
  • পূর্ব-প্রশিক্ষিত মডেলের তত্ত্বাবধানকৃত সূক্ষ্ম-টিউনিং
  • উচ্চ-মানের প্রজন্মের প্রয়োজন এমন প্রয়োগ পরিস্থিতি
  • গণনামূলক সম্পদ অপেক্ষাকৃত পর্যাপ্ত পরিবেশ

সংদর্ভ

পেপারটি ডিফিউশন মডেল, ফ্লো মডেল, গাইডেন্স কৌশল ইত্যাদি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Ho et al. (2020): DDPM মূল পেপার
  • Peebles & Xie (2023): DiT আর্কিটেকচার
  • Ma et al. (2024): SiT আর্কিটেকচার
  • Ho & Salimans (2021): শ্রেণীবিভাগ-মুক্ত গাইডেন্স
  • Dhariwal & Nichol (2021): শ্রেণীবিভাগকারী গাইডেন্স

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা ডিনয়েজিং জেনারেটিভ মডেলে একটি গুরুত্বপূর্ণ কিন্তু উপেক্ষা করা সমস্যা চিহ্নিত করে, একটি সহজ এবং কার্যকর সমাধান প্রস্তাব করে, এবং পদ্ধতির কার্যকারিতা এবং সর্বজনীনতা যাচাই করার জন্য ব্যাপক পরীক্ষা-নিরীক্ষা পরিচালনা করে। এই কাজ ডিফিউশন মডেল ক্ষেত্রের জন্য গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রাখে।