Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic
ডিনয়েজিং জেনারেটিভ মডেলের জন্য নয়েজ সচেতনতা গাইডেন্সের মাধ্যমে নয়েজ শিফট হ্রাস করা
বিদ্যমান ডিনয়েজিং জেনারেটিভ মডেলগুলি বিচ্ছিন্নকৃত বিপরীত সময় SDE বা ODE সমাধানের উপর নির্ভর করে। এই পেপারটি এই ধরনের মডেলগুলিতে একটি দীর্ঘদিন ধরে উপেক্ষা করা কিন্তু সর্বজনীন সমস্যা চিহ্নিত করে: পূর্বনির্ধারিত নয়েজ স্তর এবং স্যাম্পলিং প্রক্রিয়ার সময় মধ্যবর্তী অবস্থায় এনকোড করা প্রকৃত নয়েজ স্তরের মধ্যে অসামঞ্জস্য। লেখকরা এই অসামঞ্জস্যকে নয়েজ শিফট (noise shift) বলে অভিহিত করেন। অভিজ্ঞতামূলক বিশ্লেষণের মাধ্যমে, লেখকরা প্রমাণ করেন যে নয়েজ শিফট আধুনিক ডিফিউশন মডেলে ব্যাপকভাবে বিদ্যমান এবং পদ্ধতিগত বিচ্যুতি প্রদর্শন করে, যা বিতরণ বহিরাগত সাধারণীকরণ এবং অনুপযুক্ত ডিনয়েজিং আপডেটের সমস্যা সৃষ্টি করে, ফলে উপ-সর্বোত্তম উৎপাদন ফলাফল হয়। এই সমস্যা সমাধানের জন্য, লেখকরা নয়েজ সচেতনতা গাইডেন্স (NAG) প্রস্তাব করেন, যা একটি সহজ কিন্তু কার্যকর সংশোধন পদ্ধতি যা স্পষ্টভাবে স্যাম্পলিং ট্র্যাজেক্টরিকে পূর্বনির্ধারিত নয়েজ সময়সূচীর সাথে সামঞ্জস্যপূর্ণ রাখতে গাইড করে।
ডিফিউশন মডেল এবং ফ্লো মডেলের মতো ডিনয়েজিং জেনারেটিভ মডেলগুলি ইমেজ সংশ্লেষণ, ভিডিও প্রজন্মের মতো ভিজ্যুয়াল উৎপাদন কাজে উল্লেখযোগ্য সাফল্য অর্জন করেছে। এই মডেলগুলির মূল নীতি হল পুনরাবৃত্তিমূলক প্রক্রিয়ার মাধ্যমে খাঁটি নয়েজ থেকে ক্রমান্বয়ে লক্ষ্য নমুনা পুনরুদ্ধার করা। তবে, পুনরাবৃত্তিমূলক স্যাম্পলিং প্রক্রিয়ায়, মডেল অনিবার্যভাবে একাধিক উৎস থেকে ত্রুটি জমা করে, যার মধ্যে রয়েছে:
লেখকরা আবিষ্কার করেন যে এই জমা হওয়া ত্রুটিগুলির একটি মূল প্রকাশ হল: মধ্যবর্তী অবস্থায় অন্তর্নিহিত এনকোড করা নয়েজ স্তর পূর্বনির্ধারিত সময়সূচী থেকে বিচ্যুত হতে পারে। এই "নয়েজ শিফট" নামক ঘটনা দীর্ঘদিন ধরে সম্প্রদায় দ্বারা উপেক্ষা করা হয়েছে, কিন্তু প্রকৃতপক্ষে এটি ব্যাপকভাবে বিদ্যমান এবং বিভিন্ন ত্রুটি উৎসের সম্মিলিত প্রভাবে নিহিত।
নয়েজ শিফট সমস্যা চিহ্নিতকরণ: ডিনয়েজিং জেনারেটিভ মডেলে ব্যাপকভাবে বিদ্যমান কিন্তু দীর্ঘদিন উপেক্ষা করা নয়েজ শিফট সমস্যা প্রথমবারের মতো পদ্ধতিগতভাবে চিহ্নিত এবং বিশ্লেষণ করা
NAG পদ্ধতি প্রস্তাব: নয়েজ শিফট সমস্যা হ্রাস করার জন্য নয়েজ সচেতনতা গাইডেন্স (NAG) পদ্ধতি ডিজাইন করা
শ্রেণীবিভাগ-মুক্ত রূপান্তর বিকাশ: নয়েজ শর্তাধীন ড্রপআউটের মাধ্যমে নয়েজ শর্তাধীন এবং নয়েজ অশর্তাধীন মডেল যৌথ প্রশিক্ষণের মাধ্যমে NAG এর একটি শ্রেণীবিভাগ-মুক্ত রূপান্তর প্রস্তাব করা
ব্যাপক পরীক্ষামূলক যাচাইকরণ: ImageNet প্রজন্ম এবং তত্ত্বাবধানকৃত সূক্ষ্ম-টিউনিং কাজে NAG এর কার্যকারিতা এবং সর্বজনীনতা যাচাই করা
জমা হওয়া ত্রুটি e কে xt এ প্রয়োগ করা অতিরিক্ত গাউসিয়ান বিঘ্ন হিসাবে দেখা যায়: x^t=xt+e, যেখানে e∼N(0,σe2I)।
এই বিঘ্ন কার্যকর বৈচিত্র্যকে σt2 থেকে σt2+σe2 এ বৃদ্ধি করে, বিঘ্নিত অবস্থাকে স্থানান্তরিত নয়েজ স্তর t′=t+δ এ নমুনা করা হয়েছে বলে মনে করায়:
σt+δ2=σt2+σe2
বিবৃতি ১: যখন ত্রুটি বৈচিত্র্য σe2 ছোট হয়, স্থানান্তর δ এর প্রথম-ক্রম অনুমান:
δ≈σ˙tσt2+σe2−σt
pt(t∣x)∝pt(x∣t)/pt(x) ব্যবহার করে, স্কোর মিশ্রণ ব্যবহার করে অন্তর্নিহিত নয়েজ প্রেডিক্টরের গ্রেডিয়েন্ট অনুমান করা:
swnag(x∣t)=(wnag+1)s(x∣t)−wnags(x)
CFG এর প্রশিক্ষণ কৌশল অনুসরণ করা: প্রশিক্ষণের সময় নির্দিষ্ট সম্ভাবনার সাথে র্যান্ডমভাবে নয়েজ শর্ত t ড্রপ করা, মডেলকে শর্তাধীন এবং অশর্তাধীন উদ্দেশ্যগুলির মধ্যে ওজন ভাগ করতে সক্ষম করা।
শ্রেণীবিভাগকারী গাইডেন্স: শর্তাধীন প্রজন্মের জন্য বাহ্যিক শ্রেণীবিভাগকারী ব্যবহার করা
শ্রেণীবিভাগ-মুক্ত গাইডেন্স (CFG): শর্তাধীন এবং অশর্তাধীন মডেল মিশ্রণের মাধ্যমে গাইডেন্স বাস্তবায়ন করা
ডোমেইন গাইডেন্স (DoG): সূক্ষ্ম-টিউনিং পরিস্থিতির জন্য বিশেষভাবে ডিজাইন করা গাইডেন্স পদ্ধতি
এই পেপারের NAG হল প্রথম পদ্ধতি যা স্পষ্টভাবে নয়েজ স্তর নিজেই গাইডেন্স সংকেত হিসাবে ব্যবহার করে, প্রত্যাশিত নয়েজ শর্তের সাথে সারিবদ্ধতা সরাসরি বৃদ্ধি করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা ডিনয়েজিং জেনারেটিভ মডেলে একটি গুরুত্বপূর্ণ কিন্তু উপেক্ষা করা সমস্যা চিহ্নিত করে, একটি সহজ এবং কার্যকর সমাধান প্রস্তাব করে, এবং পদ্ধতির কার্যকারিতা এবং সর্বজনীনতা যাচাই করার জন্য ব্যাপক পরীক্ষা-নিরীক্ষা পরিচালনা করে। এই কাজ ডিফিউশন মডেল ক্ষেত্রের জন্য গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক তাৎপর্য রাখে।