2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

academic

विनाशकारी उत्पादक मॉडल के लिए शोर जागरूकता मार्गदर्शन के माध्यम से शोर बदलाव को कम करना

मूल जानकारी

पेपर ID: 2510.12497
शीर्षक: विनाशकारी उत्पादक मॉडल के लिए शोर जागरूकता मार्गदर्शन के माध्यम से शोर बदलाव को कम करना
लेखक: जिनचेंग झोंग, बोयुआन जियांग, जिन ताओ, पेंगफेई वान, कुन गाई, मिंगशेंग लॉन्ग
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन समय: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.12497

सारांश

मौजूदा विनाशकारी उत्पादक मॉडल असतत समय SDE या ODE को हल करने पर निर्भर करते हैं। यह पेपर इस तरह के मॉडल में एक दीर्घकालीन अनदेखी लेकिन व्यापक समस्या की पहचान करता है: पूर्वनिर्धारित शोर स्तर और नमूनाकरण प्रक्रिया के दौरान मध्यवर्ती अवस्थाओं द्वारा एन्कोड किए गए वास्तविक शोर स्तर के बीच असमानता। लेखक इस असमानता को शोर बदलाव (noise shift) कहते हैं। अनुभवजन्य विश्लेषण के माध्यम से, लेखक प्रदर्शित करते हैं कि शोर बदलाव आधुनिक विसरण मॉडल में व्यापक रूप से मौजूद है और व्यवस्थित विचलन प्रदर्शित करता है, जिससे वितरण से बाहर सामान्यीकरण और अनुचित विनाशकारी अपडेट की समस्याएं होती हैं, जिसके परिणामस्वरूप उप-इष्टतम उत्पादन परिणाम मिलते हैं। इस समस्या को हल करने के लिए, लेखक शोर जागरूकता मार्गदर्शन (NAG) प्रस्तावित करते हैं, जो एक सरल लेकिन प्रभावी सुधार विधि है जो नमूनाकरण प्रक्षेपवक्र को पूर्वनिर्धारित शोर अनुसूची के साथ संरेखित रखने के लिए स्पष्ट रूप से मार्गदर्शन करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पहचान

विसरण मॉडल और प्रवाह मॉडल जैसे विनाशकारी उत्पादक मॉडल छवि संश्लेषण, वीडियो उत्पादन आदि दृश्य उत्पादन कार्यों में उल्लेखनीय सफलता प्राप्त कर चुके हैं। इन मॉडल का मूल सिद्धांत एक पुनरावृत्ति प्रक्रिया के माध्यम से शुद्ध शोर से लक्ष्य नमूने को क्रमिक रूप से पुनः प्राप्त करना है। हालांकि, पुनरावृत्ति नमूनाकरण प्रक्रिया में, मॉडल अनिवार्य रूप से कई स्रोतों से त्रुटियों को जमा करता है, जिनमें शामिल हैं:

अपूर्ण नेटवर्क सन्निकटन
संख्यात्मक एकीकरण में विवेकीकरण त्रुटि
अन्य यादृच्छिक कारक

मूल समस्या

लेखक इन संचित त्रुटियों की एक महत्वपूर्ण अभिव्यक्ति की खोज करते हैं: मध्यवर्ती अवस्थाओं में निहित शोर स्तर पूर्वनिर्धारित अनुसूची से विचलित हो सकता है। यह "शोर बदलाव" नामक घटना लंबे समय से समुदाय द्वारा अनदेखी की गई है, लेकिन वास्तव में यह व्यापक रूप से मौजूद है और विभिन्न त्रुटि स्रोतों के सामूहिक प्रभाव में निहित है।

समस्या की महत्ता

शोर बदलाव विनाशकारी नेटवर्क में प्रशिक्षण और अनुमान के बीच मौलिक असमानता का कारण बनता है, विशेष रूप से:

वितरण से बाहर सामान्यीकरण समस्या: प्रशिक्षित मॉडल को बदले हुए मध्यवर्ती अवस्थाओं पर लागू किया जाता है
उप-इष्टतम विनाशकारी संचालन: अगली अवस्था की गणना के लिए अनुचित पूर्वनिर्धारित गुणांक का उपयोग

मूल योगदान

शोर बदलाव समस्या की पहचान: विनाशकारी उत्पादक मॉडल में व्यापक रूप से मौजूद लेकिन दीर्घकालीन अनदेखी शोर बदलाव समस्या की पहली बार व्यवस्थित पहचान और विश्लेषण
NAG विधि का प्रस्ताव: शोर बदलाव समस्या को कम करने के लिए शोर जागरूकता मार्गदर्शन (NAG) विधि का डिजाइन
वर्गीकरणकर्ता-मुक्त संस्करण का विकास: शोर स्थिति dropout के माध्यम से शोर-सशर्त और शोर-निरपेक्ष मॉडल को संयुक्त रूप से प्रशिक्षित करके NAG के वर्गीकरणकर्ता-मुक्त संस्करण का प्रस्ताव
व्यापक प्रायोगिक सत्यापन: ImageNet उत्पादन और पर्यवेक्षित सूक्ष्म-ट्यूनिंग कार्यों पर NAG की प्रभावशीलता और सार्वभौमिकता का सत्यापन

विधि विवरण

समस्या का औपचारिकीकरण

अग्रगामी प्रक्रिया

शोर स्तर $t \in [0,T]$ के लिए, निरंतर समय यादृच्छिक प्रक्षेप को परिभाषित किया जाता है: $x_t = \alpha_t x_0 + \sigma_t \epsilon$ जहां $\alpha_0 = \sigma_T = 1$ , $\alpha_T = \sigma_0 = 0$ , $\alpha_t$ एकरस रूप से घटता है, $\sigma_t$ एकरस रूप से बढ़ता है।

शोर बदलाव का गणितीय विवरण

संचित त्रुटि $e$ को $x_t$ पर लागू अतिरिक्त गॉसियन विक्षोभ के रूप में देखा जा सकता है: $\hat{x}_t = x_t + e$ , जहां $e \sim \mathcal{N}(0, \sigma_e^2 I)$ ।

यह विक्षोभ प्रभावी विचरण को $\sigma_t^2$ से $\sigma_t^2 + \sigma_e^2$ तक बढ़ाता है, जिससे विक्षुब्ध अवस्था बदले हुए शोर स्तर $t' = t + \delta$ पर नमूना लिए गए जैसे व्यवहार करती है: $\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2$

कथन 1: जब त्रुटि विचरण $\sigma_e^2$ छोटा हो, तो बदलाव $\delta$ का प्रथम-क्रम सन्निकटन: $\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}$

शोर जागरूकता मार्गदर्शन (NAG)

वर्गीकरणकर्ता-आधारित NAG

शोर-सशर्त स्कोर को इस प्रकार लिखा जा सकता है: $s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)$

बाहरी पश्च अनुमानक $g_\phi$ के माध्यम से मार्गदर्शन संकेत $\nabla \log g_\phi(t|x)$ प्रदान किया जाता है।

वर्गीकरणकर्ता-मुक्त NAG

$p_t(t|x) \propto p_t(x|t)/p_t(x)$ का उपयोग करते हुए, निहित शोर भविष्यवक्ता के ढाल को अनुमानित करने के लिए स्कोर मिश्रण का उपयोग: $s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)$

जहां $w_{nag}$ NAG का मार्गदर्शन पैरामीटर है।

कार्यान्वयन रणनीति

CFG की प्रशिक्षण रणनीति का पालन करें: प्रशिक्षण के दौरान निश्चित संभावना के साथ शोर स्थिति $t$ को यादृच्छिक रूप से छोड़ें, जिससे मॉडल सशर्त और निरपेक्ष उद्देश्यों के बीच वजन साझा कर सके।

तकनीकी नवाचार बिंदु

शोर बदलाव को सीधे लक्षित करना: NAG शोर स्तर असमानता समस्या को सीधे लक्षित करता है, अप्रत्यक्ष रूप से नहीं
CFG के साथ ऑर्थोगोनल: NAG द्वारा पेश किया गया शोर स्तर सशर्त अक्ष CFG के सशर्त अक्ष के साथ ऑर्थोगोनल है, पूरक नियंत्रण प्रदान करता है
सरल और प्रभावी: बाहरी वर्गीकरणकर्ता की आवश्यकता नहीं, मौजूदा मॉडल में सीधे एकीकृत किया जा सकता है

प्रायोगिक सेटअप

डेटासेट

ImageNet 256×256: पूर्व-प्रशिक्षित Stable Diffusion VAE का उपयोग करके 32×32×4 अव्यक्त वेक्टर प्राप्त करना
पर्यवेक्षित सूक्ष्म-ट्यूनिंग डेटासेट: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

मॉडल आर्किटेक्चर

DiT (विसरण ट्रांसफॉर्मर): S/2, B/2, L/2, XL/2 संस्करण
SiT (स्केलेबल इंटरपोलेंट ट्रांसफॉर्मर): समान कॉन्फ़िगरेशन संस्करण

मूल्यांकन मेट्रिक्स

FID (Fréchet Inception Distance): मुख्य मूल्यांकन मेट्रिक
Precision & Recall: अभिसरण परिणामों के मूल्यांकन के लिए

कार्यान्वयन विवरण

नमूनाकरण चरण: DiT 250-चरण DDPM नमूनाकरण का उपयोग करता है, SiT 250-चरण SDE-Euler-Maruyama नमूनाकरण का उपयोग करता है
मार्गदर्शन वजन: $w_{nag} = 3.0$ (CFG के बिना), $w_{nag} = 2.0$ (CFG के साथ)
शोर dropout: प्रशिक्षण के दौरान 10% संभावना के साथ शोर स्थिति को छोड़ें

प्रायोगिक परिणाम

मुख्य परिणाम

ImageNet उत्पादन

तालिका 1: अभिसरण मॉडल तुलना परिणाम

मॉडल	प्रशिक्षण राउंड	CFG के बिना उत्पादन	CFG के साथ उत्पादन
DiT-XL/2	1400	FID: 9.62	FID: 2.27
+NAG	10+(1400*)	FID: 2.59	FID: 2.14
SiT-XL/2	1400	FID: 8.61	FID: 2.06
+NAG	10+(1400*)	FID: 2.26	FID: 1.72

मुख्य निष्कर्ष:

NAG अकेले CFG मार्गदर्शन के करीब उत्पादन गुणवत्ता प्राप्त कर सकता है
CFG के साथ संयुक्त होने पर, NAG अतिरिक्त सुधार प्रदान करना जारी रखता है
केवल 10 अतिरिक्त राउंड (पूर्व-प्रशिक्षण लागत का लगभग 0.7%) NAG को सक्षम करने के लिए आवश्यक है

पर्यवेक्षित सूक्ष्म-ट्यूनिंग परिणाम

तालिका 2: सूक्ष्म-ट्यूनिंग कार्य FID तुलना

विधि	Food	SUN	Caltech	CUB	Stanford Car	DF-20M	ArtBench	औसत FID
सूक्ष्म-ट्यूनिंग (CFG के बिना)	16.04	21.41	31.34	9.81	11.29	17.92	22.76	18.65
+NAG	11.18	14.95	24.32	5.68	5.92	14.79	19.22	13.72
सूक्ष्म-ट्यूनिंग (CFG के साथ)	10.93	14.13	23.84	5.37	6.32	15.29	19.94	13.69
+NAG	5.78	8.81	21.87	3.52	3.91	12.55	15.69	10.31

शोर बदलाव शमन प्रभाव

बाहरी शोर अनुमानक $g_\phi$ के माध्यम से अनुभवजन्य विश्लेषण दिखाता है:

शोर बदलाव आधुनिक विसरण मॉडल में व्यापक रूप से मौजूद है
बड़े शोर स्तर की ओर व्यवस्थित विचलन के रूप में प्रकट होता है
NAG इस विचलन को प्रभावी रूप से कम करता है, विशेष रूप से सिग्नल-टू-शोर अनुपात 1 से अधिक की सीमा में

विलोपन प्रयोग

मार्गदर्शन वजन संवेदनशीलता: $w_{nag}$ 2.0-4.0 सीमा में स्थिर प्रदर्शन करता है
नमूनाकरण चरण प्रभाव: NAG विभिन्न नमूनाकरण चरणों पर प्रभावी है
आर्किटेक्चर सार्वभौमिकता: DiT और SiT आर्किटेक्चर दोनों पर सुसंगत सुधार दिखाता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

शोर बदलाव समस्या व्यापक रूप से मौजूद है: आधुनिक विनाशकारी उत्पादक मॉडल में प्रशिक्षण-अनुमान असमानता व्यापक रूप से पाई जाती है
NAG प्रभावी रूप से समस्या को कम करता है: शोर स्तर असमानता को सीधे लक्षित करके, उत्पादन गुणवत्ता में उल्लेखनीय सुधार
विधि की सार्वभौमिकता मजबूत है: विभिन्न आर्किटेक्चर, कार्य और आधारभूत विधियों पर सुसंगत सुधार दिखाता है

सीमाएं

शोर अनुमानक निर्भरता: अनुभवजन्य विश्लेषण बाहरी शोर अनुमानक की सटीकता पर निर्भर करता है
सैद्धांतिक विश्लेषण सरलीकरण: सरलीकृत मान्यताओं के आधार पर सैद्धांतिक विश्लेषण वास्तविक जटिलता को पूरी तरह से पकड़ नहीं सकता है
कम्प्यूटेशनल ओवरहेड: अतिरिक्त निरपेक्ष शाखा प्रशिक्षण की आवश्यकता है

भविष्य की दिशाएं

लेखक आशा करते हैं कि यह कार्य शोधकर्ताओं का ध्यान विनाशकारी उत्पादन में व्यापक रूप से मौजूद प्रशिक्षण-अनुमान असमानता समस्या की ओर आकर्षित करेगा, निम्नलिखित अनुसंधान दिशाओं को बढ़ावा देगा:

शोर बदलाव समस्या का सैद्धांतिक या अनुभवजन्य विश्लेषण
अनुमान चरण में बदलाव के प्रति मजबूत उत्पादक मॉडल का निर्माण
उच्च गुणवत्ता वाले उत्पादन की सीमाओं की खोज
तेजी से नमूनाकरण विधियां

गहन मूल्यांकन

लाभ

समस्या पहचान नवाचार: शोर बदलाव की पहली बार व्यवस्थित पहचान और विश्लेषण, जो एक व्यापक लेकिन अनदेखी समस्या है
विधि सरल और प्रभावी: NAG डिजाइन सरल है, मौजूदा मॉडल में एकीकृत करना आसान है, और प्रभाव महत्वपूर्ण है
पर्याप्त प्रयोग: कई आर्किटेक्चर, डेटासेट और कार्यों को कवर करता है, विधि की सार्वभौमिकता को सत्यापित करता है
सैद्धांतिक समर्थन: शोर बदलाव का गणितीय विश्लेषण और सन्निकटन सूत्र प्रदान करता है
उच्च व्यावहारिक मूल्य: केवल न्यूनतम अतिरिक्त प्रशिक्षण के साथ मौजूदा मॉडल के प्रदर्शन में महत्वपूर्ण सुधार

कमियां

सैद्धांतिक विश्लेषण सीमाएं: सरलीकृत मान्यताओं पर आधारित, जटिल वास्तविक स्थितियों को पूरी तरह से समझा नहीं सकता है
शोर अनुमानक समस्या: अनुभवजन्य विश्लेषण बाहरी अनुमानक पर निर्भर करता है, अतिरिक्त त्रुटि का परिचय दे सकता है
कम्प्यूटेशनल लागत: अतिरिक्त निरपेक्ष शाखा प्रशिक्षण की आवश्यकता, प्रशिक्षण और अनुमान लागत बढ़ाता है
लागू सीमा: मुख्य रूप से दृश्य उत्पादन कार्यों पर सत्यापित, अन्य मोडेलिटी की लागू क्षमता अज्ञात है

प्रभाव

शैक्षणिक योगदान: विनाशकारी उत्पादक मॉडल में महत्वपूर्ण समस्या को प्रकट करता है, क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: मौजूदा मॉडल के प्रदर्शन में सुधार के लिए सीधे लागू किया जा सकता है, मजबूत व्यावहारिकता है
विधि सार्वभौमिकता: मौजूदा मार्गदर्शन विधियों के साथ ऑर्थोगोनल और पूरक, व्यापक लागू क्षमता है

लागू परिदृश्य

बड़े पैमाने पर छवि उत्पादन कार्य
पूर्व-प्रशिक्षित मॉडल की पर्यवेक्षित सूक्ष्म-ट्यूनिंग
उच्च गुणवत्ता वाले उत्पादन की आवश्यकता वाले अनुप्रयोग परिदृश्य
अपेक्षाकृत पर्याप्त कम्प्यूटेशनल संसाधन वाले वातावरण

संदर्भ

पेपर विसरण मॉडल, प्रवाह मॉडल, मार्गदर्शन तकनीकें आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

Ho et al. (2020): DDPM मूल पेपर
Peebles & Xie (2023): DiT आर्किटेक्चर
Ma et al. (2024): SiT आर्किटेक्चर
Ho & Salimans (2021): वर्गीकरणकर्ता-मुक्त मार्गदर्शन
Dhariwal & Nichol (2021): वर्गीकरणकर्ता मार्गदर्शन

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो विनाशकारी उत्पादक मॉडल में एक महत्वपूर्ण लेकिन अनदेखी समस्या की पहचान करता है, एक सरल और प्रभावी समाधान प्रस्तावित करता है, और पर्याप्त प्रयोगों के माध्यम से विधि की प्रभावशीलता और सार्वभौमिकता को सत्यापित करता है। यह कार्य विसरण मॉडल क्षेत्र के लिए महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखता है।