Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic
विनाशकारी उत्पादक मॉडल के लिए शोर जागरूकता मार्गदर्शन के माध्यम से शोर बदलाव को कम करना
मौजूदा विनाशकारी उत्पादक मॉडल असतत समय SDE या ODE को हल करने पर निर्भर करते हैं। यह पेपर इस तरह के मॉडल में एक दीर्घकालीन अनदेखी लेकिन व्यापक समस्या की पहचान करता है: पूर्वनिर्धारित शोर स्तर और नमूनाकरण प्रक्रिया के दौरान मध्यवर्ती अवस्थाओं द्वारा एन्कोड किए गए वास्तविक शोर स्तर के बीच असमानता। लेखक इस असमानता को शोर बदलाव (noise shift) कहते हैं। अनुभवजन्य विश्लेषण के माध्यम से, लेखक प्रदर्शित करते हैं कि शोर बदलाव आधुनिक विसरण मॉडल में व्यापक रूप से मौजूद है और व्यवस्थित विचलन प्रदर्शित करता है, जिससे वितरण से बाहर सामान्यीकरण और अनुचित विनाशकारी अपडेट की समस्याएं होती हैं, जिसके परिणामस्वरूप उप-इष्टतम उत्पादन परिणाम मिलते हैं। इस समस्या को हल करने के लिए, लेखक शोर जागरूकता मार्गदर्शन (NAG) प्रस्तावित करते हैं, जो एक सरल लेकिन प्रभावी सुधार विधि है जो नमूनाकरण प्रक्षेपवक्र को पूर्वनिर्धारित शोर अनुसूची के साथ संरेखित रखने के लिए स्पष्ट रूप से मार्गदर्शन करती है।
विसरण मॉडल और प्रवाह मॉडल जैसे विनाशकारी उत्पादक मॉडल छवि संश्लेषण, वीडियो उत्पादन आदि दृश्य उत्पादन कार्यों में उल्लेखनीय सफलता प्राप्त कर चुके हैं। इन मॉडल का मूल सिद्धांत एक पुनरावृत्ति प्रक्रिया के माध्यम से शुद्ध शोर से लक्ष्य नमूने को क्रमिक रूप से पुनः प्राप्त करना है। हालांकि, पुनरावृत्ति नमूनाकरण प्रक्रिया में, मॉडल अनिवार्य रूप से कई स्रोतों से त्रुटियों को जमा करता है, जिनमें शामिल हैं:
लेखक इन संचित त्रुटियों की एक महत्वपूर्ण अभिव्यक्ति की खोज करते हैं: मध्यवर्ती अवस्थाओं में निहित शोर स्तर पूर्वनिर्धारित अनुसूची से विचलित हो सकता है। यह "शोर बदलाव" नामक घटना लंबे समय से समुदाय द्वारा अनदेखी की गई है, लेकिन वास्तव में यह व्यापक रूप से मौजूद है और विभिन्न त्रुटि स्रोतों के सामूहिक प्रभाव में निहित है।
शोर बदलाव समस्या की पहचान: विनाशकारी उत्पादक मॉडल में व्यापक रूप से मौजूद लेकिन दीर्घकालीन अनदेखी शोर बदलाव समस्या की पहली बार व्यवस्थित पहचान और विश्लेषण
NAG विधि का प्रस्ताव: शोर बदलाव समस्या को कम करने के लिए शोर जागरूकता मार्गदर्शन (NAG) विधि का डिजाइन
वर्गीकरणकर्ता-मुक्त संस्करण का विकास: शोर स्थिति dropout के माध्यम से शोर-सशर्त और शोर-निरपेक्ष मॉडल को संयुक्त रूप से प्रशिक्षित करके NAG के वर्गीकरणकर्ता-मुक्त संस्करण का प्रस्ताव
व्यापक प्रायोगिक सत्यापन: ImageNet उत्पादन और पर्यवेक्षित सूक्ष्म-ट्यूनिंग कार्यों पर NAG की प्रभावशीलता और सार्वभौमिकता का सत्यापन
शोर स्तर t∈[0,T] के लिए, निरंतर समय यादृच्छिक प्रक्षेप को परिभाषित किया जाता है:
xt=αtx0+σtϵ
जहां α0=σT=1, αT=σ0=0, αt एकरस रूप से घटता है, σt एकरस रूप से बढ़ता है।
संचित त्रुटि e को xt पर लागू अतिरिक्त गॉसियन विक्षोभ के रूप में देखा जा सकता है: x^t=xt+e, जहां e∼N(0,σe2I)।
यह विक्षोभ प्रभावी विचरण को σt2 से σt2+σe2 तक बढ़ाता है, जिससे विक्षुब्ध अवस्था बदले हुए शोर स्तर t′=t+δ पर नमूना लिए गए जैसे व्यवहार करती है:
σt+δ2=σt2+σe2
कथन 1: जब त्रुटि विचरण σe2 छोटा हो, तो बदलाव δ का प्रथम-क्रम सन्निकटन:
δ≈σ˙tσt2+σe2−σt
pt(t∣x)∝pt(x∣t)/pt(x) का उपयोग करते हुए, निहित शोर भविष्यवक्ता के ढाल को अनुमानित करने के लिए स्कोर मिश्रण का उपयोग:
swnag(x∣t)=(wnag+1)s(x∣t)−wnags(x)
CFG की प्रशिक्षण रणनीति का पालन करें: प्रशिक्षण के दौरान निश्चित संभावना के साथ शोर स्थिति t को यादृच्छिक रूप से छोड़ें, जिससे मॉडल सशर्त और निरपेक्ष उद्देश्यों के बीच वजन साझा कर सके।
वर्गीकरणकर्ता मार्गदर्शन: सशर्त उत्पादन के लिए बाहरी वर्गीकरणकर्ता का उपयोग
वर्गीकरणकर्ता-मुक्त मार्गदर्शन (CFG): सशर्त और निरपेक्ष मॉडल मिश्रण के माध्यम से मार्गदर्शन
डोमेन मार्गदर्शन (DoG): सूक्ष्म-ट्यूनिंग परिदृश्य के लिए विशेष रूप से डिज़ाइन की गई मार्गदर्शन विधि
यह पेपर पहली बार शोर स्तर को ही मार्गदर्शन संकेत के रूप में स्पष्ट रूप से उपयोग करने वाली विधि है, जो पूर्वनिर्धारित शोर स्थिति के साथ संरेखण को सीधे बढ़ाती है।
लेखक आशा करते हैं कि यह कार्य शोधकर्ताओं का ध्यान विनाशकारी उत्पादन में व्यापक रूप से मौजूद प्रशिक्षण-अनुमान असमानता समस्या की ओर आकर्षित करेगा, निम्नलिखित अनुसंधान दिशाओं को बढ़ावा देगा:
शोर बदलाव समस्या का सैद्धांतिक या अनुभवजन्य विश्लेषण
अनुमान चरण में बदलाव के प्रति मजबूत उत्पादक मॉडल का निर्माण
पेपर विसरण मॉडल, प्रवाह मॉडल, मार्गदर्शन तकनीकें आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
Ho et al. (2020): DDPM मूल पेपर
Peebles & Xie (2023): DiT आर्किटेक्चर
Ma et al. (2024): SiT आर्किटेक्चर
Ho & Salimans (2021): वर्गीकरणकर्ता-मुक्त मार्गदर्शन
Dhariwal & Nichol (2021): वर्गीकरणकर्ता मार्गदर्शन
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो विनाशकारी उत्पादक मॉडल में एक महत्वपूर्ण लेकिन अनदेखी समस्या की पहचान करता है, एक सरल और प्रभावी समाधान प्रस्तावित करता है, और पर्याप्त प्रयोगों के माध्यम से विधि की प्रभावशीलता और सार्वभौमिकता को सत्यापित करता है। यह कार्य विसरण मॉडल क्षेत्र के लिए महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखता है।