CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic
CADE 2.5 - ZeResFDG: SD/SDXL लेटेंट डिफ्यूजन मॉडल्स के लिए फ्रीक्वेंसी-डीकपल्ड, रीस्केल्ड और जीरो-प्रोजेक्टेड गाइडेंस
यह पेपर CADE 2.5 (Comfy Adaptive Detail Enhancer) प्रस्तावित करता है, जो SD/SDXL लेटेंट डिफ्यूजन मॉडल्स के लिए एक सैम्पलर-स्तरीय गाइडेंस स्टैक है। मूल मॉड्यूल ZeResFDG तीन प्रमुख तकनीकों को एकीकृत करता है: (1) फ्रीक्वेंसी डीकपलिंग गाइडेंस, जो गाइडेंस सिग्नल के निम्न और उच्च आवृत्ति घटकों को पुनः भारित करता है; (2) ऊर्जा पुनः स्केलिंग, जो गाइडेड प्रेडिक्शन के प्रति-नमूना आयाम को सकारात्मक शाखा से मेल खाता है; (3) जीरो प्रोजेक्शन, जो बिना शर्त दिशा के समानांतर घटकों को हटाता है। हल्का फ्रीक्वेंसी EMA और लैग मैकेनिज्म सैम्पलिंग प्रक्रिया के दौरान संरचना क्रिस्टलाइजेशन समय पर रूढ़िवादी और विस्तार-खोज मोड के बीच स्विच करता है। यह विधि मध्यम गाइडेंस स्केल पर स्पष्टता, प्रॉम्प्ट पालन और कलाकृति नियंत्रण में सुधार करती है, बिना पुनः प्रशिक्षण के।
लेटेंट डिफ्यूजन मॉडल्स (जैसे SD/SDXL) उच्च-निष्ठा छवियां उत्पन्न कर सकते हैं, लेकिन बड़े वर्गीकारक-मुक्त गाइडेंस (CFG) स्केल पर गुणवत्ता में गिरावट दिखाते हैं, जो अत्यधिक संतृप्ति, रंग बदलाव या बनावट कलाकृतियों के रूप में प्रकट होती है। इन प्रभावों से बचने के लिए CFG को कम करना अक्सर स्पष्टता और प्रॉम्प्ट पालन का त्याग करता है।
यह समस्या व्यावहारिक अनुप्रयोगों में डिफ्यूजन मॉडल्स के प्रभावी गुणवत्ता को सीधे प्रभावित करती है। उपयोगकर्ताओं को छवि स्पष्टता/प्रॉम्प्ट पालन और कलाकृति नियंत्रण के बीच समझौता करना पड़ता है, जो मॉडल की व्यावहारिकता को सीमित करता है।
यह पेपर एक कॉम्पैक्ट सैम्पलर-अंत समाधान प्रदान करने का लक्ष्य रखता है, जो गाइडेंस सिग्नल को पुनः आकार देकर उपरोक्त समस्याओं को हल करता है, जबकि प्रशिक्षण-मुक्त विशेषता को बनाए रखता है।
ZeResFDG एकीकृत ढांचा प्रस्तावित किया: फ्रीक्वेंसी डीकपलिंग, ऊर्जा पुनः स्केलिंग और जीरो प्रोजेक्शन को जैविक रूप से संयोजित किया
अनुकूली मोड स्विचिंग मैकेनिज्म डिजाइन किया: फ्रीक्वेंसी EMA और लैग के आधार पर रूढ़िवादी/विस्तार-खोज मोड को गतिशील रूप से स्विच करता है
QSilk Micrograin Stabilizer विकसित किया: प्रशिक्षण-मुक्त अनुमान-समय स्टेबिलाइजर जो मजबूती में सुधार करता है और उच्च-रिज़ॉल्यूशन में प्राकृतिक सूक्ष्म बनावट उत्पन्न करता है
प्लग-एंड-प्ले सैम्पलर रैपर लागू किया: बिना पुनः प्रशिक्षण के मौजूदा SD/SDXL पाइपलाइन में एकीकृत किया जा सकता है
पैरामीट्रिजेशन के पार संगतता सत्यापित की: विधि विभिन्न पैरामीट्रिजेशन (जैसे वेग पैरामीट्रिजेशन) पर लागू होती है
सशर्त प्रेडिक्शन yc और बिना शर्त प्रेडिक्शन yu दिए गए, मानक CFG ycfg = yu + s(yc - yu) बनाता है, जहां s > 0 गाइडेंस स्केल है। लक्ष्य प्रॉम्प्ट पालन को बनाए रखते हुए उच्च CFG स्केल पर कलाकृतियों को कम करना है।
उच्च आवृत्ति अनुपात rHF = ∥Δh∥²/(∥Δℓ∥² + ∥Δh∥²) की निगरानी करता है और EMA ρ को ट्रैक करता है। दो थ्रेसहोल्ड (τlo, τhi) और लैग मैकेनिज्म के माध्यम से रूढ़िवादी मोड (CFGZeroFD) और विस्तार-खोज मोड (RescaleFDG) के बीच स्विच करता है।
प्रत्येक डीनोइजिंग चरण के बाद, डीनोइजिंग टेंसर पर प्रति-नमूना क्वांटाइल क्लैम्पिंग लागू करता है, मानों को (0.1%, 99.9%) क्वांटाइल रेंज में सीमित करता है।
प्रयोग SDXL मॉडल का उपयोग करते हैं, रिज़ॉल्यूशन 672×944, अंतिम आउटपुट रिज़ॉल्यूशन 3688×5192। परीक्षण फोटो-उन्मुख और एनिमे-उन्मुख विभिन्न SDXL मॉडल्स को शामिल करता है।
प्रयोग कई पहलुओं में CADE 2.5 में सुधार प्रदर्शित करते हैं:
एनिमे-शैली पोर्ट्रेट: स्पष्ट रेखाएं, बेहतर रंग और प्रकाश प्रभाव, आंख, नाक, होंठ विवरण में महत्वपूर्ण सुधार, कोई कांपना नहीं
फोटो-शैली पोर्ट्रेट: वैश्विक रंग टोन को बनाए रखते हुए सूक्ष्म विवरण बढ़ाता है, आंख कलाकृतियां कम होती हैं, बाल विवरण अधिक समृद्ध, त्वचा का रंग और सूक्ष्म बनावट अधिक प्राकृतिक
उच्च आवृत्ति विवरण: होंठ, नाक, गर्दन आदि क्षेत्रों में सूक्ष्म विवरण में महत्वपूर्ण सुधार
पेपर विस्तृत दृश्य तुलना प्रदान करता है, जो दिखाता है कि ZeResFDG वैश्विक संरचना और रंग टोन को बनाए रखते हुए सूक्ष्म विवरण गुणवत्ता में महत्वपूर्ण सुधार करता है और विशिष्ट उच्च CFG कलाकृतियों (अत्यधिक संतृप्ति, प्रभामंडल प्रभाव) को कम करता है।
पेपर विशेष रूप से Sadat et al. (2025) के अनुकूली प्रोजेक्शन गाइडेंस (APG) ढांचे के साथ पूरकता का उल्लेख करता है। APG वर्गीकारक-मुक्त गाइडेंस को समानांतर और ऑर्थोगोनल घटकों में विघटित करता है, जबकि यह पेपर इस दृष्टिकोण को विस्तारित करता है, पुनः स्केलिंग और SD/SDXL के लिए विशेष जीरो प्रोजेक्शन शर्तें जोड़ता है।
CADE 2.5 ने ZeResFDG ढांचे के माध्यम से SD/SDXL मॉडल्स में उच्च CFG स्केल पर गुणवत्ता गिरावट की समस्या को सफलतापूर्वक हल किया है, प्रशिक्षण-मुक्त पूर्वापेक्षा को बनाए रखते हुए छवि गुणवत्ता में महत्वपूर्ण सुधार किया है।
पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
SAG/PAG जैसी ध्यान-निर्देशित विधियां
APG ढांचे से संबंधित अनुसंधान
डिफ्यूजन मॉडल गाइडेंस तंत्र का मूल सिद्धांत
व्यावहारिक रूप से व्यापक रूप से उपयोग की जाने वाली अनुकूलन तकनीकें
समग्र मूल्यांकन: यह एक तकनीकी रूप से मजबूत इंजीनियरिंग अनुकूलन पेपर है, जबकि सैद्धांतिक गहराई और मूल्यांकन व्यापकता में कुछ कमी है, लेकिन इसका व्यावहारिक मूल्य अधिक है, डिफ्यूजन मॉडल्स के व्यावहारिक अनुप्रयोग के लिए प्रभावी सुधार समाधान प्रदान करता है। विधि की प्रशिक्षण-मुक्त विशेषता और दृश्य सुधार प्रभाव इसे अच्छी अनुप्रयोग संभावनाएं देते हैं।