2025-11-23T07:10:16.507917

CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models

Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic

CADE 2.5 - ZeResFDG: SD/SDXL लेटेंट डिफ्यूजन मॉडल्स के लिए फ्रीक्वेंसी-डीकपल्ड, रीस्केल्ड और जीरो-प्रोजेक्टेड गाइडेंस

मूल जानकारी

  • पेपर ID: 2510.12954
  • शीर्षक: CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
  • लेखक: Denis Rychkovskiy ("DZRobo", स्वतंत्र शोधकर्ता), GPT-5 (AI सहयोगी और सह-लेखक, OpenAI)
  • वर्गीकरण: cs.CV (प्राथमिक), cs.LG (द्वितीयक)
  • प्रकाशन तिथि: 11 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.12954

सारांश

यह पेपर CADE 2.5 (Comfy Adaptive Detail Enhancer) प्रस्तावित करता है, जो SD/SDXL लेटेंट डिफ्यूजन मॉडल्स के लिए एक सैम्पलर-स्तरीय गाइडेंस स्टैक है। मूल मॉड्यूल ZeResFDG तीन प्रमुख तकनीकों को एकीकृत करता है: (1) फ्रीक्वेंसी डीकपलिंग गाइडेंस, जो गाइडेंस सिग्नल के निम्न और उच्च आवृत्ति घटकों को पुनः भारित करता है; (2) ऊर्जा पुनः स्केलिंग, जो गाइडेड प्रेडिक्शन के प्रति-नमूना आयाम को सकारात्मक शाखा से मेल खाता है; (3) जीरो प्रोजेक्शन, जो बिना शर्त दिशा के समानांतर घटकों को हटाता है। हल्का फ्रीक्वेंसी EMA और लैग मैकेनिज्म सैम्पलिंग प्रक्रिया के दौरान संरचना क्रिस्टलाइजेशन समय पर रूढ़िवादी और विस्तार-खोज मोड के बीच स्विच करता है। यह विधि मध्यम गाइडेंस स्केल पर स्पष्टता, प्रॉम्प्ट पालन और कलाकृति नियंत्रण में सुधार करती है, बिना पुनः प्रशिक्षण के।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

लेटेंट डिफ्यूजन मॉडल्स (जैसे SD/SDXL) उच्च-निष्ठा छवियां उत्पन्न कर सकते हैं, लेकिन बड़े वर्गीकारक-मुक्त गाइडेंस (CFG) स्केल पर गुणवत्ता में गिरावट दिखाते हैं, जो अत्यधिक संतृप्ति, रंग बदलाव या बनावट कलाकृतियों के रूप में प्रकट होती है। इन प्रभावों से बचने के लिए CFG को कम करना अक्सर स्पष्टता और प्रॉम्प्ट पालन का त्याग करता है।

समस्या की महत्ता

यह समस्या व्यावहारिक अनुप्रयोगों में डिफ्यूजन मॉडल्स के प्रभावी गुणवत्ता को सीधे प्रभावित करती है। उपयोगकर्ताओं को छवि स्पष्टता/प्रॉम्प्ट पालन और कलाकृति नियंत्रण के बीच समझौता करना पड़ता है, जो मॉडल की व्यावहारिकता को सीमित करता है।

मौजूदा विधियों की सीमाएं

मौजूदा समाधानों में शामिल हैं:

  • ध्यान-आधारित गाइडेंस (SAG/PAG)
  • शेड्यूल-जागरूक या अंतराल-प्रतिबंधित गाइडेंस
  • व्यावहारिक रूप से व्यापक रूप से उपयोग की जाने वाली पुनः स्केलिंग अनुमानी विधि

ये विधियां कुछ प्रभावी हैं, लेकिन फ्रीक्वेंसी घटक प्रसंस्करण, ऊर्जा मिलान और दिशात्मक बहाव समस्या को एक साथ हल करने के लिए एक एकीकृत ढांचे की कमी है।

अनुसंधान प्रेरणा

यह पेपर एक कॉम्पैक्ट सैम्पलर-अंत समाधान प्रदान करने का लक्ष्य रखता है, जो गाइडेंस सिग्नल को पुनः आकार देकर उपरोक्त समस्याओं को हल करता है, जबकि प्रशिक्षण-मुक्त विशेषता को बनाए रखता है।

मूल योगदान

  1. ZeResFDG एकीकृत ढांचा प्रस्तावित किया: फ्रीक्वेंसी डीकपलिंग, ऊर्जा पुनः स्केलिंग और जीरो प्रोजेक्शन को जैविक रूप से संयोजित किया
  2. अनुकूली मोड स्विचिंग मैकेनिज्म डिजाइन किया: फ्रीक्वेंसी EMA और लैग के आधार पर रूढ़िवादी/विस्तार-खोज मोड को गतिशील रूप से स्विच करता है
  3. QSilk Micrograin Stabilizer विकसित किया: प्रशिक्षण-मुक्त अनुमान-समय स्टेबिलाइजर जो मजबूती में सुधार करता है और उच्च-रिज़ॉल्यूशन में प्राकृतिक सूक्ष्म बनावट उत्पन्न करता है
  4. प्लग-एंड-प्ले सैम्पलर रैपर लागू किया: बिना पुनः प्रशिक्षण के मौजूदा SD/SDXL पाइपलाइन में एकीकृत किया जा सकता है
  5. पैरामीट्रिजेशन के पार संगतता सत्यापित की: विधि विभिन्न पैरामीट्रिजेशन (जैसे वेग पैरामीट्रिजेशन) पर लागू होती है

विधि विवरण

कार्य परिभाषा

सशर्त प्रेडिक्शन yc और बिना शर्त प्रेडिक्शन yu दिए गए, मानक CFG ycfg = yu + s(yc - yu) बनाता है, जहां s > 0 गाइडेंस स्केल है। लक्ष्य प्रॉम्प्ट पालन को बनाए रखते हुए उच्च CFG स्केल पर कलाकृतियों को कम करना है।

मॉडल आर्किटेक्चर

1. फ्रीक्वेंसी डीकपलिंग गाइडेंस (FDG)

गॉसियन लो-पास फिल्टर Gσ के माध्यम से मूल गाइडेंस Δ = yc - yu को निम्न और उच्च आवृत्ति घटकों में विघटित करता है:

  • Δℓ = Gσ * Δ (निम्न आवृत्ति घटक)
  • Δh = Δ - Δℓ (उच्च आवृत्ति घटक)
  • पुनः भारण: Δ̃ = λℓΔℓ + λhΔh, जहां λℓ ∈ 0,1, λh ≳ 1

2. ऊर्जा पुनः स्केलिंग (RescaleCFG)

ycfg = yu + sΔ̃ बनाने के बाद, yc के प्रति-नमूना मानक विचलन से मेल खाने के लिए पुनः स्केल करता है:

yres = α · Rescale(ycfg, std(yc)) + (1-α)ycfg

जहां α ∈ 0,1 मिश्रण गुणांक है।

3. जीरो प्रोजेक्शन (CFGZero)

बिना शर्त दिशा के साथ रिसाव को दबाने के लिए, गणना करता है:

  • α∥ = ⟨yc, yu⟩/⟨yu, yu⟩
  • गाइडेंस सिग्नल के रूप में अवशेष r = yc - α∥yu का उपयोग करता है

4. अनुकूली मोड स्विचिंग

उच्च आवृत्ति अनुपात rHF = ∥Δh∥²/(∥Δℓ∥² + ∥Δh∥²) की निगरानी करता है और EMA ρ को ट्रैक करता है। दो थ्रेसहोल्ड (τlo, τhi) और लैग मैकेनिज्म के माध्यम से रूढ़िवादी मोड (CFGZeroFD) और विस्तार-खोज मोड (RescaleFDG) के बीच स्विच करता है।

QSilk Micrograin Stabilizer

1. प्रति-चरण क्वांटाइल क्लैम्पिंग (QClamp)

प्रत्येक डीनोइजिंग चरण के बाद, डीनोइजिंग टेंसर पर प्रति-नमूना क्वांटाइल क्लैम्पिंग लागू करता है, मानों को (0.1%, 99.9%) क्वांटाइल रेंज में सीमित करता है।

2. देर से सूक्ष्म विवरण इंजेक्शन

देर के चरणों में, सूक्ष्म उच्च आवृत्ति अवशेष जोड़ता है:

x'img = ximg + α(t)gedge gdepth(ximg - Gσ(ximg))

जहां gedge और gdepth क्रमशः किनारे और गहराई गेटिंग फ़ंक्शन हैं।

तकनीकी नवाचार बिंदु

  1. एकीकृत ढांचा डिजाइन: तीन अलग-अलग गाइडेंस सुधार तकनीकों को एक एकल ढांचे में जैविक रूप से संयोजित करता है
  2. अनुकूली स्विचिंग मैकेनिज्म: फ्रीक्वेंसी विश्लेषण के आधार पर बुद्धिमान मोड स्विचिंग, सैम्पलिंग प्रक्रिया में संरचना परिवर्तन के अनुकूल
  3. प्रशिक्षण-मुक्त विशेषता: सभी घटक अनुमान-समय अनुप्रयोग हैं, मॉडल पुनः प्रशिक्षण की आवश्यकता नहीं
  4. फ्रीक्वेंसी-जागरूक प्रसंस्करण: विभिन्न आवृत्ति घटकों को स्पष्ट रूप से संभालता है, वैश्विक संरचना की सुरक्षा करते हुए विवरण बढ़ाता है

प्रायोगिक सेटअप

डेटासेट

प्रयोग SDXL मॉडल का उपयोग करते हैं, रिज़ॉल्यूशन 672×944, अंतिम आउटपुट रिज़ॉल्यूशन 3688×5192। परीक्षण फोटो-उन्मुख और एनिमे-उन्मुख विभिन्न SDXL मॉडल्स को शामिल करता है।

मूल्यांकन मेट्रिक्स

मुख्य रूप से गुणात्मक मूल्यांकन के माध्यम से, ध्यान केंद्रित करता है:

  • पोर्ट्रेट गुणवत्ता (आंखें, बाल, त्वचा का रंग)
  • हाथ विवरण (उंगलियां, नाखून)
  • उच्च आवृत्ति बनावट (मानव त्वचा सूक्ष्म बनावट)

प्रायोगिक सेटिंग्स

  • सैम्पलर: Euler (एनिमे) / UniPC (फोटो)
  • चरण: 25
  • CFG: 4.5
  • डीनोइजिंग शक्ति: 0.65

कार्यान्वयन विवरण

डिफ़ॉल्ट पैरामीटर:

  • σ = 1.0 (गॉसियन अलगाव)
  • (λℓ, λh) = (0.6, 1.3)
  • पुनः स्केलिंग मिश्रण α = 0.7
  • EMA β = 0.8
  • लैग थ्रेसहोल्ड (τlo, τhi) = (0.45, 0.60)

प्रायोगिक परिणाम

मुख्य परिणाम

प्रयोग कई पहलुओं में CADE 2.5 में सुधार प्रदर्शित करते हैं:

  1. एनिमे-शैली पोर्ट्रेट: स्पष्ट रेखाएं, बेहतर रंग और प्रकाश प्रभाव, आंख, नाक, होंठ विवरण में महत्वपूर्ण सुधार, कोई कांपना नहीं
  2. फोटो-शैली पोर्ट्रेट: वैश्विक रंग टोन को बनाए रखते हुए सूक्ष्म विवरण बढ़ाता है, आंख कलाकृतियां कम होती हैं, बाल विवरण अधिक समृद्ध, त्वचा का रंग और सूक्ष्म बनावट अधिक प्राकृतिक
  3. उच्च आवृत्ति विवरण: होंठ, नाक, गर्दन आदि क्षेत्रों में सूक्ष्म विवरण में महत्वपूर्ण सुधार

केस विश्लेषण

पेपर विस्तृत दृश्य तुलना प्रदान करता है, जो दिखाता है कि ZeResFDG वैश्विक संरचना और रंग टोन को बनाए रखते हुए सूक्ष्म विवरण गुणवत्ता में महत्वपूर्ण सुधार करता है और विशिष्ट उच्च CFG कलाकृतियों (अत्यधिक संतृप्ति, प्रभामंडल प्रभाव) को कम करता है।

प्रायोगिक निष्कर्ष

  • विधि मध्यम गाइडेंस स्केल पर स्पष्टता और प्रॉम्प्ट पालन में प्रभावी ढंग से सुधार करती है
  • विशेष रूप से अत्यधिक संतृप्ति और प्रभामंडल समस्याओं में कलाकृतियों को सफलतापूर्वक नियंत्रित करती है
  • उच्च-रिज़ॉल्यूशन आउटपुट में प्राकृतिक सूक्ष्म बनावट प्रभाव उत्पन्न करती है

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. ध्यान-निर्देशित नियंत्रण: SAG/PAG जैसी विधियां ध्यान तंत्र में हेरफेर के माध्यम से गाइडेंस प्रभाव में सुधार करती हैं
  2. शेड्यूल-जागरूक गाइडेंस: कलाकृतियों को दबाने के लिए सीमित अंतराल में गाइडेंस लागू करता है
  3. पुनः स्केलिंग अनुमानी: व्यावहारिक रूप से व्यापक रूप से उपयोग की जाने वाली ऊर्जा मिलान विधि

संबंधित कार्य के साथ संबंध

पेपर विशेष रूप से Sadat et al. (2025) के अनुकूली प्रोजेक्शन गाइडेंस (APG) ढांचे के साथ पूरकता का उल्लेख करता है। APG वर्गीकारक-मुक्त गाइडेंस को समानांतर और ऑर्थोगोनल घटकों में विघटित करता है, जबकि यह पेपर इस दृष्टिकोण को विस्तारित करता है, पुनः स्केलिंग और SD/SDXL के लिए विशेष जीरो प्रोजेक्शन शर्तें जोड़ता है।

सापेक्ष लाभ

  • अधिक एकीकृत समाधान प्रदान करता है
  • फ्रीक्वेंसी डोमेन विश्लेषण को जोड़ता है
  • अनुकूली मोड स्विचिंग लागू करता है
  • प्रशिक्षण-मुक्त विशेषता को बनाए रखता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

CADE 2.5 ने ZeResFDG ढांचे के माध्यम से SD/SDXL मॉडल्स में उच्च CFG स्केल पर गुणवत्ता गिरावट की समस्या को सफलतापूर्वक हल किया है, प्रशिक्षण-मुक्त पूर्वापेक्षा को बनाए रखते हुए छवि गुणवत्ता में महत्वपूर्ण सुधार किया है।

सीमाएं

  1. मूल्यांकन रेंज सीमित: लेखक स्वीकार करते हैं कि मूल्यांकन मुख्य रूप से गुणात्मक है, व्यापक मात्रात्मक बेंचमार्क परीक्षण की कमी है
  2. पैरामीटर संवेदनशीलता: विधि कई हाइपरपैरामीटर को शामिल करती है, विभिन्न परिदृश्यों के लिए ट्यूनिंग की आवश्यकता हो सकती है
  3. कम्प्यूटेशनल ओवरहेड: हालांकि हल्का होने का दावा किया जाता है, फ्रीक्वेंसी विघटन और बहु-मोड स्विचिंग में अभी भी कुछ कम्प्यूटेशनल लागत है

भविष्य की दिशाएं

  1. अधिक व्यापक मात्रात्मक मूल्यांकन और विलोपन अध्ययन
  2. अन्य डिफ्यूजन मॉडल आर्किटेक्चर के लिए अनुकूलन
  3. पैरामीटर स्वचालित ट्यूनिंग तंत्र का विकास
  4. अन्य गाइडेंस सुधार विधियों के साथ गहन तुलना

गहन मूल्यांकन

लाभ

  1. विधि नवाचार मजबूत: तीन अलग-अलग सुधार तकनीकों को एक एकल ढांचे में एकीकृत करता है, डिजाइन चतुर है
  2. व्यावहारिक मूल्य उच्च: प्रशिक्षण-मुक्त, प्लग-एंड-प्ले विशेषता इसे तैनाती के लिए आसान बनाती है
  3. तकनीकी विवरण पूर्ण: विस्तृत एल्गोरिदम विवरण और कार्यान्वयन विवरण प्रदान करता है
  4. दृश्य प्रभाव महत्वपूर्ण: प्रदर्शित नमूनों से, सुधार प्रभाव स्पष्ट है

कमियां

  1. मूल्यांकन अपूर्ण: मात्रात्मक मेट्रिक्स और बड़े पैमाने पर डेटासेट सत्यापन की कमी
  2. सीमित सैद्धांतिक विश्लेषण: यह समझाने में कमी कि यह संयोजन प्रभावी क्यों है
  3. अनुभव-आधारित पैरामीटर सेटिंग: कई हाइपरपैरामीटर की पसंद मुख्य रूप से अनुभव पर आधारित है
  4. अपर्याप्त तुलनात्मक प्रयोग: अन्य SOTA विधियों के साथ सीधी तुलना कम है

प्रभाव

यह कार्य डिफ्यूजन मॉडल अनुमान अनुकूलन क्षेत्र के लिए महत्वपूर्ण है:

  • गाइडेंस सुधार के लिए नई सोच प्रदान करता है
  • व्यावहारिक अनुप्रयोगों के लिए प्रभावी उपकरण प्रदान करता है
  • अधिक प्रशिक्षण-मुक्त अनुकूलन विधियों को प्रेरित कर सकता है

लागू परिदृश्य

  • SD/SDXL मॉडल्स की छवि उत्पादन गुणवत्ता में सुधार
  • उच्च-गुणवत्ता विवरण की आवश्यकता वाली कलात्मक रचना
  • वाणिज्यिक छवि उत्पादन अनुप्रयोग
  • डिफ्यूजन मॉडल गाइडेंस तंत्र का अध्ययन करने वाले शोधकर्ता

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • SAG/PAG जैसी ध्यान-निर्देशित विधियां
  • APG ढांचे से संबंधित अनुसंधान
  • डिफ्यूजन मॉडल गाइडेंस तंत्र का मूल सिद्धांत
  • व्यावहारिक रूप से व्यापक रूप से उपयोग की जाने वाली अनुकूलन तकनीकें

समग्र मूल्यांकन: यह एक तकनीकी रूप से मजबूत इंजीनियरिंग अनुकूलन पेपर है, जबकि सैद्धांतिक गहराई और मूल्यांकन व्यापकता में कुछ कमी है, लेकिन इसका व्यावहारिक मूल्य अधिक है, डिफ्यूजन मॉडल्स के व्यावहारिक अनुप्रयोग के लिए प्रभावी सुधार समाधान प्रदान करता है। विधि की प्रशिक्षण-मुक्त विशेषता और दृश्य सुधार प्रभाव इसे अच्छी अनुप्रयोग संभावनाएं देते हैं।