CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic
CADE 2.5 - ZeResFDG: Frequenzgekoppelte, Reskalierte und Null-projizierte Anleitung für SD/SDXL-Latent-Diffusionsmodelle
In diesem Papier wird CADE 2.5 (Comfy Adaptive Detail Enhancer) vorgestellt, ein Sampler-Ebenen-Anleitungsstapel für SD/SDXL-Latent-Diffusionsmodelle. Das Kernmodul ZeResFDG vereinigt drei Schlüsseltechniken: (1) Frequenzgekoppelte Anleitung, die die Nieder- und Hochfrequenzkomponenten des Anleitungssignals neu gewichtet; (2) Energiereskalierung, die die Amplitude der geführten Vorhersage pro Stichprobe dem positiven Zweig anpasst; (3) Nullprojektion, die Komponenten parallel zur unbedingten Richtung entfernt. Ein leichtgewichtiger spektraler EMA mit Hysteresemechanismus schaltet während des Samplingprozesses zwischen konservativem Modus und detailsuchendem Modus um, wenn sich die Strukturkristallisation verfestigt. Das Verfahren verbessert bei mittleren Anleitungsskalen die Klarheit, Prompt-Befolgung und Artefaktenkontrolle ohne Umschulung.
Latent-Diffusionsmodelle (wie SD/SDXL) können zwar hochwertige Bilder erzeugen, zeigen aber bei großen Classifier-Free-Guidance-(CFG-)Skalen Qualitätsverschlechterung, die sich als Übersättigung, Farbtonversatz oder Texturartefakte äußert. Die Reduzierung der CFG zur Vermeidung dieser Effekte führt häufig zu Einbußen bei Klarheit und Prompt-Befolgung.
Dieses Problem wirkt sich direkt auf die Qualität der Diffusionsmodelle in praktischen Anwendungen aus. Benutzer müssen einen Kompromiss zwischen Bildklarheit/Prompt-Befolgung und Artefaktenkontrolle eingehen, was die Praktikabilität des Modells einschränkt.
Zeitplanabhängige oder intervallbegrenzte Anleitung
In der Praxis weit verbreitete Reskalierungsheuristiken
Obwohl diese Methoden gewisse Effekte haben, fehlt ihnen ein einheitlicher Rahmen, um gleichzeitig die Verarbeitung von Frequenzkomponenten, Energieabstimmung und Richtungsabweichungen zu adressieren.
Dieses Papier zielt darauf ab, eine kompakte Sampler-seitige Lösung bereitzustellen, die die oben genannten Probleme durch Umgestaltung des Anleitungssignals selbst adressiert, während die trainingsfreie Eigenschaft beibehalten wird.
Vorstellung des ZeResFDG-Einheitsrahmens: Organische Kombination von Frequententkopplung, Energiereskalierung und Nullprojektion
Entwicklung eines adaptiven Modusschalter-Mechanismus: Dynamisches Umschalten zwischen konservativem und detailsuchendem Modus basierend auf spektralem EMA und Hysterese
Entwicklung des QSilk Micrograin Stabilizer: Trainingsfreier Inferenz-Zeit-Stabilisator, der die Robustheit verbessert und bei hoher Auflösung natürliche Mikrotexturen erzeugt
Implementierung eines Plug-and-Play-Sampler-Wrappers: Integration in bestehende SD/SDXL-Pipelines ohne Umschulung
Validierung der Parametrisierungskompatibilität: Methode ist auf verschiedene Parametrisierungsweisen anwendbar (z.B. Geschwindigkeitsparametrisierung)
Gegeben sind die bedingte Vorhersage y_c und die unbedingte Vorhersage y_u. Standard-CFG bildet y_cfg = y_u + s(y_c - y_u), wobei s > 0 die Anleitungsskala ist. Das Ziel besteht darin, Artefakte bei hohen CFG-Skalen zu reduzieren, während die Prompt-Befolgung beibehalten wird.
Überwachung des Hochfrequenzanteils r_HF = ∥Δ_h∥²/(∥Δ_ℓ∥² + ∥Δ_h∥²) und Verfolgung des EMA ρ. Umschalten zwischen konservativem Modus (CFGZeroFD) und detailsuchendem Modus (RescaleFDG) durch zwei Schwellwerte (τ_lo, τ_hi) und Hysteresemechanismus.
Nach jedem Entrauschungsschritt wird eine schrittweise Quantilbegrenzung pro Stichprobe auf den entrauschten Tensor angewendet, die Werte auf den Bereich der (0,1%, 99,9%)-Quantile begrenzt.
Einheitliche Rahmengestaltung: Organische Kombination von drei verschiedenen Anleitungsverbesserungstechniken in einem einzigen Rahmen
Adaptiver Schalter-Mechanismus: Intelligentes Modusumschalten basierend auf spektraler Analyse, angepasst an Strukturveränderungen während des Samplingprozesses
Trainingsfreie Eigenschaft: Alle Komponenten werden zur Inferenzzeit angewendet, ohne Modellumschulung
Frequenzbewusste Verarbeitung: Explizite Verarbeitung verschiedener Frequenzkomponenten, Schutz der globalen Struktur bei gleichzeitiger Detailverbesserung
Experimente verwenden das SDXL-Modell mit Auflösung 672×944, endgültige Ausgabeauflösung 3688×5192. Tests umfassen verschiedene SDXL-Modelle für fotorealistische und Anime-Stile.
Experimente zeigen Verbesserungen von CADE 2.5 in mehreren Aspekten:
Anime-Stil-Porträts: Klarere Linien, bessere Farb- und Lichtwirkungen, signifikante Verbesserung von Augen-, Nasen- und Lippendetails, keine Flimmern
Fotorealistische Porträts: Beibehaltung des globalen Farbtons bei gleichzeitiger Verbesserung von Mikro-Details, weniger Augenartefakte, reichhaltigere Haardetails, natürlichere Hautfarbe und Mikrotexturen
Hochfrequenzdetails: Signifikante Verbesserung von Mikro-Details in Lippen-, Nasen- und Halsbereichen
Das Papier bietet detaillierte visuelle Vergleiche, die zeigen, dass ZeResFDG die Mikro-Detail-Qualität erheblich verbessert und typische Hochfrequenz-Artefakte (Übersättigung, Halo-Effekte) reduziert, während die globale Komposition und der Farbton beibehalten werden.
Das Papier hebt besonders die Komplementarität zum Adaptive Projection Guidance (APG)-Rahmen von Sadat et al. (2025) hervor. APG zerlegt die Classifier-Free Guidance in parallele und orthogonale Komponenten, während dieses Papier diese Perspektive erweitert, indem es Reskalierung und spezialisierte Nullprojektion für SD/SDXL hinzufügt.
CADE 2.5 löst erfolgreich das Problem der Qualitätsverschlechterung bei hohen CFG-Skalen in SD/SDXL-Modellen durch den ZeResFDG-Rahmen und verbessert die Bildqualität erheblich, während die trainingsfreie Eigenschaft beibehalten wird.
Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:
Aufmerksamkeitsgesteuerte Methoden wie SAG/PAG
Verwandte Forschung zum APG-Rahmen
Grundlegende Theorien zu Diffusionsmodell-Anleitungsmechanismen
In der Praxis weit verbreitete Optimierungstechniken
Gesamtbewertung: Dies ist ein technisch anspruchsvolles Ingenieur-Optimierungspapier, das zwar in theoretischer Tiefe und Bewertungsumfang Mängel aufweist, aber hohen praktischen Wert hat und effektive Verbesserungslösungen für praktische Anwendungen von Diffusionsmodellen bietet. Die trainingsfreie Eigenschaft der Methode und die signifikanten visuellen Verbesserungen bieten gute Anwendungsaussichten.