CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic
CADE 2.5 - ZeResFDG: Guida Disaccoppiata in Frequenza, Riscalata e a Proiezione Zero per Modelli di Diffusione Latente SD/SDXL
Il presente articolo propone CADE 2.5 (Comfy Adaptive Detail Enhancer), uno stack di guida a livello di campionatore per modelli di diffusione latente SD/SDXL. Il modulo centrale ZeResFDG unifica tre tecniche fondamentali: (1) guida disaccoppiata in frequenza, che ripesa i componenti a bassa e alta frequenza del segnale di guida; (2) riscalamento energetico, che adatta l'ampiezza per campione della previsione guidata al ramo positivo; (3) proiezione zero, che rimuove le componenti parallele alla direzione incondizionata. Un leggero EMA spettrale con meccanismo di isteresi commuta tra modalità conservativa e ricerca di dettagli durante la cristallizzazione strutturale nel processo di campionamento. Il metodo migliora la nitidezza, l'aderenza al prompt e il controllo degli artefatti a scale di guida moderate, senza necessità di riaddestrare il modello.
I modelli di diffusione latente (come SD/SDXL), sebbene capaci di generare immagini ad alta fedeltà, presentano degradazione della qualità a scale elevate di guida libera da classificatore (CFG), manifestandosi come sovrasaturazione, spostamento tonale o artefatti di texture. Ridurre il CFG per evitare questi effetti comporta spesso il sacrificio della nitidezza e dell'aderenza al prompt.
Questo problema incide direttamente sulla qualità dei risultati dei modelli di diffusione nelle applicazioni pratiche. Gli utenti devono fare compromessi tra nitidezza/aderenza al prompt e controllo degli artefatti, il che limita l'utilità pratica del modello.
Guida consapevole della pianificazione o limitata per intervalli
Euristiche di riscalamento ampiamente utilizzate nella pratica
Sebbene questi metodi siano efficaci in una certa misura, mancano di un framework unificato che affronti simultaneamente l'elaborazione dei componenti di frequenza, l'adattamento energetico e il problema della deriva direzionale.
Il presente lavoro mira a fornire una soluzione compatta a livello di campionatore affrontando i problemi sopra menzionati attraverso la ristrutturazione del segnale di guida stesso, mantenendo al contempo la caratteristica di indipendenza dall'addestramento.
Proposta del framework unificato ZeResFDG: Integra organicamente tre tecniche di disaccoppiamento in frequenza, riscalamento energetico e proiezione zero
Progettazione di un meccanismo di commutazione adattiva: Commuta dinamicamente tra modalità conservativa e ricerca di dettagli basata su EMA spettrale e isteresi
Sviluppo dello Stabilizzatore QSilk Micrograin: Stabilizzatore a tempo di inferenza indipendente dall'addestramento che migliora la robustezza e produce microtexture naturali ad alta risoluzione
Implementazione di un wrapper campionatore plug-and-play: Integrabile nelle pipeline SD/SDXL esistenti senza necessità di riaddestrare
Verifica della compatibilità tra parametrizzazioni: Il metodo è applicabile a diverse parametrizzazioni (ad esempio parametrizzazione della velocità)
Dato un'ipotesi condizionata y_c e un'ipotesi incondizionata y_u, il CFG standard forma y_cfg = y_u + s(y_c - y_u), dove s > 0 è la scala di guida. L'obiettivo è ridurre gli artefatti a scale CFG elevate mantenendo l'aderenza al prompt.
Monitora il rapporto ad alta frequenza r_HF = ∥Δ_h∥²/(∥Δ_ℓ∥² + ∥Δ_h∥²) e traccia l'EMA ρ. Commuta tra modalità conservativa (CFGZeroFD) e ricerca di dettagli (RescaleFDG) attraverso due soglie (τ_lo, τ_hi) e un meccanismo di isteresi.
Dopo ogni passo di denoising, applica il bloccaggio dei quantili per campione al tensore denoisato, limitando i valori all'intervallo dei quantili (0.1%, 99.9%).
Progettazione del Framework Unificato: Integra organicamente tre diverse tecniche di miglioramento della guida in un unico framework
Meccanismo di Commutazione Adattiva: Commutazione intelligente della modalità basata su analisi spettrale, adattandosi ai cambiamenti strutturali durante il processo di campionamento
Caratteristica Indipendente dall'Addestramento: Tutti i componenti sono applicati al momento dell'inferenza, senza necessità di riaddestrare il modello
Elaborazione Consapevole della Frequenza: Elabora esplicitamente componenti di frequenza diverse, proteggendo la struttura globale mentre migliora i dettagli
Gli esperimenti utilizzano il modello SDXL con risoluzione 672×944, risoluzione di output finale 3688×5192. I test includono diversi modelli SDXL orientati a fotografie e anime.
Gli esperimenti dimostrano i miglioramenti di CADE 2.5 in molteplici aspetti:
Ritratti in Stile Anime: Linee più nitide, effetti di colore e illuminazione migliori, dettagli significativamente migliorati negli occhi, naso e labbra, senza tremolii
Ritratti in Stile Fotografico: Mantiene il tono globale mentre migliora i microdettagli, riduce gli artefatti negli occhi, arricchisce i dettagli dei capelli, tono della pelle e microtexture più naturali
Dettagli ad Alta Frequenza: Microdettagli significativamente migliorati in aree come labbra, naso e collo
L'articolo fornisce confronti visivi dettagliati, mostrando che ZeResFDG migliora significativamente la qualità dei microdettagli e riduce gli artefatti tipici ad alto CFG (sovrasaturazione, effetti di alone) mantenendo la composizione globale e il tono.
L'articolo sottolinea in particolare la complementarità con il framework di Guida a Proiezione Adattiva (APG) di Sadat et al. (2025). APG decompone la guida libera da classificatore in componenti parallele e ortogonali, mentre il presente lavoro estende questa prospettiva, incorporando il riscalamento e la proiezione zero specializzata per SD/SDXL.
CADE 2.5 affronta con successo il problema della degradazione della qualità nei modelli SD/SDXL a scale CFG elevate attraverso il framework ZeResFDG, migliorando significativamente la qualità dell'immagine mantenendo l'indipendenza dall'addestramento.
Ambito di Valutazione Limitato: Gli autori riconoscono che la valutazione è principalmente qualitativa, mancando di benchmark quantitativi completi
Sensibilità ai Parametri: Il metodo coinvolge molteplici iperparametri che potrebbero richiedere ottimizzazione per scenari diversi
Costo Computazionale: Sebbene dichiarato leggero, la decomposizione in frequenza e la commutazione multi-modalità comportano comunque un certo costo computazionale
L'articolo cita importanti lavori in questo campo, inclusi:
Metodi orientati all'attenzione come SAG/PAG
Ricerca correlata al framework APG
Teoria fondamentale dei meccanismi di guida dei modelli di diffusione
Tecniche di ottimizzazione ampiamente utilizzate nella pratica
Valutazione Complessiva: Questo è un articolo di ottimizzazione tecnica molto rigoroso che, sebbene presenti alcune insufficienze in termini di profondità teorica e completezza della valutazione, possiede un alto valore pratico e fornisce una soluzione di miglioramento efficace per le applicazioni pratiche dei modelli di diffusione. La caratteristica indipendente dall'addestramento del metodo e i significativi miglioramenti visivi lo rendono promettente per le applicazioni future.