CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic
CADE 2.5 - ZeResFDG: Частотно-развязанное, перемасштабированное и нулевое проектирование для моделей латентной диффузии SD/SDXL
В данной работе предложен CADE 2.5 (Comfy Adaptive Detail Enhancer) — стек руководства уровня сэмплера для моделей латентной диффузии SD/SDXL. Основной модуль ZeResFDG объединяет три ключевые технологии: (1) частотно-развязанное руководство, переопределяющее вес низкочастотных и высокочастотных компонентов сигнала руководства; (2) перемасштабирование энергии, согласующее амплитуду управляемого предсказания с положительной ветвью на выборку; (3) нулевое проектирование, удаляющее компоненты, параллельные безусловному направлению. Легкий спектральный EMA с механизмом гистерезиса переключается между консервативным и режимом поиска деталей во время кристаллизации структуры в процессе сэмплирования. Метод улучшает четкость, соответствие подсказкам и контроль артефактов при средних масштабах руководства без переобучения.
Модели латентной диффузии (такие как SD/SDXL), хотя и способны генерировать изображения высокой верности, демонстрируют деградацию качества при больших масштабах классификатора-свободного руководства (CFG), проявляющуюся в виде пересыщения, смещения тона или текстурных артефактов. Снижение CFG для избежания этих эффектов часто приводит к потере четкости и соответствия подсказкам.
Эта проблема напрямую влияет на качество результатов моделей диффузии в практических приложениях. Пользователи вынуждены выбирать между четкостью/соответствием подсказкам и контролем артефактов, что ограничивает практическую применимость модели.
Руководство с учетом расписания или ограничением интервала
Широко используемые на практике эвристики перемасштабирования
Хотя эти методы имеют определенный эффект, им не хватает единой структуры для одновременного решения проблем обработки частотных компонентов, согласования энергии и дрейфа направления.
Данная работа направлена на предоставление компактного решения на уровне сэмплера путем переформирования самого сигнала руководства для решения вышеупомянутых проблем при сохранении свойства независимости от обучения.
Предложена унифицированная структура ZeResFDG: органично объединяющая три технологии — частотное развязывание, перемасштабирование энергии и нулевое проектирование
Разработан механизм адаптивного переключения режимов: динамическое переключение между консервативным режимом и режимом поиска деталей на основе спектрального EMA и гистерезиса
Разработан QSilk Micrograin Stabilizer: независимый от обучения стабилизатор времени вывода, улучшающий надежность и создающий естественную микротекстуру при высоком разрешении
Реализована подключаемая оболочка сэмплера: интеграция в существующие конвейеры SD/SDXL без переобучения
Проверена совместимость между параметризациями: метод применим к различным способам параметризации (например, параметризация скорости)
Учитывая условное предсказание y_c и безусловное предсказание y_u, стандартное CFG формирует y_cfg = y_u + s(y_c - y_u), где s > 0 — масштаб руководства. Цель состоит в уменьшении артефактов при высоких масштабах CFG при сохранении соответствия подсказкам.
Мониторинг коэффициента высокой частоты r_HF = ∥Δ_h∥²/(∥Δ_ℓ∥² + ∥Δ_h∥²) и отслеживание EMA ρ. Переключение между консервативным режимом (CFGZeroFD) и режимом поиска деталей (RescaleFDG) через два порога (τ_lo, τ_hi) и механизм гистерезиса.
Дизайн унифицированной структуры: органичное объединение трех различных технологий улучшения руководства в единую структуру
Механизм адаптивного переключения: интеллектуальное переключение режимов на основе спектрального анализа, адаптирующееся к изменениям структуры в процессе сэмплирования
Независимость от обучения: все компоненты применяются во время вывода без переобучения модели
Обработка с учетом частоты: явная обработка различных частотных компонентов, защита глобальной структуры при одновременном улучшении деталей
Эксперименты используют модель SDXL с разрешением 672×944, окончательное выходное разрешение 3688×5192. Тестирование включает различные модели SDXL, ориентированные на фотографию и аниме.
Эксперименты демонстрируют улучшения CADE 2.5 в нескольких аспектах:
Портреты в стиле аниме: более четкие линии, улучшенные эффекты цвета и освещения, значительное улучшение деталей глаз, носа, губ, без дрожания
Портреты в фотографическом стиле: улучшение микродеталей при сохранении глобального тона, уменьшение артефактов глаз, более богатые детали волос, более естественные тон кожи и микротекстура
Высокочастотные детали: значительное улучшение микродеталей в областях губ, носа, шеи и т.д.
Статья предоставляет подробные визуальные сравнения, показывающие, что ZeResFDG значительно улучшает качество микродеталей и уменьшает типичные артефакты высокого CFG (пересыщение, эффект ореола) при сохранении глобальной композиции и тона.
Статья особо отмечает дополнительность с адаптивной структурой проектирования руководства (APG) Sadat et al. (2025). APG разлагает классификатор-свободное руководство на параллельные и ортогональные компоненты, в то время как данная работа расширяет эту перспективу, добавляя перемасштабирование и нулевое проектирование, специально разработанное для SD/SDXL.
CADE 2.5 успешно решает проблему деградации качества моделей SD/SDXL при высоких масштабах CFG через структуру ZeResFDG, значительно улучшая качество изображения при сохранении независимости от обучения.
Статья цитирует важные работы в этой области, включая:
Методы, ориентированные на внимание, такие как SAG/PAG
Исследования, связанные с структурой APG
Фундаментальную теорию механизмов руководства моделей диффузии
Широко используемые на практике методы оптимизации
Общая оценка: Это технически сильная инженерная статья об оптимизации. Хотя она имеет некоторые недостатки в теоретической глубине и полноте оценки, ее практическая ценность высока, предоставляя эффективные решения для улучшения практических приложений моделей диффузии. Независимость от обучения и значительные визуальные улучшения метода дают ему хорошие перспективы применения.