Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic
Смягчение сдвига шума для моделей генерации с удалением шума посредством руководства с учетом шума
Существующие модели генерации с удалением шума полагаются на решение дискретизированных обратных по времени СДУ или ОДУ. В данной работе выявлена давно игнорируемая, но повсеместно распространенная проблема в таких моделях: несоответствие между предопределенными уровнями шума и фактическими уровнями шума, закодированными в промежуточных состояниях в процессе выборки. Авторы называют это несоответствие сдвигом шума (noise shift). Посредством эмпирического анализа авторы доказывают, что сдвиг шума широко распространен в современных моделях диффузии и демонстрирует систематическое смещение, приводящее к проблемам обобщения вне распределения и неточным обновлениям удаления шума, что приводит к субоптимальным результатам генерации. Для решения этой проблемы авторы предлагают руководство с учетом шума (NAG) — простой и эффективный метод коррекции, который явно направляет траектории выборки на согласованность с предопределенным расписанием шума.
Модели диффузии и потоковые модели и другие модели генерации с удалением шума достигли значительных успехов в задачах визуальной генерации, таких как синтез изображений и генерация видео. Основной принцип этих моделей заключается в итеративном восстановлении целевого образца из чистого шума. Однако в процессе итеративной выборки модель неизбежно накапливает ошибки из множественных источников, включая:
Авторы обнаруживают, что ключевым проявлением этих накопленных ошибок является то, что уровень шума, внутренне закодированный в промежуточных состояниях, может отклоняться от предопределенного расписания. Это явление, называемое "сдвигом шума", долгое время игнорировалось сообществом, но на самом деле оно широко распространено и коренится в коллективном эффекте различных источников ошибок.
Выявление проблемы сдвига шума: первое систематическое выявление и анализ повсеместно распространенной, но долгое время игнорируемой проблемы сдвига шума в моделях генерации с удалением шума
Предложение метода NAG: разработка метода руководства с учетом шума (NAG) для смягчения проблемы сдвига шума
Разработка варианта без классификатора: предложение варианта NAG без классификатора посредством совместного обучения моделей с условием шума и без условия шума с использованием отсева с условием шума
Комплексная экспериментальная проверка: проверка эффективности и универсальности NAG на задачах генерации ImageNet и контролируемой тонкой настройки
Для уровня шума t∈[0,T] непрерывная интерполяция со случайным временем определяется как:
xt=αtx0+σtϵ
где α0=σT=1, αT=σ0=0, αt монотонно убывает, σt монотонно возрастает.
Накопленная ошибка e может рассматриваться как дополнительное гауссовское возмущение, применяемое к xt: x^t=xt+e, где e∼N(0,σe2I).
Это возмущение увеличивает эффективную дисперсию с σt2 до σt2+σe2, заставляя возмущенное состояние вести себя как выборка при смещенном уровне шума t′=t+δ:
σt+δ2=σt2+σe2
Утверждение 1: Когда дисперсия ошибки σe2 мала, приближение первого порядка смещения δ имеет вид:
δ≈σ˙tσt2+σe2−σt
Используя pt(t∣x)∝pt(x∣t)/pt(x), применяется смешивание оценок для аппроксимации градиента неявного предсказателя шума:
swnag(x∣t)=(wnag+1)s(x∣t)−wnags(x)
Следует стратегии обучения CFG: во время обучения условие шума t случайно отсеивается с фиксированной вероятностью, позволяя модели совместно использовать веса между целями с условием и без условия.
Руководство классификатором: использование внешнего классификатора для условной генерации
Руководство без классификатора (CFG): достижение руководства посредством смешивания моделей с условием и без условия
Руководство по домену (DoG): метод руководства, специально разработанный для сценариев тонкой настройки
NAG в данной работе является первым методом, который явно использует сам уровень шума в качестве сигнала руководства, напрямую усиливая согласованность с ожидаемым условием шума.
Повсеместное распространение проблемы сдвига шума: обнаружено широкое распространение несоответствия между обучением и выводом в современных моделях генерации с удалением шума
Эффективность NAG в смягчении проблемы: посредством прямого решения проблемы несоответствия уровней шума значительно улучшается качество генерации
Высокая универсальность метода: демонстрирует последовательные улучшения на различных архитектурах, задачах и базовых методах
Авторы надеются, что эта работа привлечет внимание исследователей к широко распространенной проблеме несоответствия между обучением и выводом в генерации с удалением шума, способствуя следующим направлениям исследований:
Теоретический или эмпирический анализ проблемы сдвига шума
Построение моделей генерации, устойчивых к смещениям на этапе вывода
Статья ссылается на важные работы в смежных областях моделей диффузии, потоковых моделей, методов руководства, включая:
Ho et al. (2020): оригинальная статья DDPM
Peebles & Xie (2023): архитектура DiT
Ma et al. (2024): архитектура SiT
Ho & Salimans (2021): руководство без классификатора
Dhariwal & Nichol (2021): руководство классификатором
Общая оценка: Это высококачественная исследовательская работа, которая выявляет важную, но игнорируемую проблему в моделях генерации с удалением шума, предлагает простое и эффективное решение и проверяет эффективность и универсальность метода посредством достаточных экспериментов. Эта работа имеет важное академическое значение и практическую ценность для области моделей диффузии.