Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic
Mitigación del Desplazamiento de Ruido para Modelos Generativos de Desruido mediante Guía de Conciencia de Ruido
Los modelos generativos de desruido existentes dependen de la resolución de ecuaciones diferenciales estocásticas (SDE) u ecuaciones diferenciales ordinarias (ODE) discretizadas en tiempo inverso. Este artículo identifica un problema largo tiempo ignorado pero omnipresente en tales modelos: la falta de coincidencia entre los niveles de ruido predefinidos y los niveles de ruido reales codificados en estados intermedios durante el proceso de muestreo. Los autores denominan este desajuste como desplazamiento de ruido (noise shift). Mediante análisis empírico, los autores demuestran que el desplazamiento de ruido es generalizado en modelos de difusión modernos y presenta sesgos sistemáticos, lo que genera problemas de generalización fuera de distribución y actualizaciones de desruido inexactas, produciendo resultados de generación subóptimos. Para abordar este problema, los autores proponen Guía de Conciencia de Ruido (NAG), un método de corrección simple pero efectivo que guía explícitamente las trayectorias de muestreo para mantener la consistencia con el cronograma de ruido predefinido.
Los modelos generativos de desruido, como modelos de difusión y modelos de flujo, han logrado un éxito notable en tareas de generación visual como síntesis de imágenes y generación de vídeos. El principio central de estos modelos es recuperar iterativamente muestras objetivo a partir de ruido puro mediante un proceso iterativo. Sin embargo, durante el proceso de muestreo iterativo, el modelo inevitablemente acumula errores de múltiples fuentes, incluyendo:
Aproximaciones imperfectas de la red
Errores de discretización en la integración numérica
Los autores descubren que una manifestación clave de estos errores acumulados es que el nivel de ruido intrínsecamente codificado en estados intermedios puede desviarse del cronograma predefinido. Este fenómeno, denominado "desplazamiento de ruido", ha sido largo tiempo ignorado por la comunidad, pero en realidad es omnipresente y está arraigado en los efectos colectivos de diversas fuentes de error.
El desplazamiento de ruido genera una desalineación fundamental entre la red de desruido durante el entrenamiento e inferencia, manifestándose específicamente como:
Problemas de Generalización Fuera de Distribución: El modelo entrenado se aplica a estados intermedios desplazados
Operaciones de Desruido Subóptimas: Uso de coeficientes predefinidos inexactos para calcular el siguiente estado
Identificación del Problema de Desplazamiento de Ruido: Identificación y análisis sistemático por primera vez del problema de desplazamiento de ruido omnipresente pero largo tiempo ignorado en modelos generativos de desruido
Propuesta del Método NAG: Diseño del método Guía de Conciencia de Ruido (NAG) para mitigar el problema de desplazamiento de ruido
Desarrollo de Variante sin Clasificador: Propuesta de una variante sin clasificador de NAG mediante entrenamiento conjunto de modelos con y sin condición de ruido utilizando dropout condicional de ruido
Verificación Experimental Integral: Validación de la efectividad y universalidad de NAG en tareas de generación de ImageNet y ajuste fino supervisado
Para un nivel de ruido t∈[0,T], la interpolación aleatoria en tiempo continuo se define como:
xt=αtx0+σtϵ
donde α0=σT=1, αT=σ0=0, αt es monótonamente decreciente, y σt es monótonamente creciente.
El error acumulado e puede considerarse como una perturbación gaussiana adicional aplicada a xt: x^t=xt+e, donde e∼N(0,σe2I).
Esta perturbación aumenta la varianza efectiva de σt2 a σt2+σe2, haciendo que el estado perturbado se comporte como si fuera muestreado en un nivel de ruido desplazado t′=t+δ:
σt+δ2=σt2+σe2
Proposición 1: Cuando la varianza del error σe2 es pequeña, la aproximación de primer orden del desplazamiento δ es:
δ≈σ˙tσt2+σe2−σt
Utilizando pt(t∣x)∝pt(x∣t)/pt(x), empleando una mezcla de puntuaciones para aproximar el gradiente de un predictor de ruido implícito:
swnag(x∣t)=(wnag+1)s(x∣t)−wnags(x)
Siguiendo la estrategia de entrenamiento de CFG: descartar aleatoriamente la condición de ruido t con probabilidad fija durante el entrenamiento, permitiendo que el modelo comparta pesos entre objetivos condicionales e incondicionales.
Abordaje Directo del Desplazamiento de Ruido: NAG aborda directamente el problema de desajuste del nivel de ruido, en lugar de mitigarlo indirectamente
Ortogonalidad con CFG: El eje de condición de nivel de ruido introducido por NAG es ortogonal al eje de condición de CFG, proporcionando control complementario
Simplicidad y Efectividad: Sin necesidad de clasificador externo, puede integrarse directamente en modelos existentes
Guía Basada en Clasificador: Uso de clasificadores externos para generación condicional
Guía sin Clasificador (CFG): Implementación de guía mediante mezcla de modelos condicionales e incondicionales
Guía de Dominio (DoG): Método de guía diseñado específicamente para escenarios de ajuste fino
NAG es el primer método que utiliza explícitamente el nivel de ruido en sí como señal de guía, mejorando directamente la alineación con la condición de ruido esperada.
Los autores esperan que este trabajo atraiga la atención de investigadores hacia el problema de desajuste entrenamiento-inferencia omnipresente en generación de desruido, promoviendo las siguientes direcciones de investigación:
Análisis teórico o empírico del problema de desplazamiento de ruido
Construcción de modelos generativos robustos al desplazamiento en la fase de inferencia
Exploración de los límites de generación de alta calidad
Contribución Académica: Revela un problema importante en modelos generativos de desruido, proporcionando nuevas direcciones de investigación para el campo
Valor Práctico: Puede aplicarse directamente para mejorar el desempeño de modelos existentes, con fuerte practicidad
Universalidad del Método: Ortogonal y complementario a métodos de guía existentes, con amplia aplicabilidad
El artículo cita trabajos importantes en campos relacionados como modelos de difusión, modelos de flujo y técnicas de guía, incluyendo:
Ho et al. (2020): Artículo original de DDPM
Peebles & Xie (2023): Arquitectura DiT
Ma et al. (2024): Arquitectura SiT
Ho & Salimans (2021): Guía sin Clasificador
Dhariwal & Nichol (2021): Guía Basada en Clasificador
Evaluación General: Este es un artículo de investigación de alta calidad que identifica un problema importante pero ignorado en modelos generativos de desruido, propone una solución simple y efectiva, y verifica la efectividad y universalidad del método mediante experimentos suficientes. Este trabajo tiene un valor académico y práctico importante para el campo de modelos de difusión.