2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

academic

Mitigación del Desplazamiento de Ruido para Modelos Generativos de Desruido mediante Guía de Conciencia de Ruido

Información Básica

ID del Artículo: 2510.12497
Título: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Autores: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12497

Resumen

Los modelos generativos de desruido existentes dependen de la resolución de ecuaciones diferenciales estocásticas (SDE) u ecuaciones diferenciales ordinarias (ODE) discretizadas en tiempo inverso. Este artículo identifica un problema largo tiempo ignorado pero omnipresente en tales modelos: la falta de coincidencia entre los niveles de ruido predefinidos y los niveles de ruido reales codificados en estados intermedios durante el proceso de muestreo. Los autores denominan este desajuste como desplazamiento de ruido (noise shift). Mediante análisis empírico, los autores demuestran que el desplazamiento de ruido es generalizado en modelos de difusión modernos y presenta sesgos sistemáticos, lo que genera problemas de generalización fuera de distribución y actualizaciones de desruido inexactas, produciendo resultados de generación subóptimos. Para abordar este problema, los autores proponen Guía de Conciencia de Ruido (NAG), un método de corrección simple pero efectivo que guía explícitamente las trayectorias de muestreo para mantener la consistencia con el cronograma de ruido predefinido.

Antecedentes de Investigación y Motivación

Identificación del Problema

Los modelos generativos de desruido, como modelos de difusión y modelos de flujo, han logrado un éxito notable en tareas de generación visual como síntesis de imágenes y generación de vídeos. El principio central de estos modelos es recuperar iterativamente muestras objetivo a partir de ruido puro mediante un proceso iterativo. Sin embargo, durante el proceso de muestreo iterativo, el modelo inevitablemente acumula errores de múltiples fuentes, incluyendo:

Aproximaciones imperfectas de la red
Errores de discretización en la integración numérica
Otros factores estocásticos

Problema Central

Los autores descubren que una manifestación clave de estos errores acumulados es que el nivel de ruido intrínsecamente codificado en estados intermedios puede desviarse del cronograma predefinido. Este fenómeno, denominado "desplazamiento de ruido", ha sido largo tiempo ignorado por la comunidad, pero en realidad es omnipresente y está arraigado en los efectos colectivos de diversas fuentes de error.

Importancia del Problema

El desplazamiento de ruido genera una desalineación fundamental entre la red de desruido durante el entrenamiento e inferencia, manifestándose específicamente como:

Problemas de Generalización Fuera de Distribución: El modelo entrenado se aplica a estados intermedios desplazados
Operaciones de Desruido Subóptimas: Uso de coeficientes predefinidos inexactos para calcular el siguiente estado

Contribuciones Principales

Identificación del Problema de Desplazamiento de Ruido: Identificación y análisis sistemático por primera vez del problema de desplazamiento de ruido omnipresente pero largo tiempo ignorado en modelos generativos de desruido
Propuesta del Método NAG: Diseño del método Guía de Conciencia de Ruido (NAG) para mitigar el problema de desplazamiento de ruido
Desarrollo de Variante sin Clasificador: Propuesta de una variante sin clasificador de NAG mediante entrenamiento conjunto de modelos con y sin condición de ruido utilizando dropout condicional de ruido
Verificación Experimental Integral: Validación de la efectividad y universalidad de NAG en tareas de generación de ImageNet y ajuste fino supervisado

Explicación Detallada del Método

Formalización del Problema

Proceso Directo

Para un nivel de ruido $t \in [0,T]$ , la interpolación aleatoria en tiempo continuo se define como: $x_t = \alpha_t x_0 + \sigma_t \epsilon$ donde $\alpha_0 = \sigma_T = 1$ , $\alpha_T = \sigma_0 = 0$ , $\alpha_t$ es monótonamente decreciente, y $\sigma_t$ es monótonamente creciente.

Descripción Matemática del Desplazamiento de Ruido

El error acumulado $e$ puede considerarse como una perturbación gaussiana adicional aplicada a $x_t$ : $\hat{x}_t = x_t + e$ , donde $e \sim \mathcal{N}(0, \sigma_e^2 I)$ .

Esta perturbación aumenta la varianza efectiva de $\sigma_t^2$ a $\sigma_t^2 + \sigma_e^2$ , haciendo que el estado perturbado se comporte como si fuera muestreado en un nivel de ruido desplazado $t' = t + \delta$ : $\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2$

Proposición 1: Cuando la varianza del error $\sigma_e^2$ es pequeña, la aproximación de primer orden del desplazamiento $\delta$ es: $\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}$

Guía de Conciencia de Ruido (NAG)

NAG Basada en Clasificador

La puntuación condicional de ruido puede escribirse como: $s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)$

Proporcionando una señal de guía $\nabla \log g_\phi(t|x)$ a través de un estimador posterior externo $g_\phi$ .

NAG sin Clasificador

Utilizando $p_t(t|x) \propto p_t(x|t)/p_t(x)$ , empleando una mezcla de puntuaciones para aproximar el gradiente de un predictor de ruido implícito: $s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)$

donde $w_{nag}$ es el parámetro de guía de NAG.

Estrategia de Implementación

Siguiendo la estrategia de entrenamiento de CFG: descartar aleatoriamente la condición de ruido $t$ con probabilidad fija durante el entrenamiento, permitiendo que el modelo comparta pesos entre objetivos condicionales e incondicionales.

Puntos de Innovación Técnica

Abordaje Directo del Desplazamiento de Ruido: NAG aborda directamente el problema de desajuste del nivel de ruido, en lugar de mitigarlo indirectamente
Ortogonalidad con CFG: El eje de condición de nivel de ruido introducido por NAG es ortogonal al eje de condición de CFG, proporcionando control complementario
Simplicidad y Efectividad: Sin necesidad de clasificador externo, puede integrarse directamente en modelos existentes

Configuración Experimental

Conjuntos de Datos

ImageNet 256×256: Vectores latentes de 32×32×4 obtenidos utilizando VAE de Stable Diffusion preentrenado
Conjuntos de Datos de Ajuste Fino Supervisado: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

Arquitectura del Modelo

DiT (Diffusion Transformers): Variantes S/2, B/2, L/2, XL/2
SiT (Scalable Interpolant Transformers): Variantes de configuración idéntica

Métricas de Evaluación

FID (Fréchet Inception Distance): Métrica de evaluación principal
Precisión y Recuperación: Utilizadas para evaluación de resultados convergentes

Detalles de Implementación

Pasos de Muestreo: DiT utiliza muestreo DDPM de 250 pasos, SiT utiliza muestreo SDE-Euler-Maruyama de 250 pasos
Pesos de Guía: $w_{nag} = 3.0$ (sin CFG), $w_{nag} = 2.0$ (con CFG)
Dropout de Ruido: Probabilidad de 10% de descartar condición de ruido durante entrenamiento

Resultados Experimentales

Resultados Principales

Generación de ImageNet

Tabla 1: Resultados de Comparación de Modelos Convergentes

Modelo	Épocas de Entrenamiento	Generación sin CFG	Generación con CFG
DiT-XL/2	1400	FID: 9.62	FID: 2.27
+NAG	10+(1400*)	FID: 2.59	FID: 2.14
SiT-XL/2	1400	FID: 8.61	FID: 2.06
+NAG	10+(1400*)	FID: 2.26	FID: 1.72

Hallazgos Clave:

NAG utilizado independientemente logra calidad de generación cercana a la guía CFG
Cuando se combina con CFG, NAG continúa proporcionando mejoras adicionales
Solo requiere 10 épocas de ajuste fino adicionales (aproximadamente 0.7% del costo de preentrenamiento) para habilitar NAG

Resultados de Ajuste Fino Supervisado

Tabla 2: Comparación de FID en Tareas de Ajuste Fino

Método	Food	SUN	Caltech	CUB	Stanford Car	DF-20M	ArtBench	FID Promedio
Ajuste Fino (sin CFG)	16.04	21.41	31.34	9.81	11.29	17.92	22.76	18.65
+NAG	11.18	14.95	24.32	5.68	5.92	14.79	19.22	13.72
Ajuste Fino (con CFG)	10.93	14.13	23.84	5.37	6.32	15.29	19.94	13.69
+NAG	5.78	8.81	21.87	3.52	3.91	12.55	15.69	10.31

Efecto de Mitigación del Desplazamiento de Ruido

El análisis empírico mediante un estimador de ruido externo $g_\phi$ demuestra:

El desplazamiento de ruido es omnipresente en modelos de difusión modernos
Se manifiesta como un desplazamiento sistemático hacia niveles de ruido más grandes
NAG reduce efectivamente este desplazamiento, particularmente en el rango donde la relación señal-ruido es mayor que 1

Estudios de Ablación

Sensibilidad del Peso de Guía: $w_{nag}$ muestra desempeño estable en el rango 2.0-4.0
Impacto del Número de Pasos de Muestreo: NAG es efectivo en diferentes números de pasos de muestreo
Universalidad de Arquitectura: Muestra mejoras consistentes en arquitecturas DiT y SiT

Trabajo Relacionado

Modelos Generativos de Desruido

Modelos de Difusión: DDPM, DiT y otros enfocados en cronogramas de ruido, objetivos de entrenamiento y arquitecturas de modelos
Modelos de Flujo: Métodos como Flow Matching
Muestreo Acelerado: Solucionadores de orden superior, modelado de intervalos mejorado, etc.

Técnicas de Guía

Guía Basada en Clasificador: Uso de clasificadores externos para generación condicional
Guía sin Clasificador (CFG): Implementación de guía mediante mezcla de modelos condicionales e incondicionales
Guía de Dominio (DoG): Método de guía diseñado específicamente para escenarios de ajuste fino

NAG es el primer método que utiliza explícitamente el nivel de ruido en sí como señal de guía, mejorando directamente la alineación con la condición de ruido esperada.

Conclusiones y Discusión

Conclusiones Principales

Omnipresencia del Desplazamiento de Ruido: Desajuste entrenamiento-inferencia ampliamente encontrado en modelos generativos de desruido modernos
NAG Mitiga Efectivamente el Problema: Al abordar directamente el desajuste del nivel de ruido, mejora significativamente la calidad de generación
Fuerte Universalidad del Método: Muestra mejoras consistentes en diferentes arquitecturas, tareas y métodos de referencia

Limitaciones

Dependencia del Estimador de Ruido: El análisis empírico depende de la precisión del estimador de ruido externo
Análisis Teórico Simplificado: El análisis teórico basado en suposiciones simplificadas puede no capturar completamente la complejidad real
Gastos Computacionales: Requiere entrenamiento de rama incondicional adicional

Direcciones Futuras

Los autores esperan que este trabajo atraiga la atención de investigadores hacia el problema de desajuste entrenamiento-inferencia omnipresente en generación de desruido, promoviendo las siguientes direcciones de investigación:

Análisis teórico o empírico del problema de desplazamiento de ruido
Construcción de modelos generativos robustos al desplazamiento en la fase de inferencia
Exploración de los límites de generación de alta calidad
Métodos de muestreo más rápidos

Evaluación Profunda

Ventajas

Innovación en Identificación de Problemas: Identificación y análisis sistemático por primera vez de este problema omnipresente pero ignorado
Método Conciso y Efectivo: Diseño simple de NAG, fácil de integrar en modelos existentes, con efectos significativos
Experimentos Suficientes: Cubre múltiples arquitecturas, conjuntos de datos y tareas, verificando la universalidad del método
Apoyo Teórico: Proporciona análisis matemático y fórmulas de aproximación del desplazamiento de ruido
Alto Valor Práctico: Solo requiere entrenamiento adicional mínimo para mejorar significativamente el desempeño de modelos existentes

Insuficiencias

Limitaciones del Análisis Teórico: Basado en suposiciones simplificadas, puede no explicar completamente situaciones reales complejas
Problema del Estimador de Ruido: El análisis empírico depende de estimadores externos, que pueden introducir errores adicionales
Costo Computacional: Requiere entrenamiento de rama incondicional adicional, aumentando costos de entrenamiento e inferencia
Rango de Aplicabilidad: Principalmente validado en tareas de generación visual, la aplicabilidad en otras modalidades es desconocida

Impacto

Contribución Académica: Revela un problema importante en modelos generativos de desruido, proporcionando nuevas direcciones de investigación para el campo
Valor Práctico: Puede aplicarse directamente para mejorar el desempeño de modelos existentes, con fuerte practicidad
Universalidad del Método: Ortogonal y complementario a métodos de guía existentes, con amplia aplicabilidad

Escenarios Aplicables

Tareas de generación de imágenes a gran escala
Ajuste fino supervisado de modelos preentrenados
Escenarios de aplicación que requieren generación de alta calidad
Entornos con recursos computacionales relativamente abundantes

Referencias

El artículo cita trabajos importantes en campos relacionados como modelos de difusión, modelos de flujo y técnicas de guía, incluyendo:

Ho et al. (2020): Artículo original de DDPM
Peebles & Xie (2023): Arquitectura DiT
Ma et al. (2024): Arquitectura SiT
Ho & Salimans (2021): Guía sin Clasificador
Dhariwal & Nichol (2021): Guía Basada en Clasificador

Evaluación General: Este es un artículo de investigación de alta calidad que identifica un problema importante pero ignorado en modelos generativos de desruido, propone una solución simple y efectiva, y verifica la efectividad y universalidad del método mediante experimentos suficientes. Este trabajo tiene un valor académico y práctico importante para el campo de modelos de difusión.