2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

Mitigación del Desplazamiento de Ruido para Modelos Generativos de Desruido mediante Guía de Conciencia de Ruido

Información Básica

  • ID del Artículo: 2510.12497
  • Título: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • Autores: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12497

Resumen

Los modelos generativos de desruido existentes dependen de la resolución de ecuaciones diferenciales estocásticas (SDE) u ecuaciones diferenciales ordinarias (ODE) discretizadas en tiempo inverso. Este artículo identifica un problema largo tiempo ignorado pero omnipresente en tales modelos: la falta de coincidencia entre los niveles de ruido predefinidos y los niveles de ruido reales codificados en estados intermedios durante el proceso de muestreo. Los autores denominan este desajuste como desplazamiento de ruido (noise shift). Mediante análisis empírico, los autores demuestran que el desplazamiento de ruido es generalizado en modelos de difusión modernos y presenta sesgos sistemáticos, lo que genera problemas de generalización fuera de distribución y actualizaciones de desruido inexactas, produciendo resultados de generación subóptimos. Para abordar este problema, los autores proponen Guía de Conciencia de Ruido (NAG), un método de corrección simple pero efectivo que guía explícitamente las trayectorias de muestreo para mantener la consistencia con el cronograma de ruido predefinido.

Antecedentes de Investigación y Motivación

Identificación del Problema

Los modelos generativos de desruido, como modelos de difusión y modelos de flujo, han logrado un éxito notable en tareas de generación visual como síntesis de imágenes y generación de vídeos. El principio central de estos modelos es recuperar iterativamente muestras objetivo a partir de ruido puro mediante un proceso iterativo. Sin embargo, durante el proceso de muestreo iterativo, el modelo inevitablemente acumula errores de múltiples fuentes, incluyendo:

  • Aproximaciones imperfectas de la red
  • Errores de discretización en la integración numérica
  • Otros factores estocásticos

Problema Central

Los autores descubren que una manifestación clave de estos errores acumulados es que el nivel de ruido intrínsecamente codificado en estados intermedios puede desviarse del cronograma predefinido. Este fenómeno, denominado "desplazamiento de ruido", ha sido largo tiempo ignorado por la comunidad, pero en realidad es omnipresente y está arraigado en los efectos colectivos de diversas fuentes de error.

Importancia del Problema

El desplazamiento de ruido genera una desalineación fundamental entre la red de desruido durante el entrenamiento e inferencia, manifestándose específicamente como:

  1. Problemas de Generalización Fuera de Distribución: El modelo entrenado se aplica a estados intermedios desplazados
  2. Operaciones de Desruido Subóptimas: Uso de coeficientes predefinidos inexactos para calcular el siguiente estado

Contribuciones Principales

  1. Identificación del Problema de Desplazamiento de Ruido: Identificación y análisis sistemático por primera vez del problema de desplazamiento de ruido omnipresente pero largo tiempo ignorado en modelos generativos de desruido
  2. Propuesta del Método NAG: Diseño del método Guía de Conciencia de Ruido (NAG) para mitigar el problema de desplazamiento de ruido
  3. Desarrollo de Variante sin Clasificador: Propuesta de una variante sin clasificador de NAG mediante entrenamiento conjunto de modelos con y sin condición de ruido utilizando dropout condicional de ruido
  4. Verificación Experimental Integral: Validación de la efectividad y universalidad de NAG en tareas de generación de ImageNet y ajuste fino supervisado

Explicación Detallada del Método

Formalización del Problema

Proceso Directo

Para un nivel de ruido t[0,T]t \in [0,T], la interpolación aleatoria en tiempo continuo se define como: xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilon donde α0=σT=1\alpha_0 = \sigma_T = 1, αT=σ0=0\alpha_T = \sigma_0 = 0, αt\alpha_t es monótonamente decreciente, y σt\sigma_t es monótonamente creciente.

Descripción Matemática del Desplazamiento de Ruido

El error acumulado ee puede considerarse como una perturbación gaussiana adicional aplicada a xtx_t: x^t=xt+e\hat{x}_t = x_t + e, donde eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I).

Esta perturbación aumenta la varianza efectiva de σt2\sigma_t^2 a σt2+σe2\sigma_t^2 + \sigma_e^2, haciendo que el estado perturbado se comporte como si fuera muestreado en un nivel de ruido desplazado t=t+δt' = t + \delta: σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

Proposición 1: Cuando la varianza del error σe2\sigma_e^2 es pequeña, la aproximación de primer orden del desplazamiento δ\delta es: δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

Guía de Conciencia de Ruido (NAG)

NAG Basada en Clasificador

La puntuación condicional de ruido puede escribirse como: s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

Proporcionando una señal de guía loggϕ(tx)\nabla \log g_\phi(t|x) a través de un estimador posterior externo gϕg_\phi.

NAG sin Clasificador

Utilizando pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x), empleando una mezcla de puntuaciones para aproximar el gradiente de un predictor de ruido implícito: swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

donde wnagw_{nag} es el parámetro de guía de NAG.

Estrategia de Implementación

Siguiendo la estrategia de entrenamiento de CFG: descartar aleatoriamente la condición de ruido tt con probabilidad fija durante el entrenamiento, permitiendo que el modelo comparta pesos entre objetivos condicionales e incondicionales.

Puntos de Innovación Técnica

  1. Abordaje Directo del Desplazamiento de Ruido: NAG aborda directamente el problema de desajuste del nivel de ruido, en lugar de mitigarlo indirectamente
  2. Ortogonalidad con CFG: El eje de condición de nivel de ruido introducido por NAG es ortogonal al eje de condición de CFG, proporcionando control complementario
  3. Simplicidad y Efectividad: Sin necesidad de clasificador externo, puede integrarse directamente en modelos existentes

Configuración Experimental

Conjuntos de Datos

  • ImageNet 256×256: Vectores latentes de 32×32×4 obtenidos utilizando VAE de Stable Diffusion preentrenado
  • Conjuntos de Datos de Ajuste Fino Supervisado: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

Arquitectura del Modelo

  • DiT (Diffusion Transformers): Variantes S/2, B/2, L/2, XL/2
  • SiT (Scalable Interpolant Transformers): Variantes de configuración idéntica

Métricas de Evaluación

  • FID (Fréchet Inception Distance): Métrica de evaluación principal
  • Precisión y Recuperación: Utilizadas para evaluación de resultados convergentes

Detalles de Implementación

  • Pasos de Muestreo: DiT utiliza muestreo DDPM de 250 pasos, SiT utiliza muestreo SDE-Euler-Maruyama de 250 pasos
  • Pesos de Guía: wnag=3.0w_{nag} = 3.0 (sin CFG), wnag=2.0w_{nag} = 2.0 (con CFG)
  • Dropout de Ruido: Probabilidad de 10% de descartar condición de ruido durante entrenamiento

Resultados Experimentales

Resultados Principales

Generación de ImageNet

Tabla 1: Resultados de Comparación de Modelos Convergentes

ModeloÉpocas de EntrenamientoGeneración sin CFGGeneración con CFG
DiT-XL/21400FID: 9.62FID: 2.27
+NAG10+(1400*)FID: 2.59FID: 2.14
SiT-XL/21400FID: 8.61FID: 2.06
+NAG10+(1400*)FID: 2.26FID: 1.72

Hallazgos Clave:

  • NAG utilizado independientemente logra calidad de generación cercana a la guía CFG
  • Cuando se combina con CFG, NAG continúa proporcionando mejoras adicionales
  • Solo requiere 10 épocas de ajuste fino adicionales (aproximadamente 0.7% del costo de preentrenamiento) para habilitar NAG

Resultados de Ajuste Fino Supervisado

Tabla 2: Comparación de FID en Tareas de Ajuste Fino

MétodoFoodSUNCaltechCUBStanford CarDF-20MArtBenchFID Promedio
Ajuste Fino (sin CFG)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
Ajuste Fino (con CFG)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

Efecto de Mitigación del Desplazamiento de Ruido

El análisis empírico mediante un estimador de ruido externo gϕg_\phi demuestra:

  • El desplazamiento de ruido es omnipresente en modelos de difusión modernos
  • Se manifiesta como un desplazamiento sistemático hacia niveles de ruido más grandes
  • NAG reduce efectivamente este desplazamiento, particularmente en el rango donde la relación señal-ruido es mayor que 1

Estudios de Ablación

  • Sensibilidad del Peso de Guía: wnagw_{nag} muestra desempeño estable en el rango 2.0-4.0
  • Impacto del Número de Pasos de Muestreo: NAG es efectivo en diferentes números de pasos de muestreo
  • Universalidad de Arquitectura: Muestra mejoras consistentes en arquitecturas DiT y SiT

Trabajo Relacionado

Modelos Generativos de Desruido

  • Modelos de Difusión: DDPM, DiT y otros enfocados en cronogramas de ruido, objetivos de entrenamiento y arquitecturas de modelos
  • Modelos de Flujo: Métodos como Flow Matching
  • Muestreo Acelerado: Solucionadores de orden superior, modelado de intervalos mejorado, etc.

Técnicas de Guía

  • Guía Basada en Clasificador: Uso de clasificadores externos para generación condicional
  • Guía sin Clasificador (CFG): Implementación de guía mediante mezcla de modelos condicionales e incondicionales
  • Guía de Dominio (DoG): Método de guía diseñado específicamente para escenarios de ajuste fino

NAG es el primer método que utiliza explícitamente el nivel de ruido en sí como señal de guía, mejorando directamente la alineación con la condición de ruido esperada.

Conclusiones y Discusión

Conclusiones Principales

  1. Omnipresencia del Desplazamiento de Ruido: Desajuste entrenamiento-inferencia ampliamente encontrado en modelos generativos de desruido modernos
  2. NAG Mitiga Efectivamente el Problema: Al abordar directamente el desajuste del nivel de ruido, mejora significativamente la calidad de generación
  3. Fuerte Universalidad del Método: Muestra mejoras consistentes en diferentes arquitecturas, tareas y métodos de referencia

Limitaciones

  1. Dependencia del Estimador de Ruido: El análisis empírico depende de la precisión del estimador de ruido externo
  2. Análisis Teórico Simplificado: El análisis teórico basado en suposiciones simplificadas puede no capturar completamente la complejidad real
  3. Gastos Computacionales: Requiere entrenamiento de rama incondicional adicional

Direcciones Futuras

Los autores esperan que este trabajo atraiga la atención de investigadores hacia el problema de desajuste entrenamiento-inferencia omnipresente en generación de desruido, promoviendo las siguientes direcciones de investigación:

  • Análisis teórico o empírico del problema de desplazamiento de ruido
  • Construcción de modelos generativos robustos al desplazamiento en la fase de inferencia
  • Exploración de los límites de generación de alta calidad
  • Métodos de muestreo más rápidos

Evaluación Profunda

Ventajas

  1. Innovación en Identificación de Problemas: Identificación y análisis sistemático por primera vez de este problema omnipresente pero ignorado
  2. Método Conciso y Efectivo: Diseño simple de NAG, fácil de integrar en modelos existentes, con efectos significativos
  3. Experimentos Suficientes: Cubre múltiples arquitecturas, conjuntos de datos y tareas, verificando la universalidad del método
  4. Apoyo Teórico: Proporciona análisis matemático y fórmulas de aproximación del desplazamiento de ruido
  5. Alto Valor Práctico: Solo requiere entrenamiento adicional mínimo para mejorar significativamente el desempeño de modelos existentes

Insuficiencias

  1. Limitaciones del Análisis Teórico: Basado en suposiciones simplificadas, puede no explicar completamente situaciones reales complejas
  2. Problema del Estimador de Ruido: El análisis empírico depende de estimadores externos, que pueden introducir errores adicionales
  3. Costo Computacional: Requiere entrenamiento de rama incondicional adicional, aumentando costos de entrenamiento e inferencia
  4. Rango de Aplicabilidad: Principalmente validado en tareas de generación visual, la aplicabilidad en otras modalidades es desconocida

Impacto

  1. Contribución Académica: Revela un problema importante en modelos generativos de desruido, proporcionando nuevas direcciones de investigación para el campo
  2. Valor Práctico: Puede aplicarse directamente para mejorar el desempeño de modelos existentes, con fuerte practicidad
  3. Universalidad del Método: Ortogonal y complementario a métodos de guía existentes, con amplia aplicabilidad

Escenarios Aplicables

  • Tareas de generación de imágenes a gran escala
  • Ajuste fino supervisado de modelos preentrenados
  • Escenarios de aplicación que requieren generación de alta calidad
  • Entornos con recursos computacionales relativamente abundantes

Referencias

El artículo cita trabajos importantes en campos relacionados como modelos de difusión, modelos de flujo y técnicas de guía, incluyendo:

  • Ho et al. (2020): Artículo original de DDPM
  • Peebles & Xie (2023): Arquitectura DiT
  • Ma et al. (2024): Arquitectura SiT
  • Ho & Salimans (2021): Guía sin Clasificador
  • Dhariwal & Nichol (2021): Guía Basada en Clasificador

Evaluación General: Este es un artículo de investigación de alta calidad que identifica un problema importante pero ignorado en modelos generativos de desruido, propone una solución simple y efectiva, y verifica la efectividad y universalidad del método mediante experimentos suficientes. Este trabajo tiene un valor académico y práctico importante para el campo de modelos de difusión.