Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
기존의 디노이징 생성 모델은 이산화된 역시간 SDE 또는 ODE 풀이에 의존한다. 본 논문은 이러한 모델에서 오랫동안 간과되어 왔지만 널리 존재하는 문제를 식별한다: 사전정의된 노이즈 수준과 샘플링 과정 중 중간 상태에서 인코딩된 실제 노이즈 수준 간의 불일치이다. 저자들은 이러한 불일치를 노이즈 시프트(noise shift)라고 명명한다. 실증 분석을 통해 저자들은 노이즈 시프트가 현대 확산 모델에서 광범위하게 존재하며 체계적 편향을 나타내며, 분포 외 일반화 및 부정확한 디노이징 업데이트 문제를 야기하여 차선의 생성 결과를 초래함을 증명한다. 이 문제를 해결하기 위해 저자들은 노이즈 인식 가이던스(NAG)를 제안한다. 이는 샘플링 궤적이 사전정의된 노이즈 스케줄과의 일관성을 유지하도록 명시적으로 가이드하는 간단하고 효과적인 수정 방법이다.
확산 모델 및 흐름 모델과 같은 디노이징 생성 모델은 이미지 합성, 비디오 생성 등의 시각 생성 작업에서 현저한 성공을 거두었다. 이러한 모델의 핵심 원리는 순수 노이즈에서 반복적 과정을 통해 목표 샘플을 점진적으로 복원하는 것이다. 그러나 반복 샘플링 과정에서 모델은 다음을 포함한 여러 출처의 오류를 불가피하게 누적한다:
저자들은 이러한 누적 오류의 주요 표현이 다음과 같음을 발견한다: 중간 상태에 내재된 노이즈 수준이 사전정의된 스케줄에서 벗어날 수 있다는 것이다. "노이즈 시프트"라고 불리는 이 현상은 오랫동안 커뮤니티에서 간과되었지만, 실제로는 광범위하게 존재하며 다양한 오류 출처의 집단적 효과에 근거한다.