2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

노이즈 인식 가이던스를 통한 디노이징 생성 모델의 노이즈 시프트 완화

기본 정보

  • 논문 ID: 2510.12497
  • 제목: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • 저자: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • 분류: cs.LG (기계학습)
  • 발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.12497

초록

기존의 디노이징 생성 모델은 이산화된 역시간 SDE 또는 ODE 풀이에 의존한다. 본 논문은 이러한 모델에서 오랫동안 간과되어 왔지만 널리 존재하는 문제를 식별한다: 사전정의된 노이즈 수준과 샘플링 과정 중 중간 상태에서 인코딩된 실제 노이즈 수준 간의 불일치이다. 저자들은 이러한 불일치를 노이즈 시프트(noise shift)라고 명명한다. 실증 분석을 통해 저자들은 노이즈 시프트가 현대 확산 모델에서 광범위하게 존재하며 체계적 편향을 나타내며, 분포 외 일반화 및 부정확한 디노이징 업데이트 문제를 야기하여 차선의 생성 결과를 초래함을 증명한다. 이 문제를 해결하기 위해 저자들은 노이즈 인식 가이던스(NAG)를 제안한다. 이는 샘플링 궤적이 사전정의된 노이즈 스케줄과의 일관성을 유지하도록 명시적으로 가이드하는 간단하고 효과적인 수정 방법이다.

연구 배경 및 동기

문제 식별

확산 모델 및 흐름 모델과 같은 디노이징 생성 모델은 이미지 합성, 비디오 생성 등의 시각 생성 작업에서 현저한 성공을 거두었다. 이러한 모델의 핵심 원리는 순수 노이즈에서 반복적 과정을 통해 목표 샘플을 점진적으로 복원하는 것이다. 그러나 반복 샘플링 과정에서 모델은 다음을 포함한 여러 출처의 오류를 불가피하게 누적한다:

  • 불완전한 네트워크 근사
  • 수치 적분의 이산화 오류
  • 기타 확률적 요인

핵심 문제

저자들은 이러한 누적 오류의 주요 표현이 다음과 같음을 발견한다: 중간 상태에 내재된 노이즈 수준이 사전정의된 스케줄에서 벗어날 수 있다는 것이다. "노이즈 시프트"라고 불리는 이 현상은 오랫동안 커뮤니티에서 간과되었지만, 실제로는 광범위하게 존재하며 다양한 오류 출처의 집단적 효과에 근거한다.

문제의 중요성

노이즈 시프트는 디노이징 네트워크가 훈련과 추론 간에 근본적인 불일치를 초래하며, 구체적으로 다음과 같이 나타난다:

  1. 분포 외 일반화 문제: 훈련된 모델이 시프트된 중간 상태에 적용됨
  2. 차선의 디노이징 작업: 부정확한 사전정의 계수를 사용하여 다음 상태 계산

핵심 기여

  1. 노이즈 시프트 문제 식별: 디노이징 생성 모델에서 널리 존재하지만 오랫동안 간과된 노이즈 시프트 문제를 최초로 체계적으로 식별 및 분석
  2. NAG 방법 제안: 노이즈 시프트 문제를 완화하기 위한 노이즈 인식 가이던스(NAG) 방법 설계
  3. 분류기 없는 변형 개발: 노이즈 조건 드롭아웃을 통해 노이즈 조건 및 노이즈 무조건 모델을 공동 훈련하는 NAG의 분류기 없는 변형 제안
  4. 포괄적 실험 검증: ImageNet 생성 및 감독 미세조정 작업에서 NAG의 효과성 및 범용성 검증

방법 상세 설명

문제 형식화

전방 과정

노이즈 수준 t[0,T]t \in [0,T]에 대해, 연속 시간 확률적 보간은 다음과 같이 정의된다: xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilon 여기서 α0=σT=1\alpha_0 = \sigma_T = 1, αT=σ0=0\alpha_T = \sigma_0 = 0, αt\alpha_t는 단조 감소, σt\sigma_t는 단조 증가한다.

노이즈 시프트의 수학적 설명

누적 오류 eextx_t에 적용된 추가 가우시안 섭동으로 볼 수 있다: x^t=xt+e\hat{x}_t = x_t + e, 여기서 eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I).

이 섭동은 유효 분산을 σt2\sigma_t^2에서 σt2+σe2\sigma_t^2 + \sigma_e^2로 증가시키며, 섭동된 상태가 시프트된 노이즈 수준 t=t+δt' = t + \delta에서 샘플링된 것처럼 작동하게 한다: σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

명제 1: 오류 분산 σe2\sigma_e^2가 작을 때, 시프트 δ\delta의 1차 근사는 다음과 같다: δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

노이즈 인식 가이던스(NAG)

분류기 기반 NAG

노이즈 조건 스코어는 다음과 같이 쓸 수 있다: s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

외부 사후 추정기 gϕg_\phi를 통해 가이던스 신호 loggϕ(tx)\nabla \log g_\phi(t|x)를 제공한다.

분류기 없는 NAG

pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x)를 이용하여, 스코어 혼합을 사용하여 암묵적 노이즈 예측기의 그래디언트를 근사한다: swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

여기서 wnagw_{nag}는 NAG의 가이던스 매개변수이다.

구현 전략

CFG의 훈련 전략을 따른다: 훈련 중 고정 확률로 노이즈 조건 tt를 무작위로 드롭하여 모델이 조건 및 무조건 목표 간에 가중치를 공유하도록 한다.

기술적 혁신점

  1. 노이즈 시프트에 직접 대응: NAG는 간접적 완화가 아닌 노이즈 수준 불일치 문제에 직접 대응
  2. CFG와 직교: NAG가 도입하는 노이즈 수준 조건 축은 CFG의 조건 축과 직교하여 상호보완적 제어 제공
  3. 간단하고 효과적: 외부 분류기 불필요, 기존 모델에 직접 통합 가능

실험 설정

데이터셋

  • ImageNet 256×256: 사전훈련된 Stable Diffusion VAE를 사용하여 32×32×4 잠재 벡터 획득
  • 감독 미세조정 데이터셋: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

모델 아키텍처

  • DiT (Diffusion Transformers): S/2, B/2, L/2, XL/2 변형
  • SiT (Scalable Interpolant Transformers): 동일 구성 변형

평가 지표

  • FID (Fréchet Inception Distance): 주요 평가 지표
  • 정밀도 & 재현율: 수렴 결과 평가용

구현 세부사항

  • 샘플링 단계: DiT는 250단계 DDPM 샘플링, SiT는 250단계 SDE-Euler-Maruyama 샘플링 사용
  • 가이던스 가중치: wnag=3.0w_{nag} = 3.0 (CFG 없음), wnag=2.0w_{nag} = 2.0 (CFG 있을 때)
  • 노이즈 드롭아웃: 훈련 중 10% 확률로 노이즈 조건 드롭

실험 결과

주요 결과

ImageNet 생성

표 1: 수렴 모델 비교 결과

모델훈련 에포크CFG 없음 생성CFG 있음 생성
DiT-XL/21400FID: 9.62FID: 2.27
+NAG10+(1400*)FID: 2.59FID: 2.14
SiT-XL/21400FID: 8.61FID: 2.06
+NAG10+(1400*)FID: 2.26FID: 1.72

주요 발견:

  • NAG 단독 사용만으로도 CFG 가이던스에 가까운 생성 품질 달성
  • CFG와 결합 시 NAG는 추가 개선 제공
  • 단 10 에포크 추가 미세조정만으로 NAG 활성화 가능 (사전훈련 비용의 약 0.7%)

감독 미세조정 결과

표 2: 미세조정 작업 FID 비교

방법FoodSUNCaltechCUBStanford CarDF-20MArtBench평균 FID
미세조정(CFG 없음)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
미세조정(CFG 있음)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

노이즈 시프트 완화 효과

외부 노이즈 추정기 gϕg_\phi를 통한 실증 분석은 다음을 보여준다:

  • 노이즈 시프트는 현대 확산 모델에서 광범위하게 존재
  • 더 큰 노이즈 수준으로의 체계적 시프트로 나타남
  • NAG는 이러한 시프트를 효과적으로 감소, 특히 신호 대 노이즈 비율이 1보다 큰 범위에서

소거 실험

  • 가이던스 가중치 민감도: wnagw_{nag}는 2.0-4.0 범위에서 안정적 성능
  • 샘플링 단계 영향: NAG는 다양한 샘플링 단계에서 효과적
  • 아키텍처 범용성: DiT 및 SiT 아키텍처 모두에서 일관된 개선 표시

관련 연구

디노이징 생성 모델

  • 확산 모델: DDPM, DiT 등은 노이즈 스케줄, 훈련 목표 및 모델 아키텍처에 초점
  • 흐름 모델: Flow Matching 등의 방법
  • 가속 샘플링: 고차 솔버, 개선된 구간 모델링 등

가이던스 기술

  • 분류기 가이던스: 외부 분류기를 사용한 조건부 생성
  • 분류기 없는 가이던스(CFG): 조건 및 무조건 모델 혼합을 통한 가이던스
  • 도메인 가이던스(DoG): 미세조정 시나리오를 위해 특별히 설계된 가이던스 방법

본 논문의 NAG는 노이즈 수준 자체를 가이던스 신호로 명시적으로 사용하는 최초의 방법으로, 예상 노이즈 조건과의 정렬을 직접 강화한다.

결론 및 논의

주요 결론

  1. 노이즈 시프트 문제 광범위 존재: 현대 디노이징 생성 모델에서 광범위한 훈련-추론 불일치 발견
  2. NAG 효과적 완화: 노이즈 수준 불일치에 직접 대응하여 생성 품질 현저히 개선
  3. 방법 범용성 강함: 다양한 아키텍처, 작업 및 기준 방법에서 일관된 개선 표시

제한사항

  1. 노이즈 추정기 의존성: 실증 분석은 외부 노이즈 추정기의 정확성에 의존
  2. 이론 분석 단순화: 단순화된 가정에 기반한 이론 분석은 실제 복잡성을 완전히 포착하지 못할 수 있음
  3. 계산 오버헤드: 추가 무조건 분기 훈련 필요

향후 방향

저자들은 이 연구가 디노이징 생성에서 광범위하게 존재하는 훈련-추론 불일치 문제에 연구자들의 관심을 끌기를 희망하며, 다음 연구 방향을 촉진한다:

  • 노이즈 시프트 문제의 이론적 또는 실증적 분석
  • 추론 단계 시프트에 대해 견고한 생성 모델 구축
  • 고품질 생성의 경계 탐색
  • 더 빠른 샘플링 방법

심층 평가

장점

  1. 문제 식별의 혁신성: 널리 존재하지만 간과된 노이즈 시프트 문제를 최초로 체계적으로 식별 및 분석
  2. 방법의 간결성과 효과성: NAG는 설계가 간단하고 기존 모델에 쉽게 통합되며 효과 현저함
  3. 충분한 실험: 다양한 아키텍처, 데이터셋 및 작업을 포함하여 방법의 범용성 검증
  4. 이론적 지원: 노이즈 시프트의 수학적 분석 및 근사 공식 제공
  5. 높은 실용 가치: 소량의 추가 훈련만으로 기존 모델 성능 현저히 개선

부족한 점

  1. 이론 분석의 한계: 단순화된 가정에 기반하여 복잡한 실제 상황을 완전히 설명하지 못할 수 있음
  2. 노이즈 추정기 문제: 실증 분석이 외부 추정기에 의존하여 추가 오류 유입 가능
  3. 계산 비용: 추가 무조건 분기 훈련 필요로 훈련 및 추론 비용 증가
  4. 적용 범위: 주로 시각 생성 작업에서 검증, 다른 모달리티의 적용성 미지수

영향력

  1. 학술적 기여: 디노이징 생성 모델의 중요한 문제 규명, 분야에 새로운 연구 방향 제시
  2. 실용적 가치: 기존 모델 성능 개선에 직접 적용 가능, 강한 실용성 보유
  3. 방법의 범용성: 기존 가이던스 방법과 직교 상호보완, 광범위한 적용성

적용 시나리오

  • 대규모 이미지 생성 작업
  • 사전훈련 모델의 감독 미세조정
  • 고품질 생성이 필요한 응용 분야
  • 계산 자원이 상대적으로 충분한 환경

참고문헌

논문은 확산 모델, 흐름 모델, 가이던스 기술 등 관련 분야의 중요한 연구를 인용하며, 다음을 포함한다:

  • Ho et al. (2020): DDPM 원본 논문
  • Peebles & Xie (2023): DiT 아키텍처
  • Ma et al. (2024): SiT 아키텍처
  • Ho & Salimans (2021): 분류기 없는 가이던스
  • Dhariwal & Nichol (2021): 분류기 가이던스

종합 평가: 이는 디노이징 생성 모델에서 중요하지만 간과된 문제를 식별하고, 간단하고 효과적인 해결책을 제시하며, 충분한 실험을 통해 방법의 효과성과 범용성을 검증한 고품질 연구 논문이다. 본 연구는 확산 모델 분야에 중요한 학술적 가치와 실용적 의의를 가진다.