2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

academic

ノイズシフト軽減のための拡散生成モデルにおけるノイズ認識ガイダンス

基本情報

論文ID: 2510.12497
タイトル: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
著者: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
分類: cs.LG (機械学習)
発表日: 2025年10月14日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2510.12497

要約

既存のノイズ除去生成モデルは、離散化された逆時間SDE またはODEの求解に依存しています。本論文では、このようなモデルにおいて長期間見落とされてきたが普遍的に存在する問題を特定しています。それは、事前定義されたノイズレベルとサンプリング過程における中間状態でエンコードされた実際のノイズレベルの間の不一致です。著者らはこの不一致を**ノイズシフト(noise shift)と呼んでいます。実証分析を通じて、著者らはノイズシフトが現代の拡散モデルに広く存在し、系統的なバイアスを示すことを証明しており、これが分布外汎化と不正確なノイズ除去更新の問題につながり、次善の生成結果をもたらします。この問題に対処するため、著者らはノイズ認識ガイダンス(NAG)**を提案しています。これはサンプリング軌跡を事前定義されたノイズスケジュールとの一貫性に保つよう明示的にガイドする、シンプルで効果的な修正方法です。

研究背景と動機

問題の特定

拡散モデルとフローモデルなどのノイズ除去生成モデルは、画像合成やビデオ生成などの視覚生成タスクで顕著な成功を収めています。これらのモデルの中核原理は、純粋なノイズから目標サンプルへと段階的に復元する反復プロセスを通じて機能します。しかし、反復サンプリング過程では、モデルは必然的に複数のソースからの誤差を蓄積します。これには以下が含まれます:

不完全なネットワーク近似
数値積分における離散化誤差
その他の確率的要因

核心的問題

著者らが発見したのは、これらの蓄積誤差の重要な現れ方として、中間状態に固有にエンコードされたノイズレベルが事前定義されたスケジュールから逸脱する可能性があるということです。この「ノイズシフト」と呼ばれる現象は長期間コミュニティに見落とされてきましたが、実際には広く存在し、様々な誤差ソースの集合効果に根ざしています。

問題の重要性

ノイズシフトはノイズ除去ネットワークにおいて訓練と推論の間に根本的な不一致をもたらし、具体的には以下のように現れます:

分布外汎化の問題: 訓練されたモデルがシフトした中間状態に適用される
次善のノイズ除去操作: 不正確な事前定義係数を使用して次の状態を計算する

核心的貢献

ノイズシフト問題の特定: ノイズ除去生成モデルに普遍的に存在しながら長期間見落とされてきたノイズシフト問題を、初めて系統的に特定し分析した
NAG方法の提案: ノイズシフト問題を軽減するためのノイズ認識ガイダンス(NAG)方法を設計した
無分類器変体の開発: ノイズ条件付きドロップアウトを通じてノイズ条件付きモデルとノイズ無条件モデルを共同訓練するNAGの無分類器変体を提案した
包括的な実験検証: ImageNet生成と教師あり微調整タスクでNAGの有効性と汎用性を検証した

方法の詳細説明

問題の形式化

前向きプロセス

ノイズレベル $t \in [0,T]$ に対して、連続時間ランダム補間は以下のように定義されます: $x_t = \alpha_t x_0 + \sigma_t \epsilon$ ここで $\alpha_0 = \sigma_T = 1$ 、 $\alpha_T = \sigma_0 = 0$ 、 $\alpha_t$ は単調減少、 $\sigma_t$ は単調増加です。

ノイズシフトの数学的記述

蓄積誤差 $e$ は $x_t$ に適用される追加のガウス摂動と見なすことができます: $\hat{x}_t = x_t + e$ 、ここで $e \sim \mathcal{N}(0, \sigma_e^2 I)$ 。

この摂動は有効分散を $\sigma_t^2$ から $\sigma_t^2 + \sigma_e^2$ に増加させ、摂動状態がシフトされたノイズレベル $t' = t + \delta$ でサンプリングされたかのように振る舞わせます: $\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2$

命題1: 誤差分散 $\sigma_e^2$ が小さい場合、シフト $\delta$ の1次近似は以下の通りです: $\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}$

ノイズ認識ガイダンス(NAG)

分類器ベースのNAG

ノイズ条件付きスコアは以下のように書くことができます: $s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)$

外部事後推定器 $g_\phi$ を通じてガイダンス信号 $\nabla \log g_\phi(t|x)$ を提供します。

無分類器NAG

$p_t(t|x) \propto p_t(x|t)/p_t(x)$ を利用して、スコア混合を使用して暗黙的なノイズ予測器の勾配を近似します: $s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)$

ここで $w_{nag}$ はNAGのガイダンスパラメータです。

実装戦略

CFGの訓練戦略に従い、訓練中に固定確率でノイズ条件 $t$ をランダムにドロップアウトし、モデルが条件付きと無条件の目的の間で重みを共有できるようにします。

技術的革新点

ノイズシフトへの直接対処: NAGはノイズレベルの不一致に直接対処し、間接的な軽減ではありません
CFGとの直交性: NAGが導入するノイズレベル条件軸はCFGの条件軸と直交し、相補的な制御を提供します
シンプルで効果的: 外部分類器が不要で、既存モデルに直接統合できます

実験設定

データセット

ImageNet 256×256: 事前訓練されたStable Diffusion VAEを使用して32×32×4潜在ベクトルを取得
教師あり微調整データセット: Food101、SUN397、DF20-Mini、Caltech101、CUB-200-2011、ArtBench-10、Stanford Cars

モデルアーキテクチャ

DiT (Diffusion Transformers): S/2、B/2、L/2、XL/2変体
SiT (Scalable Interpolant Transformers): 同じ構成の変体

評価指標

FID (Fréchet Inception Distance): 主要な評価指標
Precision & Recall: 収束結果の評価に使用

実装の詳細

サンプリングステップ数: DiTは250ステップのDDPMサンプリング、SiTは250ステップのSDE-Euler-Maruyamaサンプリングを使用
ガイダンス重み: $w_{nag} = 3.0$ (CFGなし)、 $w_{nag} = 2.0$ (CFGあり)
ノイズドロップアウト: 訓練時に10%の確率でノイズ条件をドロップアウト

実験結果

主要な結果

ImageNet生成

表1: 収束モデルの比較結果

モデル	訓練エポック	CFGなし生成	CFGあり生成
DiT-XL/2	1400	FID: 9.62	FID: 2.27
+NAG	10+(1400*)	FID: 2.59	FID: 2.14
SiT-XL/2	1400	FID: 8.61	FID: 2.06
+NAG	10+(1400*)	FID: 2.26	FID: 1.72

主要な発見:

NAGを単独で使用してもCFGガイダンスに近い生成品質を達成できます
CFGと組み合わせた場合、NAGは継続的な改善を提供します
わずか10エポックの追加微調整(事前訓練コストの約0.7%)でNAGを有効化できます

教師あり微調整結果

表2: 微調整タスクのFID比較

方法	Food	SUN	Caltech	CUB	Stanford Car	DF-20M	ArtBench	平均FID
微調整(CFGなし)	16.04	21.41	31.34	9.81	11.29	17.92	22.76	18.65
+NAG	11.18	14.95	24.32	5.68	5.92	14.79	19.22	13.72
微調整(CFGあり)	10.93	14.13	23.84	5.37	6.32	15.29	19.94	13.69
+NAG	5.78	8.81	21.87	3.52	3.91	12.55	15.69	10.31