Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
論文ID : 2510.12497タイトル : Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance著者 : Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long分類 : cs.LG (機械学習)発表日 : 2025年10月14日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.12497 既存のノイズ除去生成モデルは、離散化された逆時間SDE またはODEの求解に依存しています。本論文では、このようなモデルにおいて長期間見落とされてきたが普遍的に存在する問題を特定しています。それは、事前定義されたノイズレベルとサンプリング過程における中間状態でエンコードされた実際のノイズレベルの間の不一致です。著者らはこの不一致を**ノイズシフト(noise shift)と呼んでいます。実証分析を通じて、著者らはノイズシフトが現代の拡散モデルに広く存在し、系統的なバイアスを示すことを証明しており、これが分布外汎化と不正確なノイズ除去更新の問題につながり、次善の生成結果をもたらします。この問題に対処するため、著者らは ノイズ認識ガイダンス(NAG)**を提案しています。これはサンプリング軌跡を事前定義されたノイズスケジュールとの一貫性に保つよう明示的にガイドする、シンプルで効果的な修正方法です。
拡散モデルとフローモデルなどのノイズ除去生成モデルは、画像合成やビデオ生成などの視覚生成タスクで顕著な成功を収めています。これらのモデルの中核原理は、純粋なノイズから目標サンプルへと段階的に復元する反復プロセスを通じて機能します。しかし、反復サンプリング過程では、モデルは必然的に複数のソースからの誤差を蓄積します。これには以下が含まれます:
不完全なネットワーク近似 数値積分における離散化誤差 その他の確率的要因 著者らが発見したのは、これらの蓄積誤差の重要な現れ方として、中間状態に固有にエンコードされたノイズレベルが事前定義されたスケジュールから逸脱する可能性があるということです。この「ノイズシフト」と呼ばれる現象は長期間コミュニティに見落とされてきましたが、実際には広く存在し、様々な誤差ソースの集合効果に根ざしています。
ノイズシフトはノイズ除去ネットワークにおいて訓練と推論の間に根本的な不一致をもたらし、具体的には以下のように現れます:
分布外汎化の問題 : 訓練されたモデルがシフトした中間状態に適用される次善のノイズ除去操作 : 不正確な事前定義係数を使用して次の状態を計算するノイズシフト問題の特定 : ノイズ除去生成モデルに普遍的に存在しながら長期間見落とされてきたノイズシフト問題を、初めて系統的に特定し分析したNAG方法の提案 : ノイズシフト問題を軽減するためのノイズ認識ガイダンス(NAG)方法を設計した無分類器変体の開発 : ノイズ条件付きドロップアウトを通じてノイズ条件付きモデルとノイズ無条件モデルを共同訓練するNAGの無分類器変体を提案した包括的な実験検証 : ImageNet生成と教師あり微調整タスクでNAGの有効性と汎用性を検証したノイズレベル t ∈ [ 0 , T ] t \in [0,T] t ∈ [ 0 , T ] に対して、連続時間ランダム補間は以下のように定義されます:
x t = α t x 0 + σ t ϵ x_t = \alpha_t x_0 + \sigma_t \epsilon x t = α t x 0 + σ t ϵ
ここで α 0 = σ T = 1 \alpha_0 = \sigma_T = 1 α 0 = σ T = 1 、α T = σ 0 = 0 \alpha_T = \sigma_0 = 0 α T = σ 0 = 0 、α t \alpha_t α t は単調減少、σ t \sigma_t σ t は単調増加です。
蓄積誤差 e e e は x t x_t x t に適用される追加のガウス摂動と見なすことができます: x ^ t = x t + e \hat{x}_t = x_t + e x ^ t = x t + e 、ここで e ∼ N ( 0 , σ e 2 I ) e \sim \mathcal{N}(0, \sigma_e^2 I) e ∼ N ( 0 , σ e 2 I ) 。
この摂動は有効分散を σ t 2 \sigma_t^2 σ t 2 から σ t 2 + σ e 2 \sigma_t^2 + \sigma_e^2 σ t 2 + σ e 2 に増加させ、摂動状態がシフトされたノイズレベル t ′ = t + δ t' = t + \delta t ′ = t + δ でサンプリングされたかのように振る舞わせます:
σ t + δ 2 = σ t 2 + σ e 2 \sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2 σ t + δ 2 = σ t 2 + σ e 2
命題1 : 誤差分散 σ e 2 \sigma_e^2 σ e 2 が小さい場合、シフト δ \delta δ の1次近似は以下の通りです:
δ ≈ σ t 2 + σ e 2 − σ t σ ˙ t \delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t} δ ≈ σ ˙ t σ t 2 + σ e 2 − σ t
ノイズ条件付きスコアは以下のように書くことができます:
s ( x ∣ t ) = ∇ x log p t ( x ∣ t ) = ∇ x log p t ( x ) + ∇ x log p t ( t ∣ x ) s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x) s ( x ∣ t ) = ∇ x log p t ( x ∣ t ) = ∇ x log p t ( x ) + ∇ x log p t ( t ∣ x )
外部事後推定器 g ϕ g_\phi g ϕ を通じてガイダンス信号 ∇ log g ϕ ( t ∣ x ) \nabla \log g_\phi(t|x) ∇ log g ϕ ( t ∣ x ) を提供します。
p t ( t ∣ x ) ∝ p t ( x ∣ t ) / p t ( x ) p_t(t|x) \propto p_t(x|t)/p_t(x) p t ( t ∣ x ) ∝ p t ( x ∣ t ) / p t ( x ) を利用して、スコア混合を使用して暗黙的なノイズ予測器の勾配を近似します:
s w n a g ( x ∣ t ) = ( w n a g + 1 ) s ( x ∣ t ) − w n a g s ( x ) s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x) s w na g ( x ∣ t ) = ( w na g + 1 ) s ( x ∣ t ) − w na g s ( x )
ここで w n a g w_{nag} w na g はNAGのガイダンスパラメータです。
CFGの訓練戦略に従い、訓練中に固定確率でノイズ条件 t t t をランダムにドロップアウトし、モデルが条件付きと無条件の目的の間で重みを共有できるようにします。
ノイズシフトへの直接対処 : NAGはノイズレベルの不一致に直接対処し、間接的な軽減ではありませんCFGとの直交性 : NAGが導入するノイズレベル条件軸はCFGの条件軸と直交し、相補的な制御を提供しますシンプルで効果的 : 外部分類器が不要で、既存モデルに直接統合できますImageNet 256×256 : 事前訓練されたStable Diffusion VAEを使用して32×32×4潜在ベクトルを取得教師あり微調整データセット : Food101、SUN397、DF20-Mini、Caltech101、CUB-200-2011、ArtBench-10、Stanford CarsDiT (Diffusion Transformers) : S/2、B/2、L/2、XL/2変体SiT (Scalable Interpolant Transformers) : 同じ構成の変体FID (Fréchet Inception Distance) : 主要な評価指標Precision & Recall : 収束結果の評価に使用サンプリングステップ数 : DiTは250ステップのDDPMサンプリング、SiTは250ステップのSDE-Euler-Maruyamaサンプリングを使用ガイダンス重み : w n a g = 3.0 w_{nag} = 3.0 w na g = 3.0 (CFGなし)、w n a g = 2.0 w_{nag} = 2.0 w na g = 2.0 (CFGあり)ノイズドロップアウト : 訓練時に10%の確率でノイズ条件をドロップアウト表1: 収束モデルの比較結果
モデル 訓練エポック CFGなし生成 CFGあり生成 DiT-XL/2 1400 FID: 9.62 FID: 2.27 +NAG 10+(1400*) FID: 2.59 FID: 2.14 SiT-XL/2 1400 FID: 8.61 FID: 2.06 +NAG 10+(1400*) FID: 2.26 FID: 1.72
主要な発見:
NAGを単独で使用してもCFGガイダンスに近い生成品質を達成できます CFGと組み合わせた場合、NAGは継続的な改善を提供します わずか10エポックの追加微調整(事前訓練コストの約0.7%)でNAGを有効化できます 表2: 微調整タスクのFID比較
方法 Food SUN Caltech CUB Stanford Car DF-20M ArtBench 平均FID 微調整(CFGなし) 16.04 21.41 31.34 9.81 11.29 17.92 22.76 18.65 +NAG 11.18 14.95 24.32 5.68 5.92 14.79 19.22 13.72 微調整(CFGあり) 10.93 14.13 23.84 5.37 6.32 15.29 19.94 13.69 +NAG 5.78 8.81 21.87 3.52 3.91 12.55 15.69 10.31
外部ノイズ推定器 g ϕ g_\phi g ϕ による実証分析は以下を示しています:
ノイズシフトは現代の拡散モデルに広く存在する より大きなノイズレベルへの系統的なシフトとして現れる NAGはこのシフトを効果的に削減し、特に信号対雑音比が1より大きい範囲で有効 ガイダンス重みの感度 : w n a g w_{nag} w na g は2.0~4.0の範囲で安定した性能を示すサンプリングステップ数の影響 : NAGは異なるサンプリングステップ数で有効アーキテクチャの汎用性 : DiTおよびSiTアーキテクチャの両方で一貫した改善を示す拡散モデル : DDPM、DiTなどはノイズスケジュール、訓練目的、モデルアーキテクチャに焦点を当てていますフローモデル : Flow Matchingなどの方法加速サンプリング : 高次求解器、改善された区間モデリングなど分類器ガイダンス : 外部分類器を使用した条件付き生成無分類器ガイダンス(CFG) : 条件付きモデルと無条件モデルの混合を通じたガイダンスドメインガイダンス(DoG) : 微調整シナリオ用に特別に設計されたガイダンス方法本論文のNAGは、ノイズレベル自体をガイダンス信号として明示的に使用し、期待されるノイズ条件との整合性を直接強化する初めての方法です。
ノイズシフト問題の普遍性 : 現代のノイズ除去生成モデルに訓練-推論の不一致が広く見られますNAGの有効性 : ノイズレベルの不一致に直接対処することで、生成品質が大幅に改善されます方法の汎用性 : 異なるアーキテクチャ、タスク、ベースライン方法全体で一貫した改善を示しますノイズ推定器への依存 : 実証分析は外部ノイズ推定器の正確性に依存しています理論分析の簡略化 : 簡略化された仮定に基づく理論分析は、実際の複雑性を完全には捉えられない可能性があります計算オーバーヘッド : 追加の無条件ブランチの訓練が必要です著者らは、この研究がノイズ除去生成における広く存在する訓練-推論の不一致問題に研究者の注意を引き、以下の研究方向を促進することを期待しています:
ノイズシフト問題の理論的または実証的分析 推論段階のシフトに対してロバストな生成モデルの構築 高品質生成の境界の探索 より高速なサンプリング方法 問題特定の革新性 : ノイズシフトという普遍的だが見落とされていた問題を初めて系統的に特定し分析しました方法の簡潔性と有効性 : NAGの設計はシンプルで、既存モデルに統合しやすく、効果は顕著です充分な実験 : 複数のアーキテクチャ、データセット、タスクを網羅し、方法の汎用性を検証しています理論的支援 : ノイズシフトの数学的分析と近似公式を提供しています実用的価値が高い : わずかな追加訓練で既存モデルの性能を大幅に改善できます理論分析の制限 : 簡略化された仮定に基づいており、複雑な実際の状況を完全には説明できない可能性がありますノイズ推定器の問題 : 実証分析が外部推定器に依存し、追加の誤差を導入する可能性があります計算コスト : 追加の無条件ブランチの訓練が必要で、訓練と推論のコストが増加します適用範囲 : 主に視覚生成タスクで検証されており、他のモダリティへの適用性は不明です学術的貢献 : ノイズ除去生成モデルの重要な問題を明らかにし、領域に新しい研究方向を提供しました実用的価値 : 既存モデルの性能改善に直接適用でき、実用性が高いです方法の汎用性 : 既存のガイダンス方法と直交し相補的で、広い適用性を持ちます大規模画像生成タスク 事前訓練モデルの教師あり微調整 高品質生成が必要なアプリケーション 計算リソースが比較的充分な環境 論文は拡散モデル、フローモデル、ガイダンス技術など関連領域の重要な研究を引用しており、以下を含みます:
Ho et al. (2020): DDPMオリジナル論文 Peebles & Xie (2023): DiTアーキテクチャ Ma et al. (2024): SiTアーキテクチャ Ho & Salimans (2021): 無分類器ガイダンス Dhariwal & Nichol (2021): 分類器ガイダンス 総合評価 : これは高品質な研究論文であり、ノイズ除去生成モデルにおける重要だが見落とされていた問題を特定し、シンプルで効果的な解決策を提案し、充分な実験を通じて方法の有効性と汎用性を検証しています。この研究は拡散モデル領域に重要な学術的価値と実用的意義を持ちます。