2025-11-16T08:55:12.135200

On Convolutions, Intrinsic Dimension, and Diffusion Models

Leung, Hosseinzadeh, Loaiza-Ganem

The manifold hypothesis asserts that data of interest in high-dimensional ambient spaces, such as image data, lies on unknown low-dimensional submanifolds. Diffusion models (DMs) -- which operate by convolving data with progressively larger amounts of Gaussian noise and then learning to revert this process -- have risen to prominence as the most performant generative models, and are known to be able to learn distributions with low-dimensional support. For a given datum in one of these submanifolds, we should thus intuitively expect DMs to have implicitly learned its corresponding local intrinsic dimension (LID), i.e. the dimension of the submanifold it belongs to. Kamkari et al. (2024b) recently showed that this is indeed the case by linking this LID to the rate of change of the log marginal densities of the DM with respect to the amount of added noise, resulting in an LID estimator known as FLIPD. LID estimators such as FLIPD have a plethora of uses, among others they quantify the complexity of a given datum, and can be used to detect outliers, adversarial examples and AI-generated text. FLIPD achieves state-of-the-art performance at LID estimation, yet its theoretical underpinnings are incomplete since Kamkari et al. (2024b) only proved its correctness under the highly unrealistic assumption of affine submanifolds. In this work we bridge this gap by formally proving the correctness of FLIPD under realistic assumptions. Additionally, we show that an analogous result holds when Gaussian convolutions are replaced with uniform ones, and discuss the relevance of this result.

academic

畳み込み、内在次元、および拡散モデルについて

基本情報

論文ID: 2506.20705
タイトル: On Convolutions, Intrinsic Dimension, and Diffusion Models
著者: Kin Kwan Leung、Rasa Hosseinzadeh、Gabriel Loaiza-Ganem（Layer 6 AI）
分類: cs.LG cs.AI stat.ML
発表時期/会議: Transactions on Machine Learning Research（2025年10月）
論文リンク: https://arxiv.org/abs/2506.20705

要約

多様体仮説は、高次元環境空間における関心のあるデータ（画像データなど）が未知の低次元部分多様体上に位置することを主張しています。拡散モデル（DMs）は、データに段階的に増加するガウスノイズを畳み込み、そのプロセスを逆転させることを学習することによって動作し、最高性能の生成モデルとなっており、低次元サポートを持つ分布を学習できることが知られています。これらの部分多様体内の与えられたデータポイントに対して、DMsが対応する局所内在次元（LID）、すなわちそれが属する部分多様体の次元を暗黙的に学習していることを直感的に期待します。Kamkariら（2024b）は最近、LIDをDMの対数周辺密度と追加ノイズ量の変化率を関連付けることで、これが実際に当てはまることを証明し、FLIPDという名前のLID推定器を生み出しました。FLIPDはLID推定において最先端のパフォーマンスを達成していますが、その理論的基礎は不完全です。Kamkariら（2024b）はアフィン部分多様体の非現実的な仮定の下でのみその正確性を証明したためです。本論文は、現実的な仮定の下でFLIPDの正確性を正式に証明することで、このギャップを埋めます。さらに、ガウス畳み込みが均一畳み込みに置き換えられた場合、同様の結果が成立することを証明し、この結果の関連性について議論します。

研究背景と動機

問題定義

本論文が解決しようとしている中核的な問題は、FLIPD（フロー基盤局所内在次元）推定器に厳密な理論的基礎を提供することです。具体的には：

理論的欠陥：Kamkariらによって提案されたFLIPDは実践において優れたパフォーマンスを示していますが、その理論的証明はアフィン部分多様体の非現実的な仮定の下でのみ成立しています
実際的必要性：一般的な埋め込み部分多様体上でFLIPDの正確性を証明する必要があり、その理論的基礎を実際の応用と一致させる必要があります

重要性分析

局所内在次元（LID）推定は機械学習において重要な応用価値を持っています：

複雑性の定量化：画像複雑性の効果的な定量化
異常検出：外れ値、敵対的サンプル、およびAI生成テキストの検出
汎化予測：ニューラルネットワーク表現のLID推定は汎化性能を予測できます
記憶化検出：モデルの記憶化現象の識別

既存方法の限界

従来のLID推定器には以下の問題があります：

計算複雑性が高い：ペアワイズ距離計算に依存し、データセットサイズと環境次元でのスケーラビリティが悪い
次元の呪い：高次元空間でのパフォーマンス低下
理論が不完全：FLIPDはパフォーマンスが優れていますが、理論的基礎が弱い

中核的貢献

理論の完善：現実的な仮定の下でFLIPDの正確性を正式に証明し、アフィン部分多様体から一般的な滑らかな埋め込み部分多様体に拡張しました
結果の拡張：ガウス畳み込みが均一畳み込みに置き換えられた場合、同様の結果が依然として成立することを証明しました
数学的厳密性：複雑な微分幾何学分析を含む完全な数学的証明を提供しました
実用的価値：実際の応用におけるFLIPDの信頼性に対する理論的保証を提供しました

方法の詳細説明

中核的理論結果

本論文の中核は、以下の重要な等式が一般的な条件の下で成立することを証明することです：

$\text{LID}(x) = D + \lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta)$

ここで：

$\varrho_N(x, \delta)$ はデータ分布と対数標準偏差が $\delta$ のガウスノイズの畳み込み
$D$ は環境空間の次元
$\delta \to -\infty$ はノイズがゼロに向かう極限に対応

主要定理

定理1（ガウス情況）： $M$ を $\mathbb{R}^D$ 内の滑らかな $d$ 次元埋め込み部分多様体、 $p$ を $M$ 上の確率密度関数とします。 $x \in M$ に対して、 $p$ が $x$ で連続、 $p(x) > 0$ 、および有限二次モーメント条件を満たす場合、以下が成立します：

$\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta) = d - D$

定理2（均一情況）：同様の結果が均一分布畳み込みにも成立します：

$\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_U(x, \delta) = d - D$

証明の思路

証明の中核的な考え方は、ガウス密度と均一密度の分解特性を利用することです：

ガウス情況：関係式を利用 $N_D(x-x'; 0, \delta) = (2\pi)^{\frac{d-D}{2}} e^{\delta(d-D)} N_d(x-x'; 0, \delta)$
均一情況：同様の分解を利用 $U_D(x;\mu, \delta) = C_D^U (C_d^U)^{-1} e^{\delta(d-D)} U_d(x;\mu, \delta)$
極限分析：精密な微分幾何学分析を通じて、導関数の極限が期待値に収束することを証明

実験設定

本論文は主に理論的研究であり、大規模な実験検証は行われていません。著者は以下に焦点を当てています：

数学的証明：厳密な理論分析の提供
条件検証：提案された条件が実際の応用で合理的であることの確認
拡張性分析：単一の部分多様体から部分多様体の互いに素な和集合への結果の拡張

実験結果

理論結果の検証

論文は以下の系を通じて理論の完全性を検証しています：

系1：部分多様体の互いに素な和集合 $M = \cup_j M_j$ に対して、適切な分離条件の下で、結果は依然として成立します。

系2：均一情況の同様の拡張も成立します。

実際的意義

これらの理論的結果は直接的に以下を意味します：

FLIPDの正確性：スコア関数が完璧に学習されるとき、 $\lim_{\delta \to -\infty} \text{FLIPD}(x; \delta) = \text{LID}(x)$
負の値の解釈：FLIPDが負の推定値を生成するのは、スコア関数の学習が不完全であることにのみ起因し、理論的欠陥ではありません