2025-11-16T08:55:12.135200

On Convolutions, Intrinsic Dimension, and Diffusion Models

Leung, Hosseinzadeh, Loaiza-Ganem

The manifold hypothesis asserts that data of interest in high-dimensional ambient spaces, such as image data, lies on unknown low-dimensional submanifolds. Diffusion models (DMs) -- which operate by convolving data with progressively larger amounts of Gaussian noise and then learning to revert this process -- have risen to prominence as the most performant generative models, and are known to be able to learn distributions with low-dimensional support. For a given datum in one of these submanifolds, we should thus intuitively expect DMs to have implicitly learned its corresponding local intrinsic dimension (LID), i.e. the dimension of the submanifold it belongs to. Kamkari et al. (2024b) recently showed that this is indeed the case by linking this LID to the rate of change of the log marginal densities of the DM with respect to the amount of added noise, resulting in an LID estimator known as FLIPD. LID estimators such as FLIPD have a plethora of uses, among others they quantify the complexity of a given datum, and can be used to detect outliers, adversarial examples and AI-generated text. FLIPD achieves state-of-the-art performance at LID estimation, yet its theoretical underpinnings are incomplete since Kamkari et al. (2024b) only proved its correctness under the highly unrealistic assumption of affine submanifolds. In this work we bridge this gap by formally proving the correctness of FLIPD under realistic assumptions. Additionally, we show that an analogous result holds when Gaussian convolutions are replaced with uniform ones, and discuss the relevance of this result.

academic

합성곱, 내재 차원, 확산 모델에 관하여

기본 정보

논문 ID: 2506.20705
제목: On Convolutions, Intrinsic Dimension, and Diffusion Models
저자: Kin Kwan Leung, Rasa Hosseinzadeh, Gabriel Loaiza-Ganem (Layer 6 AI)
분류: cs.LG cs.AI stat.ML
발표 시간/학회: Transactions on Machine Learning Research (10/2025)
논문 링크: https://arxiv.org/abs/2506.20705

초록

다양체 가설은 고차원 환경 공간에서의 관심 데이터(예: 이미지 데이터)가 미지의 저차원 부분다양체 위에 위치한다고 주장합니다. 확산 모델(DMs)은 데이터에 점진적으로 증가하는 가우시안 노이즈를 합성곱하고 그 과정을 역전시키는 방법을 학습함으로써 작동하며, 최고 성능의 생성 모델이 되었고 저차원 지지를 가진 분포를 학습할 수 있음이 알려져 있습니다. 이러한 부분다양체의 주어진 데이터 포인트에 대해, 우리는 직관적으로 DM이 해당 국소 내재 차원(LID), 즉 그것이 속한 부분다양체의 차원을 암묵적으로 학습했을 것으로 기대합니다. Kamkari 등(2024b)은 최근 LID를 DM의 로그 주변 밀도의 추가된 노이즈량에 대한 변화율과 연결함으로써 이것이 실제로 그러한 경우임을 증명했으며, FLIPD라는 LID 추정기를 생성했습니다. FLIPD는 LID 추정에서 최첨단 성능을 달성했지만, Kamkari 등(2024b)이 아핀 부분다양체의 매우 비현실적인 가정 하에서만 그 정확성을 증명했기 때문에 이론적 기초가 불완전합니다. 본 논문은 현실적인 가정 하에서 FLIPD의 정확성을 정식으로 증명함으로써 이 간격을 메웁니다. 더욱이, 가우시안 합성곱이 균등 합성곱으로 대체될 때도 유사한 결과가 성립함을 증명하고 이 결과의 관련성을 논의합니다.

연구 배경 및 동기

문제 정의

본 논문이 해결하고자 하는 핵심 문제는 FLIPD(흐름 기반 국소 내재 차원) 추정기에 대한 엄격한 이론적 기초를 제공하는 것입니다. 구체적으로:

이론적 결함: Kamkari 등이 제안한 FLIPD는 실제로 우수한 성능을 보이지만, 그 이론적 증명은 아핀 부분다양체의 비현실적인 가정 하에서만 성립합니다
실제적 필요성: 일반적인 매장된 부분다양체에서 FLIPD의 정확성을 증명하여 이론적 기초를 실제 응용과 일치시킬 필요가 있습니다

중요성 분석

국소 내재 차원(LID) 추정은 기계학습에서 중요한 응용 가치를 가집니다:

복잡도 정량화: 이미지 복잡도의 효과적인 정량화
이상 탐지: 이상치, 적대적 샘플 및 AI 생성 텍스트 탐지
일반화 예측: 신경망 표현의 LID 추정은 일반화 성능을 예측할 수 있습니다
기억화 탐지: 모델 기억화 현상 식별

기존 방법의 한계

전통적인 LID 추정기는 다음과 같은 문제가 있습니다:

높은 계산 복잡도: 쌍별 거리 계산에 의존하며, 데이터셋 크기 및 환경 차원에서 확장성이 떨어집니다
차원의 저주: 고차원 공간에서 성능 저하
이론적 불완전성: FLIPD는 우수한 성능을 보이지만 이론적 기초가 약합니다

핵심 기여

이론적 완성: 현실적인 가정 하에서 FLIPD의 정확성을 정식으로 증명하여 아핀 부분다양체에서 일반적인 매끄러운 매장 부분다양체로 확장
결과 확장: 가우시안 합성곱이 균등 합성곱으로 대체될 때도 유사한 결과가 성립함을 증명
수학적 엄밀성: 복잡한 미분기하학 분석을 포함한 완전한 수학적 증명 제공
실용적 가치: FLIPD의 실제 응용에서의 신뢰성에 대한 이론적 보증 제공

방법론 상세 설명

핵심 이론 결과

본 논문의 핵심은 다음 핵심 등식이 일반적인 조건 하에서 성립함을 증명하는 것입니다:

$\text{LID}(x) = D + \lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta)$

여기서:

$\varrho_N(x, \delta)$ 는 데이터 분포와 로그 표준편차가 $\delta$ 인 가우시안 노이즈의 합성곱
$D$ 는 환경 공간의 차원
$\delta \to -\infty$ 는 노이즈가 0으로 수렴하는 극한에 해당합니다

주요 정리

정리 1 (가우시안 경우): $M$ 을 $\mathbb{R}^D$ 의 매끄러운 $d$ 차원 매장 부분다양체, $p$ 를 $M$ 위의 확률 밀도 함수라고 하겠습니다. $x \in M$ 에 대해, $p$ 가 $x$ 에서 연속이고, $p(x) > 0$ 이며, 유한 2차 모멘트 조건을 만족하면:

$\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta) = d - D$

정리 2 (균등 경우): 유사한 결과가 균등 분포 합성곱에도 성립합니다:

$\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_U(x, \delta) = d - D$

증명 전략

증명의 핵심 아이디어는 가우시안 밀도와 균등 밀도의 분해 성질을 활용하는 것입니다:

가우시안 경우: 관계식 활용 $N_D(x-x'; 0, \delta) = (2\pi)^{\frac{d-D}{2}} e^{\delta(d-D)} N_d(x-x'; 0, \delta)$
균등 경우: 유사한 분해 $U_D(x;\mu, \delta) = C_D^U (C_d^U)^{-1} e^{\delta(d-D)} U_d(x;\mu, \delta)$
극한 분석: 정교한 미분기하학 분석을 통해 도함수의 극한이 기대값으로 수렴함을 증명

실험 설정

본 논문은 주로 이론적 작업이며 대규모 실험 검증을 수행하지 않았습니다. 저자들은 다음에 중점을 두었습니다:

수학적 증명: 엄격한 이론적 분석 제공
조건 검증: 제시된 조건이 실제 응용에서 합리적임을 확인
확장성 분석: 단일 부분다양체에서 부분다양체의 분리된 합집합으로 결과 확장

실험 결과

이론적 결과 검증

논문은 다음 추론을 통해 이론의 완전성을 검증합니다:

추론 1: 부분다양체의 분리된 합집합 $M = \cup_j M_j$ 에 대해, 적절한 분리 조건 하에서 결과가 여전히 성립합니다.

추론 2: 균등 경우의 유사한 확장도 성립합니다.

실제적 의미

이러한 이론적 결과는 직접적으로 다음을 의미합니다:

FLIPD 정확성: 분수 함수가 완벽하게 학습될 때, $\lim_{\delta \to -\infty} \text{FLIPD}(x; \delta) = \text{LID}(x)$
음수값 해석: FLIPD가 음수 추정값을 생성하는 것은 이론적 결함이 아닌 분수 함수 학습의 불완전성에만 기인할 수 있습니다