2025-11-16T08:55:12.135200

On Convolutions, Intrinsic Dimension, and Diffusion Models

Leung, Hosseinzadeh, Loaiza-Ganem

The manifold hypothesis asserts that data of interest in high-dimensional ambient spaces, such as image data, lies on unknown low-dimensional submanifolds. Diffusion models (DMs) -- which operate by convolving data with progressively larger amounts of Gaussian noise and then learning to revert this process -- have risen to prominence as the most performant generative models, and are known to be able to learn distributions with low-dimensional support. For a given datum in one of these submanifolds, we should thus intuitively expect DMs to have implicitly learned its corresponding local intrinsic dimension (LID), i.e. the dimension of the submanifold it belongs to. Kamkari et al. (2024b) recently showed that this is indeed the case by linking this LID to the rate of change of the log marginal densities of the DM with respect to the amount of added noise, resulting in an LID estimator known as FLIPD. LID estimators such as FLIPD have a plethora of uses, among others they quantify the complexity of a given datum, and can be used to detect outliers, adversarial examples and AI-generated text. FLIPD achieves state-of-the-art performance at LID estimation, yet its theoretical underpinnings are incomplete since Kamkari et al. (2024b) only proved its correctness under the highly unrealistic assumption of affine submanifolds. In this work we bridge this gap by formally proving the correctness of FLIPD under realistic assumptions. Additionally, we show that an analogous result holds when Gaussian convolutions are replaced with uniform ones, and discuss the relevance of this result.

academic

कनवोल्यूशन, आंतरिक आयाम, और विसरण मॉडल पर

मूल जानकारी

पेपर ID: 2506.20705
शीर्षक: कनवोल्यूशन, आंतरिक आयाम, और विसरण मॉडल पर
लेखक: किन क्वान ल्यूंग, रासा होसेनज़ादेह, गेब्रिएल लोइज़ा-गेनेम (लेयर 6 AI)
वर्गीकरण: cs.LG cs.AI stat.ML
प्रकाशन समय/सम्मेलन: ट्रांजेक्शन्स ऑन मशीन लर्निंग रिसर्च (10/2025)
पेपर लिंक: https://arxiv.org/abs/2506.20705

सारांश

मैनिफोल्ड परिकल्पना यह दावा करती है कि उच्च-आयामी परिवेश स्थान में रुचि के डेटा (जैसे छवि डेटा) एक अज्ञात निम्न-आयामी सबमैनिफोल्ड पर स्थित हैं। विसरण मॉडल (DMs) डेटा पर क्रमिक रूप से बढ़ते हुए गॉसियन शोर को कनवोल्व करके और इस प्रक्रिया को उलटना सीखकर काम करते हैं, और ये सबसे उच्च-प्रदर्शन वाले जनरेटिव मॉडल बन गए हैं, और ज्ञात है कि ये निम्न-आयामी समर्थन वाले वितरण को सीख सकते हैं। इन सबमैनिफोल्ड में दिए गए डेटा बिंदु के लिए, हम सहज रूप से यह अपेक्षा करते हैं कि DMs ने पहले से ही इसके संबंधित स्थानीय आंतरिक आयाम (LID) को निहित रूप से सीखा है, अर्थात् जिस सबमैनिफोल्ड से यह संबंधित है उसका आयाम। कामकारी एवं अन्य (2024b) ने हाल ही में LID को DM के लॉग सीमांत घनत्व के परिवर्तन की दर से जोड़कर, जोड़े गए शोर की मात्रा के संबंध में, यह साबित किया कि यह वास्तव में ऐसा है, जिससे FLIPD नामक LID अनुमानक का निर्माण हुआ। FLIPD ने LID अनुमान में अत्याधुनिक प्रदर्शन प्राप्त किया है, लेकिन इसका सैद्धांतिक आधार अधूरा है, क्योंकि कामकारी एवं अन्य (2024b) ने केवल एफाइन सबमैनिफोल्ड की अत्यधिक अवास्तविक धारणा के तहत इसकी सत्यता साबित की है। यह पेपर यथार्थवादी धारणाओं के तहत FLIPD की सत्यता को औपचारिक रूप से साबित करके इस अंतराल को भरता है। इसके अतिरिक्त, हम यह भी साबित करते हैं कि जब गॉसियन कनवोल्यूशन को समान कनवोल्यूशन से प्रतिस्थापित किया जाता है तो समान परिणाम प्राप्त होते हैं, और इस परिणाम की प्रासंगिकता पर चर्चा करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस पेपर द्वारा हल की जाने वाली मूल समस्या FLIPD (फ्लो-आधारित स्थानीय आंतरिक आयाम) अनुमानक के लिए कठोर सैद्धांतिक आधार प्रदान करना है। विशेष रूप से:

सैद्धांतिक खामी: कामकारी एवं अन्य द्वारा प्रस्तावित FLIPD व्यावहारिक रूप से उत्कृष्ट प्रदर्शन करता है, लेकिन इसका सैद्धांतिक प्रमाण केवल एफाइन सबमैनिफोल्ड की अवास्तविक धारणा के तहत मान्य है
व्यावहारिक आवश्यकता: सामान्य एम्बेडेड सबमैनिफोल्ड पर FLIPD की सत्यता साबित करने की आवश्यकता है, ताकि इसका सैद्धांतिक आधार वास्तविक अनुप्रयोग से मेल खाए

महत्व विश्लेषण

स्थानीय आंतरिक आयाम (LID) अनुमान मशीन लर्निंग में महत्वपूर्ण अनुप्रयोग मूल्य रखता है:

जटिलता परिमाणीकरण: छवि जटिलता को प्रभावी ढंग से परिमाणित करना
विसंगति पहचान: आउटलायर, प्रतिकूल नमूने और AI-उत्पन्न पाठ का पता लगाना
सामान्यीकरण भविष्यवाणी: तंत्रिका नेटवर्क प्रतिनिधित्व के LID अनुमान सामान्यीकरण प्रदर्शन की भविष्यवाणी कर सकते हैं
स्मृति पहचान: मॉडल स्मृति घटना की पहचान करना

मौजूदा विधियों की सीमाएं

पारंपरिक LID अनुमानक निम्नलिखित समस्याओं का सामना करते हैं:

उच्च कम्प्यूटेशनल जटिलता: युग्मित दूरी गणना पर निर्भर, डेटा सेट आकार और परिवेश आयाम में खराब स्केलिंग
आयाम का अभिशाप: उच्च-आयामी स्थान में प्रदर्शन में गिरावट
अधूरा सिद्धांत: FLIPD उत्कृष्ट प्रदर्शन करता है, लेकिन सैद्धांतिक आधार कमजोर है

मुख्य योगदान

सैद्धांतिक सुधार: यथार्थवादी धारणाओं के तहत FLIPD की सत्यता को औपचारिक रूप से साबित किया, इसे एफाइन सबमैनिफोल्ड से सामान्य चिकनी एम्बेडेड सबमैनिफोल्ड तक विस्तारित किया
परिणाम विस्तार: साबित किया कि जब गॉसियन कनवोल्यूशन को समान कनवोल्यूशन से प्रतिस्थापित किया जाता है तो समान परिणाम प्राप्त होते हैं
गणितीय कठोरता: जटिल अंतर ज्यामिति विश्लेषण सहित पूर्ण गणितीय प्रमाण प्रदान किए
व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोगों में FLIPD की विश्वसनीयता के लिए सैद्धांतिक गारंटी प्रदान की

विधि विवरण

मूल सैद्धांतिक परिणाम

इस पेपर का मूल निम्नलिखित महत्वपूर्ण समीकरण को सामान्य शर्तों के तहत साबित करना है:

$\text{LID}(x) = D + \lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta)$

जहां:

$\varrho_N(x, \delta)$ लॉग मानक विचलन $\delta$ के साथ गॉसियन शोर के साथ डेटा वितरण का कनवोल्यूशन है
$D$ परिवेश स्थान आयाम है
$\delta \to -\infty$ शोर शून्य की ओर जाने की सीमा से मेल खाता है

मुख्य प्रमेय

प्रमेय 1 (गॉसियन स्थिति): मान लीजिए $M$ $\mathbb{R}^D$ में एक चिकना $d$ -आयामी एम्बेडेड सबमैनिफोल्ड है, $p$ $M$ पर एक प्रायिकता घनत्व फलन है। $x \in M$ के लिए, यदि $p$ $x$ पर सतत है, $p(x) > 0$ , और परिमित द्वितीय आघूर्ण शर्त को संतुष्ट करता है, तो:

$\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta) = d - D$

प्रमेय 2 (समान स्थिति): समान वितरण कनवोल्यूशन के लिए भी समान परिणाम प्राप्त होते हैं:

$\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_U(x, \delta) = d - D$

प्रमाण रणनीति

प्रमाण का मूल विचार गॉसियन और समान घनत्व के अपघटन गुणों का उपयोग करना है:

गॉसियन स्थिति: संबंध का उपयोग करना $N_D(x-x'; 0, \delta) = (2\pi)^{\frac{d-D}{2}} e^{\delta(d-D)} N_d(x-x'; 0, \delta)$
समान स्थिति: समान अपघटन का उपयोग करना $U_D(x;\mu, \delta) = C_D^U (C_d^U)^{-1} e^{\delta(d-D)} U_d(x;\mu, \delta)$
सीमा विश्लेषण: सूक्ष्म अंतर ज्यामिति विश्लेषण के माध्यम से, यह साबित करना कि व्युत्पन्न की सीमा अपेक्षित मान में परिवर्तित होती है

प्रायोगिक सेटअप

यह पेपर मुख्य रूप से सैद्धांतिक कार्य है, बड़े पैमाने पर प्रायोगिक सत्यापन नहीं किया गया है। लेखक निम्नलिखित पर ध्यान केंद्रित करते हैं:

गणितीय प्रमाण: कठोर सैद्धांतिक विश्लेषण प्रदान करना
शर्त सत्यापन: यह सुनिश्चित करना कि प्रस्तावित शर्तें व्यावहारिक अनुप्रयोगों में उचित हैं
विस्तार विश्लेषण: परिणामों को एकल सबमैनिफोल्ड से सबमैनिफोल्ड के असंयुक्त संघ तक विस्तारित करना

प्रायोगिक परिणाम

सैद्धांतिक परिणाम सत्यापन

पेपर निम्नलिखित निष्कर्षों के माध्यम से सिद्धांत की पूर्णता को सत्यापित करता है:

निष्कर्ष 1: सबमैनिफोल्ड के असंयुक्त संघ $M = \cup_j M_j$ के लिए, उपयुक्त पृथक्करण शर्तों के तहत, परिणाम मान्य रहते हैं।

निष्कर्ष 2: समान स्थिति का समान विस्तार भी मान्य है।

व्यावहारिक महत्व

ये सैद्धांतिक परिणाम सीधे इसका अर्थ हैं:

FLIPD सत्यता: जब स्कोर फलन पूरी तरह से सीखा जाता है, तो $\lim_{\delta \to -\infty} \text{FLIPD}(x; \delta) = \text{LID}(x)$
नकारात्मक मान व्याख्या: FLIPD द्वारा नकारात्मक अनुमान केवल स्कोर फलन सीखने की अपूर्णता के कारण हो सकते हैं, सैद्धांतिक खामी के कारण नहीं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक सुधार: FLIPD के सैद्धांतिक आधार को एफाइन सबमैनिफोल्ड से सामान्य चिकनी एम्बेडेड सबमैनिफोल्ड तक विस्तारित करने में सफल रहे
विधि सार्वभौमिकता: गॉसियन और समान कनवोल्यूशन स्थितियों में समान परिणाम साबित किए
व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोगों में FLIPD की विश्वसनीयता के लिए गणितीय गारंटी प्रदान की

सीमाएं

पूर्ण स्कोर फलन धारणा: सैद्धांतिक परिणाम स्कोर फलन के पूर्ण सीखने को मानते हैं, व्यावहारिक रूप से सन्निकटन त्रुटि मौजूद है
शर्त प्रतिबंध: सतत्ता और परिमित द्वितीय आघूर्ण शर्त को संतुष्ट करने की आवश्यकता है
संयोजकता आवश्यकता: परिमित द्वितीय आघूर्ण शर्त निहित रूप से मैनिफोल्ड संयोजकता की आवश्यकता करती है

भविष्य की दिशाएं

त्रुटि विश्लेषण: स्कोर फलन सीखने की त्रुटि के LID अनुमान पर प्रभाव को परिमाणित करना
प्रवाह मिलान विस्तार: परिणामों को प्रवाह मिलान विधियों तक विस्तारित करना
वितरण विस्तार: अन्य शोर वितरणों के तहत समान परिणामों का अध्ययन करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता: उन्नत अंतर ज्यामिति उपकरणों का उपयोग करके पूर्ण गणितीय प्रमाण प्रदान करता है
व्यावहारिक मूल्य: पहले से मौजूद उच्च-प्रदर्शन विधि के लिए सैद्धांतिक आधार प्रदान करता है
परिणाम पूर्णता: न केवल गॉसियन स्थिति साबित करता है, बल्कि समान वितरण स्थिति तक विस्तारित करता है
लेखन स्पष्टता: जटिल गणितीय सामग्री को अच्छी तरह से संगठित किया गया है, समझने में आसान है

कमियां

प्रायोगिक सत्यापन की कमी: सैद्धांतिक कार्य के रूप में, सैद्धांतिक भविष्यवाणियों को सत्यापित करने के लिए प्रयोग की कमी है
शर्त प्रतिबंध: कुछ धारणा शर्तें व्यावहारिक अनुप्रयोगों में पूरी तरह से संतुष्ट नहीं हो सकती हैं
अपर्याप्त त्रुटि विश्लेषण: व्यावहारिक अनुप्रयोगों में त्रुटि स्रोतों का गहन विश्लेषण नहीं किया गया है

प्रभाव

शैक्षणिक योगदान: जनरेटिव मॉडल और मैनिफोल्ड लर्निंग के अंतःविषय क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है
व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोगों में FLIPD की विश्वसनीयता को बढ़ाता है
प्रेरणा: अन्य जनरेटिव मॉडल-आधारित ज्यामितीय विश्लेषण विधियों के लिए सैद्धांतिक ढांचा प्रदान करता है

लागू परिदृश्य

यह सैद्धांतिक परिणाम निम्नलिखित के लिए लागू होता है:

उच्च-आयामी डेटा विश्लेषण: विशेष रूप से मैनिफोल्ड परिकल्पना का पालन करने वाले डेटा
विसंगति पहचान: LID का उपयोग करके आउटलायर पहचान
जनरेटिव मॉडल मूल्यांकन: जनरेटिव मॉडल के डेटा मैनिफोल्ड सीखने की क्षमता का मूल्यांकन करना
तंत्रिका नेटवर्क विश्लेषण: नेटवर्क प्रतिनिधित्व के ज्यामितीय गुणों का विश्लेषण करना

संदर्भ

पेपर संबंधित कार्यों के बड़े पैमाने पर उद्धृत करता है, जिनमें शामिल हैं:

कामकारी एवं अन्य (2024b): FLIPD के मूल कार्य
पारंपरिक LID अनुमान विधियां: लेविना और बिकेल (2004), फैको एवं अन्य (2017) आदि
विसरण मॉडल सिद्धांत: सॉन्ग एवं अन्य (2021), डे बोर्टोली (2022) आदि
मैनिफोल्ड लर्निंग संबंधित: ली (2012, 2018) आदि अंतर ज्यामिति पाठ्यपुस्तकें

सारांश: यह एक उच्च-गुणवत्ता वाला सैद्धांतिक पेपर है जो महत्वपूर्ण व्यावहारिक विधि FLIPD के लिए कठोर गणितीय आधार प्रदान करता है। यद्यपि प्रायोगिक सत्यापन की कमी है, लेकिन इसका सैद्धांतिक योगदान जनरेटिव मॉडल और मैनिफोल्ड ज्यामिति के संबंध को समझने के लिए महत्वपूर्ण है।