2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.

The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.

academic

स्कोर मैचिंग और स्थानीय आंतरिक आयाम के बीच एक संबंध

मूल जानकारी

पेपर ID: 2510.12975
शीर्षक: स्कोर मैचिंग और स्थानीय आंतरिक आयाम के बीच एक संबंध
लेखक: Eric Yeats, Aaron Jacobson, Darryl Hannan, Yiran Jia, Timothy Doster, Henry Kvinge, Scott Mahan (PNNL, UNC Chapel Hill, UC San Diego)
वर्गीकरण: cs.LG stat.ML
प्रकाशन समय/सम्मेलन: NeurIPS 2025 में 3rd SPIGM कार्यशाला में स्वीकृत
पेपर लिंक: https://arxiv.org/abs/2510.12975

सारांश

स्थानीय आंतरिक आयाम (Local Intrinsic Dimension, LID) संकेत प्रसंस्करण और सीखने के सिद्धांत में एक मौलिक मात्रा है, लेकिन उच्च-आयामी जटिल डेटा के LID को मापना ऐतिहासिक रूप से एक चुनौतीपूर्ण कार्य रहा है। हाल के शोध से पता चलता है कि प्रसार मॉडल विभिन्न शोर विक्षोभों के तहत अपने स्कोर अनुमान के स्पेक्ट्रम और घनत्व अनुमान के परिवर्तन दर के माध्यम से डेटा के LID को कैप्चर करते हैं। यद्यपि ये विधियां LID को सटीक रूप से मापने में सक्षम हैं, लेकिन उन्हें प्रसार मॉडल के कई फॉरवर्ड पास या ग्रेडिएंट गणना के उपयोग की आवश्यकता होती है, जो कम्प्यूटेशनल और मेमोरी-सीमित परिदृश्यों में इसकी प्रयोज्यता को सीमित करता है।

यह पेपर साबित करता है कि LID विनोदन स्कोर मैचिंग हानि का निचला सीमा है, जिससे विनोदन स्कोर मैचिंग हानि को LID अनुमानक के रूप में उपयोग करने के लिए सैद्धांतिक आधार प्रदान करता है। इसके अलावा, लेखकों ने साबित किया कि समतुल्य निहित स्कोर मैचिंग हानि भी सामान्य आयाम के माध्यम से LID का अनुमान लगाती है, और हाल के LID अनुमानक FLIPD के साथ घनिष्ठ रूप से संबंधित है। मैनिफोल्ड बेंचमार्क और Stable Diffusion 3.5 पर प्रयोगों से पता चलता है कि विनोदन स्कोर मैचिंग हानि एक अत्यधिक प्रतिस्पर्धी और स्केलेबल LID अनुमानक है, जो समस्या के आकार और परिमाणीकरण स्तर बढ़ने पर उच्च सटीकता और मेमोरी उपयोग प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

उच्च-आयामी डेटा में आमतौर पर कम-आयामी संरचना होती है, जिसे मैनिफोल्ड परिकल्पना कहा जाता है, यह मशीन लर्निंग की मूल परिकल्पना है। स्थानीय आंतरिक आयाम (LID) कम-आयामी संरचना को एनकोड करने वाली मौलिक मात्रा है, बिंदु x के लिए, LID x के चारों ओर डेटा को बिना नुकसान के एनकोड करने के लिए आवश्यक स्थानीय आयाम है।

महत्व

संकेत प्रसंस्करण महत्व: LID वितरण (स्थानीय) संपीड़नशीलता की सीमा निर्धारित करता है
गहन शिक्षा मूल्य: कम LID सीखने की सांख्यिकीय दक्षता में सुधार करता है, जिससे सीखना और सामान्यीकरण आसान हो जाता है
व्यावहारिक अनुप्रयोग: विसंगति पहचान, क्लस्टरिंग और विभाजन जैसे इंजीनियरिंग कार्यों में व्यापक रूप से लागू

मौजूदा विधियों की सीमाएं

गैर-पैरामीट्रिक विधियां: बड़ी मात्रा में नमूना डेटा की आवश्यकता होती है, हाइपरपैरामीटर चयन से दृढ़ता से प्रभावित होती हैं, कम डेटा सेटिंग में सामान्यीकृत नहीं हो सकती हैं
पैरामीट्रिक विधियां: यद्यपि गहन जनरेटिव मॉडल का उपयोग करके स्केलेबिलिटी प्राप्त करती हैं, लेकिन LIDL को कई जनरेटिव मॉडल की आवश्यकता होती है, FLIPD और सामान्य बंडल विधियों को ग्रेडिएंट गणना या कई फॉरवर्ड पास की आवश्यकता होती है

अनुसंधान प्रेरणा

मौजूदा पैरामीट्रिक LID अनुमान विधियों में कम्प्यूटेशनल और मेमोरी दक्षता के संदर्भ में सीमाएं हैं, विशेष रूप से बड़े पैमाने पर अनुप्रयोगों में। यह पेपर एक अधिक कुशल, स्केलेबल LID अनुमान विधि की खोज करना चाहता है।

मूल योगदान

सैद्धांतिक योगदान: साबित करता है कि विनोदन स्कोर मैचिंग हानि LID को निचली सीमा के रूप में रखती है, जिससे इसे स्केलेबल LID अनुमानक के रूप में उपयोग करने के लिए सैद्धांतिक आधार प्रदान करता है
विधि संबंध: स्कोर मैचिंग हानि और वर्तमान अग्रणी अनुमानकों (FLIPD और सामान्य बंडल विधि) के बीच घनिष्ठ संबंध स्थापित करता है
प्रायोगिक सत्यापन: मैनिफोल्ड बेंचमार्क और Stable Diffusion 3.5/2.0 पर प्रयोग दिखाते हैं कि विनोदन स्कोर मैचिंग हानि एक अत्यधिक प्रतिस्पर्धी LID अनुमानक है
व्यावहारिक लाभ: मेमोरी उपयोग और परिमाणीकरण सामंजस्य के संदर्भ में उच्च स्केलेबिलिटी प्रदर्शित करता है

विधि विवरण

कार्य परिभाषा

d-आयामी डेटा मैनिफोल्ड M⊂Rⁿ से नमूना किए गए बिंदु x को देखते हुए, इसके स्थानीय आंतरिक आयाम d का अनुमान लगाएं। इनपुट उच्च-आयामी डेटा बिंदु हैं, आउटपुट संबंधित LID अनुमान मान हैं।

मूल सिद्धांत

प्रमेय 3.1: विनोदन स्कोर मैचिंग हानि निचली सीमा

d-आयामी मैनिफोल्ड M से नमूना किए गए यादृच्छिक चर x के लिए, जब σ→0⁺ पर्याप्त रूप से छोटा हो:

E_x[L_DSM(x,σ,θ)] ≥ d

जहां विनोदन स्कोर मैचिंग हानि को इस प्रकार परिभाषित किया गया है:

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

प्रमाण विचार:

शोर ε को स्पर्शरेखा स्थान और सामान्य स्थान घटकों में विघटित करें
स्पर्शरेखा स्थान घटक: प्रत्येक आयाम के लिए अपेक्षित वर्ग त्रुटि लगभग 1 है
सामान्य स्थान घटक: मैनिफोल्ड संरचना के कारण, अपेक्षित वर्ग त्रुटि लगभग 0 है
कुल LID को निचली सीमा के रूप में प्राप्त करें

प्रमेय 3.3: निहित स्कोर मैचिंग हानि निचली सीमा

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

यह दर्शाता है कि निहित स्कोर मैचिंग हानि नकारात्मक सामान्य आयाम को निचली सीमा के रूप में रखती है।

मौजूदा विधियों के साथ संबंध

FLIPD के साथ संबंध

बिंदु x पर FLIPD की गणना:

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

प्रमेय 3.3 के माध्यम से साबित किया जा सकता है:

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

सामान्य बंडल विधि के साथ संबंध

सामान्य बंडल विधि m×n मैट्रिक्स के एकवचन मान की गणना करती है, जबकि यह पेपर प्रस्तावित त्रुटि बंडल विधि त्रुटि वेक्टर मैट्रिक्स के eigenvalues की गणना करती है। विनोदन हानि Gram मैट्रिक्स eigenvalues के ट्रेस (क्षेत्र) के बराबर है, छोटे नमूनों पर भी सटीक है।

प्रयोगात्मक सेटअप

डेटासेट

scikit-dimension पैकेज में ज्ञात LID के साथ मैनिफोल्ड का उपयोग:

d=16, n=64 के साथ हाइपरस्फीयर और हाइपरबॉल
d=128, n=256 के साथ HyperTwinPeaks
d=32, n=128 के साथ Clifford टोरस और गैर-रैखिक मैनिफोल्ड

मॉडल आर्किटेक्चर

DiT (Diffusion Transformer): patch size=4, hidden dim=128, 16 ध्यान सिर, 8 परतें
MLP: स्किप कनेक्शन के साथ, FLIPD में उपयोग किए गए आर्किटेक्चर के समान

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: वास्तविक LID और अनुमानित LID के बीच माध्य निरपेक्ष त्रुटि (MAE)
सहायक मेट्रिक्स: पीक GPU मेमोरी उपयोग, परिमाणीकरण के बाद प्रदर्शन परिवर्तन

तुलना विधियां

गैर-पैरामीट्रिक विधियां: MLE, TwoNN, ESS
पैरामीट्रिक विधियां: FLIPD
शोर स्तर: σ = 0.01, 0.02, 0.05

प्रायोगिक परिणाम

मुख्य परिणाम

मैनिफोल्ड बेंचमार्क प्रयोग

तालिका 1 द्वारा दिखाए गए मुख्य निष्कर्ष:

DiT आर्किटेक्चर के तहत:
- विनोदन हानि विधि औसत MAE: 2.21 (σ=0.05)
- FLIPD औसत MAE: 23.05 (σ=0.05)
- उच्च-आयामी उच्च वक्रता मैनिफोल्ड पर महत्वपूर्ण अंतर
MLP आर्किटेक्चर के तहत:
- विनोदन हानि विधि औसत MAE: 7.27 (σ=0.05)
- FLIPD औसत MAE: 11.11 (σ=0.05)
- FLIPD MLP पर बेहतर प्रदर्शन करता है
गैर-पैरामीट्रिक विधियां:
- ESS सर्वश्रेष्ठ प्रदर्शन: MAE 7.12 (k=100)
- उच्च-आयामी मैनिफोल्ड पर गंभीर प्रदर्शन गिरावट

स्केलेबिलिटी प्रयोग

चित्र 2 परिणाम:

मैनिफोल्ड आयाम बढ़ने के साथ, दोनों पैरामीट्रिक विधियां कम MAE बनाए रखती हैं
FLIPD मेमोरी उपयोग ग्रेडिएंट गणना के कारण तेजी से बढ़ता है
विनोदन हानि विधि मेमोरी वृद्धि धीमी है

Stable Diffusion प्रयोग

SD 3.5 प्रयोग निष्कर्ष

सहसंबंध: FLIPD और विनोदन हानि अनुमान अत्यधिक सहसंबद्ध हैं
संख्यात्मक अंतर: FLIPD आमतौर पर उच्च LID अनुमान देता है
परिमाणीकरण स्थिरता: विनोदन हानि परिमाणीकरण के बाद कम परिवर्तन दिखाती है
मेमोरी दक्षता: विनोदन हानि पीक मेमोरी FLIPD का लगभग 60% है

SD 2.0 प्रयोग

समान उच्च सहसंबंध पैटर्न
FLIPD उच्च शोर स्तर पर नकारात्मक मान दिखाता है (अमान्य अनुमान)
U-Net आर्किटेक्चर के उच्च Lipschitz स्थिरांक के लिए जिम्मेदार

विलोपन प्रयोग

विभिन्न σ मानों के साथ प्रयोग के माध्यम से:

σ=0.05 आमतौर पर सर्वश्रेष्ठ प्रदर्शन देता है
छोटे σ मान संख्यात्मक अस्थिरता का कारण बन सकते हैं
DiT आर्किटेक्चर σ चयन के लिए अधिक मजबूत है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विनोदन स्कोर मैचिंग हानि LID के लिए सैद्धांतिक रूप से आधारित निचली सीमा प्रदान करती है
यह विधि सटीकता और कम्प्यूटेशनल दक्षता के बीच अच्छा संतुलन प्राप्त करती है
मौजूदा अत्याधुनिक विधियों के साथ गहरे सैद्धांतिक संबंध हैं

सैद्धांतिक अंतर्दृष्टि

स्थिरांक शब्द व्याख्या: C_DSM डेटा औसत LID का नकारात्मक है
बहु-स्केल प्रशिक्षण: प्रत्येक स्केल का प्रशिक्षण उस विशेष शोर मैनिफोल्ड के औसत LID की पहचान के रूप में देखा जा सकता है
संभावना गणना: उच्च संभावना को उच्च सीखे गए सामान्य आयाम के साथ जोड़ना संभव हो सकता है

सीमाएं

प्रयोग केवल एकल H100 GPU का उपयोग करते हैं, वितरित कम्प्यूटिंग का उपयोग नहीं करते हैं
परिमाणीकरण केवल आधी सटीकता तक सीमित है
LID वक्र के "घुटने बिंदु खोज" को शामिल नहीं करता है
सैद्धांतिक धारणाएं σ पर्याप्त रूप से छोटा और मैनिफोल्ड वक्रता नगण्य होने की आवश्यकता होती हैं

भविष्य की दिशाएं

बड़े पैमाने पर वितरित प्रयोगों तक विस्तार
अधिक चरम परिमाणीकरण स्थितियों के तहत प्रदर्शन का अध्ययन
अनुकूली σ चयन रणनीति विकसित करें
अधिक जटिल मैनिफोल्ड संरचनाओं पर अनुप्रयोग की खोज

गहन मूल्यांकन

शक्तियां

ठोस सैद्धांतिक योगदान: स्कोर मैचिंग और LID के बीच मौलिक संबंध स्थापित करने वाले कठोर गणितीय प्रमाण प्रदान करता है
विधि सरल और कुशल: ग्रेडिएंट गणना या कई फॉरवर्ड पास की आवश्यकता नहीं है, उच्च कम्प्यूटेशनल दक्षता
व्यापक प्रयोग: सिंथेटिक मैनिफोल्ड, वास्तविक डेटा और बड़े पैमाने पर मॉडल को कवर करता है
उच्च व्यावहारिक मूल्य: मेमोरी-सीमित परिदृश्यों में स्पष्ट लाभ

कमियां

सैद्धांतिक धारणा सीमाएं: σ पर्याप्त रूप से छोटा और मैनिफोल्ड वक्रता नगण्य होने की शर्तें आवश्यक हैं
आर्किटेक्चर निर्भरता: विभिन्न तंत्रिका नेटवर्क आर्किटेक्चर पर प्रदर्शन में अंतर
पैरामीटर संवेदनशीलता: σ की पसंद परिणामों पर महत्वपूर्ण प्रभाव डालती है
सीमित सत्यापन सीमा: मुख्य रूप से अपेक्षाकृत सरल सिंथेटिक मैनिफोल्ड पर सत्यापित

प्रभाव

सैद्धांतिक मूल्य: प्रसार मॉडल और मैनिफोल्ड सीखने को समझने के लिए नया दृष्टिकोण प्रदान करता है
व्यावहारिक महत्व: बड़े पैमाने पर LID अनुमान के लिए व्यावहारिक समाधान प्रदान करता है
पद्धति योगदान: प्रशिक्षण हानि से ज्यामितीय जानकारी निकालने का तरीका दिखाता है

लागू परिदृश्य

बड़े पैमाने पर डेटा विश्लेषण: मेमोरी और कम्प्यूटेशनल संसाधन सीमित परिदृश्य
वास्तविक समय LID अनुमान: तेजी से प्रतिक्रिया की आवश्यकता वाले अनुप्रयोग
प्रशिक्षित प्रसार मॉडल: मौजूदा मॉडल से सीधे LID अनुमान के लिए
मैनिफोल्ड सीखने का अनुसंधान: डेटा ज्यामितीय संरचना को समझने के लिए उपकरण

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

Vincent (2011): विनोदन और जनरेटिव मॉडलिंग का संबंध
Hyvärinen & Dayan (2005): स्कोर मैचिंग का मूल सिद्धांत
Kamkari et al. (2024): FLIPD विधि
Stanczuk et al. (2024): सामान्य बंडल विधि
साथ ही प्रसार मॉडल और प्रवाह मिलान के संबंधित साहित्य

समग्र मूल्यांकन: यह सिद्धांत और व्यवहार दोनों को संतुलित करने वाला एक उत्कृष्ट पेपर है, जो LID अनुमान के लिए नया सैद्धांतिक दृष्टिकोण और व्यावहारिक विधि प्रदान करता है। यद्यपि कुछ तकनीकी विवरणों में सुधार की गुंजाइश है, लेकिन इसके मूल योगदान प्रसार मॉडल की ज्यामितीय संपत्ति को समझने और LID अनुमान विधि में सुधार के लिए महत्वपूर्ण मूल्य रखते हैं।