2025-11-13T21:58:11.125664

Hypothesis testing for the dimension of random geometric graph

Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic

यादृच्छिक ज्यामितीय ग्राफ के आयाम के लिए परिकल्पना परीक्षण

बुनियादी जानकारी

  • पेपर ID: 2510.11844
  • शीर्षक: यादृच्छिक ज्यामितीय ग्राफ के आयाम के लिए परिकल्पना परीक्षण
  • लेखक: Mingao Yuan, Feng Yu (The University of Texas at El Paso)
  • वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
  • प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.11844

सारांश

यादृच्छिक ज्यामितीय ग्राफ (RGGs) वास्तविक नेटवर्क में ज्यामितीय और निर्भरता संरचनाओं का विश्लेषण करने के लिए शक्तिशाली उपकरण प्रदान करते हैं। RGGs में, नोड्स यादृच्छिक रूप से m-आयामी मीट्रिक स्पेस में वितरित होते हैं, और केवल तभी किनारे से जुड़े होते हैं जब नोड्स के बीच की दूरी एक निश्चित सीमा से कम हो। वास्तविक नेटवर्क के लिए RGGs को फिट करते समय, प्रारंभिक चरण आयाम m को इनपुट या अनुमानित करना है। हालांकि, यह स्पष्ट नहीं है कि पूर्वनिर्धारित आयाम वास्तविक आयाम के बराबर है या नहीं। यह पेपर परिकल्पना परीक्षण के माध्यम से इस समस्या का अध्ययन करता है: शून्य परिकल्पना यह है कि आयाम एक विशिष्ट मान के बराबर है, और वैकल्पिक परिकल्पना यह है कि आयाम उस मान के बराबर नहीं है। लेखकों ने पहली सांख्यिकीय परीक्षण विधि प्रस्तावित की है, जहां शून्य परिकल्पना के तहत परीक्षण सांख्यिकी मानक सामान्य वितरण में वितरण में परिवर्तित होती है, और वैकल्पिक परिकल्पना के तहत परीक्षण सांख्यिकी संभाव्यता के अर्थ में असीमित है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: वास्तविक नेटवर्क के लिए यादृच्छिक ज्यामितीय ग्राफ को फिट करते समय, पूर्वनिर्धारित या अनुमानित आयाम m वास्तविक आयाम के बराबर है या नहीं, इसे कैसे सत्यापित करें
  2. व्यावहारिक आवश्यकता: मौजूदा अनुसंधान में, शोधकर्ता आमतौर पर आयाम मान को सीधे मान लेते हैं (जैसे प्रोटीन इंटरैक्शन नेटवर्क में m=2,3,4 मान लेना), लेकिन सांख्यिकीय सत्यापन विधि की कमी है
  3. अनुप्रयोग महत्व: RGGs प्रोटीन इंटरैक्शन नेटवर्क, सामाजिक नेटवर्क, मस्तिष्क नेटवर्क और अन्य कई क्षेत्रों में व्यापक रूप से लागू होते हैं

अनुसंधान प्रेरणा

  1. पद्धति संबंधी रिक्तता: यह RGG आयाम के लिए पहली परिकल्पना परीक्षण विधि है
  2. सैद्धांतिक चुनौती: पतित U-सांख्यिकी के渐近सिद्धांत को संभालने की आवश्यकता है, जिसका कर्नल फ़ंक्शन नेटवर्क आकार पर निर्भर करता है
  3. व्यावहारिक मूल्य: नेटवर्क विश्लेषण के लिए कठोर आयाम सत्यापन उपकरण प्रदान करता है

मुख्य योगदान

  1. अग्रणी विधि: यादृच्छिक ज्यामितीय ग्राफ आयाम परिकल्पना परीक्षण के लिए पहली सांख्यिकीय विधि प्रस्तावित की
  2. सैद्धांतिक नवाचार:
    • पतित U-सांख्यिकी सिद्धांत के आधार पर परीक्षण सांख्यिकी का渐近वितरण स्थापित किया
    • कर्नल फ़ंक्शन नमूना आकार n पर निर्भर करता है, जो मानक U-सांख्यिकी सिद्धांत से अलग है
  3. कम्प्यूटेशनल दक्षता: आसन्न मैट्रिक्स के आधार पर कुशल गणना विधि प्रदान की, जो बहु-नेस्टेड लूप से बचती है
  4. सैद्धांतिक गारंटी:
    • शून्य परिकल्पना के तहत सांख्यिकी मानक सामान्य वितरण में परिवर्तित होती है
    • वैकल्पिक परिकल्पना के तहत परीक्षण शक्ति 1 की ओर प्रवृत्त होती है
  5. अनुभवजन्य सत्यापन: सिम्युलेटेड डेटा और 6 वास्तविक नेटवर्क पर विधि की प्रभावशीलता सत्यापित की

विधि विवरण

कार्य परिभाषा

दिए गए नेटवर्क आसन्न मैट्रिक्स A ~ G_n(m, r_n) के लिए, परिकल्पना का परीक्षण करें:

  • H_0: m = m_0 (शून्य परिकल्पना: आयाम पूर्वनिर्धारित मान m_0 के बराबर है)
  • H_1: m ≠ m_0 (वैकल्पिक परिकल्पना: आयाम m_0 के बराबर नहीं है)

यादृच्छिक ज्यामितीय ग्राफ मॉडल

परिभाषा: इकाई वर्ग 0,1^m पर, नोड्स X_i स्वतंत्र रूप से समान रूप से वितरित होते हैं, दूरी को परिभाषित किया जाता है:

d(X_i, X_j) = max_{1≤k≤m} {min{|X_{ik} - X_{jk}|, 1 - |X_{ik} - X_{jk}|}}

जब d(X_i, X_j) ≤ r_n हो, तो नोड्स i और j के बीच किनारा मौजूद है।

परीक्षण सांख्यिकी निर्माण

मुख्य सांख्यिकी D_n को परिभाषित किया जाता है:

D_n = Σ_{i≠j≠k} A_{ij}A_{jk}A_{ki} - (3/4)^{m_0} Σ_{i≠j≠k} A_{ij}A_{ik}

डिज़ाइन विचार:

  • पहला पद नेटवर्क में त्रिकोण की संख्या की गणना करता है
  • दूसरा पद शून्य परिकल्पना के तहत अपेक्षित सुधार है
  • शून्य परिकल्पना के तहत D_n ≈ 0, वैकल्पिक परिकल्पना के तहत D_n 0 से महत्वपूर्ण रूप से विचलित होता है

###渐近वितरण सिद्धांत मुख्य प्रमेय: शर्तों r_n = o(1) और nr_n^m = ω(1) के तहत, शून्य परिकल्पना H_0 के तहत:

√(2D_n)/(n²σ̂_{n2}) ⇒ N(0,1)

जहां विचरण अनुमानक σ̂²_ पांच सांख्यिकी S_1 से S_5 के रैखिक संयोजन द्वारा दिया जाता है।

तकनीकी नवाचार बिंदु

  1. पतित U-सांख्यिकी प्रबंधन:
    • D_n को पतित U-सांख्यिकी रूप में व्यक्त करना
    • कर्नल फ़ंक्शन n पर निर्भर करने वाले गैर-मानक मामले को संभालना
    • Fan-Li (1996) के渐近सिद्धांत को लागू करना
  2. मैट्रिक्स गणना अनुकूलन:
    D_n = tr(A³) + 2tr(A) - (3/4)^{m_0}(1^T(A² - A)1 + 2tr(A))
    S_1 = 1^T[A² ⊙ A² ⊙ A - A² ⊙ A]1
    

    O(n⁴) नेस्टेड लूप गणना से बचता है
  3. शक्ति विश्लेषण: वैकल्पिक परिकल्पना के तहत सांख्यिकी का क्रम Θ(n√(r_n^m)) है, जो परीक्षण शक्ति को 1 की ओर प्रवृत्त करने की गारंटी देता है

प्रयोग सेटअप

सिम्युलेटेड प्रयोग

  1. पैरामीटर सेटिंग:
    • नेटवर्क आकार: n ∈ {40, 50, 60, 70, 100, 130}
    • कनेक्शन त्रिज्या: r_n ∈ {0.09, 0.10, 0.11, 0.27, 0.29, 0.31}
    • आयाम: m ∈ {1, 2, 3}
    • महत्व स्तर: α = 0.05
  2. प्रयोग डिज़ाइन:
    • प्रथम प्रकार की त्रुटि: शून्य परिकल्पना के तहत 1000 नेटवर्क उत्पन्न करना
    • परीक्षण शक्ति: वैकल्पिक परिकल्पना के तहत 1000 नेटवर्क उत्पन्न करना

वास्तविक डेटा

6 वास्तविक नेटवर्क का परीक्षण किया गया:

  1. रासायनिक सूचना विज्ञान नेटवर्क (4): ENZYMES श्रृंखला, नोड्स यौगिक हैं
  2. मस्तिष्क नेटवर्क (1): macaque-rhesus-brain-2, नोड्स मस्तिष्क क्षेत्र हैं
  3. सामाजिक नेटवर्क (1): reptilia-tortoise-network-bsv, कछुआ सामाजिक नेटवर्क

मूल्यांकन मेट्रिक्स

  1. प्रथम प्रकार की त्रुटि दर: शून्य परिकल्पना सत्य होने पर अस्वीकार करने की संभावना
  2. परीक्षण शक्ति: वैकल्पिक परिकल्पना सत्य होने पर शून्य परिकल्पना को अस्वीकार करने की संभावना
  3. p-मान: वास्तविक नेटवर्क के आयाम अनुमान के लिए उपयोग किया जाता है

प्रयोग परिणाम

सिम्युलेटेड परिणाम

प्रथम प्रकार की त्रुटि नियंत्रण:

  • सभी सेटिंग्स के तहत अनुभवजन्य प्रथम प्रकार की त्रुटि दर 0.040-0.064 के बीच है, नाममात्र स्तर 0.05 के करीब है
  • यह दर्शाता है कि渐近सामान्य वितरण सन्निकटन सीमित नमूने के तहत अच्छा प्रदर्शन करता है

परीक्षण शक्ति:

  • H_0: m=1 के लिए, m=2 की शक्ति 0.920-1.000 के बीच है, m=3 की शक्ति 0.645-0.997 के बीच है
  • H_0: m=2 के लिए, m=1 की शक्ति हमेशा 1.000 है, m=3 की शक्ति 0.927-1.000 के बीच है
  • शक्ति n और r_n के साथ बढ़ती है, जो सैद्धांतिक अपेक्षा के अनुरूप है

वास्तविक नेटवर्क परिणाम

नेटवर्कnघनत्वअनुमानित आयामp-मान
ENZYMES-g147400.210m=20.696
ENZYMES-g196500.138m=30.653
ENZYMES-g532740.085m=50.140
macaque-rhesus-brain-2910.152m=30.161
reptilia-tortoise-network-bsv1360.040m=40.162

महत्वपूर्ण खोज: विभिन्न नेटवर्क में विभिन्न आयाम होते हैं, जो आयाम परीक्षण के महत्व को रेखांकित करता है।

संबंधित कार्य

यादृच्छिक ज्यामितीय ग्राफ सिद्धांत

  1. शास्त्रीय साहित्य: Penrose आदि का मौलिक सैद्धांतिक कार्य
  2. नवीनतम विकास: Duchemin & De Castro (2023) की समीक्षा
  3. आयाम अनुमान: Atamanchuk आदि (2024) की सुसंगत अनुमान विधि

नेटवर्क परिकल्पना परीक्षण

  1. ग्राफ संरचना परीक्षण: Gao & Lafferty (2017), Jin आदि (2018)
  2. समुदाय संरचना परीक्षण: Lei (2016), Yuan आदि (2022)
  3. इस पेपर का नवाचार: ज्यामितीय ग्राफ आयाम के लिए पहली परिकल्पना परीक्षण

अनुप्रयोग क्षेत्र

  1. जैविक नेटवर्क: Higham आदि (2008) द्वारा प्रोटीन नेटवर्क में अनुप्रयोग
  2. मस्तिष्क नेटवर्क: कार्यात्मक कनेक्टिविटी नेटवर्क विश्लेषण
  3. सामाजिक नेटवर्क: विचार प्रसार और स्थानिक वितरण मॉडलिंग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक योगदान: RGG आयाम परिकल्पना परीक्षण के लिए पूर्ण सैद्धांतिक ढांचा स्थापित किया
  2. विधि प्रभावशीलता: सिम्युलेटेड और अनुभवजन्य परिणाम विधि की विश्वसनीयता सत्यापित करते हैं
  3. व्यावहारिक मूल्य: नेटवर्क विश्लेषण के लिए महत्वपूर्ण सांख्यिकीय उपकरण प्रदान करता है

सीमाएं

  1. मॉडल मान्यताएं:
    • नोड्स को इकाई घन पर समान रूप से वितरित मानता है
    • विशिष्ट दूरी माप फ़ंक्शन का उपयोग करता है
    • नेटवर्क को विरल होने की आवश्यकता है (r_n = o(1))
  2. कम्प्यूटेशनल जटिलता: हालांकि गणना को अनुकूलित किया गया है, लेकिन अति बड़े पैमाने के नेटवर्क के लिए अभी भी चुनौतियों का सामना करना पड़ सकता है
  3. आयाम श्रेणी: मुख्य रूप से निम्न-आयामी मामलों में सत्यापित, उच्च-आयामी प्रदर्शन को आगे के अनुसंधान की आवश्यकता है

भविष्य की दिशाएं

  1. मॉडल विस्तार: गैर-समान वितरण, अन्य दूरी माप पर विचार करना
  2. उच्च-आयामी मामले: उच्च-आयामी RGG के लिए परीक्षण विधि का अनुसंधान
  3. बहु-परीक्षण: एक साथ कई आयाम मानों का परीक्षण करने की विधि
  4. बेयसियन विधि: आयाम के लिए बेयसियन अनुमान विधि विकसित करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक कठोरता:
    • ठोस U-सांख्यिकी सिद्धांत पर आधारित
    • पूर्ण渐近विश्लेषण और शक्ति अध्ययन
    • कठोर गणितीय प्रमाण
  2. विधि नवाचार:
    • पहली RGG आयाम परीक्षण विधि
    • सांख्यिकी डिज़ाइन में चतुर
    • कुशल कम्प्यूटेशनल कार्यान्वयन
  3. व्यापक प्रयोग:
    • पर्याप्त सिम्युलेटेड सत्यापन
    • विविध वास्तविक नेटवर्क परीक्षण
    • विस्तृत प्रदर्शन विश्लेषण
  4. व्यावहारिक मूल्य:
    • व्यावहारिक आवश्यकताओं को हल करता है
    • कार्यान्वयन और अनुप्रयोग में आसान
    • भविष्य के अनुसंधान के लिए आधार स्थापित करता है

कमियां

  1. अनुप्रयोग श्रेणी:
    • केवल विरल नेटवर्क के लिए उपयुक्त
    • मॉडल मान्यताओं के प्रति संवेदनशील
    • वास्तविक नेटवर्क पूरी तरह से RGG मॉडल के अनुरूप नहीं हो सकते
  2. विधि सीमाएं:
    • केवल द्विपक्षीय परीक्षण कर सकता है
    • अनुमान त्रुटि के प्रभाव पर विचार नहीं करता
    • विषम मानों के प्रति दृढ़ता पर्याप्त रूप से अनुसंधान नहीं की गई
  3. प्रयोग गहराई:
    • वास्तविक नेटवर्क की संख्या अपेक्षाकृत सीमित है
    • अन्य आयाम अनुमान विधियों के साथ तुलना की कमी
    • विधि विफलता के मामलों का गहन विश्लेषण नहीं

प्रभाव

  1. शैक्षणिक मूल्य:
    • महत्वपूर्ण पद्धति संबंधी रिक्तता को भरता है
    • नेटवर्क विश्लेषण के लिए नए उपकरण प्रदान करता है
    • संबंधित अनुसंधान दिशाओं को प्रेरित कर सकता है
  2. व्यावहारिक महत्व:
    • जैव सूचना विज्ञान, सामाजिक नेटवर्क विश्लेषण आदि क्षेत्रों में प्रत्यक्ष अनुप्रयोग
    • नेटवर्क मॉडलिंग की वैज्ञानिकता में सुधार
    • मॉडल चयन के लिए सांख्यिकीय आधार प्रदान करता है
  3. पुनरुत्पादनशीलता:
    • विस्तृत गणना सूत्र प्रदान करता है
    • एल्गोरिदम विवरण स्पष्ट है
    • सॉफ्टवेयर कार्यान्वयन में सुविधाजनक

लागू परिदृश्य

  1. जैविक नेटवर्क: प्रोटीन इंटरैक्शन नेटवर्क के आयाम सत्यापन
  2. सामाजिक नेटवर्क: स्थानिक एम्बेडिंग मॉडल के आयाम चयन
  3. मस्तिष्क नेटवर्क: कार्यात्मक कनेक्टिविटी नेटवर्क की ज्यामितीय संरचना विश्लेषण
  4. संचार नेटवर्क: वायरलेस सेंसर नेटवर्क की टोपोलॉजी विश्लेषण

संदर्भ

यह पेपर 40 महत्वपूर्ण संदर्भों का हवाला देता है, जो यादृच्छिक ज्यामितीय ग्राफ सिद्धांत, नेटवर्क विश्लेषण, सांख्यिकीय सिद्धांत और अन्य कई पहलुओं को कवर करते हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं। मुख्य संदर्भ साहित्य में Fan & Li (1996) का U-सांख्यिकी सिद्धांत, Higham आदि (2008) का प्रोटीन नेटवर्क अनुप्रयोग, और हाल के संबंधित समीक्षा लेख शामिल हैं।


समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला सांख्यिकीय पद्धति पेपर है, जो सैद्धांतिक नवाचार, विधि डिज़ाइन और प्रयोग सत्यापन के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है। हालांकि कुछ सीमाएं हैं, लेकिन यह नेटवर्क विश्लेषण क्षेत्र में महत्वपूर्ण योगदान देता है और उच्च शैक्षणिक मूल्य और व्यावहारिक महत्व रखता है।