Hypothesis testing for the dimension of random geometric graph
Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
توفر الرسوم البيانية الهندسية العشوائية (RGGs) أدوات قوية لتحليل البنى الهندسية والتبعيات في الشبكات الحقيقية. في RGGs، تُوزّع العُقد عشوائياً في فضاء متري بحجم m، وتُربط بحافة إذا وفقط إذا كانت المسافة بين العُقد أقل من عتبة معينة. عند ملاءمة RGGs للشبكات الحقيقية، تكون الخطوة الأولى هي إدخال أو تقدير البُعد m. ومع ذلك، ليس من الواضح ما إذا كان البُعد المحدد مسبقاً يساوي البُعد الحقيقي. تتناول هذه الورقة هذه المسألة من خلال اختبار الفرضيات: الفرضية الصفرية تفترض أن البُعد يساوي قيمة محددة، والفرضية البديلة تفترض أن البُعد لا يساوي تلك القيمة. يقترح المؤلفون أول طريقة إحصائية للاختبار، حيث يتقارب إحصائي الاختبار تحت الفرضية الصفرية إلى التوزيع الطبيعي المعياري، وتصبح إحصائي الاختبار غير محدودة بالمعنى الاحتمالي تحت الفرضية البديلة.
المشكلة الأساسية: عند ملاءمة رسم بياني هندسي عشوائي لشبكة حقيقية، كيفية التحقق من أن البُعد المحدد أو المقدّر m يساوي البُعد الحقيقي
الاحتياجات العملية: في الأبحاث الحالية، يفترض الباحثون عادة قيمة البُعد مباشرة (مثل افتراض m=2,3,4 في شبكات التفاعل البروتيني)، لكن تنقصهم طرق التحقق الإحصائية
الأهمية التطبيقية: تُطبّق RGGs على نطاق واسع في شبكات التفاعل البروتيني والشبكات الاجتماعية وشبكات الدماغ وغيرها
تستشهد هذه الورقة بـ 40 مرجعاً مهماً، تغطي نظرية الرسم البياني الهندسي العشوائي وتحليل الشبكات والنظرية الإحصائية وغيرها، مما يوفر أساساً نظرياً صلباً للبحث. تشمل المراجع الرئيسية نظرية إحصائيات U لـ Fan & Li (1996)، وتطبيق شبكات البروتين لـ Higham وآخرين (2008)، والمقالات الاستقصائية الحديثة ذات الصلة.
التقييم الشامل: هذه ورقة عالية الجودة في المنهجية الإحصائية، تتميز بالابتكار النظري وتصميم الطريقة والتحقق التجريبي. على الرغم من وجود بعض القيود، فإنها تقدم مساهمة مهمة لمجال تحليل الشبكات، وتتمتع بقيمة أكاديمية وعملية عالية.