Hypothesis testing for the dimension of random geometric graph
Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic
Hypothesentests für die Dimension von zufälligen geometrischen Graphen
Zufällige geometrische Graphen (RGGs) bieten ein leistungsstarkes Werkzeug zur Analyse geometrischer und abhängiger Strukturen in realen Netzwerken. In RGGs werden Knoten zufällig in einem m-dimensionalen metrischen Raum verteilt und durch Kanten verbunden, wenn und nur wenn die Distanz zwischen Knoten einen bestimmten Schwellenwert unterschreitet. Bei der Anpassung von RGGs an reale Netzwerke ist der erste Schritt die Eingabe oder Schätzung der Dimension m. Es ist jedoch unklar, ob die vorgegebene Dimension der wahren Dimension entspricht. Diese Arbeit untersucht dieses Problem durch Hypothesentests: Die Nullhypothese besagt, dass die Dimension einem bestimmten Wert entspricht, die Alternativhypothese besagt, dass die Dimension diesem Wert nicht entspricht. Die Autoren schlagen die erste statistische Testmethode vor, bei der die Teststatistik unter der Nullhypothese in Verteilung gegen die Standardnormalverteilung konvergiert und unter der Alternativhypothese die Teststatistik im Wahrscheinlichkeitssinn unbegrenzt ist.
Kernproblem: Bei der Anpassung zufälliger geometrischer Graphen an reale Netzwerke, wie kann man überprüfen, ob die vorgegebene oder geschätzte Dimension m der wahren Dimension entspricht?
Praktischer Bedarf: In bestehenden Forschungen nehmen Forscher typischerweise direkt Dimensionswerte an (z.B. m=2,3,4 in Proteininteraktionsnetzwerken), es fehlt jedoch eine statistische Verifizierungsmethode
Anwendungsrelevanz: RGGs werden in vielen Bereichen wie Proteininteraktionsnetzwerken, sozialen Netzwerken und Gehirnnetzwerken weit verbreitet angewendet
Methodische Lücke: Dies ist die erste Hypothesentestmethode für die RGG-Dimension
Theoretische Herausforderung: Es ist notwendig, die asymptotische Theorie degenerierter U-Statistiken zu behandeln, deren Kernfunktion von der Netzwerkgröße abhängt
Praktischer Wert: Bietet ein rigoroses Werkzeug zur Dimensionsverifizierung für die Netzwerkanalyse
Dieses Paper zitiert 40 wichtige Literaturquellen, die Theorie zufälliger geometrischer Graphen, Netzwerkanalyse, statistische Theorie und andere Aspekte abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen die U-Statistik-Theorie von Fan & Li (1996), die Anwendung von Higham et al. (2008) in Proteinnetzwerken sowie aktuelle verwandte Übersichtsartikel.
Gesamtbewertung: Dies ist ein hochqualitatives statistisches Methodologie-Paper, das sich in theoretischer Innovation, Methodengestaltung und experimenteller Validierung auszeichnet. Obwohl es einige Einschränkungen gibt, leistet es wichtige Beiträge zum Bereich der Netzwerkanalyse und hat hohen akademischen und praktischen Wert.