Hypothesis testing for the dimension of random geometric graph
Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic
Test di ipotesi per la dimensione del grafo geometrico casuale
I grafi geometrici casuali (RGGs) forniscono strumenti potenti per analizzare le strutture geometriche e di dipendenza nelle reti reali. Negli RGGs, i nodi sono distribuiti casualmente in uno spazio metrico m-dimensionale e sono collegati da un arco se e solo se la distanza tra loro è inferiore a una soglia specificata. Nel fitting degli RGGs alle reti reali, il primo passo consiste nell'inserire o stimare la dimensione m. Tuttavia, non è chiaro se la dimensione preimpostata sia uguale alla dimensione reale. Questo articolo affronta il problema mediante test di ipotesi: l'ipotesi nulla è che la dimensione sia uguale a un valore specifico, mentre l'ipotesi alternativa è che la dimensione sia diversa da tale valore. Gli autori propongono il primo metodo di test statistico, in cui la statistica del test converge in distribuzione a una distribuzione normale standard sotto l'ipotesi nulla e diverge in probabilità sotto l'ipotesi alternativa.
Problema centrale: Nel fitting dei grafi geometrici casuali alle reti reali, come verificare se la dimensione m preimpostata o stimata è uguale alla dimensione reale
Esigenza pratica: Nella ricerca esistente, i ricercatori generalmente assumono direttamente il valore della dimensione (ad esempio, m=2,3,4 nelle reti di interazione proteica), ma mancano metodi di verifica statistica
Importanza applicativa: Gli RGGs sono ampiamente utilizzati in reti di interazione proteica, reti sociali, reti cerebrali e altri campi
Questo articolo cita 40 importanti riferimenti, coprendo la teoria dei grafi geometrici casuali, l'analisi delle reti, la teoria statistica e altri aspetti, fornendo una solida base teorica per la ricerca. I riferimenti chiave includono la teoria delle U-statistiche di Fan & Li (1996), l'applicazione alle reti proteiche di Higham et al. (2008), e articoli di rassegna correlati recenti.
Valutazione complessiva: Questo è un articolo di alta qualità sulla metodologia statistica, che si distingue per innovazione teorica, progettazione metodologica e verifica sperimentale. Sebbene presenti alcune limitazioni, fornisce un contributo importante al campo dell'analisi delle reti, con elevato valore accademico e pratico.