2025-11-13T21:58:11.125664

Hypothesis testing for the dimension of random geometric graph

Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic

Test di ipotesi per la dimensione del grafo geometrico casuale

Informazioni di base

  • ID articolo: 2510.11844
  • Titolo: Hypothesis testing for the dimension of random geometric graph
  • Autori: Mingao Yuan, Feng Yu (The University of Texas at El Paso)
  • Classificazione: stat.ME (Statistica - Metodologia)
  • Data di pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link articolo: https://arxiv.org/abs/2510.11844

Riassunto

I grafi geometrici casuali (RGGs) forniscono strumenti potenti per analizzare le strutture geometriche e di dipendenza nelle reti reali. Negli RGGs, i nodi sono distribuiti casualmente in uno spazio metrico m-dimensionale e sono collegati da un arco se e solo se la distanza tra loro è inferiore a una soglia specificata. Nel fitting degli RGGs alle reti reali, il primo passo consiste nell'inserire o stimare la dimensione m. Tuttavia, non è chiaro se la dimensione preimpostata sia uguale alla dimensione reale. Questo articolo affronta il problema mediante test di ipotesi: l'ipotesi nulla è che la dimensione sia uguale a un valore specifico, mentre l'ipotesi alternativa è che la dimensione sia diversa da tale valore. Gli autori propongono il primo metodo di test statistico, in cui la statistica del test converge in distribuzione a una distribuzione normale standard sotto l'ipotesi nulla e diverge in probabilità sotto l'ipotesi alternativa.

Contesto e motivazione della ricerca

Definizione del problema

  1. Problema centrale: Nel fitting dei grafi geometrici casuali alle reti reali, come verificare se la dimensione m preimpostata o stimata è uguale alla dimensione reale
  2. Esigenza pratica: Nella ricerca esistente, i ricercatori generalmente assumono direttamente il valore della dimensione (ad esempio, m=2,3,4 nelle reti di interazione proteica), ma mancano metodi di verifica statistica
  3. Importanza applicativa: Gli RGGs sono ampiamente utilizzati in reti di interazione proteica, reti sociali, reti cerebrali e altri campi

Motivazione della ricerca

  1. Lacuna metodologica: Questo è il primo metodo di test di ipotesi per la dimensione degli RGGs
  2. Sfida teorica: È necessario affrontare la teoria asintotica delle U-statistiche degeneri, la cui funzione kernel dipende dalla dimensione della rete
  3. Valore pratico: Fornisce uno strumento rigoroso di verifica della dimensione per l'analisi delle reti

Contributi principali

  1. Metodo innovativo: Propone il primo metodo statistico per il test di ipotesi sulla dimensione dei grafi geometrici casuali
  2. Innovazione teorica:
    • Stabilisce la distribuzione asintotica della statistica del test basata sulla teoria delle U-statistiche degeneri
    • La funzione kernel dipende dalla dimensione del campione n, diversamente dalla teoria standard delle U-statistiche
  3. Efficienza computazionale: Fornisce un metodo di calcolo efficiente basato sulla matrice di adiacenza, evitando cicli annidati multipli
  4. Garanzie teoriche:
    • Sotto l'ipotesi nulla, la statistica converge a una distribuzione normale standard
    • Sotto l'ipotesi alternativa, la potenza del test tende a 1
  5. Verifica empirica: Valida il metodo su dati simulati e 6 reti reali

Dettagli metodologici

Definizione del compito

Data la matrice di adiacenza della rete A ~ G_n(m, r_n), testare l'ipotesi:

  • H_0: m = m_0 (ipotesi nulla: la dimensione è uguale al valore preimpostato m_0)
  • H_1: m ≠ m_0 (ipotesi alternativa: la dimensione è diversa da m_0)

Modello di grafo geometrico casuale

Definizione: Nel quadrato unitario 0,1^m, i nodi X_i sono distribuiti indipendentemente e uniformemente, con distanza definita come:

d(X_i, X_j) = max_{1≤k≤m} {min{|X_{ik} - X_{jk}|, 1 - |X_{ik} - X_{jk}|}}

Esiste un arco tra i nodi i e j quando d(X_i, X_j) ≤ r_n.

Costruzione della statistica del test

La statistica del test centrale D_n è definita come:

D_n = Σ_{i≠j≠k} A_{ij}A_{jk}A_{ki} - (3/4)^{m_0} Σ_{i≠j≠k} A_{ij}A_{ik}

Idea di progettazione:

  • Il primo termine calcola il numero di triangoli nella rete
  • Il secondo termine è la correzione del valore atteso sotto l'ipotesi nulla
  • Sotto l'ipotesi nulla D_n ≈ 0, mentre sotto l'ipotesi alternativa D_n si discosta significativamente da 0

Teoria della distribuzione asintotica

Teorema principale: Sotto le condizioni r_n = o(1) e nr_n^m = ω(1), sotto l'ipotesi nulla H_0:

√(2D_n)/(n²σ̂_{n2}) ⇒ N(0,1)

dove lo stimatore della varianza σ̂²_ è dato da una combinazione lineare di cinque statistiche S_1 fino a S_5.

Punti di innovazione tecnica

  1. Trattamento delle U-statistiche degeneri:
    • Rappresenta D_n in forma di U-statistica degenere
    • Affronta il caso non standard in cui la funzione kernel dipende da n
    • Applica la teoria asintotica di Fan-Li (1996)
  2. Ottimizzazione del calcolo matriciale:
    D_n = tr(A³) + 2tr(A) - (3/4)^{m_0}(1^T(A² - A)1 + 2tr(A))
    S_1 = 1^T[A² ⊙ A² ⊙ A - A² ⊙ A]1
    

    Evita il calcolo con cicli annidati di ordine O(n⁴)
  3. Analisi della potenza: Sotto l'ipotesi alternativa, l'ordine della statistica è Θ(n√(r_n^m)), garantendo che la potenza del test tenda a 1

Configurazione sperimentale

Esperimenti di simulazione

  1. Impostazioni dei parametri:
    • Dimensione della rete: n ∈ {40, 50, 60, 70, 100, 130}
    • Raggio di connessione: r_n ∈ {0.09, 0.10, 0.11, 0.27, 0.29, 0.31}
    • Dimensione: m ∈ {1, 2, 3}
    • Livello di significatività: α = 0.05
  2. Progettazione dell'esperimento:
    • Errore di tipo I: generazione di 1000 reti sotto l'ipotesi nulla
    • Potenza del test: generazione di 1000 reti sotto l'ipotesi alternativa

Dati reali

Test su 6 reti reali:

  1. Reti di chemioinformatica (4): serie ENZYMES, nodi come composti
  2. Rete cerebrale (1): macaque-rhesus-brain-2, nodi come aree cerebrali
  3. Rete sociale (1): reptilia-tortoise-network-bsv, rete sociale di tartarughe

Metriche di valutazione

  1. Tasso di errore di tipo I: Probabilità di rifiutare quando l'ipotesi nulla è vera
  2. Potenza del test: Probabilità di rifiutare l'ipotesi nulla quando l'ipotesi alternativa è vera
  3. Valore p: Utilizzato per l'inferenza della dimensione nelle reti reali

Risultati sperimentali

Risultati della simulazione

Controllo dell'errore di tipo I:

  • Il tasso di errore di tipo I empirico in tutte le impostazioni è compreso tra 0.040-0.064, vicino al livello nominale 0.05
  • Indica che l'approssimazione asintotica normale funziona bene con campioni finiti

Potenza del test:

  • Quando H_0: m=1, la potenza per m=2 è tra 0.920-1.000, per m=3 è tra 0.645-0.997
  • Quando H_0: m=2, la potenza per m=1 è costantemente 1.000, per m=3 è tra 0.927-1.000
  • La potenza aumenta con n e r_n, coerente con le previsioni teoriche

Risultati delle reti reali

RetenDensitàDimensione inferitaValore p
ENZYMES-g147400.210m=20.696
ENZYMES-g196500.138m=30.653
ENZYMES-g532740.085m=50.140
macaque-rhesus-brain-2910.152m=30.161
reptilia-tortoise-network-bsv1360.040m=40.162

Scoperta importante: Diverse reti hanno dimensioni diverse, sottolineando l'importanza del test di dimensione.

Lavori correlati

Teoria dei grafi geometrici casuali

  1. Letteratura classica: Lavori teorici fondamentali di Penrose e altri
  2. Sviluppi recenti: Rassegna di Duchemin & De Castro (2023)
  3. Stima della dimensione: Metodo di stima coerente di Atamanchuk et al. (2024)

Test di ipotesi per reti

  1. Test della struttura del grafo: Gao & Lafferty (2017), Jin et al. (2018)
  2. Test della struttura di comunità: Lei (2016), Yuan et al. (2022)
  3. Innovazione di questo articolo: Primo test di ipotesi per la dimensione dei grafi geometrici

Campi di applicazione

  1. Reti biologiche: Applicazione di Higham et al. (2008) alle reti proteiche
  2. Reti cerebrali: Analisi delle reti di connettività funzionale
  3. Reti sociali: Modellazione della propagazione di opinioni e distribuzione spaziale

Conclusioni e discussione

Conclusioni principali

  1. Contributo teorico: Stabilisce un quadro teorico completo per il test di ipotesi sulla dimensione degli RGGs
  2. Validità del metodo: I risultati di simulazione e empirici verificano l'affidabilità del metodo
  3. Valore pratico: Fornisce uno strumento statistico importante per l'analisi delle reti

Limitazioni

  1. Assunzioni del modello:
    • Assume che i nodi siano distribuiti uniformemente sul cubo unitario
    • Utilizza una funzione di distanza specifica
    • Richiede che la rete sia sparsa (r_n = o(1))
  2. Complessità computazionale: Sebbene ottimizzato, potrebbe affrontare sfide con reti su scala molto grande
  3. Intervallo di dimensioni: Principalmente verificato in casi a bassa dimensione, le prestazioni ad alta dimensione richiedono ulteriori ricerche

Direzioni future

  1. Estensione del modello: Considerare distribuzioni non uniformi, altre metriche di distanza
  2. Caso ad alta dimensione: Sviluppare metodi di test per RGGs ad alta dimensione
  3. Test multipli: Metodi per testare simultaneamente più valori di dimensione
  4. Approccio bayesiano: Sviluppare metodi di inferenza bayesiana per la dimensione

Valutazione approfondita

Punti di forza

  1. Rigore teorico:
    • Basato su solida teoria delle U-statistiche
    • Analisi asintotica completa e studio della potenza
    • Prove matematiche rigorose
  2. Innovazione metodologica:
    • Primo metodo di test della dimensione degli RGGs
    • Progettazione ingegnosa della statistica del test
    • Implementazione computazionale efficiente
  3. Esperimenti completi:
    • Verifica di simulazione sufficiente
    • Test su reti reali diversificate
    • Analisi dettagliata delle prestazioni
  4. Valore pratico:
    • Affronta esigenze reali
    • Facile da implementare e applicare
    • Pone le basi per ricerche successive

Insufficienze

  1. Ambito di applicazione:
    • Applicabile solo a reti sparse
    • Sensibile alle assunzioni del modello
    • Le reti reali potrebbero non conformarsi completamente al modello RGG
  2. Limitazioni del metodo:
    • Consente solo test bilaterali
    • Non considera l'impatto dell'errore di stima
    • La robustezza ai valori anomali non è stata sufficientemente studiata
  3. Profondità sperimentale:
    • Numero relativamente limitato di reti reali
    • Manca il confronto con altri metodi di stima della dimensione
    • Analisi insufficiente dei casi di fallimento del metodo

Impatto

  1. Valore accademico:
    • Colma un'importante lacuna metodologica
    • Fornisce nuovi strumenti per l'analisi delle reti
    • Potrebbe catalizzare direzioni di ricerca correlate
  2. Significato pratico:
    • Applicazione diretta in bioinformatica, analisi di reti sociali e altri campi
    • Migliora la scientificità della modellazione delle reti
    • Fornisce base statistica per la selezione del modello
  3. Riproducibilità:
    • Fornisce formule di calcolo dettagliate
    • Descrizione dell'algoritmo chiara
    • Facilita l'implementazione software

Scenari applicabili

  1. Reti biologiche: Verifica della dimensione delle reti di interazione proteica
  2. Reti sociali: Scelta della dimensione per modelli di embedding spaziale
  3. Reti cerebrali: Analisi della struttura geometrica delle reti di connettività funzionale
  4. Reti di comunicazione: Analisi topologica delle reti di sensori wireless

Bibliografia

Questo articolo cita 40 importanti riferimenti, coprendo la teoria dei grafi geometrici casuali, l'analisi delle reti, la teoria statistica e altri aspetti, fornendo una solida base teorica per la ricerca. I riferimenti chiave includono la teoria delle U-statistiche di Fan & Li (1996), l'applicazione alle reti proteiche di Higham et al. (2008), e articoli di rassegna correlati recenti.


Valutazione complessiva: Questo è un articolo di alta qualità sulla metodologia statistica, che si distingue per innovazione teorica, progettazione metodologica e verifica sperimentale. Sebbene presenti alcune limitazioni, fornisce un contributo importante al campo dell'analisi delle reti, con elevato valore accademico e pratico.