2025-11-13T21:58:11.125664

Hypothesis testing for the dimension of random geometric graph

Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic

Hypothesentests für die Dimension von zufälligen geometrischen Graphen

Grundinformationen

  • Paper-ID: 2510.11844
  • Titel: Hypothesis testing for the dimension of random geometric graph
  • Autoren: Mingao Yuan, Feng Yu (The University of Texas at El Paso)
  • Klassifizierung: stat.ME (Statistik - Methodologie)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11844

Zusammenfassung

Zufällige geometrische Graphen (RGGs) bieten ein leistungsstarkes Werkzeug zur Analyse geometrischer und abhängiger Strukturen in realen Netzwerken. In RGGs werden Knoten zufällig in einem m-dimensionalen metrischen Raum verteilt und durch Kanten verbunden, wenn und nur wenn die Distanz zwischen Knoten einen bestimmten Schwellenwert unterschreitet. Bei der Anpassung von RGGs an reale Netzwerke ist der erste Schritt die Eingabe oder Schätzung der Dimension m. Es ist jedoch unklar, ob die vorgegebene Dimension der wahren Dimension entspricht. Diese Arbeit untersucht dieses Problem durch Hypothesentests: Die Nullhypothese besagt, dass die Dimension einem bestimmten Wert entspricht, die Alternativhypothese besagt, dass die Dimension diesem Wert nicht entspricht. Die Autoren schlagen die erste statistische Testmethode vor, bei der die Teststatistik unter der Nullhypothese in Verteilung gegen die Standardnormalverteilung konvergiert und unter der Alternativhypothese die Teststatistik im Wahrscheinlichkeitssinn unbegrenzt ist.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bei der Anpassung zufälliger geometrischer Graphen an reale Netzwerke, wie kann man überprüfen, ob die vorgegebene oder geschätzte Dimension m der wahren Dimension entspricht?
  2. Praktischer Bedarf: In bestehenden Forschungen nehmen Forscher typischerweise direkt Dimensionswerte an (z.B. m=2,3,4 in Proteininteraktionsnetzwerken), es fehlt jedoch eine statistische Verifizierungsmethode
  3. Anwendungsrelevanz: RGGs werden in vielen Bereichen wie Proteininteraktionsnetzwerken, sozialen Netzwerken und Gehirnnetzwerken weit verbreitet angewendet

Forschungsmotivation

  1. Methodische Lücke: Dies ist die erste Hypothesentestmethode für die RGG-Dimension
  2. Theoretische Herausforderung: Es ist notwendig, die asymptotische Theorie degenerierter U-Statistiken zu behandeln, deren Kernfunktion von der Netzwerkgröße abhängt
  3. Praktischer Wert: Bietet ein rigoroses Werkzeug zur Dimensionsverifizierung für die Netzwerkanalyse

Kernbeiträge

  1. Bahnbrechende Methode: Schlägt die erste statistische Methode für Hypothesentests zur Dimension zufälliger geometrischer Graphen vor
  2. Theoretische Innovation:
    • Etabliert die asymptotische Verteilung der Teststatistik basierend auf degenerierter U-Statistik-Theorie
    • Die Kernfunktion hängt von der Stichprobengröße n ab, unterscheidet sich von der Standard-U-Statistik-Theorie
  3. Rechnerische Effizienz: Bietet eine effiziente Berechnungsmethode basierend auf der Adjazenzmatrix, vermeidet mehrfach verschachtelte Schleifen
  4. Theoretische Garantien:
    • Unter der Nullhypothese konvergiert die Statistik gegen die Standardnormalverteilung
    • Unter der Alternativhypothese tendiert die Testmacht gegen 1
  5. Empirische Validierung: Verifiziert die Wirksamkeit der Methode an simulierten Daten und 6 realen Netzwerken

Methodische Details

Aufgabendefinition

Gegeben eine Netzwerk-Adjazenzmatrix A ~ G_n(m, r_n), teste die Hypothesen:

  • H_0: m = m_0 (Nullhypothese: Dimension entspricht dem vorgegebenen Wert m_0)
  • H_1: m ≠ m_0 (Alternativhypothese: Dimension entspricht nicht m_0)

Modell für zufällige geometrische Graphen

Definition: Im Einheitsquadrat 0,1^m sind Knoten X_i unabhängig und gleichmäßig verteilt, die Distanz ist definiert als:

d(X_i, X_j) = max_{1≤k≤m} {min{|X_{ik} - X_{jk}|, 1 - |X_{ik} - X_{jk}|}}

Eine Kante existiert zwischen Knoten i und j, wenn d(X_i, X_j) ≤ r_n.

Konstruktion der Teststatistik

Die Kernstatistik D_n ist definiert als:

D_n = Σ_{i≠j≠k} A_{ij}A_{jk}A_{ki} - (3/4)^{m_0} Σ_{i≠j≠k} A_{ij}A_{ik}

Designidee:

  • Der erste Term zählt die Anzahl der Dreiecke im Netzwerk
  • Der zweite Term ist die Erwartungskorrektur unter der Nullhypothese
  • Unter H_0 ist D_n ≈ 0, unter H_1 weicht D_n signifikant von 0 ab

Asymptotische Verteilungstheorie

Hauptsatz: Unter den Bedingungen r_n = o(1) und nr_n^m = ω(1), unter der Nullhypothese H_0:

√(2D_n)/(n²σ̂_{n2}) ⇒ N(0,1)

wobei die Varianzschätzung σ̂²_ durch eine Linearkombination von fünf Statistiken S_1 bis S_5 gegeben ist.

Technische Innovationspunkte

  1. Behandlung degenerierter U-Statistiken:
    • Stellt D_n als degenerierte U-Statistik dar
    • Behandelt den nicht-standardisierten Fall, bei dem die Kernfunktion von n abhängt
    • Wendet die asymptotische Theorie von Fan-Li (1996) an
  2. Matrixberechnungsoptimierung:
    D_n = tr(A³) + 2tr(A) - (3/4)^{m_0}(1^T(A² - A)1 + 2tr(A))
    S_1 = 1^T[A² ⊙ A² ⊙ A - A² ⊙ A]1
    

    Vermeidet O(n⁴) verschachtelte Schleifenberechnungen
  3. Machtanalyse: Unter der Alternativhypothese ist die Ordnung der Statistik Θ(n√(r_n^m)), was garantiert, dass die Testmacht gegen 1 tendiert

Experimentelle Einrichtung

Simulationsexperimente

  1. Parametereinstellungen:
    • Netzwerkgröße: n ∈ {40, 50, 60, 70, 100, 130}
    • Verbindungsradius: r_n ∈ {0.09, 0.10, 0.11, 0.27, 0.29, 0.31}
    • Dimension: m ∈ {1, 2, 3}
    • Signifikanzniveau: α = 0.05
  2. Experimentelles Design:
    • Fehler 1. Art: Generiert 1000 Netzwerke unter der Nullhypothese
    • Testmacht: Generiert 1000 Netzwerke unter der Alternativhypothese

Reale Daten

Getestet wurden 6 reale Netzwerke:

  1. Cheminformatik-Netzwerke (4): ENZYMES-Serie, Knoten sind Verbindungen
  2. Gehirnnetzwerk (1): macaque-rhesus-brain-2, Knoten sind Gehirnregionen
  3. Soziales Netzwerk (1): reptilia-tortoise-network-bsv, Schildkröten-Sozialnetwerk

Bewertungskriterien

  1. Fehlerrate 1. Art: Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist
  2. Testmacht: Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn die Alternativhypothese wahr ist
  3. p-Wert: Für die Dimensionsinferenz bei realen Netzwerken

Experimentelle Ergebnisse

Simulationsergebnisse

Kontrolle des Fehlers 1. Art:

  • Unter allen Einstellungen liegt die empirische Fehlerrate 1. Art zwischen 0.040-0.064, nahe dem nominalen Niveau 0.05
  • Zeigt, dass die asymptotische Normalverteilungsapproximation bei endlichen Stichproben gut funktioniert

Testmacht:

  • H_0: m=1, Machtbereich für m=2 liegt bei 0.920-1.000, für m=3 bei 0.645-0.997
  • H_0: m=2, Machtbereich für m=1 ist konstant 1.000, für m=3 liegt bei 0.927-1.000
  • Die Machtleistung nimmt mit n und r_n zu, entspricht theoretischen Erwartungen

Ergebnisse realer Netzwerke

NetzwerknDichteGeschätzte Dimensionp-Wert
ENZYMES-g147400.210m=20.696
ENZYMES-g196500.138m=30.653
ENZYMES-g532740.085m=50.140
macaque-rhesus-brain-2910.152m=30.161
reptilia-tortoise-network-bsv1360.040m=40.162

Wichtige Erkenntnisse: Verschiedene Netzwerke haben unterschiedliche Dimensionen, was die Wichtigkeit von Dimensionstests unterstreicht.

Verwandte Arbeiten

Theorie zufälliger geometrischer Graphen

  1. Klassische Literatur: Grundlegende theoretische Arbeiten von Penrose et al.
  2. Neueste Entwicklungen: Übersichtsartikel von Duchemin & De Castro (2023)
  3. Dimensionsschätzung: Konsistenzschätzmethode von Atamanchuk et al. (2024)

Netzwerk-Hypothesentests

  1. Graphenstruktur-Tests: Gao & Lafferty (2017), Jin et al. (2018)
  2. Gemeinschaftsstruktur-Tests: Lei (2016), Yuan et al. (2022)
  3. Innovation dieses Papers: Erster Hypothesentest für die Dimension geometrischer Graphen

Anwendungsgebiete

  1. Biologische Netzwerke: Anwendung von Higham et al. (2008) in Proteinnetzwerken
  2. Gehirnnetzwerke: Analyse funktioneller Konnektivitätsnetzwerke
  3. Soziale Netzwerke: Modellierung von Meinungsausbreitung und räumlicher Verteilung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Etabliert einen vollständigen theoretischen Rahmen für RGG-Dimensionshypothesentests
  2. Methodische Wirksamkeit: Simulations- und empirische Ergebnisse validieren die Zuverlässigkeit der Methode
  3. Praktischer Wert: Bietet ein wichtiges statistisches Werkzeug für die Netzwerkanalyse

Einschränkungen

  1. Modellannahmen:
    • Setzt voraus, dass Knoten gleichmäßig auf dem Einheitswürfel verteilt sind
    • Verwendet eine spezifische Distanzmaßfunktion
    • Erfordert spärliche Netzwerke (r_n = o(1))
  2. Rechenkomplexität: Obwohl optimiert, können bei sehr großen Netzwerken Herausforderungen entstehen
  3. Dimensionsbereich: Hauptsächlich in niedrigdimensionalen Fällen validiert, die Leistung in höheren Dimensionen erfordert weitere Forschung

Zukünftige Richtungen

  1. Modellerweiterung: Berücksichtigung nicht-gleichmäßiger Verteilungen und anderer Distanzmaße
  2. Hochdimensionale Fälle: Entwicklung von Testmethoden für hochdimensionale RGGs
  3. Multiple Tests: Methoden zum gleichzeitigen Testen mehrerer Dimensionswerte
  4. Bayesianische Methoden: Entwicklung bayesianischer Inferenzmethoden für Dimensionen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge:
    • Basiert auf solider U-Statistik-Theorie
    • Vollständige asymptotische Analyse und Machtuntersuchung
    • Rigorose mathematische Beweise
  2. Methodische Innovation:
    • Erste RGG-Dimensionstestmethode
    • Geschickte Statistikgestaltung
    • Effiziente Computerimplementierung
  3. Umfassende Experimente:
    • Ausreichende Simulationsvalidierung
    • Vielfältige Tests mit realen Netzwerken
    • Detaillierte Leistungsanalyse
  4. Praktischer Wert:
    • Adressiert praktische Anforderungen
    • Leicht zu implementieren und anzuwenden
    • Legt Grundlagen für nachfolgende Forschung

Mängel

  1. Anwendungsbereich:
    • Nur für spärliche Netzwerke geeignet
    • Relativ empfindlich gegenüber Modellannahmen
    • Reale Netzwerke entsprechen möglicherweise nicht vollständig dem RGG-Modell
  2. Methodische Einschränkungen:
    • Nur zweiseitige Tests möglich
    • Berücksichtigt keine Schätzfehler
    • Robustheit gegenüber Ausreißern nicht ausreichend untersucht
  3. Experimentelle Tiefe:
    • Relativ begrenzte Anzahl realer Netzwerke
    • Fehlt Vergleich mit anderen Dimensionsschätzmethoden
    • Unzureichende Analyse von Fehlerfällen

Einfluss

  1. Akademischer Wert:
    • Füllt wichtige methodische Lücke
    • Bietet neue Werkzeuge für die Netzwerkanalyse
    • Könnte verwandte Forschungsrichtungen katalysieren
  2. Praktische Bedeutung:
    • Direkte Anwendungen in Bioinformatik, Sozialnetworkanalyse etc.
    • Verbessert die Wissenschaftlichkeit der Netzwerkmodellierung
    • Bietet statistische Grundlagen für Modellauswahl
  3. Reproduzierbarkeit:
    • Bietet detaillierte Berechnungsformeln
    • Klare Algorithmusbeschreibung
    • Erleichtert Softwareimplementierung

Anwendungsszenarien

  1. Biologische Netzwerke: Dimensionsverifizierung von Proteininteraktionsnetzwerken
  2. Soziale Netzwerke: Dimensionsauswahl für räumliche Einbettungsmodelle
  3. Gehirnnetzwerke: Analyse geometrischer Strukturen funktioneller Konnektivitätsnetzwerke
  4. Kommunikationsnetzwerke: Topologieanalyse drahtloser Sensornetzwerke

Literaturverzeichnis

Dieses Paper zitiert 40 wichtige Literaturquellen, die Theorie zufälliger geometrischer Graphen, Netzwerkanalyse, statistische Theorie und andere Aspekte abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen die U-Statistik-Theorie von Fan & Li (1996), die Anwendung von Higham et al. (2008) in Proteinnetzwerken sowie aktuelle verwandte Übersichtsartikel.


Gesamtbewertung: Dies ist ein hochqualitatives statistisches Methodologie-Paper, das sich in theoretischer Innovation, Methodengestaltung und experimenteller Validierung auszeichnet. Obwohl es einige Einschränkungen gibt, leistet es wichtige Beiträge zum Bereich der Netzwerkanalyse und hat hohen akademischen und praktischen Wert.