2025-11-13T21:58:11.125664

Hypothesis testing for the dimension of random geometric graph

Yuan, Yu
Random geometric graphs (RGGs) offer a powerful tool for analyzing the geometric and dependence structures in real-world networks. For example, it has been observed that RGGs are a good model for protein-protein interaction networks. In RGGs, nodes are randomly distributed over an $m$-dimensional metric space, and edges connect the nodes if and only if their distance is less than some threshold. When fitting RGGs to real-world networks, the first step is probably to input or estimate the dimension $m$. However, it is not clear whether the prespecified dimension is equal to the true dimension. In this paper, we investigate this problem using hypothesis testing. Under the null hypothesis, the dimension is equal to a specific value, while the alternative hypothesis asserts the dimension is not equal to that value. We propose the first statistical test. Under the null hypothesis, the proposed test statistic converges in law to the standard normal distribution, and under the alternative hypothesis, the test statistic is unbounded in probability. We derive the asymptotic distribution by leveraging the asymptotic theory of degenerate U-statistics with kernel function dependent on the number of nodes. This approach differs significantly from prevailing methods used in network hypothesis testing problems. Moreover, we also propose an efficient approach to compute the test statistic based on the adjacency matrix. Simulation studies show that the proposed test performs well. We also apply the proposed test to multiple real-world networks to test their dimensions.
academic

Prueba de hipótesis para la dimensión de grafos geométricos aleatorios

Información Básica

  • ID del Artículo: 2510.11844
  • Título: Hypothesis testing for the dimension of random geometric graph
  • Autores: Mingao Yuan, Feng Yu (The University of Texas at El Paso)
  • Clasificación: stat.ME (Estadística - Metodología)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11844

Resumen

Los grafos geométricos aleatorios (RGGs) proporcionan herramientas poderosas para analizar estructuras geométricas y de dependencia en redes reales. En los RGGs, los nodos se distribuyen aleatoriamente en un espacio métrico de dimensión m, y se conectan mediante aristas si y solo si la distancia entre ellos es menor que un umbral específico. Al ajustar RGGs a redes reales, el primer paso es especificar o estimar la dimensión m. Sin embargo, no está claro si la dimensión preestablecida es igual a la dimensión verdadera. Este artículo aborda este problema mediante prueba de hipótesis: la hipótesis nula establece que la dimensión es igual a un valor específico, mientras que la hipótesis alternativa establece que la dimensión no es igual a ese valor. Los autores proponen el primer método de prueba estadística, donde el estadístico de prueba converge en distribución a una distribución normal estándar bajo la hipótesis nula, y diverge en probabilidad bajo la hipótesis alternativa.

Antecedentes y Motivación de la Investigación

Definición del Problema

  1. Problema Central: Al ajustar grafos geométricos aleatorios a redes reales, ¿cómo verificar si la dimensión m preestablecida o estimada es igual a la dimensión verdadera?
  2. Necesidad Práctica: En investigaciones existentes, los investigadores típicamente asumen directamente valores de dimensión (como m=2,3,4 en redes de interacción de proteínas), pero carecen de métodos de validación estadística
  3. Importancia Aplicada: Los RGGs se aplican ampliamente en redes de interacción de proteínas, redes sociales, redes cerebrales y otros múltiples campos

Motivación de la Investigación

  1. Vacío Metodológico: Este es el primer método de prueba de hipótesis para la dimensión de RGG
  2. Desafíos Teóricos: Requiere abordar la teoría asintótica de U-estadísticos degenerados, cuya función núcleo depende del tamaño de la red
  3. Valor Práctico: Proporciona una herramienta rigurosa de verificación de dimensión para el análisis de redes

Contribuciones Principales

  1. Método Pionero: Propone el primer método estadístico para prueba de hipótesis de dimensión en grafos geométricos aleatorios
  2. Innovación Teórica:
    • Establece la distribución asintótica del estadístico de prueba basado en teoría de U-estadísticos degenerados
    • La función núcleo depende del tamaño de muestra n, diferente de la teoría estándar de U-estadísticos
  3. Eficiencia Computacional: Proporciona un método de cálculo eficiente basado en matriz de adyacencia, evitando bucles anidados múltiples
  4. Garantías Teóricas:
    • Bajo la hipótesis nula, el estadístico converge a distribución normal estándar
    • Bajo la hipótesis alternativa, la potencia de la prueba tiende a 1
  5. Verificación Empírica: Valida la efectividad del método en datos simulados y 6 redes reales

Explicación Detallada del Método

Definición de la Tarea

Dada la matriz de adyacencia de la red A ~ G_n(m, r_n), se prueba la hipótesis:

  • H_0: m = m_0 (hipótesis nula: la dimensión es igual al valor preestablecido m_0)
  • H_1: m ≠ m_0 (hipótesis alternativa: la dimensión no es igual a m_0)

Modelo de Grafo Geométrico Aleatorio

Definición: En el cuadrado unitario 0,1^m, los nodos X_i se distribuyen independiente y uniformemente, con distancia definida como:

d(X_i, X_j) = max_{1≤k≤m} {min{|X_{ik} - X_{jk}|, 1 - |X_{ik} - X_{jk}|}}

Existe una arista entre los nodos i y j cuando d(X_i, X_j) ≤ r_n.

Construcción del Estadístico de Prueba

El estadístico núcleo D_n se define como:

D_n = Σ_{i≠j≠k} A_{ij}A_{jk}A_{ki} - (3/4)^{m_0} Σ_{i≠j≠k} A_{ij}A_{ik}

Idea de Diseño:

  • El primer término calcula el número de triángulos en la red
  • El segundo término es la corrección de esperanza bajo la hipótesis nula
  • Bajo H_0, D_n ≈ 0; bajo H_1, D_n se desvía significativamente de 0

Teoría de Distribución Asintótica

Teorema Principal: Bajo las condiciones r_n = o(1) y nr_n^m = ω(1), bajo la hipótesis nula H_0:

√(2D_n)/(n²σ̂_{n2}) ⇒ N(0,1)

donde el estimador de varianza σ̂²_ se obtiene de una combinación lineal de cinco estadísticos S_1 a S_5.

Puntos de Innovación Técnica

  1. Tratamiento de U-estadísticos Degenerados:
    • Expresa D_n como forma de U-estadístico degenerado
    • Maneja el caso no estándar donde la función núcleo depende de n
    • Aplica la teoría asintótica de Fan-Li (1996)
  2. Optimización de Cálculo Matricial:
    D_n = tr(A³) + 2tr(A) - (3/4)^{m_0}(1^T(A² - A)1 + 2tr(A))
    S_1 = 1^T[A² ⊙ A² ⊙ A - A² ⊙ A]1
    

    Evita el cálculo de bucles anidados O(n⁴)
  3. Análisis de Potencia: Bajo la hipótesis alternativa, el orden del estadístico es Θ(n√(r_n^m)), garantizando que la potencia de la prueba tienda a 1

Configuración Experimental

Experimentos de Simulación

  1. Configuración de Parámetros:
    • Tamaño de red: n ∈ {40, 50, 60, 70, 100, 130}
    • Radio de conexión: r_n ∈ {0.09, 0.10, 0.11, 0.27, 0.29, 0.31}
    • Dimensión: m ∈ {1, 2, 3}
    • Nivel de significancia: α = 0.05
  2. Diseño Experimental:
    • Error de Tipo I: Generar 1000 redes bajo la hipótesis nula
    • Potencia de la prueba: Generar 1000 redes bajo la hipótesis alternativa

Datos Reales

Se probaron 6 redes reales:

  1. Redes de Quimioinformática (4): Serie ENZYMES, nodos como compuestos
  2. Red Cerebral (1): macaque-rhesus-brain-2, nodos como regiones cerebrales
  3. Red Social (1): reptilia-tortoise-network-bsv, red social de tortugas

Indicadores de Evaluación

  1. Tasa de Error de Tipo I: Probabilidad de rechazar cuando la hipótesis nula es verdadera
  2. Potencia de la Prueba: Probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera
  3. Valor p: Utilizado para inferencia de dimensión en redes reales

Resultados Experimentales

Resultados de Simulación

Control del Error de Tipo I:

  • En todas las configuraciones, la tasa de error de Tipo I empírica está entre 0.040-0.064, cercana al nivel nominal de 0.05
  • Indica que la aproximación normal asintótica funciona bien en muestras finitas

Potencia de la Prueba:

  • Cuando H_0: m=1, la potencia para m=2 está entre 0.920-1.000, para m=3 entre 0.645-0.997
  • Cuando H_0: m=2, la potencia para m=1 es constantemente 1.000, para m=3 entre 0.927-1.000
  • La potencia aumenta con n y r_n, consistente con predicciones teóricas

Resultados de Redes Reales

RednDensidadDimensión InferidaValor p
ENZYMES-g147400.210m=20.696
ENZYMES-g196500.138m=30.653
ENZYMES-g532740.085m=50.140
macaque-rhesus-brain-2910.152m=30.161
reptilia-tortoise-network-bsv1360.040m=40.162

Hallazgos Importantes: Diferentes redes poseen diferentes dimensiones, enfatizando la importancia de la prueba de dimensión.

Trabajo Relacionado

Teoría de Grafos Geométricos Aleatorios

  1. Literatura Clásica: Trabajos teóricos fundamentales de Penrose y otros
  2. Desarrollos Recientes: Revisión de Duchemin & De Castro (2023)
  3. Estimación de Dimensión: Método de estimación consistente de Atamanchuk et al. (2024)

Prueba de Hipótesis en Redes

  1. Pruebas de Estructura de Grafos: Gao & Lafferty (2017), Jin et al. (2018)
  2. Pruebas de Estructura Comunitaria: Lei (2016), Yuan et al. (2022)
  3. Innovación de este Artículo: Primera prueba de hipótesis para dimensión de grafos geométricos

Campos de Aplicación

  1. Redes Biológicas: Aplicaciones de Higham et al. (2008) en redes de proteínas
  2. Redes Cerebrales: Análisis de redes de conectividad funcional
  3. Redes Sociales: Modelado de propagación de opiniones y distribución espacial

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Establece un marco teórico completo para prueba de hipótesis de dimensión en RGG
  2. Validez del Método: Resultados de simulación y empíricos verifican la confiabilidad del método
  3. Valor Práctico: Proporciona una herramienta estadística importante para análisis de redes

Limitaciones

  1. Supuestos del Modelo:
    • Asume distribución uniforme de nodos en hipercubo unitario
    • Utiliza función de distancia específica
    • Requiere redes dispersas (r_n = o(1))
  2. Complejidad Computacional: Aunque se optimizó el cálculo, aún puede enfrentar desafíos en redes de escala muy grande
  3. Rango de Dimensión: Principalmente verificado en casos de baja dimensión, el rendimiento en alta dimensión requiere investigación adicional

Direcciones Futuras

  1. Extensión del Modelo: Considerar distribuciones no uniformes, otras medidas de distancia
  2. Casos de Alta Dimensión: Investigar métodos de prueba para RGG de alta dimensión
  3. Pruebas Múltiples: Desarrollar métodos para probar simultáneamente múltiples valores de dimensión
  4. Métodos Bayesianos: Desarrollar métodos de inferencia bayesiana para dimensión

Evaluación Profunda

Fortalezas

  1. Rigor Teórico:
    • Basado en teoría sólida de U-estadísticos
    • Análisis asintótico completo y estudio de potencia
    • Pruebas matemáticas rigurosas
  2. Innovación Metodológica:
    • Primer método de prueba de dimensión para RGG
    • Diseño ingenioso del estadístico
    • Implementación computacional eficiente
  3. Experimentos Comprehensivos:
    • Verificación de simulación suficiente
    • Pruebas en redes reales diversificadas
    • Análisis detallado del rendimiento
  4. Valor Práctico:
    • Aborda necesidades reales
    • Fácil de implementar y aplicar
    • Sienta las bases para investigación posterior

Insuficiencias

  1. Alcance de Aplicación:
    • Solo aplicable a redes dispersas
    • Relativamente sensible a supuestos del modelo
    • Las redes reales pueden no ajustarse completamente al modelo RGG
  2. Limitaciones del Método:
    • Solo permite pruebas bilaterales
    • No considera el impacto de errores de estimación
    • Robustez a valores atípicos no suficientemente investigada
  3. Profundidad Experimental:
    • Número relativamente limitado de redes reales
    • Falta comparación con otros métodos de estimación de dimensión
    • Análisis insuficiente de casos de fallo del método

Impacto

  1. Valor Académico:
    • Llena un vacío metodológico importante
    • Proporciona nueva herramienta para análisis de redes
    • Puede catalizar direcciones de investigación relacionadas
  2. Significado Práctico:
    • Aplicación directa en bioinformática, análisis de redes sociales y otros campos
    • Mejora la cientificidad del modelado de redes
    • Proporciona base estadística para selección de modelos
  3. Reproducibilidad:
    • Proporciona fórmulas de cálculo detalladas
    • Descripción clara del algoritmo
    • Facilita implementación de software

Escenarios Aplicables

  1. Redes Biológicas: Verificación de dimensión en redes de interacción de proteínas
  2. Redes Sociales: Selección de dimensión para modelos de incrustación espacial
  3. Redes Cerebrales: Análisis de estructura geométrica de redes de conectividad funcional
  4. Redes de Comunicación: Análisis topológico de redes de sensores inalámbricos

Referencias Bibliográficas

Este artículo cita 40 referencias importantes que abarcan teoría de grafos geométricos aleatorios, análisis de redes, teoría estadística y otros aspectos múltiples, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen la teoría de U-estadísticos de Fan & Li (1996), aplicaciones en redes de proteínas de Higham et al. (2008), y artículos de revisión recientes relacionados.


Evaluación General: Este es un artículo de alta calidad en metodología estadística que demuestra excelencia en innovación teórica, diseño de métodos y verificación experimental. Aunque presenta algunas limitaciones, realiza contribuciones importantes al campo del análisis de redes, con considerable valor académico y práctico.