2025-11-21T11:49:15.652907

Entropy of Random Geometric Graphs in High and Low Dimensions

Baker, Dettmann
We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
academic

Entropía de Grafos Geométricos Aleatorios en Dimensiones Altas y Bajas

Información Básica

  • ID del Artículo: 2503.11418
  • Título: Entropy of Random Geometric Graphs in High and Low Dimensions
  • Autores: Oliver Baker, Carl P. Dettmann (Universidad de Bristol)
  • Clasificación: math.PR (Teoría de Probabilidades)
  • Fecha de Publicación: 26 de agosto de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2503.11418v3

Resumen

Este artículo utiliza el Teorema del Límite Central multivariado (TLC) para estudiar las distribuciones de límite de alta dimensión de grafos geométricos aleatorios (GGA) en cubos y toros. Se descubre que cuando los nodos se distribuyen uniformemente, los GGA en toros convergen a la colección de Erdős-Rényi (ER), pero para GGA con distribución no uniforme de nodos en toros, así como para GGA con cualquier distribución de nodos con curtosis mayor que 1 en cubos, sus distribuciones difieren de la colección ER. En estos casos, la entropía máxima de la distribución es menor que la de la colección ER, pero mantiene simetría. Los GGA suaves convergen a la colección ER en ambas estructuras geométricas. El artículo también desarrolla correcciones de Edgeworth del TLC, derivando el término principal de orden O(d1/2)\mathcal{O}(d^{-1/2}) de la entropía de Shannon de los GGA en ambas estructuras geométricas.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Necesidad de Comprender la Complejidad de Redes: En la ciencia de datos moderna, desde la visión por computadora hasta los grandes modelos de lenguaje, se involucran conjuntos de datos de alta dimensión. Por ejemplo, el conjunto de datos MNIST tiene 784 características, y el espacio de incrustación de GPT-3 tiene 12,288 dimensiones. Es crucial comprender las propiedades geométricas de la construcción de redes en espacios de alta dimensión.
  2. Desarrollo de la Teoría de Entropía de Grafos: Desde que Rashevsky introdujo el concepto de entropía de grafos en 1955, determinar la incertidumbre o complejidad de redes aleatorias se ha convertido en un área de investigación importante, incluyendo múltiples definiciones como entropía de Shannon, entropía de Von Neumann, entropía de Gibbs, entre otras.
  3. Limitaciones de Grafos Geométricos Aleatorios: Aunque el modelo GGA ha sido ampliamente estudiado en percolación, conectividad, medidas de centralidad y otros aspectos, hay menos investigación sobre propiedades de rango de conjuntos (como la entropía de Shannon), especialmente en casos de alta dimensión.

Motivación de la Investigación

  1. Vacío Teórico: Actualmente no es posible maximizar analíticamente la entropía de conjuntos sin restricciones, a menos que se condicione en las ubicaciones de los nodos
  2. Comportamiento en Alta Dimensión: Es necesario comprender si los GGA convergen a grafos ER en el límite de alta dimensión y el comportamiento de escala de la entropía
  3. Aplicaciones Prácticas: Proporcionar fundamentos teóricos para algoritmos de grafos de proximidad en datos de alta dimensión

Contribuciones Principales

  1. Primer Cálculo Analítico: Cálculo analítico de la entropía de conjuntos de GGA duros de 3 nodos en cubos unidimensionales y toros
  2. Método de Simulación Numérica: Desarrollo de un método de aproximación numérica para la entropía máxima de GGA suaves de baja dimensión
  3. Teoría de Convergencia: Demostración de que GGA duros con distribución no uniforme de nodos en toros TdT^d se desvían del límite ER
  4. Resultados de Universalidad: Demostración de que GGA duros con cualquier distribución i.i.d. de nodos con curtosis mayor que 1 en cubos [0,1]d[0,1]^d nunca convergen al límite ER
  5. Escalado de Dimensión: Derivación de la ley de escalado de dimensión de la entropía de GGA en ambas estructuras geométricas utilizando correcciones de Edgeworth

Explicación Detallada de Métodos

Definición de la Tarea

Investigar la entropía de Shannon de conjuntos de grafos geométricos aleatorios, donde:

  • Entrada: Dominio geométrico (cubo o toro), distribución de nodos, radio de conexión
  • Salida: Entropía del conjunto de grafos y su comportamiento en el límite de alta dimensión
  • Restricciones: Número de nodos n fijo, radio de conexión r0r_0 depende de d cuando dd \to \infty

Marco Matemático Principal

1. Definición de Grafos Geométricos Aleatorios

GGA Duro: La arista (i,j)(i,j) existe si y solo si ρ(Xi,Xj)r0\rho(X_i, X_j) \leq r_0GGA Suave: La arista (i,j)(i,j) existe con probabilidad p(ρ(Xi,Xj)/r0)p(\rho(X_i, X_j)/r_0)

2. Métricas de Distancia

  • Cubo: Distancia euclidiana x\|x\|
  • Toro: ρT(x,y)=i=1dmin(xiyi,1xiyi)2\rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2}

3. Marco del Teorema del Límite Central

Definir la distancia normalizada: qij=1dk=1dqijkq_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k donde qijk=XikXjk2μcq_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c

Puntos de Innovación Técnica

1. Aplicación del TLC Multivariado

Transformar problemas de distancia de alta dimensión en distribuciones gaussianas multivariadas, donde la estructura de la matriz de covarianza Σ\Sigma determina el comportamiento de convergencia:

  • Toro con distribución uniforme: ΣT\Sigma_T es matriz diagonal → converge a ER
  • Cubo con cualquier distribución: Σc\Sigma_c no diagonal → no converge a ER

2. Criterio de Discriminación de Curtosis

Se demuestra que la condición necesaria y suficiente para que las distancias adyacentes sean no correlacionadas es que la curtosis de la distribución de coordenadas sea igual a 1, lo cual solo ocurre en la distribución de Bernoulli con parámetro 1/2.

3. Expansión de Edgeworth

Desarrollo de corrección de tercer orden: f(q)N(0,Σ)(q)[1+16dα=3E[qα]Hα(q)]f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right]

Configuración Experimental

Cálculo Exacto de Baja Dimensión

  • Dimensión: d=1, n=3
  • Geometría: Cubo unidimensional 0,1 y toro T¹
  • Método: Cálculo de integración analítica de cada probabilidad de grafo pkp_k

Simulación Numérica

  • Rango de Parámetros: d∈{1,2,3}, n=3
  • Número de Muestras: L=10⁸ grafos
  • Función de Conexión: Decaimiento de Rayleigh p(r/r0)=exp((r/r0)η)p(r/r_0) = \exp(-(r/r_0)^η), η∈{1,2,3,4,5,6} y conexión dura

Análisis Teórico de Alta Dimensión

  • Distribución de Nodos: Distribución uniforme, distribución gaussiana truncada
  • Criterio de Convergencia: Análisis a través de la estructura de la matriz de covarianza

Resultados Experimentales

Resultados Principales

1. Cálculo Exacto de Entropía (d=1, n=3)

Toro T¹:

  • Radio de conexión óptimo: r0^=1/4\hat{r_0} = 1/4
  • Probabilidad de conexión promedio máxima: pˉmax=1/2\bar{p}_{max} = 1/2

Cubo 0,1:

  • Radio de conexión óptimo: r0^=0.283\hat{r_0} = 0.283
  • Probabilidad de conexión promedio máxima: pˉmax=0.4861/2\bar{p}_{max} = 0.486 \neq 1/2

2. Resultados Numéricos de Baja Dimensión

La Tabla 3 muestra la entropía máxima para diferentes geometrías y funciones de conexión:

Geometríaη=1η=2η=3η=4η=5η=6Conexión Dura
0,12.9942.9452.8882.8492.8262.8122.771
2.9982.9822.9292.8932.8702.8542.812

Observaciones:

  • Los GGA suaves se acercan a la entropía máxima de 3.0
  • La entropía disminuye con el aumento de η
  • La entropía del toro es generalmente mayor que la del cubo

3. Comportamiento de Convergencia de Alta Dimensión

Resumen de Teoremas:

GeometríaFunción de Conexión¿Converge a G(n,p)?Comportamiento de Entropía
TdT^d - Nodos UniformesDuro= H(G(n,p))
TdT^d - Nodos No UniformesDuro< H(G(n,p))
TdT^dSuave= H(G(n,p))
[0,1]d[0,1]^dDuro< H(G(n,p))
[0,1]d[0,1]^dSuave= H(G(n,p))

Experimentos de Ablación

Efecto de la Corrección de Edgeworth

La Figura 5 muestra las estimaciones de entropía para GGA duro de 4 nodos:

  • Aproximación Gaussiana: Solo usando TLC
  • Corrección de Edgeworth: Incluyendo término O(d1/2)O(d^{-1/2})
  • Simulación Numérica: Método de Monte Carlo

Los resultados muestran que la estimación de Edgeworth es precisa a dos decimales cuando d≥15.

Trabajo Relacionado

Teoría de Entropía de Grafos

  • Rashevsky (1955): Primera introducción del concepto de entropía de grafos
  • Métodos de Teoría de Información: Múltiples definiciones incluyendo entropía de Shannon, entropía de Von Neumann, etc.
  • Redes Espaciales: Investigación de entropía de conjuntos de redes espaciales por Coon y otros

Grafos Geométricos Aleatorios de Alta Dimensión

  • Devroye et al. (2011): Convergencia de GGA en esferas unitarias a grafos ER
  • Erba et al. (2020): Desviación del número de cliques de GGA en hipercubos del límite ER
  • Detección Geométrica: Uso de triángulos firmados, propagación de creencias y otros métodos

Métodos Técnicos

  • Teorema del Límite Central: Aplicación del TLC multivariado en geometría de alta dimensión
  • Expansión de Edgeworth: Teoría de correcciones de orden superior

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia de la Estructura Geométrica: Las condiciones de frontera periódica del toro versus los efectos de frontera del cubo conducen a comportamientos de convergencia diferentes
  2. Impacto de la Distribución de Nodos: Solo la distribución uniforme en el toro puede alcanzar el límite ER
  3. Rol de la Función de Conexión: Las funciones de conexión suave eliminan la dependencia de distancia, siempre convergiendo al conjunto ER
  4. Escalado de Dimensión: La velocidad de desviación de la entropía del límite de alta dimensión es O(d1/2)O(d^{-1/2})

Limitaciones

  1. Restricción del Número de Nodos: Los cálculos exactos solo son aplicables a n pequeño (n≤7)
  2. Supuestos de Distribución: Requiere que las coordenadas sean independientes e idénticamente distribuidas
  3. Precisión Numérica: Complejidad computacional de la simulación numérica de alta dimensión
  4. Brecha Teórica: La globalidad del valor máximo de entropía en el cubo aún no ha sido probada

Direcciones Futuras

  1. Geometrías Extendidas: Investigar otras bolas LpL^p y estructuras geométricas
  2. Distribuciones No Independientes: Considerar coordenadas correlacionadas pero idénticamente distribuidas
  3. Detección Geométrica: Desarrollar algoritmos de detección geométrica basados en teoría de información
  4. Redes Sin Etiqueta: Extender al análisis de entropía de grafos sin etiqueta

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Primeros resultados analíticos exactos de entropía de conjuntos de GGA, con derivaciones matemáticas rigurosas y completas
  2. Innovación Metodológica: Combinación ingeniosa del TLC multivariado y expansión de Edgeworth, proporcionando nuevas herramientas para análisis de grafos geométricos de alta dimensión
  3. Profundidad de Resultados: Revelación del impacto esencial de la estructura geométrica, distribución de nodos y función de conexión en la entropía
  4. Valor Práctico: Proporciona fundamentos teóricos para métodos de grafos de proximidad en análisis de datos de alta dimensión

Deficiencias

  1. Complejidad Computacional: Los métodos exactos solo son aplicables a problemas de escala extremadamente pequeña (n=3)
  2. Limitaciones de Supuestos: El supuesto de independencia de coordenadas puede ser demasiado restrictivo en aplicaciones prácticas
  3. Desafíos Numéricos: Problemas de precisión y eficiencia de métodos numéricos de alta dimensión
  4. Completitud Teórica: Algunos resultados importantes (como la globalidad del máximo de entropía en cubos) siguen siendo conjeturas

Impacto

  1. Contribución Académica: Proporciona una nueva perspectiva de teoría de información para la teoría de grafos geométricos aleatorios
  2. Valor Interdisciplinario: Conecta teoría de probabilidades, teoría de información y ciencia de redes
  3. Significado Metodológico: El método de corrección de Edgeworth puede generalizarse a otros problemas geométricos de alta dimensión
  4. Perspectivas de Aplicación: Proporciona apoyo teórico para análisis de datos geométricos en aprendizaje automático

Escenarios Aplicables

  1. Análisis de Datos de Alta Dimensión: Análisis de espacios de características en visión por computadora, procesamiento de lenguaje natural y otros campos
  2. Modelado de Redes: Redes sociales, redes biológicas y otras redes complejas con estructura geométrica
  3. Diseño de Algoritmos: Optimización de algoritmos basados en distancia como k-vecinos más cercanos y agrupamiento
  4. Investigación Teórica: Investigación fundamental en teoría de grafos aleatorios, teoría de información y física estadística

Referencias

El artículo cita 40 referencias importantes que abarcan:

  • Literatura fundamental de teoría de entropía de grafos
  • Trabajos clásicos en grafos geométricos aleatorios
  • Métodos de teoría de probabilidades de alta dimensión
  • Teoría de información y estadística
  • Investigación en campos de aplicación relacionados

Evaluación General: Este es un artículo de investigación teórica de alta calidad que logra avances importantes en la teoría de entropía de grafos geométricos aleatorios. Aunque existen limitaciones en complejidad computacional y aplicaciones prácticas, sus contribuciones teóricas e innovaciones metodológicas proporcionan una base sólida para el desarrollo futuro del campo.