2025-11-21T11:49:15.652907

Entropy of Random Geometric Graphs in High and Low Dimensions

Baker, Dettmann
We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
academic

Entropie des Graphes Géométriques Aléatoires en Dimensions Haute et Basse

Informations Fondamentales

  • ID de l'article: 2503.11418
  • Titre: Entropy of Random Geometric Graphs in High and Low Dimensions
  • Auteurs: Oliver Baker, Carl P. Dettmann (Université de Bristol)
  • Classification: math.PR (Théorie des Probabilités)
  • Date de publication: 26 août 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2503.11418v3

Résumé

Cet article utilise le théorème central limite multidimensionnel (TCL) pour étudier les distributions limites en haute dimension des graphes géométriques aléatoires (GGA) sur les cubes et les tores. Les résultats montrent que pour les nœuds uniformément distribués, les GGA sur les tores convergent vers l'ensemble d'Erdős-Rényi (ER), tandis que pour les nœuds non uniformément distribués sur les tores et pour toute distribution de nœuds avec un coefficient d'aplatissement supérieur à 1 sur les cubes, les distributions diffèrent de l'ensemble ER. Dans ces cas, l'entropie maximale est inférieure à celle de l'ensemble ER, mais conserve la symétrie. Les GGA souples convergent vers l'ensemble ER dans les deux structures géométriques. L'article développe également une correction d'Edgeworth du TCL et dérive le terme dominant d'ordre O(d1/2)\mathcal{O}(d^{-1/2}) de l'entropie de Shannon des GGA dans les deux structures géométriques.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Besoin de compréhension de la complexité des réseaux: Dans la science des données moderne, de la vision par ordinateur aux grands modèles de langage, les ensembles de données en haute dimension sont omniprésents. Par exemple, l'ensemble de données MNIST contient 784 caractéristiques et l'espace d'intégration de GPT-3 est de 12 288 dimensions. Comprendre les propriétés géométriques de la construction de réseaux en espace haute dimension est crucial.
  2. Développement de la théorie de l'entropie des graphes: Depuis l'introduction du concept d'entropie des graphes par Rashevsky en 1955, la détermination de l'incertitude ou de la complexité des réseaux aléatoires est devenue un domaine de recherche important, incluant plusieurs définitions telles que l'entropie de Shannon, l'entropie de Von Neumann et l'entropie de Gibbs.
  3. Limitations des graphes géométriques aléatoires: Bien que le modèle GGA ait été largement étudié en percolation, connectivité et mesures de centralité, les propriétés au niveau de l'ensemble (comme l'entropie de Shannon) ont reçu moins d'attention, particulièrement en haute dimension.

Motivation de la Recherche

  1. Lacune théorique: Actuellement, il est impossible de maximiser analytiquement l'entropie d'ensembles non contraints, sauf si elle est conditionnée aux positions des nœuds
  2. Comportement en haute dimension: Nécessité de comprendre si les GGA convergent vers des graphes ER en limite haute dimension et le comportement d'échelle de l'entropie
  3. Applications pratiques: Fournir une base théorique pour les algorithmes de graphes de proximité dans les données haute dimension

Contributions Principales

  1. Calcul analytique pour la première fois: Calcul analytique de l'entropie des ensembles de GGA durs à 3 nœuds sur le cube unidimensionnel et le tore
  2. Méthode de simulation numérique: Développement d'une méthode d'approximation numérique pour l'entropie maximale des GGA souples en basse dimension
  3. Théorie de convergence: Preuve que les GGA durs avec nœuds non uniformément distribués sur le tore TdT^d s'écartent de la limite ER
  4. Résultats d'universalité: Preuve que les GGA durs avec toute distribution de nœuds i.i.d. ayant un coefficient d'aplatissement supérieur à 1 dans le cube [0,1]d[0,1]^d ne convergent jamais vers la limite ER
  5. Mise à l'échelle dimensionnelle: Dérivation de la loi d'échelle dimensionnelle de l'entropie des GGA dans les deux structures géométriques en utilisant la correction d'Edgeworth

Détail des Méthodes

Définition de la Tâche

Étude de l'entropie de Shannon des ensembles de graphes géométriques aléatoires, où:

  • Entrée: Domaine géométrique (cube ou tore), distribution des nœuds, rayon de connexion
  • Sortie: Entropie de l'ensemble de graphes et son comportement en limite haute dimension
  • Contraintes: Nombre de nœuds n fixé, rayon de connexion r0r_0 dépendant de d quand dd \to \infty

Cadre Mathématique Principal

1. Définition des Graphes Géométriques Aléatoires

GGA dur: Une arête (i,j)(i,j) existe si et seulement si ρ(Xi,Xj)r0\rho(X_i, X_j) \leq r_0GGA souple: Une arête (i,j)(i,j) existe avec probabilité p(ρ(Xi,Xj)/r0)p(\rho(X_i, X_j)/r_0)

2. Mesures de Distance

  • Cube: Distance euclidienne x\|x\|
  • Tore: ρT(x,y)=i=1dmin(xiyi,1xiyi)2\rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2}

3. Cadre du Théorème Central Limite

Définition de la distance normalisée: qij=1dk=1dqijkq_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^kqijk=XikXjk2μcq_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c

Points d'Innovation Technique

1. Application du TCL Multidimensionnel

Transformation du problème de distance haute dimension en distribution gaussienne multidimensionnelle, où la structure de la matrice de covariance Σ\Sigma détermine le comportement de convergence:

  • Tore avec distribution uniforme: ΣT\Sigma_T est diagonale → convergence vers ER
  • Cube avec distribution quelconque: Σc\Sigma_c non diagonale → pas de convergence vers ER

2. Critère de Discrimination par Coefficient d'Aplatissement

Preuve que la condition nécessaire et suffisante pour l'indépendance des distances adjacentes est que le coefficient d'aplatissement de la distribution des coordonnées égale 1, ce qui n'est vrai que pour la distribution de Bernoulli avec paramètre 1/2.

3. Développement d'Edgeworth

Développement d'une correction au troisième ordre: f(q)N(0,Σ)(q)[1+16dα=3E[qα]Hα(q)]f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right]

Configuration Expérimentale

Calculs Exacts en Basse Dimension

  • Dimensions: d=1, n=3
  • Géométrie: Cube unidimensionnel 0,1 et tore T¹
  • Méthode: Calcul par intégration analytique de chaque probabilité de graphe pkp_k

Simulation Numérique

  • Plage de paramètres: d∈{1,2,3}, n=3
  • Nombre d'échantillons: L=10⁸ graphes
  • Fonction de connexion: Décroissance de Rayleigh p(r/r0)=exp((r/r0)η)p(r/r_0) = \exp(-(r/r_0)^η), η∈{1,2,3,4,5,6} et connexion dure

Analyse Théorique en Haute Dimension

  • Distribution des nœuds: Distribution uniforme, distribution gaussienne tronquée
  • Critère de convergence: Analyse par la structure de la matrice de covariance

Résultats Expérimentaux

Résultats Principaux

1. Calcul Exact de l'Entropie (d=1, n=3)

Tore T¹:

  • Rayon de connexion optimal: r0^=1/4\hat{r_0} = 1/4
  • Probabilité de connexion moyenne maximale: pˉmax=1/2\bar{p}_{max} = 1/2

Cube 0,1:

  • Rayon de connexion optimal: r0^=0.283\hat{r_0} = 0.283
  • Probabilité de connexion moyenne maximale: pˉmax=0.4861/2\bar{p}_{max} = 0.486 \neq 1/2

2. Résultats Numériques en Basse Dimension

Le tableau 3 présente l'entropie maximale pour différentes géométries et fonctions de connexion:

Géométrieη=1η=2η=3η=4η=5η=6Connexion dure
0,12.9942.9452.8882.8492.8262.8122.771
2.9982.9822.9292.8932.8702.8542.812

Observations:

  • Les GGA souples se rapprochent de l'entropie maximale 3.0
  • L'entropie diminue avec l'augmentation de η
  • L'entropie du tore est généralement supérieure à celle du cube

3. Comportement de Convergence en Haute Dimension

Résumé des Théorèmes:

GéométrieFonction de connexionConvergence vers G(n,p)?Comportement de l'entropie
TdT^d - nœuds uniformesDure= H(G(n,p))
TdT^d - nœuds non uniformesDure< H(G(n,p))
TdT^dSouple= H(G(n,p))
[0,1]d[0,1]^dDure< H(G(n,p))
[0,1]d[0,1]^dSouple= H(G(n,p))

Expériences d'Ablation

Effet de la Correction d'Edgeworth

La figure 5 montre les estimations d'entropie pour les GGA durs à 4 nœuds:

  • Approximation gaussienne: Utilisant uniquement le TCL
  • Correction d'Edgeworth: Incluant le terme O(d1/2)O(d^{-1/2})
  • Simulation numérique: Méthode de Monte-Carlo

Les résultats montrent que l'estimation d'Edgeworth est précise à deux décimales pour d≥15.

Travaux Connexes

Théorie de l'Entropie des Graphes

  • Rashevsky (1955): Introduction initiale du concept d'entropie des graphes
  • Approches informationnelles: Entropie de Shannon, entropie de Von Neumann et autres définitions
  • Réseaux spatiaux: Recherche de Coon et al. sur l'entropie des ensembles de réseaux spatiaux

Graphes Géométriques Aléatoires en Haute Dimension

  • Devroye et al. (2011): Convergence des GGA sur la sphère unité vers les graphes ER
  • Erba et al. (2020): Déviation du nombre de cliques des GGA sur l'hypercube par rapport à la limite ER
  • Détection géométrique: Utilisation de triangles signés, propagation de croyances et autres méthodes

Méthodes Techniques

  • Théorème central limite: Application du TCL multidimensionnel en géométrie haute dimension
  • Développement d'Edgeworth: Théorie des corrections d'ordre supérieur

Conclusions et Discussion

Conclusions Principales

  1. Importance de la structure géométrique: Les conditions aux limites périodiques du tore et les effets de bord du cube conduisent à des comportements de convergence différents
  2. Influence de la distribution des nœuds: Seule la distribution uniforme sur le tore peut atteindre la limite ER
  3. Rôle de la fonction de connexion: Les fonctions de connexion souples éliminent la dépendance à la distance et convergent toujours vers l'ensemble ER
  4. Mise à l'échelle dimensionnelle: La vitesse de déviation de l'entropie par rapport à la limite haute dimension est O(d1/2)O(d^{-1/2})

Limitations

  1. Restriction du nombre de nœuds: Les calculs exacts ne s'appliquent qu'aux petites valeurs de n (n≤7)
  2. Hypothèses de distribution: Exige que les coordonnées soient indépendantes et identiquement distribuées
  3. Précision numérique: Complexité computationnelle des simulations numériques en haute dimension
  4. Lacune théorique: La globalité de la valeur maximale d'entropie sur le cube n'a pas encore été prouvée

Directions Futures

  1. Extension des géométries: Étude d'autres boules LpL^p et structures géométriques
  2. Distributions non indépendantes: Considération de coordonnées corrélées mais identiquement distribuées
  3. Détection géométrique: Développement d'algorithmes de détection géométrique basés sur la théorie de l'information
  4. Réseaux non étiquetés: Extension à l'analyse d'entropie des graphes non étiquetés

Évaluation Approfondie

Avantages

  1. Rigueur théorique: Premiers résultats analytiques exacts pour l'entropie des ensembles de GGA, avec des dérivations mathématiques complètes et rigoureuses
  2. Innovation méthodologique: Combinaison ingénieuse du TCL multidimensionnel et du développement d'Edgeworth, fournissant de nouveaux outils pour l'analyse des graphes géométriques haute dimension
  3. Profondeur des résultats: Révélation de l'influence essentielle de la structure géométrique, de la distribution des nœuds et de la fonction de connexion sur l'entropie
  4. Valeur pratique: Fourniture d'une base théorique pour les méthodes de graphes de proximité dans l'analyse de données haute dimension

Insuffisances

  1. Complexité computationnelle: Les méthodes exactes ne s'appliquent qu'aux problèmes d'échelle extrêmement réduite (n=3)
  2. Limitations des hypothèses: L'hypothèse d'indépendance des coordonnées peut être trop forte dans les applications pratiques
  3. Défis numériques: Problèmes de précision et d'efficacité des méthodes numériques en haute dimension
  4. Complétude théorique: Certains résultats importants (comme la globalité de la valeur maximale d'entropie sur le cube) restent des conjectures

Impact

  1. Contribution académique: Fourniture d'une nouvelle perspective informationnelle à la théorie des graphes géométriques aléatoires
  2. Valeur interdisciplinaire: Connexion entre la théorie des probabilités, la théorie de l'information et la science des réseaux
  3. Signification méthodologique: La méthode de correction d'Edgeworth peut être généralisée à d'autres problèmes géométriques haute dimension
  4. Perspectives d'application: Soutien théorique pour l'analyse de données géométriques en apprentissage automatique

Scénarios d'Application

  1. Analyse de données haute dimension: Analyse d'espaces de caractéristiques en vision par ordinateur, traitement du langage naturel et autres domaines
  2. Modélisation de réseaux: Réseaux sociaux, réseaux biologiques et autres réseaux complexes possédant une structure géométrique
  3. Conception d'algorithmes: Optimisation d'algorithmes basés sur la distance tels que k-plus proches voisins et clustering
  4. Recherche théorique: Recherche fondamentale en théorie des graphes aléatoires, théorie de l'information et physique statistique

Références Bibliographiques

L'article cite 40 références importantes couvrant:

  • Littérature fondamentale en théorie de l'entropie des graphes
  • Travaux classiques sur les graphes géométriques aléatoires
  • Méthodes de théorie des probabilités haute dimension
  • Théorie de l'information et statistique
  • Recherches connexes dans les domaines d'application

Évaluation Globale: Cet article est une recherche théorique de haute qualité qui a réalisé des percées importantes dans la théorie de l'entropie des graphes géométriques aléatoires. Bien qu'il présente des limitations en termes de complexité computationnelle et d'applications pratiques, ses contributions théoriques et innovations méthodologiques jettent une base solide pour le développement ultérieur de ce domaine.