2025-11-21T11:49:15.652907

Entropy of Random Geometric Graphs in High and Low Dimensions

Baker, Dettmann
We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
academic

Entropie von zufälligen geometrischen Graphen in hohen und niedrigen Dimensionen

Grundinformationen

  • Paper-ID: 2503.11418
  • Titel: Entropy of Random Geometric Graphs in High and Low Dimensions
  • Autoren: Oliver Baker, Carl P. Dettmann (University of Bristol)
  • Klassifikation: math.PR (Wahrscheinlichkeitstheorie)
  • Veröffentlichungsdatum: 26. August 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2503.11418v3

Zusammenfassung

In diesem Artikel werden die Grenzwertverteilungen von zufälligen geometrischen Graphen (RGGs) auf Würfeln und Tori in hohen Dimensionen mittels multivariater Zentraler Grenzwertsätze (CLT) untersucht. Die Forschung zeigt, dass RGGs auf dem Torus mit gleichmäßig verteilten Knoten gegen die Erdős-Rényi (ER)-Ensemble konvergieren, während RGGs mit nicht-gleichmäßig verteilten Knoten auf dem Torus sowie RGGs mit beliebigen Knotenverteilungen mit Exzess-Kurtosis größer als 1 auf dem Würfel von der ER-Ensemble abweichen. In diesen Fällen ist die maximale Entropie der Verteilung niedriger als die der ER-Ensemble, behält aber Symmetrie. Soft-RGGs konvergieren in beiden geometrischen Strukturen gegen die ER-Ensemble. Der Artikel entwickelt zudem Edgeworth-Korrektionen des CLT und leitet den führenden Term der Shannon-Entropie von RGGs in beiden geometrischen Strukturen mit der Ordnung O(d1/2)\mathcal{O}(d^{-1/2}) ab.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Bedarf an Verständnis von Netzwerkkomplexität: In der modernen Datenwissenschaft, von Computer Vision bis zu großen Sprachmodellen, werden hochdimensionale Datensätze verarbeitet. Beispielsweise hat der MNIST-Datensatz 784 Merkmale und der Einbettungsraum von GPT-3 hat 12.288 Dimensionen. Das Verständnis der geometrischen Eigenschaften von Netzwerkkonstruktionen im hochdimensionalen Raum ist entscheidend.
  2. Entwicklung der Graphentropie-Theorie: Seit Rashevsky 1955 das Konzept der Graphentropie einführte, ist die Bestimmung der Unsicherheit oder Komplexität von Zufallsnetzwerken ein wichtiges Forschungsgebiet geworden, einschließlich verschiedener Definitionen wie Shannon-Entropie, Von-Neumann-Entropie und Gibbs-Entropie.
  3. Einschränkungen von zufälligen geometrischen Graphen: Obwohl RGG-Modelle in Perkolation, Konnektivität und Zentralitätsmaßen ausgiebig untersucht wurden, gibt es weniger Forschung zu Ensemble-Eigenschaften (wie Shannon-Entropie), besonders im hochdimensionalen Fall.

Forschungsmotivation

  1. Theoretische Lücke: Derzeit können Entropien von unbeschränkten Ensembles nicht analytisch maximiert werden, außer wenn sie auf Knotenpositionen konditioniert sind
  2. Hochdimensionales Verhalten: Verständnis erforderlich, ob RGGs im hochdimensionalen Grenzwert gegen ER-Graphen konvergieren und wie sich die Entropie skaliert
  3. Praktische Anwendungen: Theoretische Grundlagen für Nachbargraph-Algorithmen in hochdimensionalen Daten

Kernbeiträge

  1. Erste analytische Berechnung: Analytische Berechnung der Entropie von 3-Knoten-Hard-RGG-Ensembles auf dem eindimensionalen Würfel und Torus
  2. Numerische Simulationsmethode: Entwicklung numerischer Approximationsmethoden für maximale Entropien von niedrigdimensionalen Soft-RGGs
  3. Konvergenztheorie: Beweis, dass Hard-RGGs mit nicht-gleichmäßig verteilten Knoten auf dem Torus TdT^d vom ER-Grenzwert abweichen
  4. Universalitätsergebnisse: Beweis, dass Hard-RGGs mit beliebigen i.i.d. Knotenverteilungen mit Exzess-Kurtosis größer als 1 auf dem Würfel [0,1]d[0,1]^d niemals gegen die ER-Ensemble konvergieren
  5. Dimensionsskalierung: Ableitung der Dimensionsskalierungsgesetze für RGG-Entropien in beiden geometrischen Strukturen mittels Edgeworth-Korrektionen

Methodische Details

Aufgabendefinition

Untersuchung der Shannon-Entropie von Ensembles zufälliger geometrischer Graphen, wobei:

  • Eingabe: Geometrische Domäne (Würfel oder Torus), Knotenverteilung, Verbindungsradius
  • Ausgabe: Entropie des Graphen-Ensembles und deren Verhalten im hochdimensionalen Grenzwert
  • Einschränkungen: Feste Knotenzahl n, Verbindungsradius r₀ hängt von d ab, wenn d→∞

Mathematischer Kernrahmen

1. Definition von zufälligen geometrischen Graphen

Hard-RGG: Kante (i,j)(i,j) existiert genau dann, wenn ρ(Xi,Xj)r0\rho(X_i, X_j) \leq r_0Soft-RGG: Kante (i,j)(i,j) existiert mit Wahrscheinlichkeit p(ρ(Xi,Xj)/r0)p(\rho(X_i, X_j)/r_0)

2. Distanzmetriken

  • Würfel: Euklidische Distanz x\|x\|
  • Torus: ρT(x,y)=i=1dmin(xiyi,1xiyi)2\rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2}

3. Zentraler Grenzwertsatz-Rahmen

Definition standardisierter Distanzen: qij=1dk=1dqijkq_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k wobei qijk=XikXjk2μcq_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c

Technische Innovationen

1. Anwendung des multivariaten CLT

Umwandlung hochdimensionaler Distanzprobleme in multivariate Gaußverteilungen, wobei die Struktur der Kovarianzmatrix Σ\Sigma das Konvergenzverhalten bestimmt:

  • Torus mit gleichmäßiger Verteilung: ΣT\Sigma_T ist diagonal → Konvergenz zu ER
  • Würfel mit beliebiger Verteilung: Σc\Sigma_c ist nicht-diagonal → Keine Konvergenz zu ER

2. Kurtosis-Diskriminanzkriterium

Beweis, dass die Unkorreliertheit benachbarter Distanzen genau dann erfüllt ist, wenn die Kurtosis der Koordinatenverteilung gleich 1 ist, was nur bei der Bernoulli-Verteilung mit Parameter 1/2 der Fall ist.

3. Edgeworth-Expansion

Entwicklung der Korrektur dritter Ordnung: f(q)N(0,Σ)(q)[1+16dα=3E[qα]Hα(q)]f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right]

Experimentelle Einrichtung

Niedrigdimensionale exakte Berechnung

  • Dimensionen: d=1, n=3
  • Geometrie: Eindimensionaler Würfel 0,1 und Torus T¹
  • Methode: Analytische Integration zur Berechnung der Graphwahrscheinlichkeiten pkp_k

Numerische Simulation

  • Parameterbereich: d∈{1,2,3}, n=3
  • Stichprobengröße: L=10⁸ Graphen
  • Verbindungsfunktion: Rayleigh-Abfall p(r/r0)=exp((r/r0)η)p(r/r_0) = \exp(-(r/r_0)^η), η∈{1,2,3,4,5,6} und Hard-Verbindung

Hochdimensionale theoretische Analyse

  • Knotenverteilungen: Gleichmäßige Verteilung, abgeschnittene Gaußverteilung
  • Konvergenztest: Analyse durch Kovarianzmatrix-Struktur

Experimentelle Ergebnisse

Hauptergebnisse

1. Exakte Entropieberechnung (d=1, n=3)

Torus T¹:

  • Optimaler Verbindungsradius: r0^=1/4\hat{r_0} = 1/4
  • Maximale durchschnittliche Verbindungswahrscheinlichkeit: pˉmax=1/2\bar{p}_{max} = 1/2

Würfel 0,1:

  • Optimaler Verbindungsradius: r0^=0.283\hat{r_0} = 0.283
  • Maximale durchschnittliche Verbindungswahrscheinlichkeit: pˉmax=0.4861/2\bar{p}_{max} = 0.486 \neq 1/2

2. Niedrigdimensionale numerische Ergebnisse

Tabelle 3 zeigt die maximalen Entropien für verschiedene Geometrien und Verbindungsfunktionen:

Geometrieη=1η=2η=3η=4η=5η=6Hard-Verbindung
0,12.9942.9452.8882.8492.8262.8122.771
2.9982.9822.9292.8932.8702.8542.812

Beobachtungen:

  • Soft-RGGs nähern sich der maximalen Entropie 3.0
  • Entropie nimmt mit zunehmendem η ab
  • Torus-Entropie ist durchgehend höher als Würfel-Entropie

3. Hochdimensionales Konvergenzverhalten

Theorem-Zusammenfassung:

GeometrieVerbindungsfunktionKonvergiert zu G(n,p)?Entropie-Verhalten
TdT^d - gleichmäßige KnotenHard= H(G(n,p))
TdT^d - nicht-gleichmäßige KnotenHard< H(G(n,p))
TdT^dSoft= H(G(n,p))
[0,1]d[0,1]^dHard< H(G(n,p))
[0,1]d[0,1]^dSoft= H(G(n,p))

Ablationsexperimente

Wirkung der Edgeworth-Korrektur

Abbildung 5 zeigt die Entropie-Schätzungen für 4-Knoten-Hard-RGGs:

  • Gaußsche Approximation: Nur CLT
  • Edgeworth-Korrektur: Einschließlich O(d1/2)O(d^{-1/2})-Term
  • Numerische Simulation: Monte-Carlo-Methode

Die Ergebnisse zeigen, dass die Edgeworth-Schätzung für d≥15 auf zwei Dezimalstellen genau ist.

Verwandte Arbeiten

Graphentropie-Theorie

  • Rashevsky (1955): Erste Einführung des Graphentropie-Konzepts
  • Informationstheoretische Ansätze: Shannon-Entropie, Von-Neumann-Entropie und andere Definitionen
  • Räumliche Netzwerke: Forschung von Coon et al. zur Ensemble-Entropie räumlicher Netzwerke

Hochdimensionale zufällige geometrische Graphen

  • Devroye et al. (2011): Konvergenz von RGGs auf der Einheitssphäre zur ER-Ensemble
  • Erba et al. (2020): Abweichung der Cliquenzahl von RGGs auf dem Hyperwürfel von der ER-Ensemble
  • Geometrische Erkennung: Verwendung von signierten Dreiecken, Belief Propagation und anderen Methoden

Technische Methoden

  • Zentraler Grenzwertsatz: Anwendung des multivariaten CLT in hochdimensionaler Geometrie
  • Edgeworth-Expansion: Theorie der höheren Ordnungskorrektionen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bedeutung der geometrischen Struktur: Die periodischen Randbedingungen des Torus versus die Randeffekte des Würfels führen zu unterschiedlichem Konvergenzverhalten
  2. Einfluss der Knotenverteilung: Nur gleichmäßige Verteilung auf dem Torus kann die ER-Grenze erreichen
  3. Rolle der Verbindungsfunktion: Soft-Verbindungsfunktionen eliminieren Distanzabhängigkeit und konvergieren immer zur ER-Ensemble
  4. Dimensionsskalierung: Die Geschwindigkeit der Entropie-Abweichung vom hochdimensionalen Grenzwert ist O(d1/2)O(d^{-1/2})

Einschränkungen

  1. Knotenzahl-Beschränkung: Exakte Berechnung nur für kleine n (n≤7) möglich
  2. Verteilungsannahmen: Erfordert unabhängig und identisch verteilte Koordinaten
  3. Numerische Genauigkeit: Rechenkomplexität hochdimensionaler numerischer Simulationen
  4. Theoretische Lücken: Globalität des maximalen Entropiewerts auf dem Würfel noch nicht bewiesen

Zukünftige Richtungen

  1. Erweiterte Geometrien: Untersuchung anderer LpL^p-Kugeln und geometrischer Strukturen
  2. Nicht-unabhängige Verteilungen: Betrachtung korrelierter aber identisch verteilter Koordinaten
  3. Geometrische Erkennung: Entwicklung informationstheoretischer Algorithmen zur geometrischen Erkennung
  4. Unmarkierte Netzwerke: Erweiterung auf Entropie-Analyse unmarkierter Graphen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Erste exakte analytische Ergebnisse für RGG-Ensemble-Entropien mit vollständigen mathematischen Herleitungen
  2. Methodische Innovation: Geschickte Kombination von multivariaten CLT und Edgeworth-Expansion bietet neue Werkzeuge für hochdimensionale geometrische Graphenanalyse
  3. Tiefgreifende Ergebnisse: Offenbarung der wesentlichen Auswirkungen geometrischer Struktur, Knotenverteilung und Verbindungsfunktion auf Entropie
  4. Praktischer Wert: Theoretische Grundlagen für Nachbargraph-Methoden in hochdimensionaler Datenanalyse

Schwächen

  1. Rechenkomplexität: Exakte Methoden nur für extrem kleine Probleme (n=3) anwendbar
  2. Annahmebeschränkungen: Koordinaten-Unabhängigkeitsannahme kann in praktischen Anwendungen zu restriktiv sein
  3. Numerische Herausforderungen: Genauigkeit und Effizienz hochdimensionaler numerischer Methoden
  4. Theoretische Vollständigkeit: Einige wichtige Ergebnisse (z.B. Globalität des maximalen Entropiewerts auf dem Würfel) bleiben Vermutungen

Einfluss

  1. Akademischer Beitrag: Neue informationstheoretische Perspektive auf die Theorie zufälliger geometrischer Graphen
  2. Interdisziplinärer Wert: Verbindung von Wahrscheinlichkeitstheorie, Informationstheorie und Netzwerkwissenschaft
  3. Methodologische Bedeutung: Edgeworth-Korrektur-Methode verallgemeinerbar auf andere hochdimensionale geometrische Probleme
  4. Anwendungsperspektiven: Theoretische Unterstützung für geometrische Datenanalyse im maschinellen Lernen

Anwendungsszenarien

  1. Hochdimensionale Datenanalyse: Merkmalsraum-Analyse in Computer Vision, Verarbeitung natürlicher Sprache und anderen Bereichen
  2. Netzwerk-Modellierung: Soziale Netzwerke, biologische Netzwerke und andere komplexe Netzwerke mit geometrischer Struktur
  3. Algorithmen-Design: Optimierung von k-Nearest-Neighbor, Clustering und anderen distanzbasierten Algorithmen
  4. Theoretische Forschung: Grundlagenforschung in Zufallsgraphtheorie, Informationstheorie und statistischer Physik

Literaturverzeichnis

Der Artikel zitiert 40 wichtige Referenzen, die folgende Bereiche abdecken:

  • Grundlagenliteratur zur Graphentropie-Theorie
  • Klassische Arbeiten zu zufälligen geometrischen Graphen
  • Hochdimensionale Wahrscheinlichkeitsmethoden
  • Informationstheorie und statistische Theorie
  • Verwandte Anwendungsforschung

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Forschungspapier, das wichtige Durchbrüche in der Entropie-Theorie zufälliger geometrischer Graphen erzielt. Obwohl es Einschränkungen in Bezug auf Rechenkomplexität und praktische Anwendungen gibt, legen seine theoretischen Beiträge und methodischen Innovationen eine solide Grundlage für die weitere Entwicklung dieses Forschungsbereichs.