2025-11-21T11:49:15.652907

Entropy of Random Geometric Graphs in High and Low Dimensions

Baker, Dettmann
We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
academic

Entropia dei Grafi Geometrici Casuali in Dimensioni Alte e Basse

Informazioni Fondamentali

  • ID Articolo: 2503.11418
  • Titolo: Entropy of Random Geometric Graphs in High and Low Dimensions
  • Autori: Oliver Baker, Carl P. Dettmann (Università di Bristol)
  • Classificazione: math.PR (Teoria della Probabilità)
  • Data di Pubblicazione: 26 agosto 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2503.11418v3

Riassunto

Questo articolo utilizza il teorema del limite centrale multivariato (CLT) per studiare le distribuzioni limite ad alta dimensione dei grafi geometrici casuali (RGG) su cubi e tori. La ricerca rivela che quando i nodi sono distribuiti uniformemente, gli RGG su tori convergono all'insieme di Erdős-Rényi (ER), mentre gli RGG su tori con distribuzione non uniforme dei nodi e gli RGG su cubi con qualsiasi distribuzione di nodi con curtosi maggiore di 1 differiscono dall'insieme ER. In questi casi, l'entropia massima della distribuzione è inferiore a quella dell'insieme ER, ma mantiene comunque la simmetria. Gli RGG soft convergono all'insieme ER in entrambe le strutture geometriche. L'articolo sviluppa inoltre la correzione di Edgeworth del CLT, derivando il termine dominante di ordine O(d1/2)\mathcal{O}(d^{-1/2}) dell'entropia di Shannon degli RGG in entrambe le strutture geometriche in funzione della dimensione.

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Necessità di Comprensione della Complessità di Rete: Nella moderna scienza dei dati, dalla visione artificiale ai modelli di linguaggio di grandi dimensioni, sono coinvolti insiemi di dati ad alta dimensione. Ad esempio, il dataset MNIST ha 784 caratteristiche e lo spazio di embedding di GPT-3 ha 12288 dimensioni. È fondamentale comprendere le proprietà geometriche della costruzione di reti nello spazio ad alta dimensione.
  2. Sviluppo della Teoria dell'Entropia dei Grafi: Dalla introduzione del concetto di entropia dei grafi da parte di Rashevsky nel 1955, la determinazione dell'incertezza o della complessità delle reti casuali è diventata un'importante area di ricerca, includendo molteplici definizioni come l'entropia di Shannon, l'entropia di Von Neumann e l'entropia di Gibbs.
  3. Limitazioni dei Grafi Geometrici Casuali: Sebbene il modello RGG sia stato ampiamente studiato in percolazione, connettività e misure di centralità, la ricerca su proprietà di insieme (come l'entropia di Shannon) è ancora limitata, in particolare nel caso ad alta dimensione.

Motivazione della Ricerca

  1. Lacuna Teorica: Attualmente non è possibile massimizzare analiticamente l'entropia di insiemi non vincolati, se non condizionati alle posizioni dei nodi
  2. Comportamento ad Alta Dimensione: È necessario comprendere se gli RGG convergono a grafi ER nel limite ad alta dimensione e il comportamento di scala dell'entropia
  3. Applicazioni Pratiche: Fornire fondamenti teorici per algoritmi di grafi di prossimità in dati ad alta dimensione

Contributi Principali

  1. Primo Calcolo Analitico: Calcolo analitico dell'entropia degli insiemi di RGG hard a 3 nodi su cubi unidimensionali e tori
  2. Metodo di Simulazione Numerica: Sviluppo di metodi di approssimazione numerica per l'entropia massima degli RGG soft a bassa dimensione
  3. Teoria della Convergenza: Dimostrazione che gli RGG hard con nodi a distribuzione non uniforme sul toro TdT^d si discostano dal limite ER
  4. Risultati di Universalità: Dimostrazione che gli RGG hard nel cubo [0,1]d[0,1]^d con qualsiasi distribuzione di nodi i.i.d. con curtosi maggiore di 1 non convergono mai al limite ER
  5. Scala di Dimensione: Derivazione della legge di scala della dimensione dell'entropia degli RGG in entrambe le strutture geometriche utilizzando la correzione di Edgeworth

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Studio dell'entropia di Shannon dell'insieme di grafi geometrici casuali, dove:

  • Input: Dominio geometrico (cubo o toro), distribuzione dei nodi, raggio di connessione
  • Output: Entropia dell'insieme di grafi e suo comportamento nel limite ad alta dimensione
  • Vincoli: Numero di nodi n fisso, raggio di connessione r₀ dipendente da d quando d→∞

Quadro Matematico Fondamentale

1. Definizione di Grafi Geometrici Casuali

RGG Hard: Lo spigolo (i,j) esiste se e solo se ρ(Xi,Xj)r0\rho(X_i, X_j) \leq r_0RGG Soft: Lo spigolo (i,j) esiste con probabilità p(ρ(Xi,Xj)/r0)p(\rho(X_i, X_j)/r_0)

2. Metriche di Distanza

  • Cubo: Distanza euclidea x\|x\|
  • Toro: ρT(x,y)=i=1dmin(xiyi,1xiyi)2\rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2}

3. Quadro del Teorema del Limite Centrale

Definizione della distanza standardizzata: qij=1dk=1dqijkq_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k dove qijk=XikXjk2μcq_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c

Punti di Innovazione Tecnica

1. Applicazione del CLT Multivariato

Trasformazione del problema di distanza ad alta dimensione in una distribuzione gaussiana multivariata, dove la struttura della matrice di covarianza Σ\Sigma determina il comportamento di convergenza:

  • Toro con distribuzione uniforme: ΣT\Sigma_T è una matrice diagonale → convergenza a ER
  • Cubo con qualsiasi distribuzione: Σc\Sigma_c non diagonale → non convergenza a ER

2. Criterio di Discriminazione della Curtosi

Dimostrazione che la condizione necessaria e sufficiente per l'incorrelazione delle distanze adiacenti è che la curtosi della distribuzione delle coordinate sia uguale a 1, il che si verifica solo nella distribuzione di Bernoulli con parametro 1/2.

3. Espansione di Edgeworth

Sviluppo della correzione del terzo ordine: f(q)N(0,Σ)(q)[1+16dα=3E[qα]Hα(q)]f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right]

Configurazione Sperimentale

Calcolo Esatto a Bassa Dimensione

  • Dimensione: d=1, n=3
  • Geometria: Cubo unidimensionale 0,1 e toro T¹
  • Metodo: Calcolo analitico mediante integrazione di ogni probabilità di grafo pkp_k

Simulazione Numerica

  • Intervallo di Parametri: d∈{1,2,3}, n=3
  • Numero di Campioni: L=10⁸ grafi
  • Funzione di Connessione: Decadimento di Rayleigh p(r/r0)=exp((r/r0)η)p(r/r_0) = \exp(-(r/r_0)^η), η∈{1,2,3,4,5,6} e connessione hard

Analisi Teorica ad Alta Dimensione

  • Distribuzione dei Nodi: Distribuzione uniforme, distribuzione gaussiana troncata
  • Criterio di Convergenza: Analisi mediante struttura della matrice di covarianza

Risultati Sperimentali

Risultati Principali

1. Calcolo Esatto dell'Entropia (d=1, n=3)

Toro T¹:

  • Raggio di connessione ottimale: r0^=1/4\hat{r_0} = 1/4
  • Probabilità media di connessione massima: pˉmax=1/2\bar{p}_{max} = 1/2

Cubo 0,1:

  • Raggio di connessione ottimale: r0^=0.283\hat{r_0} = 0.283
  • Probabilità media di connessione massima: pˉmax=0.4861/2\bar{p}_{max} = 0.486 \neq 1/2

2. Risultati Numerici a Bassa Dimensione

La Tabella 3 mostra l'entropia massima per diverse geometrie e funzioni di connessione:

Geometriaη=1η=2η=3η=4η=5η=6Connessione Hard
0,12.9942.9452.8882.8492.8262.8122.771
2.9982.9822.9292.8932.8702.8542.812

Osservazioni:

  • Gli RGG soft si avvicinano all'entropia massima di 3.0
  • L'entropia diminuisce all'aumentare di η
  • L'entropia del toro è generalmente superiore a quella del cubo

3. Comportamento di Convergenza ad Alta Dimensione

Riassunto dei Teoremi:

GeometriaFunzione di ConnessioneConvergenza a G(n,p)?Comportamento dell'Entropia
TdT^d - Nodi uniformiHard= H(G(n,p))
TdT^d - Nodi non uniformiHard< H(G(n,p))
TdT^dSoft= H(G(n,p))
[0,1]d[0,1]^dHard< H(G(n,p))
[0,1]d[0,1]^dSoft= H(G(n,p))

Esperimenti di Ablazione

Effetto della Correzione di Edgeworth

La Figura 5 mostra le stime dell'entropia per RGG hard a 4 nodi:

  • Approssimazione Gaussiana: Utilizzo solo del CLT
  • Correzione di Edgeworth: Inclusione del termine O(d1/2)O(d^{-1/2})
  • Simulazione Numerica: Metodo Monte Carlo

I risultati mostrano che la stima di Edgeworth è precisa fino a 2 cifre decimali quando d≥15.

Lavori Correlati

Teoria dell'Entropia dei Grafi

  • Rashevsky (1955): Prima introduzione del concetto di entropia dei grafi
  • Approcci Informativi: Molteplici definizioni come entropia di Shannon, entropia di Von Neumann
  • Reti Spaziali: Ricerca sull'entropia dell'insieme di reti spaziali di Coon et al.

Grafi Geometrici Casuali ad Alta Dimensione

  • Devroye et al. (2011): Convergenza di RGG sulla sfera unitaria a grafi ER
  • Erba et al. (2020): Deviazione del numero di cricche di RGG su ipercubi dal limite ER
  • Rilevamento Geometrico: Utilizzo di triangoli firmati, propagazione di credenze e altri metodi

Metodi Tecnici

  • Teorema del Limite Centrale: Applicazione del CLT multivariato in geometria ad alta dimensione
  • Espansione di Edgeworth: Teoria della correzione di ordine superiore

Conclusioni e Discussione

Conclusioni Principali

  1. Importanza della Struttura Geometrica: Le condizioni di bordo periodico del toro e gli effetti di bordo del cubo portano a comportamenti di convergenza diversi
  2. Influenza della Distribuzione dei Nodi: Solo la distribuzione uniforme sul toro può raggiungere il limite ER
  3. Ruolo della Funzione di Connessione: La funzione di connessione soft elimina la dipendenza dalla distanza, convergendo sempre all'insieme ER
  4. Scala di Dimensione: La velocità di deviazione dell'entropia dal limite ad alta dimensione è O(d1/2)O(d^{-1/2})

Limitazioni

  1. Restrizione sul Numero di Nodi: I calcoli esatti si applicano solo a piccoli n (n≤7)
  2. Ipotesi sulla Distribuzione: Richiede coordinate indipendenti e identicamente distribuite
  3. Precisione Numerica: Complessità computazionale della simulazione numerica ad alta dimensione
  4. Lacuna Teorica: La globalità del valore massimo dell'entropia nel cubo non è ancora provata

Direzioni Future

  1. Estensione Geometrica: Studio di altre sfere LpL^p e strutture geometriche
  2. Distribuzioni Non Indipendenti: Considerazione di coordinate correlate ma identicamente distribuite
  3. Rilevamento Geometrico: Sviluppo di algoritmi di rilevamento geometrico basati sulla teoria dell'informazione
  4. Reti Senza Etichette: Estensione all'analisi dell'entropia di grafi senza etichette

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Primo risultato analitico esatto per l'entropia dell'insieme di RGG, con derivazione matematica rigorosa e completa
  2. Innovazione Metodologica: Combinazione ingegnosa del CLT multivariato e dell'espansione di Edgeworth, fornendo nuovi strumenti per l'analisi di grafi geometrici ad alta dimensione
  3. Profondità dei Risultati: Rivelazione dell'influenza essenziale della struttura geometrica, della distribuzione dei nodi e della funzione di connessione sull'entropia
  4. Valore Pratico: Fornimento di fondamenti teorici per metodi di grafi di prossimità nell'analisi di dati ad alta dimensione

Insufficienze

  1. Complessità Computazionale: Il metodo esatto si applica solo a problemi di scala estremamente piccola (n=3)
  2. Limitazione delle Ipotesi: L'ipotesi di indipendenza delle coordinate potrebbe essere troppo forte nelle applicazioni pratiche
  3. Sfide Numeriche: Problemi di precisione ed efficienza dei metodi numerici ad alta dimensione
  4. Completezza Teorica: Alcuni risultati importanti (come la globalità del valore massimo dell'entropia nel cubo) rimangono ancora congetture

Impatto

  1. Contributo Accademico: Fornimento di una nuova prospettiva teorica dell'informazione per la teoria dei grafi geometrici casuali
  2. Valore Interdisciplinare: Collegamento tra teoria della probabilità, teoria dell'informazione e scienza delle reti
  3. Significato Metodologico: Il metodo della correzione di Edgeworth può essere generalizzato ad altri problemi geometrici ad alta dimensione
  4. Prospettive di Applicazione: Supporto teorico per l'analisi di dati geometrici nell'apprendimento automatico

Scenari Applicabili

  1. Analisi di Dati ad Alta Dimensione: Analisi dello spazio delle caratteristiche in visione artificiale, elaborazione del linguaggio naturale e altri campi
  2. Modellazione di Reti: Reti sociali, reti biologiche e altre reti complesse con struttura geometrica
  3. Progettazione di Algoritmi: Ottimizzazione di algoritmi basati sulla distanza come k-nearest neighbor e clustering
  4. Ricerca Teorica: Ricerca fondamentale in teoria dei grafi casuali, teoria dell'informazione e fisica statistica

Bibliografia

L'articolo cita 40 importanti riferimenti bibliografici, coprendo:

  • Letteratura fondamentale sulla teoria dell'entropia dei grafi
  • Lavori classici sui grafi geometrici casuali
  • Metodi di teoria della probabilità ad alta dimensione
  • Teoria dell'informazione e statistica
  • Ricerca in campi applicativi correlati

Valutazione Complessiva: Questo è un articolo di ricerca teorica di alta qualità che ha ottenuto importanti progressi nella teoria dell'entropia dei grafi geometrici casuali. Sebbene presenti limitazioni nella complessità computazionale e nelle applicazioni pratiche, i suoi contributi teorici e le innovazioni metodologiche forniscono una base solida per lo sviluppo futuro di questo campo.