We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
논문 ID : 2503.11418제목 : Entropy of Random Geometric Graphs in High and Low Dimensions저자 : Oliver Baker, Carl P. Dettmann (브리스톨 대학교)분류 : math.PR (확률론)발표 시간 : 2025년 8월 26일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2503.11418v3 본 논문은 다변량 중심극한정리(CLT)를 사용하여 정육면체와 원환면 위의 무작위 기하 그래프(RGGs)의 고차원 극한 분포를 연구했습니다. 노드가 균등하게 분포할 때 원환면 위의 RGGs 분포는 Erdős-Rényi(ER) 집합으로 수렴하지만, 원환면 위의 비균등 분포 노드를 가진 RGGs와 정육면체 위의 첨도가 1보다 큰 노드 분포를 가진 RGGs는 ER 집합과 다릅니다. 이러한 경우들에서 분포의 최대 엔트로피는 ER 집합보다 낮지만 대칭성을 유지합니다. 소프트 RGGs는 두 기하 구조 모두에서 ER 집합으로 수렴합니다. 본 논문은 또한 CLT의 Edgeworth 수정을 개발하여 두 기하 구조에서 RGGs의 Shannon 엔트로피의 차원에 대한 O ( d − 1 / 2 ) \mathcal{O}(d^{-1/2}) O ( d − 1/2 ) 주도항을 도출했습니다.
네트워크 복잡성 이해의 필요성 : 현대 데이터 과학에서 컴퓨터 비전부터 대규모 언어 모델까지 고차원 데이터 집합을 다룹니다. 예를 들어, MNIST 데이터 집합은 784개의 특성을 가지고 있으며, GPT-3의 임베딩 공간은 12,288차원입니다. 고차원 공간에서 네트워크 구성의 기하학적 특성을 이해하는 것이 중요합니다.그래프 엔트로피 이론의 발전 : 1955년 Rashevsky가 그래프 엔트로피 개념을 도입한 이후, 무작위 네트워크의 불확실성 또는 복잡성을 결정하는 것이 중요한 연구 분야가 되었으며, Shannon 엔트로피, Von Neumann 엔트로피, Gibbs 엔트로피 등 다양한 정의를 포함합니다.무작위 기하 그래프의 한계 : RGG 모델이 침투, 연결성, 중심성 측도 등의 측면에서 충분히 연구되었지만, 집합 범위의 특성(예: Shannon 엔트로피)에 대한 연구는 부족하며, 특히 고차원의 경우 더욱 그렇습니다.이론적 공백 : 현재 노드 위치에 조건화되지 않은 제약 없는 집합의 엔트로피를 해석적으로 최대화할 수 없습니다.고차원 거동 : RGGs가 고차원 극한에서 ER 그래프로 수렴하는지 여부와 엔트로피의 스케일링 거동을 이해할 필요가 있습니다.실제 응용 : 고차원 데이터의 근접 그래프 알고리즘에 대한 이론적 기초를 제공합니다.최초 해석적 계산 : 1차원 정육면체와 원환면 위의 3-노드 하드 RGG 집합의 엔트로피를 해석적으로 계산했습니다.수치 시뮬레이션 방법 : 저차원 소프트 RGGs의 최대 엔트로피에 대한 수치 근사 방법을 개발했습니다.수렴성 이론 : 원환면 T d T^d T d 위의 비균등 분포 노드를 가진 하드 RGG가 ER 극한에서 벗어남을 증명했습니다.보편성 결과 : 정육면체 [ 0 , 1 ] d [0,1]^d [ 0 , 1 ] d 에서 첨도가 1보다 큰 임의의 i.i.d. 노드 분포를 가진 하드 RGG가 절대 ER 극한으로 수렴하지 않음을 증명했습니다.차원 스케일링 : Edgeworth 수정을 사용하여 두 기하 구조에서 RGGs 엔트로피의 차원 스케일링 법칙을 도출했습니다.무작위 기하 그래프 집합의 Shannon 엔트로피를 연구하며, 여기서:
입력 : 기하 영역(정육면체 또는 원환면), 노드 분포, 연결 반경출력 : 그래프 집합의 엔트로피 및 고차원 극한에서의 거동제약 : 고정된 노드 수 n, 차원 d→∞일 때 연결 반경 r₀는 d에 의존하드 RGG : ρ ( X i , X j ) ≤ r 0 \rho(X_i, X_j) \leq r_0 ρ ( X i , X j ) ≤ r 0 일 때만 간선 ( i , j ) (i,j) ( i , j ) 가 존재
소프트 RGG : 간선 ( i , j ) (i,j) ( i , j ) 가 확률 p ( ρ ( X i , X j ) / r 0 ) p(\rho(X_i, X_j)/r_0) p ( ρ ( X i , X j ) / r 0 ) 로 존재
정육면체 : 유클리드 거리 ∥ x ∥ \|x\| ∥ x ∥ 원환면 : ρ T ( x , y ) = ∑ i = 1 d min ( ∣ x i − y i ∣ , 1 − ∣ x i − y i ∣ ) 2 \rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2} ρ T ( x , y ) = ∑ i = 1 d min ( ∣ x i − y i ∣ , 1 − ∣ x i − y i ∣ ) 2 표준화된 거리 정의:
q i j = 1 d ∑ k = 1 d q i j k q_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k q ij = d 1 ∑ k = 1 d q ij k
여기서 q i j k = ∣ X i k − X j k ∣ 2 − μ c q_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c q ij k = ∣ X i k − X j k ∣ 2 − μ c
고차원 거리 문제를 다변량 가우스 분포로 변환하며, 공분산 행렬 Σ \Sigma Σ 의 구조가 수렴 거동을 결정합니다:
원환면 균등 분포 : Σ T \Sigma_T Σ T 는 대각 행렬 → ER으로 수렴정육면체 임의 분포 : Σ c \Sigma_c Σ c 는 비대각 → ER으로 수렴하지 않음인접 거리가 상관관계가 없을 필요충분조건이 좌표 분포의 첨도가 1과 같다는 것을 증명했으며, 이는 매개변수가 1/2인 베르누이 분포일 때만 성립합니다.
3차 수정을 개발했습니다:
f ( q ) ≈ N ( 0 , Σ ) ( q ) [ 1 + 1 6 d ∑ ∣ α ∣ = 3 E [ q α ] H α ( q ) ] f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right] f ( q ) ≈ N ( 0 , Σ ) ( q ) [ 1 + 6 d 1 ∑ ∣ α ∣ = 3 E [ q α ] H α ( q ) ]
차원 : d=1, n=3기하 : 1차원 정육면체 0,1 과 원환면 T¹방법 : 각 그래프 확률 p k p_k p k 를 계산하기 위한 해석적 적분매개변수 범위 : d∈{1,2,3}, n=3샘플 수 : L=10⁸개 그래프연결 함수 : Rayleigh 감쇠 p ( r / r 0 ) = exp ( − ( r / r 0 ) η ) p(r/r_0) = \exp(-(r/r_0)^η) p ( r / r 0 ) = exp ( − ( r / r 0 ) η ) , η∈{1,2,3,4,5,6} 및 하드 연결노드 분포 : 균등 분포, 절단 가우스 분포수렴 판별 : 공분산 행렬 구조 분석을 통해원환면 T¹ :
최적 연결 반경: r 0 ^ = 1 / 4 \hat{r_0} = 1/4 r 0 ^ = 1/4 최대 평균 연결 확률: p ˉ m a x = 1 / 2 \bar{p}_{max} = 1/2 p ˉ ma x = 1/2 정육면체 0,1 :
최적 연결 반경: r 0 ^ = 0.283 \hat{r_0} = 0.283 r 0 ^ = 0.283 최대 평균 연결 확률: p ˉ m a x = 0.486 ≠ 1 / 2 \bar{p}_{max} = 0.486 \neq 1/2 p ˉ ma x = 0.486 = 1/2 표 3은 서로 다른 기하 및 연결 함수의 최대 엔트로피를 보여줍니다:
기하 η=1 η=2 η=3 η=4 η=5 η=6 하드 연결 0,1 2.994 2.945 2.888 2.849 2.826 2.812 2.771 T¹ 2.998 2.982 2.929 2.893 2.870 2.854 2.812
관찰 :
소프트 RGGs는 최대 엔트로피 3.0에 가까움 엔트로피는 η 증가에 따라 감소 원환면 엔트로피는 일반적으로 정육면체보다 높음 정리 요약 :
기하 연결 함수 G(n,p)로 수렴? 엔트로피 거동 T d T^d T d - 균등 노드하드 ✓ = H(G(n,p)) T d T^d T d - 비균등 노드하드 ✗ < H(G(n,p)) T d T^d T d 소프트 ✓ = H(G(n,p)) [ 0 , 1 ] d [0,1]^d [ 0 , 1 ] d 하드 ✗ < H(G(n,p)) [ 0 , 1 ] d [0,1]^d [ 0 , 1 ] d 소프트 ✓ = H(G(n,p))
그림 5는 4-노드 하드 RGG의 엔트로피 추정을 보여줍니다:
가우스 근사 : CLT만 사용Edgeworth 수정 : O ( d − 1 / 2 ) O(d^{-1/2}) O ( d − 1/2 ) 항 포함수치 시뮬레이션 : 몬테카를로 방법결과는 Edgeworth 추정이 d≥15일 때 소수점 이하 2자리까지 정확함을 보여줍니다.
Rashevsky (1955) : 그래프 엔트로피 개념 최초 도입정보론적 방법 : Shannon 엔트로피, Von Neumann 엔트로피 등 다양한 정의공간 네트워크 : Coon 등의 공간 네트워크 집합 엔트로피 연구Devroye 등 (2011) : 단위 구면 위의 RGG가 ER 그래프로 수렴Erba 등 (2020) : 초정육면체 위의 RGG 클리크 수가 ER 극한에서 벗어남기하 검출 : 부호 삼각형, 신뢰도 전파 등의 방법 사용중심극한정리 : 고차원 기하에서의 다변량 CLT 적용Edgeworth 전개 : 고차 수정 이론기하 구조의 중요성 : 원환면의 주기 경계 조건과 정육면체의 경계 효과는 서로 다른 수렴 거동을 초래합니다.노드 분포의 영향 : 원환면에서 균등 분포만이 ER 극한에 도달할 수 있습니다.연결 함수의 역할 : 소프트 연결 함수는 거리 의존성을 제거하여 항상 ER 집합으로 수렴합니다.차원 스케일링 : 엔트로피가 고차원 극한에서 벗어나는 속도는 O ( d − 1 / 2 ) O(d^{-1/2}) O ( d − 1/2 ) 입니다.노드 수 제한 : 정확 계산은 작은 n(n≤7)에만 적용 가능분포 가정 : 좌표의 독립 동일 분포를 요구수치 정확도 : 고차원 수치 시뮬레이션의 계산 복잡도이론적 공백 : 정육면체에서 엔트로피 최댓값의 전역성이 아직 증명되지 않음기하 확장 : 다른 L p L^p L p 구와 기하 구조 연구비독립 분포 : 좌표 상관관계가 있지만 동일 분포인 경우 고려기하 검출 : 정보론 기반의 기하 검출 알고리즘 개발무표시 네트워크 : 무표시 그래프의 엔트로피 분석으로 확장이론적 엄밀성 : RGG 집합 엔트로피의 정확한 해석적 결과를 최초로 제공하며, 수학적 유도가 엄밀하고 완전합니다.방법론 혁신 : 다변량 CLT와 Edgeworth 전개를 교묘하게 결합하여 고차원 기하 그래프 분석을 위한 새로운 도구를 제공합니다.결과의 깊이 : 기하 구조, 노드 분포 및 연결 함수가 엔트로피에 미치는 본질적인 영향을 드러냅니다.실용적 가치 : 고차원 데이터 분석의 근접 그래프 방법에 이론적 기초를 제공합니다.계산 복잡성 : 정확 방법은 극히 작은 규모 문제(n=3)에만 적용 가능가정의 제한 : 좌표 독립성 가정이 실제 응용에서 과할 수 있음수치 도전 : 고차원 수치 방법의 정확도 및 효율성 문제이론적 완전성 : 일부 중요한 결과(예: 정육면체 엔트로피 최댓값의 전역성)는 여전히 추측 상태학술 기여 : 무작위 기하 그래프 이론에 새로운 정보론적 관점을 제공합니다.학제간 가치 : 확률론, 정보론 및 네트워크 과학을 연결합니다.방법론적 의의 : Edgeworth 수정 방법은 다른 고차원 기하 문제로 일반화될 수 있습니다.응용 전망 : 기계학습의 기하 데이터 분석에 이론적 지원을 제공합니다.고차원 데이터 분석 : 컴퓨터 비전, 자연어 처리 등 분야의 특성 공간 분석네트워크 모델링 : 사회 네트워크, 생물 네트워크 등 기하 구조를 가진 복잡 네트워크알고리즘 설계 : k-최근접 이웃, 클러스터링 등 거리 기반 알고리즘 최적화이론 연구 : 무작위 그래프 이론, 정보론, 통계 물리학 등 기초 연구본 논문은 40편의 중요한 문헌을 인용하며, 다음을 포함합니다:
그래프 엔트로피 이론 기초 문헌 무작위 기하 그래프 고전 연구 고차원 확률론 방법 정보론 및 통계학 이론 관련 응용 분야 연구 종합 평가 : 이는 무작위 기하 그래프 엔트로피 이론에서 중요한 돌파구를 이룬 고품질의 이론 연구 논문입니다. 계산 복잡성 및 실제 응용 측면에서 한계가 있지만, 그 이론적 기여와 방법론적 혁신은 해당 분야의 추가 발전을 위한 견고한 기초를 마련합니다.