We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
معرّف الورقة : 2503.11418العنوان : Entropy of Random Geometric Graphs in High and Low Dimensionsالمؤلفون : أوليفر بيكر، كارل ب. ديتمان (جامعة بريستول)التصنيف : math.PR (نظرية الاحتمالات)تاريخ النشر : 26 أغسطس 2025 (مسودة arXiv)رابط الورقة : https://arxiv.org/abs/2503.11418v3 تستخدم هذه الورقة نظرية الحد المركزي متعددة المتغيرات (CLT) لدراسة توزيعات الحد الأعلى للرسوم البيانية الهندسية العشوائية (RGGs) على المكعبات والطوري. يكتشف البحث أنه عندما تكون العقد موزعة بشكل منتظم، تتقارب توزيعات RGGs على الطوري إلى مجموعة إيردوس-رينيي (ER)، لكن بالنسبة لـ RGGs ذات التوزيع غير المنتظم على الطوري، وكذلك RGGs على المكعبات ذات أي توزيع عقدة بتفرطح أكبر من 1، فإن التوزيعات تختلف عن مجموعة ER. في هذه الحالات، الإنتروبيا القصوى للتوزيع أقل من مجموعة ER، لكنها تحافظ على التماثل. تتقارب RGGs الناعمة إلى مجموعة ER في كلا الهيكلين الهندسيين. تطور الورقة أيضاً تصحيح إدجوورث لـ CLT، مما يؤدي إلى اشتقاق الحد الأساسي من الرتبة O ( d − 1 / 2 ) \mathcal{O}(d^{-1/2}) O ( d − 1/2 ) لإنتروبيا شانون في RGGs في كلا الهيكلين الهندسيين.
الحاجة إلى فهم تعقيد الشبكات : في علم البيانات الحديث، من رؤية الحاسوب إلى نماذج اللغة الكبيرة، ينطوي كل ذلك على مجموعات بيانات عالية الأبعاد. على سبيل المثال، مجموعة بيانات MNIST لها 784 ميزة، وفضاء التضمين في GPT-3 يبلغ 12288 بعداً. يعتبر فهم الخصائص الهندسية لبناء الشبكات في الفضاء عالي الأبعاد أمراً حاسماً.تطور نظرية إنتروبيا الرسم البياني : منذ أن قدم راشيفسكي مفهوم إنتروبيا الرسم البياني عام 1955، أصبح تحديد عدم اليقين أو التعقيد للشبكات العشوائية مجالاً بحثياً مهماً، يشمل تعريفات متعددة مثل إنتروبيا شانون وإنتروبيا فون نيومان وإنتروبيا جيبس.قيود الرسوم البيانية الهندسية العشوائية : على الرغم من أن نموذج RGG قد تمت دراسته بشكل كافٍ في الترشيح والاتصالية ومقاييس المركزية، إلا أن خصائص نطاق المجموعة (مثل إنتروبيا شانون) قد تمت دراستها بشكل أقل، خاصة في الحالات عالية الأبعاد.الفجوة النظرية : لا توجد طريقة لتعظيم إنتروبيا المجموعات غير المقيدة بشكل تحليلي، إلا إذا تم تشريطها على مواقع العقدالسلوك عالي الأبعاد : الحاجة إلى فهم ما إذا كانت RGGs تتقارب إلى رسوم بيانية ER في الحد الأعلى عالي الأبعاد، وسلوك تحجيم الإنتروبياالتطبيقات العملية : توفير أساس نظري لخوارزميات الرسوم البيانية القريبة في البيانات عالية الأبعادالحساب التحليلي الأول : حساب تحليلي لإنتروبيا مجموعة RGG الصلبة ذات 3 عقد على المكعب أحادي البعد والطوريطريقة المحاكاة العددية : تطوير طريقة تقريب عددية لأقصى إنتروبيا لـ RGGs الناعمة منخفضة الأبعادنظرية التقارب : إثبات أن RGG الصلبة ذات العقد الموزعة بشكل غير منتظم على الطوري T d T^d T d تنحرف عن حد ERنتائج العمومية : إثبات أن RGG الصلبة لأي توزيع عقدة i.i.d. بتفرطح أكبر من 1 في المكعب [ 0 , 1 ] d [0,1]^d [ 0 , 1 ] d لا تتقارب أبداً إلى حد ERتحجيم الأبعاد : استخدام تصحيح إدجوورث لاشتقاق قوانين تحجيم الأبعاد لإنتروبيا RGGs في كلا الهيكلين الهندسييندراسة إنتروبيا شانون لمجموعات الرسوم البيانية الهندسية العشوائية، حيث:
المدخلات : المجال الهندسي (مكعب أو طوري)، توزيع العقد، نصف قطر الاتصالالمخرجات : إنتروبيا مجموعة الرسم البياني وسلوكها في حد الأبعاد العاليةالقيود : عدد عقد ثابت n، عندما d→∞ يعتمد نصف قطر الاتصال r₀ على dRGG الصلبة : توجد الحافة (i,j) إذا وفقط إذا كان ρ ( X i , X j ) ≤ r 0 \rho(X_i, X_j) \leq r_0 ρ ( X i , X j ) ≤ r 0 RGG الناعمة : توجد الحافة (i,j) باحتمالية p ( ρ ( X i , X j ) / r 0 ) p(\rho(X_i, X_j)/r_0) p ( ρ ( X i , X j ) / r 0 )
المكعب : المسافة الإقليدية ∥ x ∥ \|x\| ∥ x ∥ الطوري : ρ T ( x , y ) = ∑ i = 1 d min ( ∣ x i − y i ∣ , 1 − ∣ x i − y i ∣ ) 2 \rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2} ρ T ( x , y ) = ∑ i = 1 d min ( ∣ x i − y i ∣ , 1 − ∣ x i − y i ∣ ) 2 تعريف المسافة المعيارية:
q i j = 1 d ∑ k = 1 d q i j k q_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k q ij = d 1 ∑ k = 1 d q ij k
حيث q i j k = ∣ X i k − X j k ∣ 2 − μ c q_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c q ij k = ∣ X i k − X j k ∣ 2 − μ c
تحويل مشاكل المسافة عالية الأبعاد إلى توزيع غاوسي متعدد المتغيرات، حيث يحدد هيكل مصفوفة التغاير Σ \Sigma Σ سلوك التقارب:
التوزيع المنتظم على الطوري : Σ T \Sigma_T Σ T مصفوفة قطرية → تقارب إلى ERأي توزيع على المكعب : Σ c \Sigma_c Σ c غير قطرية → عدم تقارب إلى ERإثبات أن الشرط الضروري والكافي لعدم ارتباط المسافات المجاورة هو أن يساوي التفرطح لتوزيع الإحداثيات 1، وهذا يحدث فقط مع التوزيع ذي الحدين بمعامل 1/2.
تطوير التصحيح من الدرجة الثالثة:
f ( q ) ≈ N ( 0 , Σ ) ( q ) [ 1 + 1 6 d ∑ ∣ α ∣ = 3 E [ q α ] H α ( q ) ] f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right] f ( q ) ≈ N ( 0 , Σ ) ( q ) [ 1 + 6 d 1 ∑ ∣ α ∣ = 3 E [ q α ] H α ( q ) ]
الأبعاد : d=1, n=3الهندسة : مكعب أحادي البعد 0,1 وطوري T¹الطريقة : حساب التكاملات التحليلية لكل احتمالية رسم بياني p k p_k p k نطاق المعاملات : d∈{1,2,3}, n=3عدد العينات : L=10⁸ رسم بيانيدالة الاتصال : تحلل رايليه p ( r / r 0 ) = exp ( − ( r / r 0 ) η ) p(r/r_0) = \exp(-(r/r_0)^η) p ( r / r 0 ) = exp ( − ( r / r 0 ) η ) ، η∈{1,2,3,4,5,6} والاتصال الصلبتوزيع العقد : التوزيع المنتظم، التوزيع الغاوسي المقطوعمعيار التقارب : التحليل من خلال هيكل مصفوفة التغايرالطوري T¹ :
نصف قطر الاتصال الأمثل: r 0 ^ = 1 / 4 \hat{r_0} = 1/4 r 0 ^ = 1/4 أقصى متوسط احتمالية اتصال: p ˉ m a x = 1 / 2 \bar{p}_{max} = 1/2 p ˉ ma x = 1/2 المكعب 0,1 :
نصف قطر الاتصال الأمثل: r 0 ^ = 0.283 \hat{r_0} = 0.283 r 0 ^ = 0.283 أقصى متوسط احتمالية اتصال: p ˉ m a x = 0.486 ≠ 1 / 2 \bar{p}_{max} = 0.486 \neq 1/2 p ˉ ma x = 0.486 = 1/2 يوضح الجدول 3 الإنتروبيا القصوى لأنواع هندسية ودوال اتصال مختلفة:
الهندسة η=1 η=2 η=3 η=4 η=5 η=6 اتصال صلب 0,1 2.994 2.945 2.888 2.849 2.826 2.812 2.771 T¹ 2.998 2.982 2.929 2.893 2.870 2.854 2.812
الملاحظات :
RGGs الناعمة قريبة من الإنتروبيا القصوى 3.0 تنخفض الإنتروبيا مع زيادة η الإنتروبيا على الطوري أعلى عموماً من المكعب ملخص النظريات :
الهندسة دالة الاتصال تقارب إلى G(n,p)؟ سلوك الإنتروبيا T d T^d T d - عقد منتظمةصلب ✓ = H(G(n,p)) T d T^d T d - عقد غير منتظمةصلب ✗ < H(G(n,p)) T d T^d T d ناعم ✓ = H(G(n,p)) [ 0 , 1 ] d [0,1]^d [ 0 , 1 ] d صلب ✗ < H(G(n,p)) [ 0 , 1 ] d [0,1]^d [ 0 , 1 ] d ناعم ✓ = H(G(n,p))
يوضح الشكل 5 تقديرات الإنتروبيا لـ RGG الصلبة ذات 4 عقد:
التقريب الغاوسي : استخدام CLT فقطتصحيح إدجوورث : يتضمن حد O ( d − 1 / 2 ) O(d^{-1/2}) O ( d − 1/2 ) المحاكاة العددية : طريقة مونت كارلوتظهر النتائج أن تقدير إدجوورث دقيق إلى منزلتين عشريتين عندما d≥15.
راشيفسكي (1955) : أول من قدم مفهوم إنتروبيا الرسم البيانيالطرق المعلوماتية : إنتروبيا شانون وإنتروبيا فون نيومان وتعريفات متعددة أخرىالشبكات المكانية : دراسة كون وآخرين لإنتروبيا مجموعات الشبكات المكانيةديفروي وآخرون (2011) : تقارب RGG على كرة الوحدة إلى رسم بياني ERإيربا وآخرون (2020) : انحراف عدد الكليك لـ RGG على فوق المكعب عن حد ERالكشف الهندسي : استخدام المثلثات الموقعة وانتشار الثقة وطرق أخرىنظرية الحد المركزي : تطبيق CLT متعدد المتغيرات في الهندسة عالية الأبعادتوسيع إدجوورث : نظرية التصحيح من الدرجة العلياأهمية الهيكل الهندسي : تؤدي شروط الحدود الدورية على الطوري وتأثيرات الحدود على المكعب إلى سلوكيات تقارب مختلفةتأثير توزيع العقد : فقط التوزيع المنتظم على الطوري يمكن أن يحقق حد ERدور دالة الاتصال : تزيل دوال الاتصال الناعمة الاعتماد على المسافة، وتتقارب دائماً إلى مجموعة ERتحجيم الأبعاد : سرعة انحراف الإنتروبيا عن حد الأبعاد العالية هي O ( d − 1 / 2 ) O(d^{-1/2}) O ( d − 1/2 ) قيود عدد العقد : الحسابات الدقيقة تنطبق فقط على n الصغيرة (n≤7)افتراضات التوزيع : تتطلب استقلالية الإحداثيات والتوزيع المتطابقالدقة العددية : التعقيد الحسابي للمحاكاة العددية عالية الأبعادالفجوات النظرية : لم يتم إثبات العمومية الشاملة لقيمة الإنتروبيا القصوى على المكعبتوسيع الهندسة : دراسة هندسات L p L^p L p الأخرى والهياكل الهندسيةالتوزيعات غير المستقلة : النظر في الإحداثيات المترابطة لكن الموزعة بشكل متطابقالكشف الهندسي : تطوير خوارزميات كشف هندسي قائمة على نظرية المعلوماتالشبكات غير المسماة : توسيع تحليل الإنتروبيا إلى الرسوم البيانية غير المسماةالصرامة النظرية : توفير أول نتائج تحليلية دقيقة لإنتروبيا مجموعات RGG، مع استنتاجات رياضية صارمة وكاملةابتكار الطريقة : دمج ذكي لـ CLT متعدد المتغيرات وتوسيع إدجوورث، مما يوفر أدوات جديدة لتحليل الرسوم البيانية الهندسية عالية الأبعادعمق النتائج : الكشف عن التأثير الجوهري للهيكل الهندسي وتوزيع العقد ودالة الاتصال على الإنتروبياالقيمة العملية : توفير أساس نظري لطرق الرسوم البيانية القريبة في تحليل البيانات عالية الأبعادالتعقيد الحسابي : تنطبق الطرق الدقيقة فقط على مشاكل بحجم صغير جداً (n=3)قيود الافتراضات : قد يكون افتراض استقلالية الإحداثيات قوياً جداً في التطبيقات العمليةالتحديات العددية : مشاكل الدقة والكفاءة للطرق العددية عالية الأبعادالاكتمال النظري : بعض النتائج المهمة (مثل العمومية الشاملة لقيمة الإنتروبيا القصوى على المكعب) لا تزال تخميناتالمساهمة الأكاديمية : توفير منظور معلوماتي جديد لنظرية الرسوم البيانية الهندسية العشوائيةالقيمة متعددة التخصصات : ربط نظرية الاحتمالات ونظرية المعلومات وعلم الشبكاتالأهمية المنهجية : يمكن تعميم طريقة تصحيح إدجوورث على مشاكل هندسية عالية الأبعاد أخرىآفاق التطبيق : توفير دعم نظري لتحليل البيانات الهندسية في التعلم الآليتحليل البيانات عالية الأبعاد : تحليل فضاء الميزات في مجالات مثل رؤية الحاسوب ومعالجة اللغة الطبيعيةنمذجة الشبكات : الشبكات الاجتماعية والشبكات البيولوجية وغيرها من الشبكات المعقدة ذات الهياكل الهندسيةتصميم الخوارزميات : تحسين الخوارزميات القائمة على المسافة مثل k-nearest neighbor والتجميعالبحث النظري : البحث الأساسي في نظرية الرسوم البيانية العشوائية ونظرية المعلومات والفيزياء الإحصائيةتستشهد الورقة بـ 40 مرجعاً مهماً، تغطي:
الأدبيات الأساسية لنظرية إنتروبيا الرسم البياني الأعمال الكلاسيكية للرسوم البيانية الهندسية العشوائية طرق نظرية الاحتمالات عالية الأبعاد نظرية المعلومات والنظرية الإحصائية أبحاث المجالات التطبيقية ذات الصلة التقييم الشامل : هذه ورقة بحثية عالية الجودة حققت اختراقات مهمة في نظرية إنتروبيا الرسوم البيانية الهندسية العشوائية. على الرغم من وجود قيود في التعقيد الحسابي والتطبيقات العملية، فإن مساهماتها النظرية وابتكاراتها المنهجية توفر أساساً متيناً لمزيد من التطور في هذا المجال.