2025-11-21T11:49:15.652907

Entropy of Random Geometric Graphs in High and Low Dimensions

Baker, Dettmann
We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
academic

إنتروبيا الرسوم البيانية الهندسية العشوائية في الأبعاد العالية والمنخفضة

المعلومات الأساسية

  • معرّف الورقة: 2503.11418
  • العنوان: Entropy of Random Geometric Graphs in High and Low Dimensions
  • المؤلفون: أوليفر بيكر، كارل ب. ديتمان (جامعة بريستول)
  • التصنيف: math.PR (نظرية الاحتمالات)
  • تاريخ النشر: 26 أغسطس 2025 (مسودة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2503.11418v3

الملخص

تستخدم هذه الورقة نظرية الحد المركزي متعددة المتغيرات (CLT) لدراسة توزيعات الحد الأعلى للرسوم البيانية الهندسية العشوائية (RGGs) على المكعبات والطوري. يكتشف البحث أنه عندما تكون العقد موزعة بشكل منتظم، تتقارب توزيعات RGGs على الطوري إلى مجموعة إيردوس-رينيي (ER)، لكن بالنسبة لـ RGGs ذات التوزيع غير المنتظم على الطوري، وكذلك RGGs على المكعبات ذات أي توزيع عقدة بتفرطح أكبر من 1، فإن التوزيعات تختلف عن مجموعة ER. في هذه الحالات، الإنتروبيا القصوى للتوزيع أقل من مجموعة ER، لكنها تحافظ على التماثل. تتقارب RGGs الناعمة إلى مجموعة ER في كلا الهيكلين الهندسيين. تطور الورقة أيضاً تصحيح إدجوورث لـ CLT، مما يؤدي إلى اشتقاق الحد الأساسي من الرتبة O(d1/2)\mathcal{O}(d^{-1/2}) لإنتروبيا شانون في RGGs في كلا الهيكلين الهندسيين.

الخلفية البحثية والدافع

خلفية المشكلة

  1. الحاجة إلى فهم تعقيد الشبكات: في علم البيانات الحديث، من رؤية الحاسوب إلى نماذج اللغة الكبيرة، ينطوي كل ذلك على مجموعات بيانات عالية الأبعاد. على سبيل المثال، مجموعة بيانات MNIST لها 784 ميزة، وفضاء التضمين في GPT-3 يبلغ 12288 بعداً. يعتبر فهم الخصائص الهندسية لبناء الشبكات في الفضاء عالي الأبعاد أمراً حاسماً.
  2. تطور نظرية إنتروبيا الرسم البياني: منذ أن قدم راشيفسكي مفهوم إنتروبيا الرسم البياني عام 1955، أصبح تحديد عدم اليقين أو التعقيد للشبكات العشوائية مجالاً بحثياً مهماً، يشمل تعريفات متعددة مثل إنتروبيا شانون وإنتروبيا فون نيومان وإنتروبيا جيبس.
  3. قيود الرسوم البيانية الهندسية العشوائية: على الرغم من أن نموذج RGG قد تمت دراسته بشكل كافٍ في الترشيح والاتصالية ومقاييس المركزية، إلا أن خصائص نطاق المجموعة (مثل إنتروبيا شانون) قد تمت دراستها بشكل أقل، خاصة في الحالات عالية الأبعاد.

دافع البحث

  1. الفجوة النظرية: لا توجد طريقة لتعظيم إنتروبيا المجموعات غير المقيدة بشكل تحليلي، إلا إذا تم تشريطها على مواقع العقد
  2. السلوك عالي الأبعاد: الحاجة إلى فهم ما إذا كانت RGGs تتقارب إلى رسوم بيانية ER في الحد الأعلى عالي الأبعاد، وسلوك تحجيم الإنتروبيا
  3. التطبيقات العملية: توفير أساس نظري لخوارزميات الرسوم البيانية القريبة في البيانات عالية الأبعاد

المساهمات الأساسية

  1. الحساب التحليلي الأول: حساب تحليلي لإنتروبيا مجموعة RGG الصلبة ذات 3 عقد على المكعب أحادي البعد والطوري
  2. طريقة المحاكاة العددية: تطوير طريقة تقريب عددية لأقصى إنتروبيا لـ RGGs الناعمة منخفضة الأبعاد
  3. نظرية التقارب: إثبات أن RGG الصلبة ذات العقد الموزعة بشكل غير منتظم على الطوري TdT^d تنحرف عن حد ER
  4. نتائج العمومية: إثبات أن RGG الصلبة لأي توزيع عقدة i.i.d. بتفرطح أكبر من 1 في المكعب [0,1]d[0,1]^d لا تتقارب أبداً إلى حد ER
  5. تحجيم الأبعاد: استخدام تصحيح إدجوورث لاشتقاق قوانين تحجيم الأبعاد لإنتروبيا RGGs في كلا الهيكلين الهندسيين

شرح الطرق

تعريف المهمة

دراسة إنتروبيا شانون لمجموعات الرسوم البيانية الهندسية العشوائية، حيث:

  • المدخلات: المجال الهندسي (مكعب أو طوري)، توزيع العقد، نصف قطر الاتصال
  • المخرجات: إنتروبيا مجموعة الرسم البياني وسلوكها في حد الأبعاد العالية
  • القيود: عدد عقد ثابت n، عندما d→∞ يعتمد نصف قطر الاتصال r₀ على d

الإطار الرياضي الأساسي

1. تعريف الرسوم البيانية الهندسية العشوائية

RGG الصلبة: توجد الحافة (i,j) إذا وفقط إذا كان ρ(Xi,Xj)r0\rho(X_i, X_j) \leq r_0RGG الناعمة: توجد الحافة (i,j) باحتمالية p(ρ(Xi,Xj)/r0)p(\rho(X_i, X_j)/r_0)

2. مقاييس المسافة

  • المكعب: المسافة الإقليدية x\|x\|
  • الطوري: ρT(x,y)=i=1dmin(xiyi,1xiyi)2\rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2}

3. إطار نظرية الحد المركزي

تعريف المسافة المعيارية: qij=1dk=1dqijkq_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k حيث qijk=XikXjk2μcq_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c

نقاط الابتكار التقني

1. تطبيق CLT متعدد المتغيرات

تحويل مشاكل المسافة عالية الأبعاد إلى توزيع غاوسي متعدد المتغيرات، حيث يحدد هيكل مصفوفة التغاير Σ\Sigma سلوك التقارب:

  • التوزيع المنتظم على الطوري: ΣT\Sigma_T مصفوفة قطرية → تقارب إلى ER
  • أي توزيع على المكعب: Σc\Sigma_c غير قطرية → عدم تقارب إلى ER

2. معيار التمييز بالتفرطح

إثبات أن الشرط الضروري والكافي لعدم ارتباط المسافات المجاورة هو أن يساوي التفرطح لتوزيع الإحداثيات 1، وهذا يحدث فقط مع التوزيع ذي الحدين بمعامل 1/2.

3. توسيع إدجوورث

تطوير التصحيح من الدرجة الثالثة: f(q)N(0,Σ)(q)[1+16dα=3E[qα]Hα(q)]f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right]

إعداد التجارب

الحسابات الدقيقة منخفضة الأبعاد

  • الأبعاد: d=1, n=3
  • الهندسة: مكعب أحادي البعد 0,1 وطوري T¹
  • الطريقة: حساب التكاملات التحليلية لكل احتمالية رسم بياني pkp_k

المحاكاة العددية

  • نطاق المعاملات: d∈{1,2,3}, n=3
  • عدد العينات: L=10⁸ رسم بياني
  • دالة الاتصال: تحلل رايليه p(r/r0)=exp((r/r0)η)p(r/r_0) = \exp(-(r/r_0)^η)، η∈{1,2,3,4,5,6} والاتصال الصلب

التحليل النظري عالي الأبعاد

  • توزيع العقد: التوزيع المنتظم، التوزيع الغاوسي المقطوع
  • معيار التقارب: التحليل من خلال هيكل مصفوفة التغاير

نتائج التجارب

النتائج الرئيسية

1. حساب الإنتروبيا الدقيق (d=1, n=3)

الطوري T¹:

  • نصف قطر الاتصال الأمثل: r0^=1/4\hat{r_0} = 1/4
  • أقصى متوسط احتمالية اتصال: pˉmax=1/2\bar{p}_{max} = 1/2

المكعب 0,1:

  • نصف قطر الاتصال الأمثل: r0^=0.283\hat{r_0} = 0.283
  • أقصى متوسط احتمالية اتصال: pˉmax=0.4861/2\bar{p}_{max} = 0.486 \neq 1/2

2. النتائج العددية منخفضة الأبعاد

يوضح الجدول 3 الإنتروبيا القصوى لأنواع هندسية ودوال اتصال مختلفة:

الهندسةη=1η=2η=3η=4η=5η=6اتصال صلب
0,12.9942.9452.8882.8492.8262.8122.771
2.9982.9822.9292.8932.8702.8542.812

الملاحظات:

  • RGGs الناعمة قريبة من الإنتروبيا القصوى 3.0
  • تنخفض الإنتروبيا مع زيادة η
  • الإنتروبيا على الطوري أعلى عموماً من المكعب

3. سلوك التقارب عالي الأبعاد

ملخص النظريات:

الهندسةدالة الاتصالتقارب إلى G(n,p)؟سلوك الإنتروبيا
TdT^d - عقد منتظمةصلب= H(G(n,p))
TdT^d - عقد غير منتظمةصلب< H(G(n,p))
TdT^dناعم= H(G(n,p))
[0,1]d[0,1]^dصلب< H(G(n,p))
[0,1]d[0,1]^dناعم= H(G(n,p))

تجارب الاستئصال

تأثير تصحيح إدجوورث

يوضح الشكل 5 تقديرات الإنتروبيا لـ RGG الصلبة ذات 4 عقد:

  • التقريب الغاوسي: استخدام CLT فقط
  • تصحيح إدجوورث: يتضمن حد O(d1/2)O(d^{-1/2})
  • المحاكاة العددية: طريقة مونت كارلو

تظهر النتائج أن تقدير إدجوورث دقيق إلى منزلتين عشريتين عندما d≥15.

الأعمال ذات الصلة

نظرية إنتروبيا الرسم البياني

  • راشيفسكي (1955): أول من قدم مفهوم إنتروبيا الرسم البياني
  • الطرق المعلوماتية: إنتروبيا شانون وإنتروبيا فون نيومان وتعريفات متعددة أخرى
  • الشبكات المكانية: دراسة كون وآخرين لإنتروبيا مجموعات الشبكات المكانية

الرسوم البيانية الهندسية العشوائية عالية الأبعاد

  • ديفروي وآخرون (2011): تقارب RGG على كرة الوحدة إلى رسم بياني ER
  • إيربا وآخرون (2020): انحراف عدد الكليك لـ RGG على فوق المكعب عن حد ER
  • الكشف الهندسي: استخدام المثلثات الموقعة وانتشار الثقة وطرق أخرى

الطرق التقنية

  • نظرية الحد المركزي: تطبيق CLT متعدد المتغيرات في الهندسة عالية الأبعاد
  • توسيع إدجوورث: نظرية التصحيح من الدرجة العليا

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. أهمية الهيكل الهندسي: تؤدي شروط الحدود الدورية على الطوري وتأثيرات الحدود على المكعب إلى سلوكيات تقارب مختلفة
  2. تأثير توزيع العقد: فقط التوزيع المنتظم على الطوري يمكن أن يحقق حد ER
  3. دور دالة الاتصال: تزيل دوال الاتصال الناعمة الاعتماد على المسافة، وتتقارب دائماً إلى مجموعة ER
  4. تحجيم الأبعاد: سرعة انحراف الإنتروبيا عن حد الأبعاد العالية هي O(d1/2)O(d^{-1/2})

القيود

  1. قيود عدد العقد: الحسابات الدقيقة تنطبق فقط على n الصغيرة (n≤7)
  2. افتراضات التوزيع: تتطلب استقلالية الإحداثيات والتوزيع المتطابق
  3. الدقة العددية: التعقيد الحسابي للمحاكاة العددية عالية الأبعاد
  4. الفجوات النظرية: لم يتم إثبات العمومية الشاملة لقيمة الإنتروبيا القصوى على المكعب

الاتجاهات المستقبلية

  1. توسيع الهندسة: دراسة هندسات LpL^p الأخرى والهياكل الهندسية
  2. التوزيعات غير المستقلة: النظر في الإحداثيات المترابطة لكن الموزعة بشكل متطابق
  3. الكشف الهندسي: تطوير خوارزميات كشف هندسي قائمة على نظرية المعلومات
  4. الشبكات غير المسماة: توسيع تحليل الإنتروبيا إلى الرسوم البيانية غير المسماة

التقييم المتعمق

المزايا

  1. الصرامة النظرية: توفير أول نتائج تحليلية دقيقة لإنتروبيا مجموعات RGG، مع استنتاجات رياضية صارمة وكاملة
  2. ابتكار الطريقة: دمج ذكي لـ CLT متعدد المتغيرات وتوسيع إدجوورث، مما يوفر أدوات جديدة لتحليل الرسوم البيانية الهندسية عالية الأبعاد
  3. عمق النتائج: الكشف عن التأثير الجوهري للهيكل الهندسي وتوزيع العقد ودالة الاتصال على الإنتروبيا
  4. القيمة العملية: توفير أساس نظري لطرق الرسوم البيانية القريبة في تحليل البيانات عالية الأبعاد

أوجه القصور

  1. التعقيد الحسابي: تنطبق الطرق الدقيقة فقط على مشاكل بحجم صغير جداً (n=3)
  2. قيود الافتراضات: قد يكون افتراض استقلالية الإحداثيات قوياً جداً في التطبيقات العملية
  3. التحديات العددية: مشاكل الدقة والكفاءة للطرق العددية عالية الأبعاد
  4. الاكتمال النظري: بعض النتائج المهمة (مثل العمومية الشاملة لقيمة الإنتروبيا القصوى على المكعب) لا تزال تخمينات

التأثير

  1. المساهمة الأكاديمية: توفير منظور معلوماتي جديد لنظرية الرسوم البيانية الهندسية العشوائية
  2. القيمة متعددة التخصصات: ربط نظرية الاحتمالات ونظرية المعلومات وعلم الشبكات
  3. الأهمية المنهجية: يمكن تعميم طريقة تصحيح إدجوورث على مشاكل هندسية عالية الأبعاد أخرى
  4. آفاق التطبيق: توفير دعم نظري لتحليل البيانات الهندسية في التعلم الآلي

السيناريوهات المعمول بها

  1. تحليل البيانات عالية الأبعاد: تحليل فضاء الميزات في مجالات مثل رؤية الحاسوب ومعالجة اللغة الطبيعية
  2. نمذجة الشبكات: الشبكات الاجتماعية والشبكات البيولوجية وغيرها من الشبكات المعقدة ذات الهياكل الهندسية
  3. تصميم الخوارزميات: تحسين الخوارزميات القائمة على المسافة مثل k-nearest neighbor والتجميع
  4. البحث النظري: البحث الأساسي في نظرية الرسوم البيانية العشوائية ونظرية المعلومات والفيزياء الإحصائية

المراجع

تستشهد الورقة بـ 40 مرجعاً مهماً، تغطي:

  • الأدبيات الأساسية لنظرية إنتروبيا الرسم البياني
  • الأعمال الكلاسيكية للرسوم البيانية الهندسية العشوائية
  • طرق نظرية الاحتمالات عالية الأبعاد
  • نظرية المعلومات والنظرية الإحصائية
  • أبحاث المجالات التطبيقية ذات الصلة

التقييم الشامل: هذه ورقة بحثية عالية الجودة حققت اختراقات مهمة في نظرية إنتروبيا الرسوم البيانية الهندسية العشوائية. على الرغم من وجود قيود في التعقيد الحسابي والتطبيقات العملية، فإن مساهماتها النظرية وابتكاراتها المنهجية توفر أساساً متيناً لمزيد من التطور في هذا المجال.