2025-11-21T11:49:15.652907

Entropy of Random Geometric Graphs in High and Low Dimensions

Baker, Dettmann
We use a multivariate central limit theorem (CLT) to study the distribution of random geometric graphs (RGGs) on the cube and torus in the high-dimensional limit with general node distributions. We find that the distribution of RGGs on the torus converges to the Erd\H os-Rényi (ER) ensemble when the nodes are uniformly distributed, but that the distribution for RGGs with non-uniformly distributed nodes on the torus, and for RGGs with any distribution of nodes with kurtosis greater than 1 on the cube is different. In these cases, the distribution has a lower maximum entropy than the ER ensemble, but is still symmetric. Soft RGGs in either geometry converge to the ER ensemble. An Edgeworth correction to the CLT is then developed to derive the $\mathcal{O}\left(d^{-\frac{1}{2}}\right)$ sub-leading term of the Shannon entropy of RGGs in dimension for both geometries. We also provide numerical approximations of maximum entropy in low-dimensional hard and soft RGGs, and calculate exactly the entropy of hard RGGs with 3 nodes in the one-dimensional cube and torus.
academic

Энтропия случайных геометрических графов в высоких и низких размерностях

Основная информация

  • ID статьи: 2503.11418
  • Название: Entropy of Random Geometric Graphs in High and Low Dimensions
  • Авторы: Oliver Baker, Carl P. Dettmann (Университет Бристоля)
  • Классификация: math.PR (теория вероятностей)
  • Дата публикации: 26 августа 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2503.11418v3

Аннотация

В данной работе используется многомерная центральная предельная теорема (ЦПТ) для исследования предельных распределений случайных геометрических графов (СГГ) в высоких размерностях на кубе и торе. Установлено, что при равномерном распределении узлов СГГ на торе сходятся к распределению Эрдёша-Реньи (ЭР), однако для СГГ с неравномерным распределением узлов на торе и для СГГ на кубе с любым распределением узлов, имеющим эксцесс больше 1, распределения отличаются от ЭР. В этих случаях максимальная энтропия распределения ниже, чем у ЭР, но сохраняет симметрию. Мягкие СГГ сходятся к ЭР в обеих геометрических структурах. Разработаны поправки Эджворта к ЦПТ и получены главные члены порядка O(d1/2)\mathcal{O}(d^{-1/2}) энтропии Шеннона СГГ в зависимости от размерности для обеих геометрических структур.

Исследовательский контекст и мотивация

Проблемный контекст

  1. Необходимость понимания сложности сетей: В современной науке о данных, от компьютерного зрения до больших языковых моделей, задействованы высокомерные наборы данных. Например, набор данных MNIST содержит 784 признака, а пространство встраивания GPT-3 имеет размерность 12288. Понимание геометрических свойств конструкции сетей в высокомерном пространстве имеет критическое значение.
  2. Развитие теории энтропии графов: С момента введения Рашевским концепции энтропии графов в 1955 году определение неопределённости или сложности случайных сетей стало важной областью исследований, включая различные определения: энтропия Шеннона, энтропия фон Неймана, энтропия Гиббса и другие.
  3. Ограничения случайных геометрических графов: Хотя модель СГГ хорошо изучена в отношении перколяции, связности и мер центральности, свойства, относящиеся к совокупности графов (такие как энтропия Шеннона), исследованы недостаточно, особенно в высокомерном случае.

Исследовательская мотивация

  1. Теоретический пробел: В настоящее время невозможно аналитически максимизировать энтропию неограниченной совокупности графов, за исключением случаев, когда она обусловлена положениями узлов
  2. Поведение в высоких размерностях: Необходимо понять, сходятся ли СГГ к графам ЭР в высокомерном пределе и какова масштабирующая поведение энтропии
  3. Практическое применение: Обеспечение теоретической базы для алгоритмов графов соседства в высокомерных данных

Основные вклады

  1. Первые аналитические вычисления: Аналитическое вычисление энтропии совокупности жёстких СГГ с 3 узлами на одномерном кубе и торе
  2. Методы численного моделирования: Разработка численных методов приближения максимальной энтропии мягких СГГ в низких размерностях
  3. Теория сходимости: Доказательство отклонения жёстких СГГ с неравномерно распределёнными узлами на торе TdT^d от предела ЭР
  4. Универсальные результаты: Доказательство того, что жёсткие СГГ с любым распределением независимых одинаково распределённых узлов, имеющим эксцесс больше 1, на кубе [0,1]d[0,1]^d никогда не сходятся к пределу ЭР
  5. Масштабирование по размерности: Использование поправок Эджворта для вывода закона масштабирования энтропии СГГ по размерности для обеих геометрических структур

Подробное описание методов

Определение задачи

Исследование энтропии Шеннона совокупности случайных геометрических графов, где:

  • Входные данные: геометрическая область (куб или тор), распределение узлов, радиус связи
  • Выходные данные: энтропия совокупности графов и её поведение в высокомерном пределе
  • Ограничения: фиксированное число узлов n, радиус связи r0r_0 зависит от d при dd \to \infty

Основная математическая база

1. Определение случайных геометрических графов

Жёсткие СГГ: ребро (i,j)(i,j) существует тогда и только тогда, когда ρ(Xi,Xj)r0\rho(X_i, X_j) \leq r_0Мягкие СГГ: ребро (i,j)(i,j) существует с вероятностью p(ρ(Xi,Xj)/r0)p(\rho(X_i, X_j)/r_0)

2. Метрики расстояния

  • Куб: евклидово расстояние x\|x\|
  • Тор: ρT(x,y)=i=1dmin(xiyi,1xiyi)2\rho_T(x,y) = \sqrt{\sum_{i=1}^d \min(|x_i - y_i|, 1-|x_i - y_i|)^2}

3. Рамки центральной предельной теоремы

Определение нормализованного расстояния: qij=1dk=1dqijkq_{ij} = \frac{1}{\sqrt{d}}\sum_{k=1}^d q_{ij}^k где qijk=XikXjk2μcq_{ij}^k = |X_i^k - X_j^k|^2 - \mu_c

Технические инновации

1. Применение многомерной ЦПТ

Преобразование задачи высокомерного расстояния в многомерное гауссовское распределение, где структура матрицы ковариации Σ\Sigma определяет поведение сходимости:

  • Тор с равномерным распределением: ΣT\Sigma_T — диагональная матрица → сходимость к ЭР
  • Куб с любым распределением: Σc\Sigma_c — недиагональная → отсутствие сходимости к ЭР

2. Критерий различения по эксцессу

Доказано, что некоррелированность соседних расстояний эквивалентна условию, что эксцесс распределения координат равен 1, что выполняется только для распределения Бернулли с параметром 1/2.

3. Разложение Эджворта

Разработано трёхпорядковое уточнение: f(q)N(0,Σ)(q)[1+16dα=3E[qα]Hα(q)]f(q) \approx N(0,\Sigma)(q)\left[1 + \frac{1}{6\sqrt{d}}\sum_{|\alpha|=3} E[q^\alpha]H_\alpha(q)\right]

Экспериментальная установка

Точные вычисления в низких размерностях

  • Размерность: d=1, n=3
  • Геометрия: одномерный куб 0,1 и тор T¹
  • Метод: аналитическое интегрирование для вычисления вероятностей каждого графа pkp_k

Численное моделирование

  • Диапазон параметров: d∈{1,2,3}, n=3
  • Количество выборок: L=10⁸ графов
  • Функции связи: затухание Рэлея p(r/r0)=exp((r/r0)η)p(r/r_0) = \exp(-(r/r_0)^η), η∈{1,2,3,4,5,6} и жёсткая связь

Анализ в высоких размерностях

  • Распределения узлов: равномерное распределение, усечённое гауссовское распределение
  • Критерии сходимости: анализ структуры матрицы ковариации

Результаты экспериментов

Основные результаты

1. Точные вычисления энтропии (d=1, n=3)

Тор T¹:

  • Оптимальный радиус связи: r0^=1/4\hat{r_0} = 1/4
  • Максимальная средняя вероятность связи: pˉmax=1/2\bar{p}_{max} = 1/2

Куб 0,1:

  • Оптимальный радиус связи: r0^=0.283\hat{r_0} = 0.283
  • Максимальная средняя вероятность связи: pˉmax=0.4861/2\bar{p}_{max} = 0.486 \neq 1/2

2. Численные результаты в низких размерностях

Таблица 3 показывает максимальную энтропию для различных геометрий и функций связи:

Геометрияη=1η=2η=3η=4η=5η=6Жёсткая
0,12.9942.9452.8882.8492.8262.8122.771
2.9982.9822.9292.8932.8702.8542.812

Наблюдения:

  • Мягкие СГГ приближаются к максимальной энтропии 3.0
  • Энтропия уменьшается с увеличением η
  • Энтропия на торе систематически выше, чем на кубе

3. Поведение сходимости в высоких размерностях

Резюме теорем:

ГеометрияФункция связиСходится к G(n,p)?Поведение энтропии
TdT^d - равномерные узлыЖёсткая= H(G(n,p))
TdT^d - неравномерные узлыЖёсткая< H(G(n,p))
TdT^dМягкая= H(G(n,p))
[0,1]d[0,1]^dЖёсткая< H(G(n,p))
[0,1]d[0,1]^dМягкая= H(G(n,p))

Абляционные эксперименты

Эффект поправок Эджворта

На рисунке 5 показаны оценки энтропии жёстких СГГ с 4 узлами:

  • Гауссовское приближение: только ЦПТ
  • Поправка Эджворта: включение члена O(d1/2)O(d^{-1/2})
  • Численное моделирование: метод Монте-Карло

Результаты показывают, что оценка Эджворта точна до 2 знаков после запятой при d≥15.

Связанные работы

Теория энтропии графов

  • Рашевский (1955): первое введение концепции энтропии графов
  • Информационно-теоретические подходы: энтропия Шеннона, энтропия фон Неймана и другие определения
  • Пространственные сети: исследование энтропии совокупностей пространственных сетей Кун и др.

Высокомерные случайные геометрические графы

  • Девруа и др. (2011): сходимость СГГ на единичной сфере к графам ЭР
  • Эрба и др. (2020): отклонение числа клик СГГ на гиперкубе от предела ЭР
  • Геометрическое обнаружение: использование подписанных треугольников, распространения убеждений и других методов

Технические методы

  • Центральная предельная теорема: применение многомерной ЦПТ в высокомерной геометрии
  • Разложение Эджворта: теория высокопорядковых уточнений

Заключение и обсуждение

Основные выводы

  1. Значимость геометрической структуры: Периодические граничные условия тора и граничные эффекты куба приводят к различному поведению сходимости
  2. Влияние распределения узлов: Только равномерное распределение на торе достигает предела ЭР
  3. Роль функции связи: Мягкие функции связи устраняют зависимость от расстояния и всегда сходятся к совокупности ЭР
  4. Масштабирование по размерности: Скорость отклонения энтропии от высокомерного предела составляет O(d1/2)O(d^{-1/2})

Ограничения

  1. Ограничение на число узлов: Точные вычисления применимы только к малым n (n≤7)
  2. Предположения о распределении: Требуется независимость и одинаковая распределённость координат
  3. Численная точность: Вычислительная сложность численного моделирования в высоких размерностях
  4. Теоретические пробелы: Глобальность максимума энтропии на кубе ещё не доказана

Направления будущих исследований

  1. Расширение геометрий: Исследование других LpL^p шаров и геометрических структур
  2. Зависимые распределения: Рассмотрение коррелированных, но одинаково распределённых координат
  3. Геометрическое обнаружение: Разработка алгоритмов обнаружения геометрии на основе информационной теории
  4. Неразмеченные сети: Расширение анализа энтропии на неразмеченные графы

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Впервые предоставлены точные аналитические результаты для энтропии совокупностей СГГ, математические выводы полны и безупречны
  2. Методологические инновации: Искусное сочетание многомерной ЦПТ и разложения Эджворта предоставляет новые инструменты для анализа высокомерных геометрических графов
  3. Глубокие результаты: Раскрыто существенное влияние геометрической структуры, распределения узлов и функции связи на энтропию
  4. Практическая ценность: Обеспечение теоретической базы для методов графов соседства в анализе высокомерных данных

Недостатки

  1. Вычислительная сложность: Точные методы применимы только к задачам минимального масштаба (n=3)
  2. Ограничения предположений: Предположение о независимости координат может быть слишком строгим для практических приложений
  3. Численные вызовы: Проблемы точности и эффективности численных методов в высоких размерностях
  4. Полнота теории: Некоторые важные результаты (например, глобальность максимума энтропии на кубе) остаются гипотезами

Влияние

  1. Академический вклад: Предоставление новой информационно-теоретической перспективы на теорию случайных геометрических графов
  2. Междисциплинарная ценность: Связь теории вероятностей, информационной теории и науки о сетях
  3. Методологическое значение: Методы разложения Эджворта могут быть обобщены на другие задачи высокомерной геометрии
  4. Перспективы применения: Обеспечение теоретической поддержки для анализа геометрических данных в машинном обучении

Применимые сценарии

  1. Анализ высокомерных данных: Анализ пространства признаков в компьютерном зрении, обработке естественного языка и других областях
  2. Моделирование сетей: Социальные сети, биологические сети и другие сложные сети с геометрической структурой
  3. Проектирование алгоритмов: Оптимизация алгоритмов k-ближайших соседей, кластеризации и других методов, основанных на расстояниях
  4. Теоретические исследования: Фундаментальные исследования в теории случайных графов, информационной теории и статистической физике

Библиография

Статья цитирует 40 важных источников, охватывающих:

  • Фундаментальные работы по теории энтропии графов
  • Классические работы по случайным геометрическим графам
  • Методы высокомерной теории вероятностей
  • Теорию информации и статистику
  • Исследования в смежных областях применения

Общая оценка: Это высокачественная теоретическая работа, достигшая значительного прорыва в теории энтропии случайных геометрических графов. Хотя существуют ограничения в вычислительной сложности и практическом применении, её теоретические вклады и методологические инновации создают прочную основу для дальнейшего развития этой области.