The Price-Pareto growth model of networks with community structure
Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic
Модель роста Price-Pareto сетей со структурой сообществ
В данной работе предложена новая аналитическая база для моделирования последовательностей степеней отдельных сообществ в реальных сетях, например цитирования статей в различных областях. Исследование вдохновлено моделью Price и её недавним обобщением — моделью 3DSI (трёхмерное измерение научного влияния), которая предполагает, что часть цитирований получается случайно, а часть — через предпочтительное присоединение. Мотивация исследования исходит из того, что различные научные дисциплины существенно отличаются по способам роста, включая различные темпы роста, среднюю длину списков ссылок и тенденции к предпочтительному цитированию. Расширение модели 3DSI на гетерогенные сети с структурой сообществ позволяет разработать новые аналитические формулы для расчёта неравенства в количестве цитирований и показателей предпочтительности. Исследование показывает, что распределение цитирований в сообществах стремится к распределению Парето II типа, и предоставляет аналитические формулы для оценки его параметров и коэффициента Джини.
Данное исследование направлено на решение проблемы неспособности существующих моделей сетей цитирования эффективно обрабатывать структуру сообществ. Хотя традиционные модели роста сетей, такие как модель Барабаши-Альберт и модель Price, могут объяснить безмасштабные свойства сетей, они основаны на предположении относительной однородности и не могут уловить характеристики сетей с локальной вариативностью, особенно сетей со структурой сообществ.
Различия между дисциплинами: Различные научные дисциплины демонстрируют значительные различия в моделях роста сетей, включая темпы роста, среднюю длину списков ссылок и тенденции предпочтительного цитирования
Универсальность структуры сообществ: Структура сообществ играет важную роль в биологических, городских и социальных сетях, но часто игнорируется в современном моделировании сетей цитирования
Отсутствие аналитических инструментов: Недостаток инструментов, которые одновременно обеспечивают теоретические выводы и обрабатывают структуру сообществ
Простые модели сетей: Модели BA, Price, 3DSI, хотя и обладают хорошими аналитическими свойствами, не поддерживают структуру сообществ
Сложные технические модели: Графовые нейронные сети, вариационные автокодировщики графов и т.д., хотя и могут обрабатывать сообщества, но лишены теоретических выводов и требуют интерпретации чёрного ящика
Вычислительно сложные модели: Экспоненциальные случайные графовые модели статистически точны, но требуют значительных вычислений для подгонки к реальным данным
Предложена модель роста Price-Pareto: Расширение модели 3DSI на гетерогенные сети со структурой сообществ, позволяющее различным сообществам иметь различные параметры
Теоретический анализ: Доказано, что распределение цитирований в сообществах сходится к распределению Парето II типа, выведены соответствующие аналитические формулы
Формулы коэффициента Джини: Предоставлены точные аналитические формулы для расчёта коэффициента Джини внутри сообществ и для всей сети
Методы оценки параметров: Разработаны различные методы оценки параметров, особенно оценки на основе коэффициента Джини
Эмпирическая проверка: Проверена эффективность модели на наборах данных CORA и DBLP
Входные данные: Сеть цитирования со структурой сообществ
Выходные данные: Модели последовательности степеней для каждого сообщества и их параметры
Цель: Точное моделирование характеристик распределения цитирований внутри каждого сообщества
Концепция локального времени: Введение локального времени относительно размера сообщества, позволяющее обрабатывать сообщества с различными темпами роста
Обработка смешанных распределений: Моделирование случайности роста сети через отрицательное биномиальное распределение для точного расчёта случайного дохода
Эффективные параметры: Введение ν_i как «эффективной» версии ρ из стандартной модели 3DSI, упрощающей анализ
Асимптотический анализ: Доказательство сходимости распределения степеней к распределению Парето II, установление связи между моделью Price и распределением Парето
Гетерогенность параметров: Значительные различия в значениях ρ̂ между различными дисциплинами в одной сети подтверждают, что различные дисциплины имеют различные соотношения случайного и предпочтительного цитирования
Преимущество подгонки хвоста: Модель особенно хорошо подгоняет хвост распределения степеней, что важно для понимания распределения высокоцитируемых статей
Глобальная согласованность: Взвешенное среднее модели сообществ высоко согласуется с глобальной моделью 3DSI
Глобальный коэффициент Джини:
Представлен через интеграл смешанного распределения с участием сложных формул гипергеометрических функций и предоставлены практические приближённые формулы.
Глобальная последовательность степеней: Из-за сложности смешивания сообществ невозможно получить простое аналитическое представление глобальной последовательности степеней
Предположения модели: Предполагается, что случайные цитирования равномерно распределены по всей сети, а предпочтительные цитирования ограничены сообществом
Независимость параметров: Значения ν_i не независимы между различными сообществами, что увеличивает сложность анализа
Качество подгонки: Некоторые реальные сообщества сетей не могут быть идеально подогнаны, отражая непредсказуемость поведения реальных сетей
Price (1965): Networks of scientific papers — оригинальная модель Price
Siudem et al. (2020): Three dimensions of scientific impact — модель 3DSI
Albert & Barabási (2002): Statistical mechanics of complex networks — модель BA
Fortunato (2010): Community detection in graphs — обзор обнаружения сообществ
Holland et al. (1983): Stochastic blockmodels — стохастическая блочная модель
Данная статья вносит важный вклад в пересечение сетевой науки и наукометрии, предоставляя новые теоретические инструменты для понимания роста сетей со структурой сообществ посредством строгого математического анализа и эмпирической проверки.