2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

Модель роста Price-Pareto сетей со структурой сообществ

Основная информация

  • ID статьи: 2510.13392
  • Название: The Price-Pareto growth model of networks with community structure
  • Авторы: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • Классификация: physics.soc-ph cs.SI stat.AP
  • Дата публикации: 15 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.13392

Аннотация

В данной работе предложена новая аналитическая база для моделирования последовательностей степеней отдельных сообществ в реальных сетях, например цитирования статей в различных областях. Исследование вдохновлено моделью Price и её недавним обобщением — моделью 3DSI (трёхмерное измерение научного влияния), которая предполагает, что часть цитирований получается случайно, а часть — через предпочтительное присоединение. Мотивация исследования исходит из того, что различные научные дисциплины существенно отличаются по способам роста, включая различные темпы роста, среднюю длину списков ссылок и тенденции к предпочтительному цитированию. Расширение модели 3DSI на гетерогенные сети с структурой сообществ позволяет разработать новые аналитические формулы для расчёта неравенства в количестве цитирований и показателей предпочтительности. Исследование показывает, что распределение цитирований в сообществах стремится к распределению Парето II типа, и предоставляет аналитические формулы для оценки его параметров и коэффициента Джини.

Предпосылки и мотивация исследования

Определение проблемы

Данное исследование направлено на решение проблемы неспособности существующих моделей сетей цитирования эффективно обрабатывать структуру сообществ. Хотя традиционные модели роста сетей, такие как модель Барабаши-Альберт и модель Price, могут объяснить безмасштабные свойства сетей, они основаны на предположении относительной однородности и не могут уловить характеристики сетей с локальной вариативностью, особенно сетей со структурой сообществ.

Значимость проблемы

  1. Различия между дисциплинами: Различные научные дисциплины демонстрируют значительные различия в моделях роста сетей, включая темпы роста, среднюю длину списков ссылок и тенденции предпочтительного цитирования
  2. Универсальность структуры сообществ: Структура сообществ играет важную роль в биологических, городских и социальных сетях, но часто игнорируется в современном моделировании сетей цитирования
  3. Отсутствие аналитических инструментов: Недостаток инструментов, которые одновременно обеспечивают теоретические выводы и обрабатывают структуру сообществ

Ограничения существующих методов

  1. Простые модели сетей: Модели BA, Price, 3DSI, хотя и обладают хорошими аналитическими свойствами, не поддерживают структуру сообществ
  2. Сложные технические модели: Графовые нейронные сети, вариационные автокодировщики графов и т.д., хотя и могут обрабатывать сообщества, но лишены теоретических выводов и требуют интерпретации чёрного ящика
  3. Вычислительно сложные модели: Экспоненциальные случайные графовые модели статистически точны, но требуют значительных вычислений для подгонки к реальным данным

Основные вклады

  1. Предложена модель роста Price-Pareto: Расширение модели 3DSI на гетерогенные сети со структурой сообществ, позволяющее различным сообществам иметь различные параметры
  2. Теоретический анализ: Доказано, что распределение цитирований в сообществах сходится к распределению Парето II типа, выведены соответствующие аналитические формулы
  3. Формулы коэффициента Джини: Предоставлены точные аналитические формулы для расчёта коэффициента Джини внутри сообществ и для всей сети
  4. Методы оценки параметров: Разработаны различные методы оценки параметров, особенно оценки на основе коэффициента Джини
  5. Эмпирическая проверка: Проверена эффективность модели на наборах данных CORA и DBLP

Подробное описание методов

Определение задачи

Входные данные: Сеть цитирования со структурой сообществ Выходные данные: Модели последовательности степеней для каждого сообщества и их параметры Цель: Точное моделирование характеристик распределения цитирований внутри каждого сообщества

Архитектура модели

Обзор базовой модели 3DSI

Основные предположения стандартной модели 3DSI:

  • На каждой итерации добавляется новый узел с m ссылками
  • (1-ρ)m ссылок распределяются случайно (случайные цитирования)
  • ρm ссылок распределяются через предпочтительное присоединение (предпочтительные цитирования)

Рекуррентное соотношение для степени:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

Расширение на структуру сообществ

Ключевые расширения:

  1. Распределение сообществ: Новые узлы распределяются в сообщество i с вероятностью p_i
  2. Гетерогенность параметров: Каждое сообщество имеет собственные параметры m_i и ρ_i
  3. Правила цитирования:
    • Случайные цитирования выбираются случайно из всей сети
    • Предпочтительные цитирования ограничены одним сообществом
    • Самоциклы не допускаются

Рекуррентная формула:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

Расчёт случайного дохода

Моделирование случайности роста сети через отрицательное биномиальное распределение:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

где ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ — взвешенное среднее количество случайных цитирований.

Замкнутое решение

Введение эффективного параметра ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i), получаем замкнутое решение:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

Технические инновации

  1. Концепция локального времени: Введение локального времени относительно размера сообщества, позволяющее обрабатывать сообщества с различными темпами роста
  2. Обработка смешанных распределений: Моделирование случайности роста сети через отрицательное биномиальное распределение для точного расчёта случайного дохода
  3. Эффективные параметры: Введение ν_i как «эффективной» версии ρ из стандартной модели 3DSI, упрощающей анализ
  4. Асимптотический анализ: Доказательство сходимости распределения степеней к распределению Парето II, установление связи между моделью Price и распределением Парето

Экспериментальная установка

Наборы данных

  1. Набор данных CORA:
    • 2 708 узлов, 5 429 рёбер
    • 7 дисциплинарных сообществ
    • Средняя входящая/исходящая степень: 2,005
  2. Сеть авторов DBLP v14:
    • 481 387 узлов, 58 544 370 рёбер
    • 8 крупнейших сообществ
    • Средняя входящая/исходящая степень: 121,616
    • Предварительная обработка данных: агрегирование цитирований статей в цитирования авторов, удаление самоцитирований

Показатели оценки

  1. Подгонка распределения степеней: Сравнение наблюдаемых значений с предсказаниями модели через функции плотности
  2. Точность оценки параметров: Оценка точности различных методов оценки
  3. Коэффициент Джини: Сравнение теоретически рассчитанного и фактически измеренного коэффициента Джини

Методы оценки параметров

Оценка на основе коэффициента Джини (основной метод):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

Альтернативные методы:

  • Оценка на основе количества рёбер в сообществе
  • Решение линейной системы на основе входящей степени

Результаты экспериментов

Основные результаты

  1. Набор данных CORA: Модель хорошо работает во всех 7 сообществах, особенно хорошо подгоняя хвост распределения
  2. Набор данных DBLP: Хорошая подгонка в большинстве из 8 сообществ, хотя некоторые сообщества (например, «Теория управления») показывают худшую подгонку
  3. Вся сеть: Стандартная модель 3DSI и предложенная модель почти идентичны в глобальной последовательности степеней, за исключением различий в хвосте

Результаты оценки параметров

Параметры набора данных CORA:

  • Диапазон m̂_i: 1,798–2,338
  • Диапазон ρ̂_i: 0,457–0,710
  • Диапазон коэффициента Джини: 0,674–0,757

Параметры набора данных DBLP:

  • Диапазон m̂_i: 35,39–144,31
  • Диапазон ρ̂_i: 0,523–0,810
  • Диапазон коэффициента Джини: 0,726–0,814

Ключевые выводы

  1. Гетерогенность параметров: Значительные различия в значениях ρ̂ между различными дисциплинами в одной сети подтверждают, что различные дисциплины имеют различные соотношения случайного и предпочтительного цитирования
  2. Преимущество подгонки хвоста: Модель особенно хорошо подгоняет хвост распределения степеней, что важно для понимания распределения высокоцитируемых статей
  3. Глобальная согласованность: Взвешенное среднее модели сообществ высоко согласуется с глобальной моделью 3DSI

Теоретический анализ

Асимптотические свойства

При t→∞ распределение степеней сходится к распределению Парето II типа:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

Параметры: α = 1/ν_i, λ = ⟨a⟩/ν_i

Формулы коэффициента Джини

Коэффициент Джини внутри сообщества:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

Глобальный коэффициент Джини: Представлен через интеграл смешанного распределения с участием сложных формул гипергеометрических функций и предоставлены практические приближённые формулы.

Связанные работы

Базовые модели роста сетей

  • Модель Price: Первое введение предпочтительного присоединения и явления «богатые становятся богаче»
  • Модель Барабаши-Альберт: Обобщение модели Price с доказательством её математических свойств
  • Модель адаптивности Бьянкони-Барабаши: Введение концепции внутренней «адаптивности» узлов

Модели структуры сообществ

  • Стохастическая блочная модель (SBM): Классическая генеративная модель со структурой сообществ
  • Тематические модели: Такие как скрытое распределение Дирихле (LDA), предсказывающие связи на основе сходства тем
  • Модель отношений и тем (RTM): Комбинирование LDA и предсказания связей

Современные методы

  • Графовые нейронные сети: Такие как графовые сверточные сети, но без статистической точности
  • Экспоненциальные случайные графовые модели: Строгая статистическая база, но вычислительно сложные
  • Модель 3DSI: Прямая основа данной работы, но не поддерживает структуру сообществ

Заключение и обсуждение

Основные выводы

  1. Успешно расширена модель 3DSI на сети со структурой сообществ с сохранением хороших аналитических свойств
  2. Теоретически доказано, что распределение степеней в сообществах сходится к распределению Парето II
  3. Предоставлена полная база для оценки параметров и формулы расчёта коэффициента Джини
  4. Проверена эффективность модели на реальных данных

Ограничения

  1. Глобальная последовательность степеней: Из-за сложности смешивания сообществ невозможно получить простое аналитическое представление глобальной последовательности степеней
  2. Предположения модели: Предполагается, что случайные цитирования равномерно распределены по всей сети, а предпочтительные цитирования ограничены сообществом
  3. Независимость параметров: Значения ν_i не независимы между различными сообществами, что увеличивает сложность анализа
  4. Качество подгонки: Некоторые реальные сообщества сетей не могут быть идеально подогнаны, отражая непредсказуемость поведения реальных сетей

Направления будущих исследований

  1. Генерирование эталонных графов: Разработка алгоритмических основ для обнаружения сообществ
  2. Неоднородные случайные рёбра: Рассмотрение неоднородного распределения случайных рёбер
  3. Параметры, зависящие от времени: Исследование изменения параметров с размером сети
  4. Кросс-дисциплинарное цитирование: Моделирование временных изменений тенденций кросс-дисциплинарного цитирования

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Предоставлены полные математические выводы и асимптотический анализ
  2. Практическая применимость: Методы оценки параметров просты и прямолинейны, легко применяются
  3. Инновационность: Первое рассмотрение структуры сообществ в рамках предпочтительного присоединения
  4. Достаточная проверка: Проверка на двух наборах реальных данных различных масштабов
  5. Полнота анализа: Полная цепь анализа от рекуррентных соотношений к замкнутым решениям и асимптотическим свойствам

Недостатки

  1. Ограничения модели: Правила распределения случайных и предпочтительных цитирований относительно упрощены
  2. Обнаружение сообществ: Зависит от предварительно заданного разбиения сообществ, не рассматривает обнаружение сообществ
  3. Динамичность: Не учитывает эволюцию структуры сообществ во времени
  4. Диапазон проверки: Проверка только на сетях цитирования, применимость к другим типам сетей неизвестна

Влияние

  1. Теоретический вклад: Установление новой связи между моделью Price и распределением Парето
  2. Методология: Предоставление нового инструмента моделирования структуры сообществ для сетевой науки
  3. Прикладная ценность: Прямое применение в наукометрии и анализе сетей
  4. Воспроизводимость: Предоставление чётких алгоритмов и формул, облегчающих воспроизведение

Сценарии применения

  1. Наукометрия: Анализ моделей цитирования различных дисциплин
  2. Социальные сети: Моделирование роста социальных сетей с групповой структурой
  3. Эталонное тестирование: Предоставление эталонных сетей для алгоритмов обнаружения сообществ
  4. Политический анализ: Понимание влияния развития дисциплин и распределения ресурсов

Библиография

Ключевые ссылки включают:

  • Price (1965): Networks of scientific papers — оригинальная модель Price
  • Siudem et al. (2020): Three dimensions of scientific impact — модель 3DSI
  • Albert & Barabási (2002): Statistical mechanics of complex networks — модель BA
  • Fortunato (2010): Community detection in graphs — обзор обнаружения сообществ
  • Holland et al. (1983): Stochastic blockmodels — стохастическая блочная модель

Данная статья вносит важный вклад в пересечение сетевой науки и наукометрии, предоставляя новые теоретические инструменты для понимания роста сетей со структурой сообществ посредством строгого математического анализа и эмпирической проверки.