2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

The Price-Pareto growth model of networks with community structure

基本信息

  • 论文ID: 2510.13392
  • 标题: The Price-Pareto growth model of networks with community structure
  • 作者: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • 分类: physics.soc-ph cs.SI stat.AP
  • 发表时间: 2025年10月15日 (arXiv preprint)
  • 论文链接: https://arxiv.org/abs/2510.13392

摘要

本文提出了一个新的分析框架,用于建模真实网络中各个社区的度序列,例如不同领域论文的引用情况。该工作受到Price模型及其最新推广3DSI(科学影响的三维度)模型的启发,该模型假设引用部分是偶然获得的,部分是优先获得的。研究动机来自现有研究表明不同科学学科在增长方式上存在显著差异,包括不同的增长率、平均参考文献列表长度和优先引用倾向。将3DSI模型扩展到具有社区结构的异构网络,使得能够设计新的分析公式来计算引用数量不平等和优先性度量。研究表明社区中的引用分布趋向于Pareto II型分布,并提供了估计其参数和基尼系数的分析公式。

研究背景与动机

问题定义

该研究旨在解决现有引用网络模型无法有效处理社区结构的问题。传统的网络增长模型如Barabási-Albert模型和Price模型虽然能够解释网络的无标度特性,但它们基于相对同质性假设,无法捕捉具有局部变异性的网络特征,特别是具有社区结构的网络。

问题重要性

  1. 学科差异性: 不同科学学科在网络增长模式上存在显著差异,包括增长率、平均参考文献长度和优先引用倾向
  2. 社区结构的普遍性: 社区结构在生物、城市和社会网络中都起着重要作用,但在现代引用网络建模中经常被忽视
  3. 分析工具缺失: 缺乏能够同时提供理论洞察和处理社区结构的分析工具

现有方法局限性

  1. 简单网络模型: BA模型、Price模型、3DSI模型虽然有良好的分析性质,但不支持社区结构
  2. 复杂技术模型: 图神经网络、图变分自编码器等虽然能处理社区,但缺乏理论洞察且需要黑盒解释
  3. 计算复杂模型: 指数随机图模型虽然统计上精确,但需要大量计算来拟合真实数据

核心贡献

  1. 提出Price-Pareto增长模型: 将3DSI模型扩展到具有社区结构的异构网络,允许不同社区具有不同的参数
  2. 理论分析: 证明了社区内引用分布收敛到Pareto II型分布,并推导了相关的分析公式
  3. 基尼系数公式: 提供了计算社区内和整体网络基尼系数的精确分析公式
  4. 参数估计方法: 开发了多种参数估计方法,特别是基于基尼系数的估计器
  5. 实证验证: 在CORA和DBLP数据集上验证了模型的有效性

方法详解

任务定义

输入: 具有社区结构的引用网络 输出: 各社区的度序列模型及其参数 目标: 准确建模各社区内部的引用分布特征

模型架构

基础3DSI模型回顾

标准3DSI模型的核心假设:

  • 每次迭代添加一个新节点,分配m个引用
  • (1-ρ)m个引用随机分配(偶然引用)
  • ρm个引用按优先连接分配(优先引用)

度的递推关系:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

社区结构扩展

关键扩展

  1. 社区分配: 新节点以概率p_i分配到社区i
  2. 参数异构性: 每个社区有自己的m_i和ρ_i参数
  3. 引用规则:
    • 偶然引用从整个网络随机选择
    • 优先引用仅从同一社区选择
    • 不允许自环

递推公式

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

偶然收入计算

通过负二项分布建模网络增长的随机性:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

其中⟨a⟩ = ⟨m⟩ - ⟨ρm⟩是加权平均偶然引用数。

闭式解

引入有效参数ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i),得到闭式解:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

技术创新点

  1. 局部时间概念: 引入相对于社区大小的局部时间,使得能够处理不同增长率的社区
  2. 混合分布处理: 通过负二项分布建模网络增长的随机性,精确计算偶然收入
  3. 有效参数: 引入ν_i作为标准3DSI模型中ρ的"有效"版本,简化分析
  4. 渐近分析: 证明度分布收敛到Pareto II分布,建立了Price模型与Pareto分布的联系

实验设置

数据集

  1. CORA数据集:
    • 2,708个节点,5,429条边
    • 7个学科社区
    • 平均入度/出度:2.005
  2. DBLP v14作者网络:
    • 481,387个节点,58,544,370条边
    • 8个最大社区
    • 平均入度/出度:121.616
    • 数据预处理:聚合论文引用为作者引用,移除自引

评价指标

  1. 度分布拟合: 通过密度函数比较观察值与模型预测
  2. 参数估计精度: 评估不同估计方法的准确性
  3. 基尼系数: 比较理论计算与实际测量的基尼系数

参数估计方法

基于基尼系数的估计器(主要方法):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

替代方法

  • 基于社区内边数的估计器
  • 基于入度和方程的线性系统求解

实验结果

主要结果

  1. CORA数据集: 模型在所有7个社区中都表现良好,特别是在分布尾部的拟合效果优秀
  2. DBLP数据集: 在8个社区中的大多数都有良好拟合,尽管某些社区(如"Control theory")拟合效果较差
  3. 整体网络: 标准3DSI模型与本文模型在全局度序列上几乎相同,除了尾部差异

参数估计结果

CORA数据集参数

  • m̂_i范围:1.798-2.338
  • ρ̂_i范围:0.457-0.710
  • 基尼系数范围:0.674-0.757

DBLP数据集参数

  • m̂_i范围:35.39-144.31
  • ρ̂_i范围:0.523-0.810
  • 基尼系数范围:0.726-0.814

关键发现

  1. 参数异构性: 同一网络内不同学科的ρ̂值存在较大差异,证实了不同学科具有不同的偶然性-优先性引用比例
  2. 尾部拟合优势: 模型在度分布尾部的拟合效果特别好,这对于理解高引用论文的分布模式很重要
  3. 全局一致性: 社区模型的加权平均与全局3DSI模型高度一致

理论分析

渐近性质

当t→∞时,度分布收敛到Pareto II型分布:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

参数:α = 1/ν_i,λ = ⟨a⟩/ν_i

基尼系数公式

社区内基尼系数

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

整体基尼系数: 通过混合分布的积分表示,涉及超几何函数的复杂公式,并提供了实用的近似公式。

相关工作

基础网络增长模型

  • Price模型: 首次引入优先连接和"富者愈富"现象
  • Barabási-Albert模型: 推广Price模型并证明其数学性质
  • Bianconi-Barabási适应度模型: 引入节点内在"适应度"概念

社区结构模型

  • 随机块模型(SBM): 经典的具有社区结构的生成模型
  • 主题模型: 如潜在狄利克雷分配(LDA),基于主题相似性预测链接
  • 关系主题模型(RTM): 结合LDA和链接预测

现代方法

  • 图神经网络: 如图卷积网络,但缺乏统计精确性
  • 指数随机图模型: 统计框架严格但计算复杂
  • 3DSI模型: 本文的直接基础,但不支持社区结构

结论与讨论

主要结论

  1. 成功将3DSI模型扩展到社区结构网络,保持了良好的分析性质
  2. 理论上证明了社区度分布收敛到Pareto II分布
  3. 提供了完整的参数估计框架和基尼系数计算公式
  4. 在真实数据上验证了模型的有效性

局限性

  1. 全局度序列: 由于社区混合的复杂性,无法得到全局度序列的简单分析表示
  2. 模型假设: 假设偶然引用在全网络均匀分布,优先引用仅限社区内
  3. 参数独立性: ν_i值在不同社区间不独立,增加了分析复杂性
  4. 拟合质量: 某些真实网络社区无法完美拟合,反映了真实网络行为的不可预测性

未来方向

  1. 基准图生成: 开发用于社区检测的算法框架
  2. 非均匀偶然边: 考虑偶然边的非均匀分布
  3. 时变参数: 研究参数随网络规模变化的情况
  4. 跨学科引用: 建模跨学科引用趋势的时间变化

深度评价

优点

  1. 理论严谨: 提供了完整的数学推导和渐近分析
  2. 实用性强: 参数估计方法简单直接,易于应用
  3. 创新性: 首次在优先连接框架下处理社区结构
  4. 验证充分: 在两个不同规模的真实数据集上验证
  5. 分析完整: 从递推关系到闭式解再到渐近性质的完整分析链

不足

  1. 模型限制: 对偶然引用和优先引用的分配规则较为简化
  2. 社区检测: 依赖于预先给定的社区划分,未涉及社区发现
  3. 动态性: 未考虑社区结构随时间的演化
  4. 验证范围: 仅在引用网络上验证,其他类型网络的适用性未知

影响力

  1. 理论贡献: 建立了Price模型与Pareto分布的新联系
  2. 方法论: 为网络科学提供了新的社区结构建模工具
  3. 应用价值: 对科学计量学和网络分析具有直接应用价值
  4. 可复现性: 提供了清晰的算法和公式,易于复现

适用场景

  1. 科学计量: 分析不同学科的引用模式
  2. 社交网络: 建模具有群体结构的社交网络增长
  3. 基准测试: 为社区检测算法提供基准网络
  4. 政策分析: 理解学科发展和资源分配的影响

参考文献

关键参考文献包括:

  • Price (1965): Networks of scientific papers - 原始Price模型
  • Siudem et al. (2020): Three dimensions of scientific impact - 3DSI模型
  • Albert & Barabási (2002): Statistical mechanics of complex networks - BA模型
  • Fortunato (2010): Community detection in graphs - 社区检测综述
  • Holland et al. (1983): Stochastic blockmodels - 随机块模型

本论文在网络科学和科学计量学的交叉领域做出了重要贡献,通过严谨的数学分析和实证验证,为理解具有社区结构的网络增长提供了新的理论工具。