We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
论文ID : 2510.13392标题 : The Price-Pareto growth model of networks with community structure作者 : Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem分类 : physics.soc-ph cs.SI stat.AP发表时间 : 2025年10月15日 (arXiv preprint)论文链接 : https://arxiv.org/abs/2510.13392 本文提出了一个新的分析框架,用于建模真实网络中各个社区的度序列,例如不同领域论文的引用情况。该工作受到Price模型及其最新推广3DSI(科学影响的三维度)模型的启发,该模型假设引用部分是偶然获得的,部分是优先获得的。研究动机来自现有研究表明不同科学学科在增长方式上存在显著差异,包括不同的增长率、平均参考文献列表长度和优先引用倾向。将3DSI模型扩展到具有社区结构的异构网络,使得能够设计新的分析公式来计算引用数量不平等和优先性度量。研究表明社区中的引用分布趋向于Pareto II型分布,并提供了估计其参数和基尼系数的分析公式。
该研究旨在解决现有引用网络模型无法有效处理社区结构的问题。传统的网络增长模型如Barabási-Albert模型和Price模型虽然能够解释网络的无标度特性,但它们基于相对同质性假设,无法捕捉具有局部变异性的网络特征,特别是具有社区结构的网络。
学科差异性 : 不同科学学科在网络增长模式上存在显著差异,包括增长率、平均参考文献长度和优先引用倾向社区结构的普遍性 : 社区结构在生物、城市和社会网络中都起着重要作用,但在现代引用网络建模中经常被忽视分析工具缺失 : 缺乏能够同时提供理论洞察和处理社区结构的分析工具简单网络模型 : BA模型、Price模型、3DSI模型虽然有良好的分析性质,但不支持社区结构复杂技术模型 : 图神经网络、图变分自编码器等虽然能处理社区,但缺乏理论洞察且需要黑盒解释计算复杂模型 : 指数随机图模型虽然统计上精确,但需要大量计算来拟合真实数据提出Price-Pareto增长模型 : 将3DSI模型扩展到具有社区结构的异构网络,允许不同社区具有不同的参数理论分析 : 证明了社区内引用分布收敛到Pareto II型分布,并推导了相关的分析公式基尼系数公式 : 提供了计算社区内和整体网络基尼系数的精确分析公式参数估计方法 : 开发了多种参数估计方法,特别是基于基尼系数的估计器实证验证 : 在CORA和DBLP数据集上验证了模型的有效性输入 : 具有社区结构的引用网络
输出 : 各社区的度序列模型及其参数
目标 : 准确建模各社区内部的引用分布特征
标准3DSI模型的核心假设:
每次迭代添加一个新节点,分配m个引用 (1-ρ)m个引用随机分配(偶然引用) ρm个引用按优先连接分配(优先引用) 度的递推关系:
d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]
关键扩展 :
社区分配 : 新节点以概率p_i分配到社区i参数异构性 : 每个社区有自己的m_i和ρ_i参数引用规则 :
偶然引用从整个网络随机选择 优先引用仅从同一社区选择 不允许自环 递推公式 :
d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]
通过负二项分布建模网络增长的随机性:
其中⟨a⟩ = ⟨m⟩ - ⟨ρm⟩是加权平均偶然引用数。
引入有效参数ν_i = ρ_im_i/(⟨a⟩ + ρ_i m_i),得到闭式解:
d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]
局部时间概念 : 引入相对于社区大小的局部时间,使得能够处理不同增长率的社区混合分布处理 : 通过负二项分布建模网络增长的随机性,精确计算偶然收入有效参数 : 引入ν_i作为标准3DSI模型中ρ的"有效"版本,简化分析渐近分析 : 证明度分布收敛到Pareto II分布,建立了Price模型与Pareto分布的联系CORA数据集 :2,708个节点,5,429条边 7个学科社区 平均入度/出度:2.005 DBLP v14作者网络 :481,387个节点,58,544,370条边 8个最大社区 平均入度/出度:121.616 数据预处理:聚合论文引用为作者引用,移除自引 度分布拟合 : 通过密度函数比较观察值与模型预测参数估计精度 : 评估不同估计方法的准确性基尼系数 : 比较理论计算与实际测量的基尼系数基于基尼系数的估计器 (主要方法):
m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]
替代方法 :
基于社区内边数的估计器 基于入度和方程的线性系统求解 CORA数据集 : 模型在所有7个社区中都表现良好,特别是在分布尾部的拟合效果优秀DBLP数据集 : 在8个社区中的大多数都有良好拟合,尽管某些社区(如"Control theory")拟合效果较差整体网络 : 标准3DSI模型与本文模型在全局度序列上几乎相同,除了尾部差异CORA数据集参数 :
m̂_i范围:1.798-2.338 ρ̂_i范围:0.457-0.710 基尼系数范围:0.674-0.757 DBLP数据集参数 :
m̂_i范围:35.39-144.31 ρ̂_i范围:0.523-0.810 基尼系数范围:0.726-0.814 参数异构性 : 同一网络内不同学科的ρ̂值存在较大差异,证实了不同学科具有不同的偶然性-优先性引用比例尾部拟合优势 : 模型在度分布尾部的拟合效果特别好,这对于理解高引用论文的分布模式很重要全局一致性 : 社区模型的加权平均与全局3DSI模型高度一致当t→∞时,度分布收敛到Pareto II型分布:
f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}
参数:α = 1/ν_i,λ = ⟨a⟩/ν_i
社区内基尼系数 :
G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)
整体基尼系数 :
通过混合分布的积分表示,涉及超几何函数的复杂公式,并提供了实用的近似公式。
Price模型 : 首次引入优先连接和"富者愈富"现象Barabási-Albert模型 : 推广Price模型并证明其数学性质Bianconi-Barabási适应度模型 : 引入节点内在"适应度"概念随机块模型(SBM) : 经典的具有社区结构的生成模型主题模型 : 如潜在狄利克雷分配(LDA),基于主题相似性预测链接关系主题模型(RTM) : 结合LDA和链接预测图神经网络 : 如图卷积网络,但缺乏统计精确性指数随机图模型 : 统计框架严格但计算复杂3DSI模型 : 本文的直接基础,但不支持社区结构成功将3DSI模型扩展到社区结构网络,保持了良好的分析性质 理论上证明了社区度分布收敛到Pareto II分布 提供了完整的参数估计框架和基尼系数计算公式 在真实数据上验证了模型的有效性 全局度序列 : 由于社区混合的复杂性,无法得到全局度序列的简单分析表示模型假设 : 假设偶然引用在全网络均匀分布,优先引用仅限社区内参数独立性 : ν_i值在不同社区间不独立,增加了分析复杂性拟合质量 : 某些真实网络社区无法完美拟合,反映了真实网络行为的不可预测性基准图生成 : 开发用于社区检测的算法框架非均匀偶然边 : 考虑偶然边的非均匀分布时变参数 : 研究参数随网络规模变化的情况跨学科引用 : 建模跨学科引用趋势的时间变化理论严谨 : 提供了完整的数学推导和渐近分析实用性强 : 参数估计方法简单直接,易于应用创新性 : 首次在优先连接框架下处理社区结构验证充分 : 在两个不同规模的真实数据集上验证分析完整 : 从递推关系到闭式解再到渐近性质的完整分析链模型限制 : 对偶然引用和优先引用的分配规则较为简化社区检测 : 依赖于预先给定的社区划分,未涉及社区发现动态性 : 未考虑社区结构随时间的演化验证范围 : 仅在引用网络上验证,其他类型网络的适用性未知理论贡献 : 建立了Price模型与Pareto分布的新联系方法论 : 为网络科学提供了新的社区结构建模工具应用价值 : 对科学计量学和网络分析具有直接应用价值可复现性 : 提供了清晰的算法和公式,易于复现科学计量 : 分析不同学科的引用模式社交网络 : 建模具有群体结构的社交网络增长基准测试 : 为社区检测算法提供基准网络政策分析 : 理解学科发展和资源分配的影响关键参考文献包括:
Price (1965): Networks of scientific papers - 原始Price模型 Siudem et al. (2020): Three dimensions of scientific impact - 3DSI模型 Albert & Barabási (2002): Statistical mechanics of complex networks - BA模型 Fortunato (2010): Community detection in graphs - 社区检测综述 Holland et al. (1983): Stochastic blockmodels - 随机块模型 本论文在网络科学和科学计量学的交叉领域做出了重要贡献,通过严谨的数学分析和实证验证,为理解具有社区结构的网络增长提供了新的理论工具。