We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
論文ID : 2510.13392タイトル : The Price-Pareto growth model of networks with community structure著者 : Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem分類 : physics.soc-ph cs.SI stat.AP発表日 : 2025年10月15日 (arXiv preprint)論文リンク : https://arxiv.org/abs/2510.13392 本論文は、異なる分野の論文引用など、実ネットワーク内の各コミュニティの次数列をモデル化するための新しい分析フレームワークを提案している。本研究はPriceモデルおよびその最新の一般化である3DSI(科学的影響の三次元)モデルに触発されており、このモデルは引用の一部が偶然に獲得され、一部が優先的に獲得されると仮定している。研究の動機は、異なる科学分野が成長方法において大きな違いを示すことを示す既存研究に由来しており、異なる成長率、平均参考文献リスト長、および優先引用傾向を含む。3DSIモデルをコミュニティ構造を持つ異種ネットワークに拡張することで、引用数不平等と優先性測度を計算するための新しい分析公式を設計することが可能になる。研究は、コミュニティ内の引用分布がPareto II型分布に収束する傾向を示し、そのパラメータとジニ係数を推定するための分析公式を提供する。
本研究は、既存の引用ネットワークモデルがコミュニティ構造を効果的に処理できないという問題を解決することを目指している。Barabási-Albertモデルとpriceモデルなどの従来のネットワーク成長モデルは、ネットワークのスケールフリー特性を説明できるが、相対的な均質性の仮定に基づいており、特にコミュニティ構造を持つネットワークの局所的な変動性を捉えることができない。
学科間の相違 : 異なる科学分野は、成長率、平均参考文献長、優先引用傾向を含む、ネットワーク成長パターンにおいて顕著な相違を示すコミュニティ構造の普遍性 : コミュニティ構造は生物学的、都市的、社会的ネットワークで重要な役割を果たすが、現代の引用ネットワークモデリングでは頻繁に無視される分析ツールの欠如 : 理論的洞察を提供しながら同時にコミュニティ構造を処理できる分析ツールが不足している単純ネットワークモデル : BAモデル、Priceモデル、3DSIモデルは優れた分析特性を持つが、コミュニティ構造をサポートしない複雑な技術モデル : グラフニューラルネットワークやグラフ変分オートエンコーダはコミュニティを処理できるが、理論的洞察に欠け、ブラックボックス解釈が必要計算複雑モデル : 指数ランダムグラフモデルは統計的に正確だが、実データの適合に大量の計算が必要Price-Pareto成長モデルの提案 : 3DSIモデルをコミュニティ構造を持つ異種ネットワークに拡張し、異なるコミュニティが異なるパラメータを持つことを可能にする理論分析 : コミュニティ内引用分布がPareto II型分布に収束することを証明し、関連する分析公式を導出ジニ係数公式 : コミュニティ内および全体ネットワークのジニ係数を計算するための正確な分析公式を提供パラメータ推定法 : 特にジニ係数に基づく推定器を含む、複数のパラメータ推定法を開発実証検証 : CORAおよびDBLPデータセットでモデルの有効性を検証入力 : コミュニティ構造を持つ引用ネットワーク
出力 : 各コミュニティの次数列モデルおよびそのパラメータ
目標 : 各コミュニティ内の引用分布特性を正確にモデル化
標準3DSIモデルの中核的仮定:
各反復で新しいノードが追加され、m個の引用が割り当てられる (1-ρ)m個の引用がランダムに割り当てられる(偶然引用) ρm個の引用が優先的接続により割り当てられる(優先引用) 次数の漸化式:
d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]
主要な拡張 :
コミュニティ割り当て : 新しいノードが確率p_iでコミュニティiに割り当てられるパラメータの異質性 : 各コミュニティが独自のm_iおよびρ_iパラメータを持つ引用規則 :
偶然引用はネットワーク全体からランダムに選択される 優先引用は同じコミュニティからのみ選択される 自己ループは許可されない 漸化式 :
d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]
ネットワーク成長の確率性は負二項分布によってモデル化される:
ここで⟨a⟩ = ⟨m⟩ - ⟨ρm⟩は加重平均偶然引用数である。
有効パラメータν_i = ρ_im_i/(⟨a⟩ + ρ_i m_i)を導入すると、閉形式解が得られる:
d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]
局所時間概念 : コミュニティサイズに相対的な局所時間を導入し、異なる成長率を持つコミュニティを処理できるようにする混合分布処理 : 負二項分布を使用してネットワーク成長の確率性をモデル化し、偶然収入を正確に計算有効パラメータ : ν_iを標準3DSIモデルのρの「有効」バージョンとして導入し、分析を簡素化漸近分析 : 次数分布がPareto II分布に収束することを証明し、Priceモデルとパレート分布の関連性を確立CORAデータセット :2,708個のノード、5,429本のエッジ 7つの学科コミュニティ 平均入次数/出次数:2.005 DBLP v14著者ネットワーク :481,387個のノード、58,544,370本のエッジ 8つの最大コミュニティ 平均入次数/出次数:121.616 データ前処理:論文引用を著者引用に集約し、自己引用を削除 次数分布適合 : 密度関数を通じて観測値とモデル予測を比較パラメータ推定精度 : 異なる推定法の精度を評価ジニ係数 : 理論計算と実測ジニ係数を比較ジニ係数ベースの推定器 (主要手法):
m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]
代替手法 :
コミュニティ内エッジ数に基づく推定器 入次数方程式の線形システム解法 CORAデータセット : モデルは全7つのコミュニティで良好に機能し、特に分布の尾部での適合が優秀DBLPデータセット : 8つのコミュニティの大多数で良好な適合を示すが、「制御理論」などの特定のコミュニティでは適合が劣る全体ネットワーク : 標準3DSIモデルと本論文のモデルは全体次数列でほぼ同一だが、尾部に差異があるCORAデータセットパラメータ :
m̂_i範囲:1.798-2.338 ρ̂_i範囲:0.457-0.710 ジニ係数範囲:0.674-0.757 DBLPデータセットパラメータ :
m̂_i範囲:35.39-144.31 ρ̂_i範囲:0.523-0.810 ジニ係数範囲:0.726-0.814 パラメータの異質性 : 同一ネットワーク内の異なる学科のρ̂値に大きな差異があり、異なる学科が異なる偶然性-優先性引用比率を持つことを確認尾部適合の優位性 : モデルは次数分布の尾部での適合が特に良好で、高引用論文の分布パターン理解に重要全体的一貫性 : コミュニティモデルの加重平均は全体3DSIモデルと高度に一致t→∞のとき、次数分布はPareto II型分布に収束する:
f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}
パラメータ:α = 1/ν_i、λ = ⟨a⟩/ν_i
コミュニティ内ジニ係数 :
G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)
全体ジニ係数 :
混合分布の積分により表現され、超幾何関数を含む複雑な公式を伴い、実用的な近似公式も提供される。
Priceモデル : 優先的接続と「富める者がより豊かになる」現象を初めて導入Barabási-Albertモデル : Priceモデルを一般化し、その数学的特性を証明Bianconi-Barabási適応度モデル : ノードの内在的「適応度」概念を導入確率ブロックモデル(SBM) : コミュニティ構造を持つ古典的生成モデルトピックモデル : 潜在ディリクレ配分(LDA)など、トピック類似性に基づくリンク予測関係トピックモデル(RTM) : LDAとリンク予測を組み合わせグラフニューラルネットワーク : グラフ畳み込みネットワークなど、ただし統計的正確性に欠ける指数ランダムグラフモデル : 統計フレームワークは厳密だが計算が複雑3DSIモデル : 本論文の直接的基礎だが、コミュニティ構造をサポートしない3DSIモデルをコミュニティ構造ネットワークに成功裏に拡張し、優れた分析特性を維持 コミュニティ次数分布がPareto II分布に収束することを理論的に証明 完全なパラメータ推定フレームワークとジニ係数計算公式を提供 実データでモデルの有効性を検証 全体次数列 : コミュニティ混合の複雑性により、全体次数列の単純な分析表現が得られないモデル仮定 : 偶然引用が全ネットワークに均一に分布し、優先引用がコミュニティ内に限定されると仮定パラメータ独立性 : ν_i値は異なるコミュニティ間で独立していないため、分析複雑性が増加適合品質 : 特定の実ネットワークコミュニティは完全には適合できず、実ネットワーク行動の予測不可能性を反映ベンチマークグラフ生成 : コミュニティ検出アルゴリズムフレームワークの開発非均一偶然エッジ : 偶然エッジの非均一分布を考慮時変パラメータ : ネットワーク規模に伴うパラメータ変化を研究学際的引用 : 学際的引用傾向の時間的変化をモデル化理論的厳密性 : 完全な数学的導出と漸近分析を提供実用性 : パラメータ推定法が単純直接的で応用しやすい革新性 : 優先的接続フレームワークの下でコミュニティ構造を初めて処理検証の充実 : 異なる規模の2つの実データセットで検証分析の完全性 : 漸化式から閉形式解を経て漸近特性までの完全な分析チェーンモデル限界 : 偶然引用と優先引用の割り当て規則がやや単純化されているコミュニティ検出 : 事前に与えられたコミュニティ分割に依存し、コミュニティ発見を含まない動的性 : コミュニティ構造の時間的進化を考慮していない検証範囲 : 引用ネットワークでのみ検証され、他のタイプのネットワークへの適用性は不明理論的貢献 : Priceモデルとパレート分布の新しい関連性を確立方法論 : ネットワーク科学にコミュニティ構造モデリングの新しいツールを提供応用価値 : 科学計量学とネットワーク分析に直接的な応用価値を持つ再現性 : 明確なアルゴリズムと公式を提供し、再現が容易科学計量学 : 異なる学科の引用パターンを分析ソーシャルネットワーク : グループ構造を持つソーシャルネットワーク成長をモデル化ベンチマークテスト : コミュニティ検出アルゴリズムのベンチマークネットワークを提供政策分析 : 学科発展と資源配分の影響を理解主要な参考文献には以下が含まれる:
Price (1965): Networks of scientific papers - 原始Priceモデル Siudem et al. (2020): Three dimensions of scientific impact - 3DSIモデル Albert & Barabási (2002): Statistical mechanics of complex networks - BAモデル Fortunato (2010): Community detection in graphs - コミュニティ検出総説 Holland et al. (1983): Stochastic blockmodels - 確率ブロックモデル 本論文は、ネットワーク科学と科学計量学の交差領域において重要な貢献を行い、厳密な数学分析と実証検証を通じて、コミュニティ構造を持つネットワーク成長を理解するための新しい理論ツールを提供している。