2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

Le modèle de croissance Price-Pareto des réseaux avec structure communautaire

Informations fondamentales

  • ID de l'article: 2510.13392
  • Titre: The Price-Pareto growth model of networks with community structure
  • Auteurs: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • Classification: physics.soc-ph cs.SI stat.AP
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.13392

Résumé

Cet article propose un nouveau cadre analytique pour modéliser les séquences de degrés au sein de communautés individuelles dans les réseaux réels, comme les citations de documents dans différents domaines. Ce travail s'inspire du modèle de Price et de ses généralisations récentes, notamment le modèle 3DSI (Three Dimensions of Scientific Impact), qui suppose que les citations sont partiellement acquises de manière aléatoire et partiellement par attachement préférentiel. La motivation de la recherche provient de travaux existants montrant que différentes disciplines scientifiques présentent des différences significatives dans leurs modes de croissance, notamment en termes de taux de croissance, de longueur moyenne des listes de références et de tendances d'attachement préférentiel. L'extension du modèle 3DSI aux réseaux hétérogènes possédant une structure communautaire permet de concevoir de nouvelles formules analytiques pour calculer les mesures d'inégalité des citations et de préférentialité. L'étude montre que les distributions de citations au sein des communautés tendent vers une distribution de Pareto de type II, et fournit des formules analytiques pour estimer ses paramètres et le coefficient de Gini.

Contexte et motivation de la recherche

Définition du problème

Cette recherche vise à résoudre le problème selon lequel les modèles existants de réseaux de citations ne peuvent pas traiter efficacement la structure communautaire. Bien que les modèles classiques de croissance de réseaux tels que le modèle de Barabási-Albert et le modèle de Price puissent expliquer les propriétés sans échelle des réseaux, ils reposent sur des hypothèses d'homogénéité relative et ne peuvent pas capturer les caractéristiques des réseaux présentant une variabilité locale, en particulier ceux possédant une structure communautaire.

Importance du problème

  1. Différences disciplinaires: Les différentes disciplines scientifiques présentent des différences significatives dans les modèles de croissance des réseaux, notamment en termes de taux de croissance, de longueur moyenne des listes de références et de tendances d'attachement préférentiel
  2. Universalité de la structure communautaire: La structure communautaire joue un rôle important dans les réseaux biologiques, urbains et sociaux, mais est souvent négligée dans la modélisation moderne des réseaux de citations
  3. Absence d'outils analytiques: Manque d'outils analytiques capables de fournir à la fois des perspectives théoriques et de traiter la structure communautaire

Limitations des approches existantes

  1. Modèles de réseaux simples: Bien que les modèles BA, Price et 3DSI possèdent de bonnes propriétés analytiques, ils ne supportent pas la structure communautaire
  2. Modèles techniques complexes: Bien que les réseaux de neurones graphiques et les autoencodeurs variationnels graphiques puissent traiter les communautés, ils manquent de perspectives théoriques et nécessitent une interprétation de boîte noire
  3. Modèles computationnellement complexes: Bien que les modèles graphiques aléatoires exponentiels soient statistiquement précis, ils nécessitent des calculs importants pour s'adapter aux données réelles

Contributions principales

  1. Proposition du modèle de croissance Price-Pareto: Extension du modèle 3DSI aux réseaux hétérogènes possédant une structure communautaire, permettant à différentes communautés d'avoir des paramètres différents
  2. Analyse théorique: Preuve que les distributions de citations au sein des communautés convergent vers une distribution de Pareto de type II, avec dérivation des formules analytiques correspondantes
  3. Formules du coefficient de Gini: Fourniture de formules analytiques exactes pour calculer le coefficient de Gini au sein des communautés et pour l'ensemble du réseau
  4. Méthodes d'estimation des paramètres: Développement de plusieurs méthodes d'estimation des paramètres, en particulier les estimateurs basés sur le coefficient de Gini
  5. Validation empirique: Vérification de l'efficacité du modèle sur les ensembles de données CORA et DBLP

Explication détaillée de la méthode

Définition de la tâche

Entrée: Réseau de citations possédant une structure communautaire Sortie: Modèles de séquences de degrés pour chaque communauté et leurs paramètres Objectif: Modéliser avec précision les caractéristiques de distribution des citations au sein de chaque communauté

Architecture du modèle

Révision du modèle 3DSI fondamental

Les hypothèses centrales du modèle 3DSI standard:

  • À chaque itération, un nouveau nœud est ajouté avec m citations
  • (1-ρ)m citations sont distribuées aléatoirement (citations aléatoires)
  • ρm citations sont distribuées par attachement préférentiel (citations préférentielles)

Relation de récurrence pour le degré:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

Extension à la structure communautaire

Extensions clés:

  1. Attribution communautaire: Les nouveaux nœuds sont attribués à la communauté i avec probabilité p_i
  2. Hétérogénéité des paramètres: Chaque communauté possède ses propres paramètres m_i et ρ_i
  3. Règles de citation:
    • Les citations aléatoires sont sélectionnées aléatoirement dans l'ensemble du réseau
    • Les citations préférentielles sont limitées à la même communauté
    • Les auto-boucles ne sont pas autorisées

Formule de récurrence:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

Calcul des revenus aléatoires

Modélisation de l'aléatoire dans la croissance du réseau via une distribution binomiale négative:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

où ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ est le nombre moyen pondéré de citations aléatoires.

Solution en forme fermée

En introduisant le paramètre effectif ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i), on obtient la solution en forme fermée:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

Points d'innovation technique

  1. Concept de temps local: Introduction du temps relatif à la taille de la communauté, permettant de traiter les communautés avec des taux de croissance différents
  2. Traitement des distributions mixtes: Modélisation de l'aléatoire dans la croissance du réseau via une distribution binomiale négative, calcul précis des revenus aléatoires
  3. Paramètre effectif: Introduction de ν_i comme version "effective" de ρ dans le modèle 3DSI standard, simplifiant l'analyse
  4. Analyse asymptotique: Preuve que la distribution des degrés converge vers une distribution de Pareto de type II, établissant un lien entre le modèle de Price et la distribution de Pareto

Configuration expérimentale

Ensembles de données

  1. Ensemble de données CORA:
    • 2 708 nœuds, 5 429 arêtes
    • 7 communautés disciplinaires
    • Degré entrant/sortant moyen: 2,005
  2. Réseau d'auteurs DBLP v14:
    • 481 387 nœuds, 58 544 370 arêtes
    • 8 plus grandes communautés
    • Degré entrant/sortant moyen: 121,616
    • Prétraitement des données: Agrégation des citations d'articles en citations d'auteurs, suppression des auto-citations

Métriques d'évaluation

  1. Ajustement de la distribution des degrés: Comparaison des valeurs observées et prédites par le modèle via les fonctions de densité
  2. Précision de l'estimation des paramètres: Évaluation de la précision de différentes méthodes d'estimation
  3. Coefficient de Gini: Comparaison du coefficient de Gini calculé théoriquement avec celui mesuré réellement

Méthodes d'estimation des paramètres

Estimateur basé sur le coefficient de Gini (méthode principale):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

Méthodes alternatives:

  • Estimateur basé sur le nombre d'arêtes au sein des communautés
  • Résolution d'un système linéaire basé sur les équations de degré entrant

Résultats expérimentaux

Résultats principaux

  1. Ensemble de données CORA: Le modèle fonctionne bien dans les 7 communautés, avec un ajustement particulièrement excellent dans la queue de la distribution
  2. Ensemble de données DBLP: Bon ajustement dans la plupart des 8 communautés, bien que certaines communautés (comme "Control theory") présentent un ajustement moins bon
  3. Réseau global: Le modèle 3DSI standard et le modèle proposé sont presque identiques dans la séquence de degrés globale, sauf pour les différences dans la queue

Résultats de l'estimation des paramètres

Paramètres de l'ensemble de données CORA:

  • Plage de m̂_i: 1,798-2,338
  • Plage de ρ̂_i: 0,457-0,710
  • Plage du coefficient de Gini: 0,674-0,757

Paramètres de l'ensemble de données DBLP:

  • Plage de m̂_i: 35,39-144,31
  • Plage de ρ̂_i: 0,523-0,810
  • Plage du coefficient de Gini: 0,726-0,814

Découvertes clés

  1. Hétérogénéité des paramètres: Les valeurs de ρ̂ varient considérablement entre les disciplines au sein d'un même réseau, confirmant que différentes disciplines ont des proportions différentes de citations aléatoires et préférentielles
  2. Avantage de l'ajustement de la queue: Le modèle s'ajuste particulièrement bien à la queue de la distribution des degrés, ce qui est important pour comprendre le modèle de distribution des articles très cités
  3. Cohérence globale: La moyenne pondérée du modèle communautaire est hautement cohérente avec le modèle 3DSI global

Analyse théorique

Propriétés asymptotiques

Lorsque t→∞, la distribution des degrés converge vers une distribution de Pareto de type II:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

Paramètres: α = 1/ν_i, λ = ⟨a⟩/ν_i

Formules du coefficient de Gini

Coefficient de Gini au sein des communautés:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

Coefficient de Gini global: Représentation par intégrale de la distribution mixte, impliquant des formules complexes de fonctions hypergéométriques, avec fourniture de formules d'approximation pratiques.

Travaux connexes

Modèles fondamentaux de croissance de réseaux

  • Modèle de Price: Première introduction de l'attachement préférentiel et du phénomène "les riches deviennent plus riches"
  • Modèle de Barabási-Albert: Généralisation du modèle de Price et preuve de ses propriétés mathématiques
  • Modèle d'aptitude Bianconi-Barabási: Introduction du concept d'aptitude intrinsèque des nœuds

Modèles de structure communautaire

  • Modèle de blocs aléatoires (SBM): Modèle génératif classique avec structure communautaire
  • Modèles thématiques: Comme l'allocation latente de Dirichlet (LDA), prédisant les liens basés sur la similarité thématique
  • Modèle thématique relationnel (RTM): Combinaison de LDA et de prédiction de liens

Approches modernes

  • Réseaux de neurones graphiques: Comme les réseaux de convolution graphique, mais manquant de précision statistique
  • Modèles graphiques aléatoires exponentiels: Cadre statistique rigoureux mais computationnellement complexe
  • Modèle 3DSI: Base directe de cet article, mais ne supportant pas la structure communautaire

Conclusions et discussion

Conclusions principales

  1. Extension réussie du modèle 3DSI aux réseaux avec structure communautaire, conservant de bonnes propriétés analytiques
  2. Preuve théorique que les distributions de degrés communautaires convergent vers une distribution de Pareto de type II
  3. Fourniture d'un cadre complet d'estimation des paramètres et de formules de calcul du coefficient de Gini
  4. Vérification de l'efficacité du modèle sur des données réelles

Limitations

  1. Séquence de degrés globale: En raison de la complexité du mélange communautaire, aucune représentation analytique simple de la séquence de degrés globale ne peut être obtenue
  2. Hypothèses du modèle: Hypothèse que les citations aléatoires sont uniformément distribuées dans l'ensemble du réseau et que les citations préférentielles sont limitées à la communauté
  3. Indépendance des paramètres: Les valeurs de ν_i ne sont pas indépendantes entre les différentes communautés, augmentant la complexité analytique
  4. Qualité de l'ajustement: Certaines communautés de réseaux réels ne peuvent pas être ajustées parfaitement, reflétant l'imprévisibilité du comportement des réseaux réels

Directions futures

  1. Génération de graphes de référence: Développement d'un cadre algorithmique pour la détection de communautés
  2. Arêtes aléatoires non uniformes: Considération de la distribution non uniforme des arêtes aléatoires
  3. Paramètres variant dans le temps: Étude de la variation des paramètres avec la taille du réseau
  4. Citations interdisciplinaires: Modélisation des changements temporels des tendances de citations interdisciplinaires

Évaluation approfondie

Avantages

  1. Rigueur théorique: Fourniture de dérivations mathématiques complètes et d'analyses asymptotiques
  2. Forte praticité: Les méthodes d'estimation des paramètres sont simples et directes, faciles à appliquer
  3. Innovativité: Première approche traitant la structure communautaire dans le cadre de l'attachement préférentiel
  4. Vérification suffisante: Vérification sur deux ensembles de données réelles de tailles différentes
  5. Analyse complète: Chaîne d'analyse complète allant des relations de récurrence aux solutions en forme fermée et aux propriétés asymptotiques

Insuffisances

  1. Limitations du modèle: Les règles de distribution des citations aléatoires et préférentielles sont relativement simplifiées
  2. Détection de communautés: Dépendance d'une partition communautaire prédéfinie, sans implication dans la découverte de communautés
  3. Dynamique: Non-considération de l'évolution de la structure communautaire au fil du temps
  4. Étendue de vérification: Vérification uniquement sur les réseaux de citations, applicabilité à d'autres types de réseaux inconnue

Impact

  1. Contribution théorique: Établissement de nouveaux liens entre le modèle de Price et la distribution de Pareto
  2. Méthodologie: Fourniture d'un nouvel outil de modélisation de structure communautaire pour la science des réseaux
  3. Valeur d'application: Valeur d'application directe pour la scientométrie et l'analyse de réseaux
  4. Reproductibilité: Fourniture d'algorithmes et de formules clairs, faciles à reproduire

Scénarios d'application

  1. Scientométrie: Analyse des modèles de citation de différentes disciplines
  2. Réseaux sociaux: Modélisation de la croissance des réseaux sociaux avec structure de groupe
  3. Tests de référence: Fourniture de réseaux de référence pour les algorithmes de détection de communautés
  4. Analyse politique: Compréhension de l'impact du développement disciplinaire et de l'allocation des ressources

Références

Les références clés incluent:

  • Price (1965): Networks of scientific papers - Modèle de Price original
  • Siudem et al. (2020): Three dimensions of scientific impact - Modèle 3DSI
  • Albert & Barabási (2002): Statistical mechanics of complex networks - Modèle BA
  • Fortunato (2010): Community detection in graphs - Synthèse de la détection de communautés
  • Holland et al. (1983): Stochastic blockmodels - Modèles de blocs aléatoires

Cet article apporte une contribution importante à l'intersection de la science des réseaux et de la scientométrie, fournissant de nouveaux outils théoriques pour comprendre la croissance des réseaux possédant une structure communautaire grâce à une analyse mathématique rigoureuse et une vérification empirique.