The Price-Pareto growth model of networks with community structure
Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic
Le modèle de croissance Price-Pareto des réseaux avec structure communautaire
Cet article propose un nouveau cadre analytique pour modéliser les séquences de degrés au sein de communautés individuelles dans les réseaux réels, comme les citations de documents dans différents domaines. Ce travail s'inspire du modèle de Price et de ses généralisations récentes, notamment le modèle 3DSI (Three Dimensions of Scientific Impact), qui suppose que les citations sont partiellement acquises de manière aléatoire et partiellement par attachement préférentiel. La motivation de la recherche provient de travaux existants montrant que différentes disciplines scientifiques présentent des différences significatives dans leurs modes de croissance, notamment en termes de taux de croissance, de longueur moyenne des listes de références et de tendances d'attachement préférentiel. L'extension du modèle 3DSI aux réseaux hétérogènes possédant une structure communautaire permet de concevoir de nouvelles formules analytiques pour calculer les mesures d'inégalité des citations et de préférentialité. L'étude montre que les distributions de citations au sein des communautés tendent vers une distribution de Pareto de type II, et fournit des formules analytiques pour estimer ses paramètres et le coefficient de Gini.
Cette recherche vise à résoudre le problème selon lequel les modèles existants de réseaux de citations ne peuvent pas traiter efficacement la structure communautaire. Bien que les modèles classiques de croissance de réseaux tels que le modèle de Barabási-Albert et le modèle de Price puissent expliquer les propriétés sans échelle des réseaux, ils reposent sur des hypothèses d'homogénéité relative et ne peuvent pas capturer les caractéristiques des réseaux présentant une variabilité locale, en particulier ceux possédant une structure communautaire.
Différences disciplinaires: Les différentes disciplines scientifiques présentent des différences significatives dans les modèles de croissance des réseaux, notamment en termes de taux de croissance, de longueur moyenne des listes de références et de tendances d'attachement préférentiel
Universalité de la structure communautaire: La structure communautaire joue un rôle important dans les réseaux biologiques, urbains et sociaux, mais est souvent négligée dans la modélisation moderne des réseaux de citations
Absence d'outils analytiques: Manque d'outils analytiques capables de fournir à la fois des perspectives théoriques et de traiter la structure communautaire
Modèles de réseaux simples: Bien que les modèles BA, Price et 3DSI possèdent de bonnes propriétés analytiques, ils ne supportent pas la structure communautaire
Modèles techniques complexes: Bien que les réseaux de neurones graphiques et les autoencodeurs variationnels graphiques puissent traiter les communautés, ils manquent de perspectives théoriques et nécessitent une interprétation de boîte noire
Modèles computationnellement complexes: Bien que les modèles graphiques aléatoires exponentiels soient statistiquement précis, ils nécessitent des calculs importants pour s'adapter aux données réelles
Proposition du modèle de croissance Price-Pareto: Extension du modèle 3DSI aux réseaux hétérogènes possédant une structure communautaire, permettant à différentes communautés d'avoir des paramètres différents
Analyse théorique: Preuve que les distributions de citations au sein des communautés convergent vers une distribution de Pareto de type II, avec dérivation des formules analytiques correspondantes
Formules du coefficient de Gini: Fourniture de formules analytiques exactes pour calculer le coefficient de Gini au sein des communautés et pour l'ensemble du réseau
Méthodes d'estimation des paramètres: Développement de plusieurs méthodes d'estimation des paramètres, en particulier les estimateurs basés sur le coefficient de Gini
Validation empirique: Vérification de l'efficacité du modèle sur les ensembles de données CORA et DBLP
Entrée: Réseau de citations possédant une structure communautaire
Sortie: Modèles de séquences de degrés pour chaque communauté et leurs paramètres
Objectif: Modéliser avec précision les caractéristiques de distribution des citations au sein de chaque communauté
Concept de temps local: Introduction du temps relatif à la taille de la communauté, permettant de traiter les communautés avec des taux de croissance différents
Traitement des distributions mixtes: Modélisation de l'aléatoire dans la croissance du réseau via une distribution binomiale négative, calcul précis des revenus aléatoires
Paramètre effectif: Introduction de ν_i comme version "effective" de ρ dans le modèle 3DSI standard, simplifiant l'analyse
Analyse asymptotique: Preuve que la distribution des degrés converge vers une distribution de Pareto de type II, établissant un lien entre le modèle de Price et la distribution de Pareto
Ensemble de données CORA: Le modèle fonctionne bien dans les 7 communautés, avec un ajustement particulièrement excellent dans la queue de la distribution
Ensemble de données DBLP: Bon ajustement dans la plupart des 8 communautés, bien que certaines communautés (comme "Control theory") présentent un ajustement moins bon
Réseau global: Le modèle 3DSI standard et le modèle proposé sont presque identiques dans la séquence de degrés globale, sauf pour les différences dans la queue
Hétérogénéité des paramètres: Les valeurs de ρ̂ varient considérablement entre les disciplines au sein d'un même réseau, confirmant que différentes disciplines ont des proportions différentes de citations aléatoires et préférentielles
Avantage de l'ajustement de la queue: Le modèle s'ajuste particulièrement bien à la queue de la distribution des degrés, ce qui est important pour comprendre le modèle de distribution des articles très cités
Cohérence globale: La moyenne pondérée du modèle communautaire est hautement cohérente avec le modèle 3DSI global
Coefficient de Gini global:
Représentation par intégrale de la distribution mixte, impliquant des formules complexes de fonctions hypergéométriques, avec fourniture de formules d'approximation pratiques.
Séquence de degrés globale: En raison de la complexité du mélange communautaire, aucune représentation analytique simple de la séquence de degrés globale ne peut être obtenue
Hypothèses du modèle: Hypothèse que les citations aléatoires sont uniformément distribuées dans l'ensemble du réseau et que les citations préférentielles sont limitées à la communauté
Indépendance des paramètres: Les valeurs de ν_i ne sont pas indépendantes entre les différentes communautés, augmentant la complexité analytique
Qualité de l'ajustement: Certaines communautés de réseaux réels ne peuvent pas être ajustées parfaitement, reflétant l'imprévisibilité du comportement des réseaux réels
Price (1965): Networks of scientific papers - Modèle de Price original
Siudem et al. (2020): Three dimensions of scientific impact - Modèle 3DSI
Albert & Barabási (2002): Statistical mechanics of complex networks - Modèle BA
Fortunato (2010): Community detection in graphs - Synthèse de la détection de communautés
Holland et al. (1983): Stochastic blockmodels - Modèles de blocs aléatoires
Cet article apporte une contribution importante à l'intersection de la science des réseaux et de la scientométrie, fournissant de nouveaux outils théoriques pour comprendre la croissance des réseaux possédant une structure communautaire grâce à une analyse mathématique rigoureuse et une vérification empirique.