The Price-Pareto growth model of networks with community structure
Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic
Il modello di crescita Price-Pareto delle reti con struttura di comunità
Questo articolo propone un nuovo quadro analitico per modellare le sequenze di grado delle singole comunità nelle reti reali, come i modelli di citazione in diversi campi scientifici. Il lavoro è ispirato dal modello di Price e dalle sue recenti generalizzazioni, in particolare dal modello 3DSI (Three Dimensions of Scientific Impact), che assume che le citazioni siano acquisite in parte casualmente e in parte attraverso preferenza. La motivazione della ricerca deriva da studi che dimostrano differenze significative tra diverse discipline scientifiche nei loro modelli di crescita, inclusi diversi tassi di crescita, lunghezze medie delle liste di riferimento e tendenze di citazione preferenziale. L'estensione del modello 3DSI a reti eterogenee con struttura di comunità consente di progettare nuove formule analitiche per calcolare misure di disuguaglianza e preferenzialità nelle citazioni. Lo studio dimostra che la distribuzione delle citazioni all'interno delle comunità tende verso una distribuzione di Pareto di tipo II e fornisce formule analitiche per stimare i suoi parametri e il coefficiente di Gini.
Questa ricerca affronta il problema che i modelli di reti di citazione esistenti non riescono a gestire efficacemente la struttura di comunità. Sebbene i modelli di crescita di reti tradizionali come il modello di Barabási-Albert e il modello di Price possano spiegare le proprietà prive di scala delle reti, si basano su ipotesi di relativa omogeneità e non riescono a catturare le caratteristiche delle reti con variabilità locale, in particolare le reti con struttura di comunità.
Differenze disciplinari: Diverse discipline scientifiche presentano differenze significative nei modelli di crescita della rete, inclusi tassi di crescita, lunghezza media dei riferimenti e tendenze di citazione preferenziale
Universalità della struttura di comunità: La struttura di comunità gioca un ruolo importante nelle reti biologiche, urbane e sociali, ma è spesso trascurata nella modellazione moderna delle reti di citazione
Mancanza di strumenti analitici: Mancano strumenti analitici che forniscano sia intuizioni teoriche che gestiscano la struttura di comunità
Modelli di rete semplici: Sebbene i modelli BA, Price e 3DSI abbiano buone proprietà analitiche, non supportano la struttura di comunità
Modelli tecnici complessi: Sebbene le reti neurali grafiche e gli autocodificatori variazionali grafici possano gestire le comunità, mancano di intuizioni teoriche e richiedono interpretazioni di scatola nera
Modelli computazionalmente complessi: Sebbene i modelli di grafi casuali esponenziali siano statisticamente precisi, richiedono calcoli estensivi per adattarsi ai dati reali
Proposta del modello di crescita Price-Pareto: Estensione del modello 3DSI a reti eterogenee con struttura di comunità, consentendo a comunità diverse di avere parametri diversi
Analisi teorica: Dimostrazione che la distribuzione delle citazioni all'interno delle comunità converge a una distribuzione di Pareto di tipo II, con derivazione delle relative formule analitiche
Formula del coefficiente di Gini: Fornitura di formule analitiche esatte per il calcolo del coefficiente di Gini all'interno delle comunità e della rete complessiva
Metodi di stima dei parametri: Sviluppo di molteplici metodi di stima dei parametri, in particolare stimatori basati sul coefficiente di Gini
Verifica empirica: Validazione dell'efficacia del modello sui dataset CORA e DBLP
Input: Rete di citazione con struttura di comunità
Output: Modello della sequenza di grado per ogni comunità e relativi parametri
Obiettivo: Modellare accuratamente le caratteristiche della distribuzione delle citazioni all'interno di ogni comunità
Concetto di tempo locale: Introduzione del tempo relativo alla dimensione della comunità, consentendo la gestione di comunità con tassi di crescita diversi
Gestione della distribuzione mista: Modellazione della casualità nella crescita della rete attraverso la distribuzione binomiale negativa, calcolando accuratamente il reddito casuale
Parametro effettivo: Introduzione di ν_i come versione "effettiva" di ρ nel modello 3DSI standard, semplificando l'analisi
Analisi asintotica: Dimostrazione della convergenza della distribuzione del grado a una distribuzione di Pareto, stabilendo il collegamento tra il modello di Price e la distribuzione di Pareto
Dataset CORA: Il modello funziona bene in tutte le 7 comunità, con un adattamento eccellente in particolare nella coda della distribuzione
Dataset DBLP: Buon adattamento nella maggior parte delle 8 comunità, sebbene alcune comunità (come "Control theory") mostrino un adattamento inferiore
Rete complessiva: Il modello 3DSI standard e il modello proposto sono quasi identici nella sequenza di grado globale, ad eccezione delle differenze nella coda
Eterogeneità dei parametri: Esistono differenze significative nei valori ρ̂ tra diverse discipline all'interno della stessa rete, confermando che diverse discipline hanno proporzioni diverse di citazioni casuali e preferenziali
Vantaggio nell'adattamento della coda: Il modello mostra un adattamento particolarmente buono nella coda della distribuzione del grado, importante per comprendere il modello di distribuzione degli articoli altamente citati
Coerenza globale: La media ponderata del modello di comunità è altamente coerente con il modello 3DSI globale
Coefficiente di Gini complessivo:
Rappresentato attraverso l'integrale della distribuzione mista, coinvolgendo formule complesse di funzioni ipergeometriche, con formule approssimate pratiche fornite.
Sequenza di grado globale: A causa della complessità della miscelazione di comunità, non è possibile ottenere una semplice rappresentazione analitica della sequenza di grado globale
Ipotesi del modello: Assume che le citazioni casuali siano distribuite uniformemente in tutta la rete e che le citazioni preferenziali siano limitate alle comunità
Indipendenza dei parametri: I valori ν_i non sono indipendenti tra comunità diverse, aumentando la complessità dell'analisi
Qualità dell'adattamento: Alcune comunità di reti reali non si adattano perfettamente, riflettendo l'imprevedibilità del comportamento delle reti reali
Price (1965): Networks of scientific papers - Modello di Price originale
Siudem et al. (2020): Three dimensions of scientific impact - Modello 3DSI
Albert & Barabási (2002): Statistical mechanics of complex networks - Modello BA
Fortunato (2010): Community detection in graphs - Revisione del rilevamento di comunità
Holland et al. (1983): Stochastic blockmodels - Modello di blocchi casuali
Questo articolo fornisce importanti contributi nell'intersezione tra la scienza delle reti e la scientometria, offrendo nuovi strumenti teorici per comprendere la crescita di reti con struttura di comunità attraverso analisi matematiche rigorose e validazione empirica.