2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

Il modello di crescita Price-Pareto delle reti con struttura di comunità

Informazioni di base

  • ID articolo: 2510.13392
  • Titolo: The Price-Pareto growth model of networks with community structure
  • Autori: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • Classificazione: physics.soc-ph cs.SI stat.AP
  • Data di pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link articolo: https://arxiv.org/abs/2510.13392

Riassunto

Questo articolo propone un nuovo quadro analitico per modellare le sequenze di grado delle singole comunità nelle reti reali, come i modelli di citazione in diversi campi scientifici. Il lavoro è ispirato dal modello di Price e dalle sue recenti generalizzazioni, in particolare dal modello 3DSI (Three Dimensions of Scientific Impact), che assume che le citazioni siano acquisite in parte casualmente e in parte attraverso preferenza. La motivazione della ricerca deriva da studi che dimostrano differenze significative tra diverse discipline scientifiche nei loro modelli di crescita, inclusi diversi tassi di crescita, lunghezze medie delle liste di riferimento e tendenze di citazione preferenziale. L'estensione del modello 3DSI a reti eterogenee con struttura di comunità consente di progettare nuove formule analitiche per calcolare misure di disuguaglianza e preferenzialità nelle citazioni. Lo studio dimostra che la distribuzione delle citazioni all'interno delle comunità tende verso una distribuzione di Pareto di tipo II e fornisce formule analitiche per stimare i suoi parametri e il coefficiente di Gini.

Contesto e motivazione della ricerca

Definizione del problema

Questa ricerca affronta il problema che i modelli di reti di citazione esistenti non riescono a gestire efficacemente la struttura di comunità. Sebbene i modelli di crescita di reti tradizionali come il modello di Barabási-Albert e il modello di Price possano spiegare le proprietà prive di scala delle reti, si basano su ipotesi di relativa omogeneità e non riescono a catturare le caratteristiche delle reti con variabilità locale, in particolare le reti con struttura di comunità.

Importanza del problema

  1. Differenze disciplinari: Diverse discipline scientifiche presentano differenze significative nei modelli di crescita della rete, inclusi tassi di crescita, lunghezza media dei riferimenti e tendenze di citazione preferenziale
  2. Universalità della struttura di comunità: La struttura di comunità gioca un ruolo importante nelle reti biologiche, urbane e sociali, ma è spesso trascurata nella modellazione moderna delle reti di citazione
  3. Mancanza di strumenti analitici: Mancano strumenti analitici che forniscano sia intuizioni teoriche che gestiscano la struttura di comunità

Limitazioni degli approcci esistenti

  1. Modelli di rete semplici: Sebbene i modelli BA, Price e 3DSI abbiano buone proprietà analitiche, non supportano la struttura di comunità
  2. Modelli tecnici complessi: Sebbene le reti neurali grafiche e gli autocodificatori variazionali grafici possano gestire le comunità, mancano di intuizioni teoriche e richiedono interpretazioni di scatola nera
  3. Modelli computazionalmente complessi: Sebbene i modelli di grafi casuali esponenziali siano statisticamente precisi, richiedono calcoli estensivi per adattarsi ai dati reali

Contributi principali

  1. Proposta del modello di crescita Price-Pareto: Estensione del modello 3DSI a reti eterogenee con struttura di comunità, consentendo a comunità diverse di avere parametri diversi
  2. Analisi teorica: Dimostrazione che la distribuzione delle citazioni all'interno delle comunità converge a una distribuzione di Pareto di tipo II, con derivazione delle relative formule analitiche
  3. Formula del coefficiente di Gini: Fornitura di formule analitiche esatte per il calcolo del coefficiente di Gini all'interno delle comunità e della rete complessiva
  4. Metodi di stima dei parametri: Sviluppo di molteplici metodi di stima dei parametri, in particolare stimatori basati sul coefficiente di Gini
  5. Verifica empirica: Validazione dell'efficacia del modello sui dataset CORA e DBLP

Dettagli metodologici

Definizione del compito

Input: Rete di citazione con struttura di comunità Output: Modello della sequenza di grado per ogni comunità e relativi parametri Obiettivo: Modellare accuratamente le caratteristiche della distribuzione delle citazioni all'interno di ogni comunità

Architettura del modello

Revisione del modello 3DSI di base

Le ipotesi fondamentali del modello 3DSI standard:

  • Ad ogni iterazione viene aggiunto un nuovo nodo con m citazioni
  • (1-ρ)m citazioni sono assegnate casualmente (citazioni casuali)
  • ρm citazioni sono assegnate per connessione preferenziale (citazioni preferenziali)

Relazione ricorsiva del grado:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

Estensione della struttura di comunità

Estensioni chiave:

  1. Assegnazione di comunità: I nuovi nodi sono assegnati alla comunità i con probabilità p_i
  2. Eterogeneità dei parametri: Ogni comunità ha i propri parametri m_i e ρ_i
  3. Regole di citazione:
    • Le citazioni casuali sono selezionate casualmente dall'intera rete
    • Le citazioni preferenziali sono selezionate solo dalla stessa comunità
    • Non sono consentiti auto-loop

Formula ricorsiva:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

Calcolo del reddito casuale

Modellazione della casualità nella crescita della rete attraverso la distribuzione binomiale negativa:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

dove ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ è il numero medio ponderato di citazioni casuali.

Soluzione in forma chiusa

Introducendo il parametro effettivo ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i), si ottiene la soluzione in forma chiusa:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

Punti di innovazione tecnica

  1. Concetto di tempo locale: Introduzione del tempo relativo alla dimensione della comunità, consentendo la gestione di comunità con tassi di crescita diversi
  2. Gestione della distribuzione mista: Modellazione della casualità nella crescita della rete attraverso la distribuzione binomiale negativa, calcolando accuratamente il reddito casuale
  3. Parametro effettivo: Introduzione di ν_i come versione "effettiva" di ρ nel modello 3DSI standard, semplificando l'analisi
  4. Analisi asintotica: Dimostrazione della convergenza della distribuzione del grado a una distribuzione di Pareto, stabilendo il collegamento tra il modello di Price e la distribuzione di Pareto

Configurazione sperimentale

Dataset

  1. Dataset CORA:
    • 2.708 nodi, 5.429 archi
    • 7 comunità disciplinari
    • Grado medio in ingresso/uscita: 2.005
  2. Rete di autori DBLP v14:
    • 481.387 nodi, 58.544.370 archi
    • 8 comunità più grandi
    • Grado medio in ingresso/uscita: 121.616
    • Pre-elaborazione dati: aggregazione delle citazioni di articoli in citazioni di autori, rimozione delle autocitazioni

Metriche di valutazione

  1. Adattamento della distribuzione del grado: Confronto tra valori osservati e previsioni del modello attraverso funzioni di densità
  2. Precisione della stima dei parametri: Valutazione dell'accuratezza di diversi metodi di stima
  3. Coefficiente di Gini: Confronto tra il coefficiente di Gini calcolato teoricamente e quello misurato effettivamente

Metodi di stima dei parametri

Stimatore basato sul coefficiente di Gini (metodo principale):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

Metodi alternativi:

  • Stimatore basato sul numero di archi all'interno della comunità
  • Soluzione di sistemi lineari basati su equazioni di grado in ingresso

Risultati sperimentali

Risultati principali

  1. Dataset CORA: Il modello funziona bene in tutte le 7 comunità, con un adattamento eccellente in particolare nella coda della distribuzione
  2. Dataset DBLP: Buon adattamento nella maggior parte delle 8 comunità, sebbene alcune comunità (come "Control theory") mostrino un adattamento inferiore
  3. Rete complessiva: Il modello 3DSI standard e il modello proposto sono quasi identici nella sequenza di grado globale, ad eccezione delle differenze nella coda

Risultati della stima dei parametri

Parametri del dataset CORA:

  • Intervallo m̂_i: 1.798-2.338
  • Intervallo ρ̂_i: 0.457-0.710
  • Intervallo coefficiente di Gini: 0.674-0.757

Parametri del dataset DBLP:

  • Intervallo m̂_i: 35.39-144.31
  • Intervallo ρ̂_i: 0.523-0.810
  • Intervallo coefficiente di Gini: 0.726-0.814

Scoperte chiave

  1. Eterogeneità dei parametri: Esistono differenze significative nei valori ρ̂ tra diverse discipline all'interno della stessa rete, confermando che diverse discipline hanno proporzioni diverse di citazioni casuali e preferenziali
  2. Vantaggio nell'adattamento della coda: Il modello mostra un adattamento particolarmente buono nella coda della distribuzione del grado, importante per comprendere il modello di distribuzione degli articoli altamente citati
  3. Coerenza globale: La media ponderata del modello di comunità è altamente coerente con il modello 3DSI globale

Analisi teorica

Proprietà asintotiche

Quando t→∞, la distribuzione del grado converge a una distribuzione di Pareto di tipo II:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

Parametri: α = 1/ν_i, λ = ⟨a⟩/ν_i

Formula del coefficiente di Gini

Coefficiente di Gini all'interno della comunità:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

Coefficiente di Gini complessivo: Rappresentato attraverso l'integrale della distribuzione mista, coinvolgendo formule complesse di funzioni ipergeometriche, con formule approssimate pratiche fornite.

Lavori correlati

Modelli di crescita di reti fondamentali

  • Modello di Price: Primo a introdurre la connessione preferenziale e il fenomeno "i ricchi diventano più ricchi"
  • Modello di Barabási-Albert: Generalizzazione del modello di Price con dimostrazione delle proprietà matematiche
  • Modello di idoneità di Bianconi-Barabási: Introduzione del concetto di "idoneità" intrinseca dei nodi

Modelli di struttura di comunità

  • Modello di blocchi casuali (SBM): Modello generativo classico con struttura di comunità
  • Modelli di argomenti: Come l'allocazione di Dirichlet latente (LDA), che predice i link basandosi sulla somiglianza tematica
  • Modello di argomenti relazionali (RTM): Combinazione di LDA e previsione di link

Approcci moderni

  • Reti neurali grafiche: Come le reti convoluzionali grafiche, ma mancano di precisione statistica
  • Modelli di grafi casuali esponenziali: Quadro statistico rigoroso ma computazionalmente complesso
  • Modello 3DSI: Base diretta di questo articolo, ma non supporta la struttura di comunità

Conclusioni e discussione

Conclusioni principali

  1. Estensione riuscita del modello 3DSI a reti con struttura di comunità, mantenendo buone proprietà analitiche
  2. Dimostrazione teorica che la distribuzione del grado della comunità converge a una distribuzione di Pareto di tipo II
  3. Fornitura di un quadro completo di stima dei parametri e formule di calcolo del coefficiente di Gini
  4. Validazione dell'efficacia del modello su dati reali

Limitazioni

  1. Sequenza di grado globale: A causa della complessità della miscelazione di comunità, non è possibile ottenere una semplice rappresentazione analitica della sequenza di grado globale
  2. Ipotesi del modello: Assume che le citazioni casuali siano distribuite uniformemente in tutta la rete e che le citazioni preferenziali siano limitate alle comunità
  3. Indipendenza dei parametri: I valori ν_i non sono indipendenti tra comunità diverse, aumentando la complessità dell'analisi
  4. Qualità dell'adattamento: Alcune comunità di reti reali non si adattano perfettamente, riflettendo l'imprevedibilità del comportamento delle reti reali

Direzioni future

  1. Generazione di grafi di riferimento: Sviluppo di quadri algoritmici per il rilevamento di comunità
  2. Archi casuali non uniformi: Considerazione della distribuzione non uniforme degli archi casuali
  3. Parametri variabili nel tempo: Studio di come i parametri cambiano con la dimensione della rete
  4. Citazioni tra discipline: Modellazione dei cambiamenti temporali nelle tendenze di citazione tra discipline

Valutazione approfondita

Punti di forza

  1. Rigore teorico: Fornitura di derivazioni matematiche complete e analisi asintotiche
  2. Forte praticità: Metodi di stima dei parametri semplici e diretti, facili da applicare
  3. Innovazione: Primo a affrontare la struttura di comunità nel quadro della connessione preferenziale
  4. Verifica sufficiente: Validazione su due dataset reali di dimensioni diverse
  5. Analisi completa: Catena di analisi completa dalle relazioni ricorsive alle soluzioni in forma chiusa alle proprietà asintotiche

Insufficienze

  1. Limitazioni del modello: Le regole di allocazione per citazioni casuali e preferenziali sono relativamente semplificate
  2. Rilevamento di comunità: Dipende da partizioni di comunità predefinite, non affronta il problema della scoperta di comunità
  3. Dinamica: Non considera l'evoluzione della struttura di comunità nel tempo
  4. Ambito di verifica: Validazione solo su reti di citazione, l'applicabilità ad altri tipi di reti rimane sconosciuta

Impatto

  1. Contributo teorico: Stabilimento di nuovi collegamenti tra il modello di Price e la distribuzione di Pareto
  2. Metodologia: Fornitura di nuovi strumenti di modellazione della struttura di comunità per la scienza delle reti
  3. Valore applicativo: Valore di applicazione diretta per la scientometria e l'analisi di reti
  4. Riproducibilità: Fornitura di algoritmi e formule chiari, facili da riprodurre

Scenari applicabili

  1. Scientometria: Analisi dei modelli di citazione di diverse discipline
  2. Reti sociali: Modellazione della crescita di reti sociali con struttura di gruppo
  3. Test di riferimento: Fornitura di reti di riferimento per algoritmi di rilevamento di comunità
  4. Analisi politica: Comprensione dell'impatto dello sviluppo disciplinare e dell'allocazione di risorse

Bibliografia

I riferimenti chiave includono:

  • Price (1965): Networks of scientific papers - Modello di Price originale
  • Siudem et al. (2020): Three dimensions of scientific impact - Modello 3DSI
  • Albert & Barabási (2002): Statistical mechanics of complex networks - Modello BA
  • Fortunato (2010): Community detection in graphs - Revisione del rilevamento di comunità
  • Holland et al. (1983): Stochastic blockmodels - Modello di blocchi casuali

Questo articolo fornisce importanti contributi nell'intersezione tra la scienza delle reti e la scientometria, offrendo nuovi strumenti teorici per comprendere la crescita di reti con struttura di comunità attraverso analisi matematiche rigorose e validazione empirica.