2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.

We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.

academic

Das Price-Pareto-Wachstumsmodell von Netzwerken mit Gemeinschaftsstruktur

Grundinformationen

Papier-ID: 2510.13392
Titel: The Price-Pareto growth model of networks with community structure
Autoren: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
Klassifizierung: physics.soc-ph cs.SI stat.AP
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.13392

Zusammenfassung

Dieses Papier präsentiert einen neuen analytischen Rahmen zur Modellierung von Gradsequenzen in verschiedenen Gemeinschaften realer Netzwerke, beispielsweise Zitierungen von Arbeiten in verschiedenen Fachbereichen. Die Arbeit wird durch das Price-Modell und seine neueste Verallgemeinerung, das 3DSI-Modell (Three Dimensions of Scientific Impact), inspiriert, das davon ausgeht, dass Zitierungen teilweise zufällig und teilweise bevorzugt erworben werden. Die Forschungsmotivation stammt aus bestehenden Studien, die zeigen, dass verschiedene wissenschaftliche Disziplinen erhebliche Unterschiede in ihren Wachstumsmechanismen aufweisen, einschließlich unterschiedlicher Wachstumsraten, durchschnittlicher Referenzlistenlängen und Präferenzzitierungstendenzen. Das 3DSI-Modell wird auf heterogene Netzwerke mit Gemeinschaftsstruktur erweitert, was es ermöglicht, neue analytische Formeln zur Berechnung von Ungleichheitsmaßen und Präferenzmetriken bei Zitierungen zu entwickeln. Die Forschung zeigt, dass Zitierungsverteilungen in Gemeinschaften zu einer Pareto-II-Verteilung tendieren, und bietet analytische Formeln zur Schätzung ihrer Parameter und des Gini-Koeffizienten.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem zu lösen, dass bestehende Zitierungsnetzwerk-Modelle Gemeinschaftsstrukturen nicht effektiv verarbeiten können. Obwohl traditionelle Netzwerkwachstumsmodelle wie das Barabási-Albert-Modell und das Price-Modell die skalenfreien Eigenschaften von Netzwerken erklären können, basieren sie auf Annahmen relativer Homogenität und können die Merkmale von Netzwerken mit lokalen Variationen, insbesondere Netzwerke mit Gemeinschaftsstruktur, nicht erfassen.

Bedeutung des Problems

Disziplinäre Unterschiede: Verschiedene wissenschaftliche Disziplinen zeigen erhebliche Unterschiede in Netzwerkwachstumsmustern, einschließlich Wachstumsraten, durchschnittlicher Referenzlistenlängen und Präferenzzitierungstendenzen
Universalität der Gemeinschaftsstruktur: Gemeinschaftsstrukturen spielen eine wichtige Rolle in biologischen, städtischen und sozialen Netzwerken, werden aber in der modernen Modellierung von Zitierungsnetzwerken häufig übersehen
Fehlende Analysewerkzeuge: Es fehlen Analysewerkzeuge, die gleichzeitig theoretische Einblicke bieten und Gemeinschaftsstrukturen verarbeiten können

Einschränkungen bestehender Methoden

Einfache Netzwerkmodelle: Das BA-Modell, das Price-Modell und das 3DSI-Modell haben zwar gute analytische Eigenschaften, unterstützen aber keine Gemeinschaftsstrukturen
Komplexe technische Modelle: Graphische neuronale Netze und graphische variationelle Autoencoder können zwar Gemeinschaften verarbeiten, bieten aber wenig theoretische Einblicke und erfordern Black-Box-Erklärungen
Rechenkomplexe Modelle: Exponentielle Zufallsgraphmodelle sind statistisch präzise, erfordern aber umfangreiche Berechnungen zur Anpassung an reale Daten

Kernbeiträge

Vorschlag des Price-Pareto-Wachstumsmodells: Erweiterung des 3DSI-Modells auf heterogene Netzwerke mit Gemeinschaftsstruktur, wobei verschiedene Gemeinschaften unterschiedliche Parameter haben können
Theoretische Analyse: Beweis, dass Zitierungsverteilungen in Gemeinschaften gegen eine Pareto-II-Verteilung konvergieren, mit Herleitung relevanter analytischer Formeln
Gini-Koeffizient-Formeln: Bereitstellung exakter analytischer Formeln zur Berechnung von Gini-Koeffizienten innerhalb von Gemeinschaften und für das gesamte Netzwerk
Parameterschätzmethoden: Entwicklung mehrerer Parameterschätzmethoden, insbesondere auf Basis des Gini-Koeffizienten
Empirische Validierung: Validierung der Modelleffektivität auf den CORA- und DBLP-Datensätzen

Methodische Details

Aufgabendefinition

Eingabe: Zitierungsnetzwerk mit Gemeinschaftsstruktur Ausgabe: Gradsequenzmodelle für jede Gemeinschaft und deren Parameter Ziel: Genaue Modellierung der Zitierungsverteilungsmerkmale innerhalb jeder Gemeinschaft

Modellarchitektur

Überblick über das grundlegende 3DSI-Modell

Kernhypothesen des Standard-3DSI-Modells:

Bei jeder Iteration wird ein neuer Knoten hinzugefügt und m Zitierungen zugewiesen
(1-ρ)m Zitierungen werden zufällig zugewiesen (zufällige Zitierungen)
ρm Zitierungen werden nach bevorzugter Verbindung zugewiesen (bevorzugte Zitierungen)

Rekursive Beziehung des Grads:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

Erweiterung der Gemeinschaftsstruktur

Schlüsselerweiterungen:

Gemeinschaftszuweisung: Neue Knoten werden mit Wahrscheinlichkeit p_i der Gemeinschaft i zugewiesen
Parameterasymmetrie: Jede Gemeinschaft hat ihre eigenen m_i- und ρ_i-Parameter
Zitierungsregeln:
- Zufällige Zitierungen werden zufällig aus dem gesamten Netzwerk ausgewählt
- Bevorzugte Zitierungen werden nur aus derselben Gemeinschaft ausgewählt
- Selbstschleifen sind nicht zulässig

Rekursive Formel:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

Berechnung zufälliger Einnahmen

Modellierung der Zufälligkeit des Netzwerkwachstums durch negative Binomialverteilung:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

wobei ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ die gewichtete durchschnittliche Anzahl zufälliger Zitierungen ist.

Geschlossene Lösung

Einführung des effektiven Parameters ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i), um die geschlossene Lösung zu erhalten:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

Technische Innovationspunkte

Konzept der lokalen Zeit: Einführung der lokalen Zeit relativ zur Gemeinschaftsgröße, um Gemeinschaften mit unterschiedlichen Wachstumsraten verarbeiten zu können
Behandlung gemischter Verteilungen: Modellierung der Zufälligkeit des Netzwerkwachstums durch negative Binomialverteilung, genaue Berechnung zufälliger Einnahmen
Effektive Parameter: Einführung von ν_i als "effektive" Version von ρ im Standard-3DSI-Modell, Vereinfachung der Analyse
Asymptotische Analyse: Beweis, dass die Gradverteilung gegen die Pareto-II-Verteilung konvergiert, Etablierung der Verbindung zwischen dem Price-Modell und der Pareto-Verteilung

Experimentelle Einrichtung

Datensätze

CORA-Datensatz:
- 2.708 Knoten, 5.429 Kanten
- 7 Disziplin-Gemeinschaften
- Durchschnittlicher Ein-/Ausgrad: 2,005
DBLP v14 Autoren-Netzwerk:
- 481.387 Knoten, 58.544.370 Kanten
- 8 größte Gemeinschaften
- Durchschnittlicher Ein-/Ausgrad: 121,616
- Datenvorverarbeitung: Aggregation von Papierzitierungen zu Autorzitierungen, Entfernung von Selbstzitierungen

Bewertungsmetriken

Gradverteilungsanpassung: Vergleich beobachteter und modellierter Werte durch Dichtefunktionen
Parameterschätzgenauigkeit: Bewertung der Genauigkeit verschiedener Schätzmethoden
Gini-Koeffizient: Vergleich theoretisch berechneter und tatsächlich gemessener Gini-Koeffizienten

Parameterschätzmethoden

Auf Gini-Koeffizient basierende Schätzer (Hauptmethode):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

Alternative Methoden:

Schätzer basierend auf der Anzahl der Kanten innerhalb von Gemeinschaften
Lösung linearer Systeme basierend auf Ein- und Ausgrad-Gleichungen

Experimentelle Ergebnisse

Hauptergebnisse

CORA-Datensatz: Das Modell zeigt gute Leistung in allen 7 Gemeinschaften, besonders bei der Anpassung im Verteilungsschwanz
DBLP-Datensatz: Gute Anpassung in den meisten der 8 Gemeinschaften, obwohl die Anpassung in einigen Gemeinschaften (z.B. "Kontrolltheorie") schlechter ist
Gesamtnetzwerk: Das Standard-3DSI-Modell und das vorliegende Modell sind in der globalen Gradsequenz nahezu identisch, mit Ausnahme von Unterschieden im Schwanz

Parameterschätzergebnisse

CORA-Datensatz-Parameter:

m̂_i Bereich: 1,798-2,338
ρ̂_i Bereich: 0,457-0,710
Gini-Koeffizient Bereich: 0,674-0,757

DBLP-Datensatz-Parameter:

m̂_i Bereich: 35,39-144,31
ρ̂_i Bereich: 0,523-0,810
Gini-Koeffizient Bereich: 0,726-0,814

Schlüsselfunde

Parameterasymmetrie: Erhebliche Unterschiede in ρ̂-Werten zwischen verschiedenen Disziplinen im selben Netzwerk, was bestätigt, dass verschiedene Disziplinen unterschiedliche Verhältnisse von Zufälligkeit zu Präferenz bei Zitierungen aufweisen
Schwanzanpassungsvorteil: Das Modell zeigt besonders gute Anpassung im Schwanz der Gradverteilung, was für das Verständnis der Verteilungsmuster hochzitierter Arbeiten wichtig ist
Globale Konsistenz: Der gewichtete Durchschnitt des Gemeinschaftsmodells ist hochgradig konsistent mit dem globalen 3DSI-Modell

Theoretische Analyse

Asymptotische Eigenschaften

Wenn t→∞, konvergiert die Gradverteilung gegen die Pareto-II-Verteilung:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

Parameter: α = 1/ν_i, λ = ⟨a⟩/ν_i

Gini-Koeffizient-Formeln

Gini-Koeffizient innerhalb der Gemeinschaft:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

Gesamter Gini-Koeffizient: Dargestellt durch Integration über gemischte Verteilungen, mit komplexen Formeln unter Beteiligung hypergeometrischer Funktionen, mit praktischen Näherungsformeln.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Erweiterung des 3DSI-Modells auf Netzwerke mit Gemeinschaftsstruktur unter Beibehaltung guter analytischer Eigenschaften
Theoretischer Beweis, dass Gemeinschaftsgradverteilungen gegen die Pareto-II-Verteilung konvergieren
Bereitstellung eines vollständigen Parameterschätzrahmens und von Gini-Koeffizient-Berechnungsformeln
Validierung der Modelleffektivität auf echten Daten

Einschränkungen

Globale Gradsequenz: Aufgrund der Komplexität der Gemeinschaftsmischung kann keine einfache analytische Darstellung der globalen Gradsequenz erhalten werden
Modellannahmen: Annahme, dass zufällige Zitierungen gleichmäßig über das gesamte Netzwerk verteilt sind und bevorzugte Zitierungen nur auf die Gemeinschaft beschränkt sind
Parameterunabhängigkeit: ν_i-Werte sind nicht unabhängig zwischen verschiedenen Gemeinschaften, was die Analysekomplexität erhöht
Anpassungsqualität: Einige echte Netzwerk-Gemeinschaften können nicht perfekt angepasst werden, was die Unvorhersehbarkeit echten Netzwerkverhaltens widerspiegelt

Zukünftige Richtungen

Benchmark-Graphgenerierung: Entwicklung eines Algorithmusrahmens für die Gemeinschaftserkennung
Nicht-uniforme zufällige Kanten: Berücksichtigung nicht-uniformer Verteilung zufälliger Kanten
Zeitvariable Parameter: Untersuchung, wie sich Parameter mit der Netzwerkgröße ändern
Disziplinübergreifende Zitierungen: Modellierung zeitlicher Veränderungen disziplinübergreifender Zitierungstrends

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Vollständige mathematische Ableitungen und asymptotische Analysen
Praktische Anwendbarkeit: Parameterschätzmethoden sind einfach und direkt anwendbar
Innovativität: Erste Behandlung von Gemeinschaftsstrukturen im Rahmen bevorzugter Verbindung
Ausreichende Validierung: Validierung auf zwei Datensätzen unterschiedlicher Größe
Vollständige Analyse: Vollständige Analysekette von rekursiven Beziehungen über geschlossene Lösungen bis zu asymptotischen Eigenschaften

Mängel

Modellbeschränkungen: Die Zuweisungsregeln für zufällige und bevorzugte Zitierungen sind relativ vereinfacht
Gemeinschaftserkennung: Abhängigkeit von vorgegebener Gemeinschaftseinteilung, keine Behandlung der Gemeinschaftserkennung
Dynamik: Keine Berücksichtigung der zeitlichen Entwicklung von Gemeinschaftsstrukturen
Validierungsbereich: Validierung nur auf Zitierungsnetzwerken, Anwendbarkeit auf andere Netzwerktypen unklar

Auswirkungen

Theoretischer Beitrag: Etablierung neuer Verbindungen zwischen dem Price-Modell und der Pareto-Verteilung
Methodologie: Bereitstellung neuer Werkzeuge zur Modellierung von Gemeinschaftsstrukturen für die Netzwerkwissenschaft
Anwendungswert: Direkte Anwendbarkeit auf Wissenschaftometrie und Netzwerkanalyse
Reproduzierbarkeit: Klare Algorithmen und Formeln ermöglichen einfache Reproduzierbarkeit

Anwendungsszenarien

Wissenschaftometrie: Analyse von Zitierungsmustern verschiedener Disziplinen
Soziale Netzwerke: Modellierung des Wachstums sozialer Netzwerke mit Gruppenstrukturen
Benchmark-Tests: Bereitstellung von Benchmark-Netzwerken für Gemeinschaftserkennungsalgorithmen
Politikanalyse: Verständnis der Auswirkungen von Disziplinentwicklung und Ressourcenverteilung

Literaturverzeichnis

Wichtige Referenzen umfassen:

Price (1965): Networks of scientific papers - Ursprüngliches Price-Modell
Siudem et al. (2020): Three dimensions of scientific impact - 3DSI-Modell
Albert & Barabási (2002): Statistical mechanics of complex networks - BA-Modell
Fortunato (2010): Community detection in graphs - Übersicht zur Gemeinschaftserkennung
Holland et al. (1983): Stochastic blockmodels - Stochastisches Blockmodell

Dieses Papier leistet einen wichtigen Beitrag im Schnittstellenbereich der Netzwerkwissenschaft und Wissenschaftometrie. Durch strenge mathematische Analyse und empirische Validierung bietet es neue theoretische Werkzeuge zum Verständnis des Wachstums von Netzwerken mit Gemeinschaftsstruktur.