2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

Das Price-Pareto-Wachstumsmodell von Netzwerken mit Gemeinschaftsstruktur

Grundinformationen

  • Papier-ID: 2510.13392
  • Titel: The Price-Pareto growth model of networks with community structure
  • Autoren: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • Klassifizierung: physics.soc-ph cs.SI stat.AP
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.13392

Zusammenfassung

Dieses Papier präsentiert einen neuen analytischen Rahmen zur Modellierung von Gradsequenzen in verschiedenen Gemeinschaften realer Netzwerke, beispielsweise Zitierungen von Arbeiten in verschiedenen Fachbereichen. Die Arbeit wird durch das Price-Modell und seine neueste Verallgemeinerung, das 3DSI-Modell (Three Dimensions of Scientific Impact), inspiriert, das davon ausgeht, dass Zitierungen teilweise zufällig und teilweise bevorzugt erworben werden. Die Forschungsmotivation stammt aus bestehenden Studien, die zeigen, dass verschiedene wissenschaftliche Disziplinen erhebliche Unterschiede in ihren Wachstumsmechanismen aufweisen, einschließlich unterschiedlicher Wachstumsraten, durchschnittlicher Referenzlistenlängen und Präferenzzitierungstendenzen. Das 3DSI-Modell wird auf heterogene Netzwerke mit Gemeinschaftsstruktur erweitert, was es ermöglicht, neue analytische Formeln zur Berechnung von Ungleichheitsmaßen und Präferenzmetriken bei Zitierungen zu entwickeln. Die Forschung zeigt, dass Zitierungsverteilungen in Gemeinschaften zu einer Pareto-II-Verteilung tendieren, und bietet analytische Formeln zur Schätzung ihrer Parameter und des Gini-Koeffizienten.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem zu lösen, dass bestehende Zitierungsnetzwerk-Modelle Gemeinschaftsstrukturen nicht effektiv verarbeiten können. Obwohl traditionelle Netzwerkwachstumsmodelle wie das Barabási-Albert-Modell und das Price-Modell die skalenfreien Eigenschaften von Netzwerken erklären können, basieren sie auf Annahmen relativer Homogenität und können die Merkmale von Netzwerken mit lokalen Variationen, insbesondere Netzwerke mit Gemeinschaftsstruktur, nicht erfassen.

Bedeutung des Problems

  1. Disziplinäre Unterschiede: Verschiedene wissenschaftliche Disziplinen zeigen erhebliche Unterschiede in Netzwerkwachstumsmustern, einschließlich Wachstumsraten, durchschnittlicher Referenzlistenlängen und Präferenzzitierungstendenzen
  2. Universalität der Gemeinschaftsstruktur: Gemeinschaftsstrukturen spielen eine wichtige Rolle in biologischen, städtischen und sozialen Netzwerken, werden aber in der modernen Modellierung von Zitierungsnetzwerken häufig übersehen
  3. Fehlende Analysewerkzeuge: Es fehlen Analysewerkzeuge, die gleichzeitig theoretische Einblicke bieten und Gemeinschaftsstrukturen verarbeiten können

Einschränkungen bestehender Methoden

  1. Einfache Netzwerkmodelle: Das BA-Modell, das Price-Modell und das 3DSI-Modell haben zwar gute analytische Eigenschaften, unterstützen aber keine Gemeinschaftsstrukturen
  2. Komplexe technische Modelle: Graphische neuronale Netze und graphische variationelle Autoencoder können zwar Gemeinschaften verarbeiten, bieten aber wenig theoretische Einblicke und erfordern Black-Box-Erklärungen
  3. Rechenkomplexe Modelle: Exponentielle Zufallsgraphmodelle sind statistisch präzise, erfordern aber umfangreiche Berechnungen zur Anpassung an reale Daten

Kernbeiträge

  1. Vorschlag des Price-Pareto-Wachstumsmodells: Erweiterung des 3DSI-Modells auf heterogene Netzwerke mit Gemeinschaftsstruktur, wobei verschiedene Gemeinschaften unterschiedliche Parameter haben können
  2. Theoretische Analyse: Beweis, dass Zitierungsverteilungen in Gemeinschaften gegen eine Pareto-II-Verteilung konvergieren, mit Herleitung relevanter analytischer Formeln
  3. Gini-Koeffizient-Formeln: Bereitstellung exakter analytischer Formeln zur Berechnung von Gini-Koeffizienten innerhalb von Gemeinschaften und für das gesamte Netzwerk
  4. Parameterschätzmethoden: Entwicklung mehrerer Parameterschätzmethoden, insbesondere auf Basis des Gini-Koeffizienten
  5. Empirische Validierung: Validierung der Modelleffektivität auf den CORA- und DBLP-Datensätzen

Methodische Details

Aufgabendefinition

Eingabe: Zitierungsnetzwerk mit Gemeinschaftsstruktur Ausgabe: Gradsequenzmodelle für jede Gemeinschaft und deren Parameter Ziel: Genaue Modellierung der Zitierungsverteilungsmerkmale innerhalb jeder Gemeinschaft

Modellarchitektur

Überblick über das grundlegende 3DSI-Modell

Kernhypothesen des Standard-3DSI-Modells:

  • Bei jeder Iteration wird ein neuer Knoten hinzugefügt und m Zitierungen zugewiesen
  • (1-ρ)m Zitierungen werden zufällig zugewiesen (zufällige Zitierungen)
  • ρm Zitierungen werden nach bevorzugter Verbindung zugewiesen (bevorzugte Zitierungen)

Rekursive Beziehung des Grads:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

Erweiterung der Gemeinschaftsstruktur

Schlüsselerweiterungen:

  1. Gemeinschaftszuweisung: Neue Knoten werden mit Wahrscheinlichkeit p_i der Gemeinschaft i zugewiesen
  2. Parameterasymmetrie: Jede Gemeinschaft hat ihre eigenen m_i- und ρ_i-Parameter
  3. Zitierungsregeln:
    • Zufällige Zitierungen werden zufällig aus dem gesamten Netzwerk ausgewählt
    • Bevorzugte Zitierungen werden nur aus derselben Gemeinschaft ausgewählt
    • Selbstschleifen sind nicht zulässig

Rekursive Formel:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

Berechnung zufälliger Einnahmen

Modellierung der Zufälligkeit des Netzwerkwachstums durch negative Binomialverteilung:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

wobei ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ die gewichtete durchschnittliche Anzahl zufälliger Zitierungen ist.

Geschlossene Lösung

Einführung des effektiven Parameters ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i), um die geschlossene Lösung zu erhalten:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

Technische Innovationspunkte

  1. Konzept der lokalen Zeit: Einführung der lokalen Zeit relativ zur Gemeinschaftsgröße, um Gemeinschaften mit unterschiedlichen Wachstumsraten verarbeiten zu können
  2. Behandlung gemischter Verteilungen: Modellierung der Zufälligkeit des Netzwerkwachstums durch negative Binomialverteilung, genaue Berechnung zufälliger Einnahmen
  3. Effektive Parameter: Einführung von ν_i als "effektive" Version von ρ im Standard-3DSI-Modell, Vereinfachung der Analyse
  4. Asymptotische Analyse: Beweis, dass die Gradverteilung gegen die Pareto-II-Verteilung konvergiert, Etablierung der Verbindung zwischen dem Price-Modell und der Pareto-Verteilung

Experimentelle Einrichtung

Datensätze

  1. CORA-Datensatz:
    • 2.708 Knoten, 5.429 Kanten
    • 7 Disziplin-Gemeinschaften
    • Durchschnittlicher Ein-/Ausgrad: 2,005
  2. DBLP v14 Autoren-Netzwerk:
    • 481.387 Knoten, 58.544.370 Kanten
    • 8 größte Gemeinschaften
    • Durchschnittlicher Ein-/Ausgrad: 121,616
    • Datenvorverarbeitung: Aggregation von Papierzitierungen zu Autorzitierungen, Entfernung von Selbstzitierungen

Bewertungsmetriken

  1. Gradverteilungsanpassung: Vergleich beobachteter und modellierter Werte durch Dichtefunktionen
  2. Parameterschätzgenauigkeit: Bewertung der Genauigkeit verschiedener Schätzmethoden
  3. Gini-Koeffizient: Vergleich theoretisch berechneter und tatsächlich gemessener Gini-Koeffizienten

Parameterschätzmethoden

Auf Gini-Koeffizient basierende Schätzer (Hauptmethode):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

Alternative Methoden:

  • Schätzer basierend auf der Anzahl der Kanten innerhalb von Gemeinschaften
  • Lösung linearer Systeme basierend auf Ein- und Ausgrad-Gleichungen

Experimentelle Ergebnisse

Hauptergebnisse

  1. CORA-Datensatz: Das Modell zeigt gute Leistung in allen 7 Gemeinschaften, besonders bei der Anpassung im Verteilungsschwanz
  2. DBLP-Datensatz: Gute Anpassung in den meisten der 8 Gemeinschaften, obwohl die Anpassung in einigen Gemeinschaften (z.B. "Kontrolltheorie") schlechter ist
  3. Gesamtnetzwerk: Das Standard-3DSI-Modell und das vorliegende Modell sind in der globalen Gradsequenz nahezu identisch, mit Ausnahme von Unterschieden im Schwanz

Parameterschätzergebnisse

CORA-Datensatz-Parameter:

  • m̂_i Bereich: 1,798-2,338
  • ρ̂_i Bereich: 0,457-0,710
  • Gini-Koeffizient Bereich: 0,674-0,757

DBLP-Datensatz-Parameter:

  • m̂_i Bereich: 35,39-144,31
  • ρ̂_i Bereich: 0,523-0,810
  • Gini-Koeffizient Bereich: 0,726-0,814

Schlüsselfunde

  1. Parameterasymmetrie: Erhebliche Unterschiede in ρ̂-Werten zwischen verschiedenen Disziplinen im selben Netzwerk, was bestätigt, dass verschiedene Disziplinen unterschiedliche Verhältnisse von Zufälligkeit zu Präferenz bei Zitierungen aufweisen
  2. Schwanzanpassungsvorteil: Das Modell zeigt besonders gute Anpassung im Schwanz der Gradverteilung, was für das Verständnis der Verteilungsmuster hochzitierter Arbeiten wichtig ist
  3. Globale Konsistenz: Der gewichtete Durchschnitt des Gemeinschaftsmodells ist hochgradig konsistent mit dem globalen 3DSI-Modell

Theoretische Analyse

Asymptotische Eigenschaften

Wenn t→∞, konvergiert die Gradverteilung gegen die Pareto-II-Verteilung:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

Parameter: α = 1/ν_i, λ = ⟨a⟩/ν_i

Gini-Koeffizient-Formeln

Gini-Koeffizient innerhalb der Gemeinschaft:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

Gesamter Gini-Koeffizient: Dargestellt durch Integration über gemischte Verteilungen, mit komplexen Formeln unter Beteiligung hypergeometrischer Funktionen, mit praktischen Näherungsformeln.

Verwandte Arbeiten

Grundlegende Netzwerkwachstumsmodelle

  • Price-Modell: Führte zuerst bevorzugte Verbindung und das "Reiche werden reicher"-Phänomen ein
  • Barabási-Albert-Modell: Verallgemeinerung des Price-Modells und Beweis seiner mathematischen Eigenschaften
  • Bianconi-Barabási-Fitness-Modell: Einführung des Konzepts der innewohnenden "Fitness" von Knoten

Modelle mit Gemeinschaftsstruktur

  • Stochastisches Blockmodell (SBM): Klassisches generatives Modell mit Gemeinschaftsstruktur
  • Themenmodelle: Wie latente Dirichlet-Zuweisung (LDA), basierend auf Themenähnlichkeit zur Linkvorhersage
  • Relationales Themenmodell (RTM): Kombination von LDA und Linkvorhersage

Moderne Methoden

  • Graphische neuronale Netze: Wie Graphfaltungsnetzwerke, aber ohne statistische Genauigkeit
  • Exponentielle Zufallsgraphmodelle: Statistisch strenger Rahmen, aber rechnerisch komplex
  • 3DSI-Modell: Direkte Grundlage dieses Papiers, unterstützt aber keine Gemeinschaftsstrukturen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Erweiterung des 3DSI-Modells auf Netzwerke mit Gemeinschaftsstruktur unter Beibehaltung guter analytischer Eigenschaften
  2. Theoretischer Beweis, dass Gemeinschaftsgradverteilungen gegen die Pareto-II-Verteilung konvergieren
  3. Bereitstellung eines vollständigen Parameterschätzrahmens und von Gini-Koeffizient-Berechnungsformeln
  4. Validierung der Modelleffektivität auf echten Daten

Einschränkungen

  1. Globale Gradsequenz: Aufgrund der Komplexität der Gemeinschaftsmischung kann keine einfache analytische Darstellung der globalen Gradsequenz erhalten werden
  2. Modellannahmen: Annahme, dass zufällige Zitierungen gleichmäßig über das gesamte Netzwerk verteilt sind und bevorzugte Zitierungen nur auf die Gemeinschaft beschränkt sind
  3. Parameterunabhängigkeit: ν_i-Werte sind nicht unabhängig zwischen verschiedenen Gemeinschaften, was die Analysekomplexität erhöht
  4. Anpassungsqualität: Einige echte Netzwerk-Gemeinschaften können nicht perfekt angepasst werden, was die Unvorhersehbarkeit echten Netzwerkverhaltens widerspiegelt

Zukünftige Richtungen

  1. Benchmark-Graphgenerierung: Entwicklung eines Algorithmusrahmens für die Gemeinschaftserkennung
  2. Nicht-uniforme zufällige Kanten: Berücksichtigung nicht-uniformer Verteilung zufälliger Kanten
  3. Zeitvariable Parameter: Untersuchung, wie sich Parameter mit der Netzwerkgröße ändern
  4. Disziplinübergreifende Zitierungen: Modellierung zeitlicher Veränderungen disziplinübergreifender Zitierungstrends

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige mathematische Ableitungen und asymptotische Analysen
  2. Praktische Anwendbarkeit: Parameterschätzmethoden sind einfach und direkt anwendbar
  3. Innovativität: Erste Behandlung von Gemeinschaftsstrukturen im Rahmen bevorzugter Verbindung
  4. Ausreichende Validierung: Validierung auf zwei Datensätzen unterschiedlicher Größe
  5. Vollständige Analyse: Vollständige Analysekette von rekursiven Beziehungen über geschlossene Lösungen bis zu asymptotischen Eigenschaften

Mängel

  1. Modellbeschränkungen: Die Zuweisungsregeln für zufällige und bevorzugte Zitierungen sind relativ vereinfacht
  2. Gemeinschaftserkennung: Abhängigkeit von vorgegebener Gemeinschaftseinteilung, keine Behandlung der Gemeinschaftserkennung
  3. Dynamik: Keine Berücksichtigung der zeitlichen Entwicklung von Gemeinschaftsstrukturen
  4. Validierungsbereich: Validierung nur auf Zitierungsnetzwerken, Anwendbarkeit auf andere Netzwerktypen unklar

Auswirkungen

  1. Theoretischer Beitrag: Etablierung neuer Verbindungen zwischen dem Price-Modell und der Pareto-Verteilung
  2. Methodologie: Bereitstellung neuer Werkzeuge zur Modellierung von Gemeinschaftsstrukturen für die Netzwerkwissenschaft
  3. Anwendungswert: Direkte Anwendbarkeit auf Wissenschaftometrie und Netzwerkanalyse
  4. Reproduzierbarkeit: Klare Algorithmen und Formeln ermöglichen einfache Reproduzierbarkeit

Anwendungsszenarien

  1. Wissenschaftometrie: Analyse von Zitierungsmustern verschiedener Disziplinen
  2. Soziale Netzwerke: Modellierung des Wachstums sozialer Netzwerke mit Gruppenstrukturen
  3. Benchmark-Tests: Bereitstellung von Benchmark-Netzwerken für Gemeinschaftserkennungsalgorithmen
  4. Politikanalyse: Verständnis der Auswirkungen von Disziplinentwicklung und Ressourcenverteilung

Literaturverzeichnis

Wichtige Referenzen umfassen:

  • Price (1965): Networks of scientific papers - Ursprüngliches Price-Modell
  • Siudem et al. (2020): Three dimensions of scientific impact - 3DSI-Modell
  • Albert & Barabási (2002): Statistical mechanics of complex networks - BA-Modell
  • Fortunato (2010): Community detection in graphs - Übersicht zur Gemeinschaftserkennung
  • Holland et al. (1983): Stochastic blockmodels - Stochastisches Blockmodell

Dieses Papier leistet einen wichtigen Beitrag im Schnittstellenbereich der Netzwerkwissenschaft und Wissenschaftometrie. Durch strenge mathematische Analyse und empirische Validierung bietet es neue theoretische Werkzeuge zum Verständnis des Wachstums von Netzwerken mit Gemeinschaftsstruktur.