The Price-Pareto growth model of networks with community structure
Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic
Das Price-Pareto-Wachstumsmodell von Netzwerken mit Gemeinschaftsstruktur
Dieses Papier präsentiert einen neuen analytischen Rahmen zur Modellierung von Gradsequenzen in verschiedenen Gemeinschaften realer Netzwerke, beispielsweise Zitierungen von Arbeiten in verschiedenen Fachbereichen. Die Arbeit wird durch das Price-Modell und seine neueste Verallgemeinerung, das 3DSI-Modell (Three Dimensions of Scientific Impact), inspiriert, das davon ausgeht, dass Zitierungen teilweise zufällig und teilweise bevorzugt erworben werden. Die Forschungsmotivation stammt aus bestehenden Studien, die zeigen, dass verschiedene wissenschaftliche Disziplinen erhebliche Unterschiede in ihren Wachstumsmechanismen aufweisen, einschließlich unterschiedlicher Wachstumsraten, durchschnittlicher Referenzlistenlängen und Präferenzzitierungstendenzen. Das 3DSI-Modell wird auf heterogene Netzwerke mit Gemeinschaftsstruktur erweitert, was es ermöglicht, neue analytische Formeln zur Berechnung von Ungleichheitsmaßen und Präferenzmetriken bei Zitierungen zu entwickeln. Die Forschung zeigt, dass Zitierungsverteilungen in Gemeinschaften zu einer Pareto-II-Verteilung tendieren, und bietet analytische Formeln zur Schätzung ihrer Parameter und des Gini-Koeffizienten.
Diese Forschung zielt darauf ab, das Problem zu lösen, dass bestehende Zitierungsnetzwerk-Modelle Gemeinschaftsstrukturen nicht effektiv verarbeiten können. Obwohl traditionelle Netzwerkwachstumsmodelle wie das Barabási-Albert-Modell und das Price-Modell die skalenfreien Eigenschaften von Netzwerken erklären können, basieren sie auf Annahmen relativer Homogenität und können die Merkmale von Netzwerken mit lokalen Variationen, insbesondere Netzwerke mit Gemeinschaftsstruktur, nicht erfassen.
Disziplinäre Unterschiede: Verschiedene wissenschaftliche Disziplinen zeigen erhebliche Unterschiede in Netzwerkwachstumsmustern, einschließlich Wachstumsraten, durchschnittlicher Referenzlistenlängen und Präferenzzitierungstendenzen
Universalität der Gemeinschaftsstruktur: Gemeinschaftsstrukturen spielen eine wichtige Rolle in biologischen, städtischen und sozialen Netzwerken, werden aber in der modernen Modellierung von Zitierungsnetzwerken häufig übersehen
Fehlende Analysewerkzeuge: Es fehlen Analysewerkzeuge, die gleichzeitig theoretische Einblicke bieten und Gemeinschaftsstrukturen verarbeiten können
Einfache Netzwerkmodelle: Das BA-Modell, das Price-Modell und das 3DSI-Modell haben zwar gute analytische Eigenschaften, unterstützen aber keine Gemeinschaftsstrukturen
Komplexe technische Modelle: Graphische neuronale Netze und graphische variationelle Autoencoder können zwar Gemeinschaften verarbeiten, bieten aber wenig theoretische Einblicke und erfordern Black-Box-Erklärungen
Rechenkomplexe Modelle: Exponentielle Zufallsgraphmodelle sind statistisch präzise, erfordern aber umfangreiche Berechnungen zur Anpassung an reale Daten
Vorschlag des Price-Pareto-Wachstumsmodells: Erweiterung des 3DSI-Modells auf heterogene Netzwerke mit Gemeinschaftsstruktur, wobei verschiedene Gemeinschaften unterschiedliche Parameter haben können
Theoretische Analyse: Beweis, dass Zitierungsverteilungen in Gemeinschaften gegen eine Pareto-II-Verteilung konvergieren, mit Herleitung relevanter analytischer Formeln
Gini-Koeffizient-Formeln: Bereitstellung exakter analytischer Formeln zur Berechnung von Gini-Koeffizienten innerhalb von Gemeinschaften und für das gesamte Netzwerk
Parameterschätzmethoden: Entwicklung mehrerer Parameterschätzmethoden, insbesondere auf Basis des Gini-Koeffizienten
Empirische Validierung: Validierung der Modelleffektivität auf den CORA- und DBLP-Datensätzen
Eingabe: Zitierungsnetzwerk mit Gemeinschaftsstruktur
Ausgabe: Gradsequenzmodelle für jede Gemeinschaft und deren Parameter
Ziel: Genaue Modellierung der Zitierungsverteilungsmerkmale innerhalb jeder Gemeinschaft
Konzept der lokalen Zeit: Einführung der lokalen Zeit relativ zur Gemeinschaftsgröße, um Gemeinschaften mit unterschiedlichen Wachstumsraten verarbeiten zu können
Behandlung gemischter Verteilungen: Modellierung der Zufälligkeit des Netzwerkwachstums durch negative Binomialverteilung, genaue Berechnung zufälliger Einnahmen
Effektive Parameter: Einführung von ν_i als "effektive" Version von ρ im Standard-3DSI-Modell, Vereinfachung der Analyse
Asymptotische Analyse: Beweis, dass die Gradverteilung gegen die Pareto-II-Verteilung konvergiert, Etablierung der Verbindung zwischen dem Price-Modell und der Pareto-Verteilung
CORA-Datensatz: Das Modell zeigt gute Leistung in allen 7 Gemeinschaften, besonders bei der Anpassung im Verteilungsschwanz
DBLP-Datensatz: Gute Anpassung in den meisten der 8 Gemeinschaften, obwohl die Anpassung in einigen Gemeinschaften (z.B. "Kontrolltheorie") schlechter ist
Gesamtnetzwerk: Das Standard-3DSI-Modell und das vorliegende Modell sind in der globalen Gradsequenz nahezu identisch, mit Ausnahme von Unterschieden im Schwanz
Parameterasymmetrie: Erhebliche Unterschiede in ρ̂-Werten zwischen verschiedenen Disziplinen im selben Netzwerk, was bestätigt, dass verschiedene Disziplinen unterschiedliche Verhältnisse von Zufälligkeit zu Präferenz bei Zitierungen aufweisen
Schwanzanpassungsvorteil: Das Modell zeigt besonders gute Anpassung im Schwanz der Gradverteilung, was für das Verständnis der Verteilungsmuster hochzitierter Arbeiten wichtig ist
Globale Konsistenz: Der gewichtete Durchschnitt des Gemeinschaftsmodells ist hochgradig konsistent mit dem globalen 3DSI-Modell
Gesamter Gini-Koeffizient:
Dargestellt durch Integration über gemischte Verteilungen, mit komplexen Formeln unter Beteiligung hypergeometrischer Funktionen, mit praktischen Näherungsformeln.
Globale Gradsequenz: Aufgrund der Komplexität der Gemeinschaftsmischung kann keine einfache analytische Darstellung der globalen Gradsequenz erhalten werden
Modellannahmen: Annahme, dass zufällige Zitierungen gleichmäßig über das gesamte Netzwerk verteilt sind und bevorzugte Zitierungen nur auf die Gemeinschaft beschränkt sind
Parameterunabhängigkeit: ν_i-Werte sind nicht unabhängig zwischen verschiedenen Gemeinschaften, was die Analysekomplexität erhöht
Anpassungsqualität: Einige echte Netzwerk-Gemeinschaften können nicht perfekt angepasst werden, was die Unvorhersehbarkeit echten Netzwerkverhaltens widerspiegelt
Price (1965): Networks of scientific papers - Ursprüngliches Price-Modell
Siudem et al. (2020): Three dimensions of scientific impact - 3DSI-Modell
Albert & Barabási (2002): Statistical mechanics of complex networks - BA-Modell
Fortunato (2010): Community detection in graphs - Übersicht zur Gemeinschaftserkennung
Holland et al. (1983): Stochastic blockmodels - Stochastisches Blockmodell
Dieses Papier leistet einen wichtigen Beitrag im Schnittstellenbereich der Netzwerkwissenschaft und Wissenschaftometrie. Durch strenge mathematische Analyse und empirische Validierung bietet es neue theoretische Werkzeuge zum Verständnis des Wachstums von Netzwerken mit Gemeinschaftsstruktur.