The Price-Pareto growth model of networks with community structure
Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic
El modelo de crecimiento Price-Pareto de redes con estructura de comunidades
Este artículo propone un nuevo marco analítico para modelar las secuencias de grado de comunidades individuales en redes reales, como las citaciones de artículos en diferentes disciplinas. El trabajo se inspira en el modelo de Price y sus generalizaciones recientes, particularmente el modelo 3DSI (Tres Dimensiones del Impacto Científico), que asume que las citaciones se adquieren parcialmente de forma aleatoria y parcialmente mediante conexión preferente. La motivación de la investigación proviene de estudios existentes que demuestran diferencias significativas entre disciplinas científicas en sus patrones de crecimiento, incluyendo diferentes tasas de crecimiento, longitudes promedio de listas de referencias y tendencias de citación preferente. El trabajo extiende el modelo 3DSI a redes heterogéneas con estructura de comunidades, permitiendo diseñar nuevas fórmulas analíticas para calcular medidas de desigualdad de citaciones y preferencia. El estudio demuestra que las distribuciones de citaciones dentro de comunidades tienden a seguir una distribución Pareto tipo II, y proporciona fórmulas analíticas para estimar sus parámetros y coeficientes de Gini.
Esta investigación aborda el problema de que los modelos existentes de redes de citación no pueden manejar efectivamente la estructura de comunidades. Aunque modelos clásicos de crecimiento de redes como el modelo Barabási-Albert y el modelo de Price pueden explicar las propiedades libres de escala de las redes, se basan en supuestos de homogeneidad relativa y no pueden capturar características de redes con variabilidad local, particularmente aquellas con estructura de comunidades.
Variabilidad disciplinaria: Diferentes disciplinas científicas presentan patrones de crecimiento de redes significativamente distintos, incluyendo tasas de crecimiento, longitud promedio de referencias y tendencias de citación preferente
Universalidad de la estructura de comunidades: La estructura de comunidades juega un papel importante en redes biológicas, urbanas y sociales, pero frecuentemente se ignora en la modelización moderna de redes de citación
Ausencia de herramientas analíticas: Falta de herramientas analíticas que proporcionen simultáneamente perspectivas teóricas y capacidad para manejar estructura de comunidades
Modelos de red simples: Aunque los modelos BA, Price y 3DSI poseen buenas propiedades analíticas, no soportan estructura de comunidades
Modelos técnicos complejos: Aunque las redes neuronales de grafos y los autocodificadores variacionales de grafos pueden manejar comunidades, carecen de perspectivas teóricas y requieren interpretación de caja negra
Modelos computacionalmente complejos: Aunque los modelos de grafos aleatorios exponenciales son estadísticamente precisos, requieren cálculos extensivos para ajustarse a datos reales
Propuesta del modelo de crecimiento Price-Pareto: Extensión del modelo 3DSI a redes heterogéneas con estructura de comunidades, permitiendo que diferentes comunidades tengan parámetros distintos
Análisis teórico: Demostración de que las distribuciones de citaciones dentro de comunidades convergen a una distribución Pareto tipo II, con derivación de fórmulas analíticas relacionadas
Fórmulas del coeficiente de Gini: Provisión de fórmulas analíticas exactas para calcular coeficientes de Gini dentro de comunidades y en la red completa
Métodos de estimación de parámetros: Desarrollo de múltiples métodos de estimación de parámetros, particularmente estimadores basados en el coeficiente de Gini
Validación empírica: Verificación de la efectividad del modelo en los conjuntos de datos CORA y DBLP
Entrada: Red de citación con estructura de comunidades
Salida: Modelos de secuencias de grado para cada comunidad y sus parámetros
Objetivo: Modelar con precisión las características de distribución de citaciones dentro de cada comunidad
Concepto de tiempo local: Introducción del tiempo relativo al tamaño de la comunidad, permitiendo manejar comunidades con diferentes tasas de crecimiento
Tratamiento de distribuciones mixtas: Modelización de la aleatoriedad en el crecimiento de la red mediante distribución binomial negativa, calculando con precisión los ingresos aleatorios
Parámetro efectivo: Introducción de ν_i como versión "efectiva" de ρ en el modelo 3DSI estándar, simplificando el análisis
Análisis asintótico: Demostración de que la distribución de grados converge a una distribución Pareto tipo II, estableciendo la conexión entre el modelo de Price y la distribución de Pareto
Heterogeneidad de parámetros: Existe variación significativa en los valores de ρ̂ entre diferentes disciplinas dentro de la misma red, confirmando que diferentes disciplinas tienen diferentes proporciones de citación aleatoria-preferente
Ventaja de ajuste en la cola: El modelo muestra un ajuste particularmente bueno en la cola de la distribución de grados, lo cual es importante para entender el patrón de distribución de artículos altamente citados
Consistencia global: El promedio ponderado del modelo de comunidades es altamente consistente con el modelo 3DSI global
Coeficiente de Gini global:
Representado mediante integración de distribuciones mixtas, involucrando fórmulas complejas con funciones hipergeométricas, con provisión de fórmulas de aproximación prácticas.
Secuencia de grados global: Debido a la complejidad de la mezcla de comunidades, no se puede obtener una representación analítica simple de la secuencia de grados global
Supuestos del modelo: Supone que las citaciones aleatorias se distribuyen uniformemente en toda la red y que las citaciones preferentes se limitan a la comunidad
Independencia de parámetros: Los valores de ν_i no son independientes entre diferentes comunidades, aumentando la complejidad del análisis
Calidad de ajuste: Algunas comunidades de redes reales no pueden ajustarse perfectamente, reflejando la impredecibilidad del comportamiento de redes reales
Price (1965): Redes de artículos científicos - Modelo de Price original
Siudem et al. (2020): Tres dimensiones del impacto científico - Modelo 3DSI
Albert & Barabási (2002): Mecánica estadística de redes complejas - Modelo BA
Fortunato (2010): Detección de comunidades en grafos - Revisión de detección de comunidades
Holland et al. (1983): Modelos de bloques estocásticos - Modelo de bloques aleatorios
Este artículo realiza contribuciones importantes en la intersección de la ciencia de redes y la cienciometría, proporcionando nuevas herramientas teóricas para comprender el crecimiento de redes con estructura de comunidades mediante análisis matemático riguroso y validación empírica.