2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

El modelo de crecimiento Price-Pareto de redes con estructura de comunidades

Información Básica

  • ID del artículo: 2510.13392
  • Título: El modelo de crecimiento Price-Pareto de redes con estructura de comunidades
  • Autores: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • Clasificación: physics.soc-ph cs.SI stat.AP
  • Fecha de publicación: 15 de octubre de 2025 (preimpresión arXiv)
  • Enlace del artículo: https://arxiv.org/abs/2510.13392

Resumen

Este artículo propone un nuevo marco analítico para modelar las secuencias de grado de comunidades individuales en redes reales, como las citaciones de artículos en diferentes disciplinas. El trabajo se inspira en el modelo de Price y sus generalizaciones recientes, particularmente el modelo 3DSI (Tres Dimensiones del Impacto Científico), que asume que las citaciones se adquieren parcialmente de forma aleatoria y parcialmente mediante conexión preferente. La motivación de la investigación proviene de estudios existentes que demuestran diferencias significativas entre disciplinas científicas en sus patrones de crecimiento, incluyendo diferentes tasas de crecimiento, longitudes promedio de listas de referencias y tendencias de citación preferente. El trabajo extiende el modelo 3DSI a redes heterogéneas con estructura de comunidades, permitiendo diseñar nuevas fórmulas analíticas para calcular medidas de desigualdad de citaciones y preferencia. El estudio demuestra que las distribuciones de citaciones dentro de comunidades tienden a seguir una distribución Pareto tipo II, y proporciona fórmulas analíticas para estimar sus parámetros y coeficientes de Gini.

Antecedentes y Motivación de la Investigación

Definición del Problema

Esta investigación aborda el problema de que los modelos existentes de redes de citación no pueden manejar efectivamente la estructura de comunidades. Aunque modelos clásicos de crecimiento de redes como el modelo Barabási-Albert y el modelo de Price pueden explicar las propiedades libres de escala de las redes, se basan en supuestos de homogeneidad relativa y no pueden capturar características de redes con variabilidad local, particularmente aquellas con estructura de comunidades.

Importancia del Problema

  1. Variabilidad disciplinaria: Diferentes disciplinas científicas presentan patrones de crecimiento de redes significativamente distintos, incluyendo tasas de crecimiento, longitud promedio de referencias y tendencias de citación preferente
  2. Universalidad de la estructura de comunidades: La estructura de comunidades juega un papel importante en redes biológicas, urbanas y sociales, pero frecuentemente se ignora en la modelización moderna de redes de citación
  3. Ausencia de herramientas analíticas: Falta de herramientas analíticas que proporcionen simultáneamente perspectivas teóricas y capacidad para manejar estructura de comunidades

Limitaciones de Métodos Existentes

  1. Modelos de red simples: Aunque los modelos BA, Price y 3DSI poseen buenas propiedades analíticas, no soportan estructura de comunidades
  2. Modelos técnicos complejos: Aunque las redes neuronales de grafos y los autocodificadores variacionales de grafos pueden manejar comunidades, carecen de perspectivas teóricas y requieren interpretación de caja negra
  3. Modelos computacionalmente complejos: Aunque los modelos de grafos aleatorios exponenciales son estadísticamente precisos, requieren cálculos extensivos para ajustarse a datos reales

Contribuciones Principales

  1. Propuesta del modelo de crecimiento Price-Pareto: Extensión del modelo 3DSI a redes heterogéneas con estructura de comunidades, permitiendo que diferentes comunidades tengan parámetros distintos
  2. Análisis teórico: Demostración de que las distribuciones de citaciones dentro de comunidades convergen a una distribución Pareto tipo II, con derivación de fórmulas analíticas relacionadas
  3. Fórmulas del coeficiente de Gini: Provisión de fórmulas analíticas exactas para calcular coeficientes de Gini dentro de comunidades y en la red completa
  4. Métodos de estimación de parámetros: Desarrollo de múltiples métodos de estimación de parámetros, particularmente estimadores basados en el coeficiente de Gini
  5. Validación empírica: Verificación de la efectividad del modelo en los conjuntos de datos CORA y DBLP

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Red de citación con estructura de comunidades Salida: Modelos de secuencias de grado para cada comunidad y sus parámetros Objetivo: Modelar con precisión las características de distribución de citaciones dentro de cada comunidad

Arquitectura del Modelo

Revisión del Modelo 3DSI Base

Los supuestos centrales del modelo 3DSI estándar:

  • En cada iteración se añade un nuevo nodo con m citaciones
  • (1-ρ)m citaciones se asignan aleatoriamente (citaciones aleatorias)
  • ρm citaciones se asignan mediante conexión preferente (citaciones preferentes)

Relación de recurrencia del grado:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

Extensión a Estructura de Comunidades

Extensiones clave:

  1. Asignación de comunidades: Los nuevos nodos se asignan a la comunidad i con probabilidad p_i
  2. Heterogeneidad de parámetros: Cada comunidad tiene sus propios parámetros m_i y ρ_i
  3. Reglas de citación:
    • Las citaciones aleatorias se seleccionan aleatoriamente de toda la red
    • Las citaciones preferentes se limitan a la misma comunidad
    • No se permiten auto-bucles

Fórmula de recurrencia:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

Cálculo de Ingresos Aleatorios

Modelización de la aleatoriedad en el crecimiento de la red mediante distribución binomial negativa:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

donde ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ es el número promedio ponderado de citaciones aleatorias.

Solución de Forma Cerrada

Introduciendo el parámetro efectivo ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i), se obtiene la solución de forma cerrada:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

Puntos de Innovación Técnica

  1. Concepto de tiempo local: Introducción del tiempo relativo al tamaño de la comunidad, permitiendo manejar comunidades con diferentes tasas de crecimiento
  2. Tratamiento de distribuciones mixtas: Modelización de la aleatoriedad en el crecimiento de la red mediante distribución binomial negativa, calculando con precisión los ingresos aleatorios
  3. Parámetro efectivo: Introducción de ν_i como versión "efectiva" de ρ en el modelo 3DSI estándar, simplificando el análisis
  4. Análisis asintótico: Demostración de que la distribución de grados converge a una distribución Pareto tipo II, estableciendo la conexión entre el modelo de Price y la distribución de Pareto

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de datos CORA:
    • 2,708 nodos, 5,429 aristas
    • 7 comunidades disciplinarias
    • Grado de entrada/salida promedio: 2.005
  2. Red de autores DBLP v14:
    • 481,387 nodos, 58,544,370 aristas
    • 8 comunidades más grandes
    • Grado de entrada/salida promedio: 121.616
    • Preprocesamiento de datos: Agregación de citaciones de artículos a citaciones de autores, eliminación de auto-citaciones

Métricas de Evaluación

  1. Ajuste de distribución de grados: Comparación de valores observados con predicciones del modelo mediante funciones de densidad
  2. Precisión de estimación de parámetros: Evaluación de la precisión de diferentes métodos de estimación
  3. Coeficiente de Gini: Comparación del coeficiente de Gini calculado teóricamente con el medido realmente

Métodos de Estimación de Parámetros

Estimador basado en coeficiente de Gini (método principal):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

Métodos alternativos:

  • Estimador basado en número de aristas dentro de comunidades
  • Resolución de sistema lineal basado en ecuaciones de grado de entrada

Resultados Experimentales

Resultados Principales

  1. Conjunto de datos CORA: El modelo funciona bien en las 7 comunidades, con excelente ajuste particularmente en la cola de la distribución
  2. Conjunto de datos DBLP: Buen ajuste en la mayoría de las 8 comunidades, aunque el ajuste es inferior en algunas comunidades (como "Teoría de Control")
  3. Red completa: El modelo 3DSI estándar y el modelo propuesto son casi idénticos en la secuencia de grados global, excepto por diferencias en la cola

Resultados de Estimación de Parámetros

Parámetros del conjunto de datos CORA:

  • Rango de m̂_i: 1.798-2.338
  • Rango de ρ̂_i: 0.457-0.710
  • Rango de coeficiente de Gini: 0.674-0.757

Parámetros del conjunto de datos DBLP:

  • Rango de m̂_i: 35.39-144.31
  • Rango de ρ̂_i: 0.523-0.810
  • Rango de coeficiente de Gini: 0.726-0.814

Hallazgos Clave

  1. Heterogeneidad de parámetros: Existe variación significativa en los valores de ρ̂ entre diferentes disciplinas dentro de la misma red, confirmando que diferentes disciplinas tienen diferentes proporciones de citación aleatoria-preferente
  2. Ventaja de ajuste en la cola: El modelo muestra un ajuste particularmente bueno en la cola de la distribución de grados, lo cual es importante para entender el patrón de distribución de artículos altamente citados
  3. Consistencia global: El promedio ponderado del modelo de comunidades es altamente consistente con el modelo 3DSI global

Análisis Teórico

Propiedades Asintóticas

Cuando t→∞, la distribución de grados converge a una distribución Pareto tipo II:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

Parámetros: α = 1/ν_i, λ = ⟨a⟩/ν_i

Fórmulas del Coeficiente de Gini

Coeficiente de Gini dentro de comunidades:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

Coeficiente de Gini global: Representado mediante integración de distribuciones mixtas, involucrando fórmulas complejas con funciones hipergeométricas, con provisión de fórmulas de aproximación prácticas.

Trabajo Relacionado

Modelos Fundamentales de Crecimiento de Redes

  • Modelo de Price: Introducción inicial de conexión preferente y fenómeno de "los ricos se hacen más ricos"
  • Modelo Barabási-Albert: Generalización del modelo de Price con demostración de propiedades matemáticas
  • Modelo de aptitud Bianconi-Barabási: Introducción del concepto de "aptitud" intrínseca de nodos

Modelos de Estructura de Comunidades

  • Modelo de bloques aleatorios (SBM): Modelo generativo clásico con estructura de comunidades
  • Modelos temáticos: Como Asignación Latente de Dirichlet (LDA), predicción de enlaces basada en similitud temática
  • Modelo temático relacional (RTM): Combinación de LDA y predicción de enlaces

Enfoques Modernos

  • Redes neuronales de grafos: Como redes convolucionales de grafos, pero carentes de precisión estadística
  • Modelos de grafos aleatorios exponenciales: Marco estadístico riguroso pero computacionalmente complejo
  • Modelo 3DSI: Base directa de este trabajo, pero sin soporte para estructura de comunidades

Conclusiones y Discusión

Conclusiones Principales

  1. Extensión exitosa del modelo 3DSI a redes con estructura de comunidades, manteniendo buenas propiedades analíticas
  2. Demostración teórica de que las distribuciones de grados de comunidades convergen a una distribución Pareto tipo II
  3. Provisión de marco completo de estimación de parámetros y fórmulas de cálculo de coeficiente de Gini
  4. Validación de la efectividad del modelo en datos reales

Limitaciones

  1. Secuencia de grados global: Debido a la complejidad de la mezcla de comunidades, no se puede obtener una representación analítica simple de la secuencia de grados global
  2. Supuestos del modelo: Supone que las citaciones aleatorias se distribuyen uniformemente en toda la red y que las citaciones preferentes se limitan a la comunidad
  3. Independencia de parámetros: Los valores de ν_i no son independientes entre diferentes comunidades, aumentando la complejidad del análisis
  4. Calidad de ajuste: Algunas comunidades de redes reales no pueden ajustarse perfectamente, reflejando la impredecibilidad del comportamiento de redes reales

Direcciones Futuras

  1. Generación de grafos de referencia: Desarrollo de marco algorítmico para detección de comunidades
  2. Aristas aleatorias no uniformes: Consideración de distribución no uniforme de aristas aleatorias
  3. Parámetros variables en el tiempo: Investigación de cómo los parámetros varían con el tamaño de la red
  4. Citaciones entre disciplinas: Modelización de cambios temporales en tendencias de citación entre disciplinas

Evaluación Profunda

Fortalezas

  1. Rigor teórico: Provisión de derivaciones matemáticas completas y análisis asintótico
  2. Practicidad: Métodos de estimación de parámetros simples y directos, fáciles de aplicar
  3. Innovación: Primera vez que se aborda estructura de comunidades dentro del marco de conexión preferente
  4. Validación suficiente: Verificación en dos conjuntos de datos reales de diferentes escalas
  5. Análisis completo: Cadena analítica completa desde relaciones de recurrencia hasta soluciones de forma cerrada y propiedades asintóticas

Deficiencias

  1. Limitaciones del modelo: Las reglas de asignación de citaciones aleatorias y preferentes son relativamente simplificadas
  2. Detección de comunidades: Depende de particiones de comunidades predefinidas, sin abordar el descubrimiento de comunidades
  3. Dinamismo: No considera la evolución de la estructura de comunidades a lo largo del tiempo
  4. Alcance de validación: Validación solo en redes de citación, aplicabilidad a otros tipos de redes desconocida

Impacto

  1. Contribución teórica: Establecimiento de nuevas conexiones entre el modelo de Price y la distribución de Pareto
  2. Metodología: Provisión de nueva herramienta de modelización de estructura de comunidades para ciencia de redes
  3. Valor aplicado: Valor de aplicación directa en cienciometría y análisis de redes
  4. Reproducibilidad: Provisión de algoritmos y fórmulas claros, fáciles de reproducir

Escenarios de Aplicación

  1. Cienciometría: Análisis de patrones de citación en diferentes disciplinas
  2. Redes sociales: Modelización del crecimiento de redes sociales con estructura de grupos
  3. Pruebas de referencia: Provisión de redes de referencia para algoritmos de detección de comunidades
  4. Análisis de políticas: Comprensión del impacto de desarrollo disciplinario y asignación de recursos

Referencias

Las referencias clave incluyen:

  • Price (1965): Redes de artículos científicos - Modelo de Price original
  • Siudem et al. (2020): Tres dimensiones del impacto científico - Modelo 3DSI
  • Albert & Barabási (2002): Mecánica estadística de redes complejas - Modelo BA
  • Fortunato (2010): Detección de comunidades en grafos - Revisión de detección de comunidades
  • Holland et al. (1983): Modelos de bloques estocásticos - Modelo de bloques aleatorios

Este artículo realiza contribuciones importantes en la intersección de la ciencia de redes y la cienciometría, proporcionando nuevas herramientas teóricas para comprender el crecimiento de redes con estructura de comunidades mediante análisis matemático riguroso y validación empírica.