2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

نموذج نمو Price-Pareto للشبكات ذات البنية المجتمعية

المعلومات الأساسية

  • معرّف الورقة: 2510.13392
  • العنوان: نموذج نمو Price-Pareto للشبكات ذات البنية المجتمعية
  • المؤلفون: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • التصنيف: physics.soc-ph cs.SI stat.AP
  • تاريخ النشر: 15 أكتوبر 2025 (مسودة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.13392

الملخص

تقدم هذه الورقة إطار عمل تحليلي جديد لنمذجة تسلسلات الدرجات في المجتمعات المختلفة للشبكات الحقيقية، مثل الاستشهادات في الأوراق البحثية من مجالات مختلفة. يستند هذا العمل إلى نموذج Price ومعمماته الحديثة، وخاصة نموذج 3DSI (الأبعاد الثلاثة للتأثير العلمي)، الذي يفترض أن جزءاً من الاستشهادات يتم الحصول عليه عشوائياً وجزء آخر من خلال الاتصال التفضيلي. تنبع دوافع البحث من الدراسات الموجودة التي تظهر اختلافات كبيرة بين التخصصات العلمية المختلفة في طرق النمو، بما في ذلك معدلات نمو مختلفة وأطوال قوائم المراجع المتوسطة والميل نحو الاستشهادات التفضيلية. يوسع هذا العمل نموذج 3DSI إلى الشبكات غير المتجانسة ذات البنية المجتمعية، مما يسمح بتصميم صيغ تحليلية جديدة لحساب مقاييس عدم المساواة والتفضيل في الاستشهادات. تُظهر الدراسة أن توزيع الاستشهادات في المجتمعات يميل إلى توزيع Pareto من النوع الثاني، وتوفر صيغاً تحليلية لتقدير معاملات التوزيع ومعامل جيني.

السياق البحثي والدوافع

تعريف المشكلة

يهدف هذا البحث إلى حل مشكلة عدم قدرة نماذج شبكات الاستشهادات الموجودة على التعامل الفعال مع البنية المجتمعية. على الرغم من أن النماذج التقليدية لنمو الشبكات مثل نموذج Barabási-Albert ونموذج Price يمكنها شرح الخصائص الخالية من المقياس في الشبكات، إلا أنها تستند إلى افتراضات التجانس النسبي ولا يمكنها التقاط خصائص الشبكات ذات التباين المحلي، خاصة الشبكات ذات البنية المجتمعية.

أهمية المشكلة

  1. التباين بين التخصصات: تختلف التخصصات العلمية المختلفة بشكل كبير في أنماط نمو الشبكات، بما في ذلك معدلات النمو وطول قوائم المراجع المتوسطة والميل نحو الاستشهادات التفضيلية
  2. انتشار البنية المجتمعية: تلعب البنية المجتمعية دوراً مهماً في الشبكات البيولوجية والحضرية والاجتماعية، لكنها غالباً ما يتم تجاهلها في نمذجة شبكات الاستشهادات الحديثة
  3. غياب الأدوات التحليلية: نقص الأدوات التحليلية التي توفر رؤى نظرية وتتعامل مع البنية المجتمعية في نفس الوقت

قيود الطرق الموجودة

  1. نماذج الشبكات البسيطة: على الرغم من أن نموذج BA ونموذج Price ونموذج 3DSI لها خصائص تحليلية جيدة، إلا أنها لا تدعم البنية المجتمعية
  2. نماذج تقنية معقدة: على الرغم من أن الشبكات العصبية الرسومية وأجهزة التشفير التلقائي المتغيرة للرسوم البيانية يمكنها التعامل مع المجتمعات، إلا أنها تفتقر إلى الرؤى النظرية وتتطلب تفسيراً بصندوق أسود
  3. نماذج معقدة حسابياً: على الرغم من أن نماذج الرسوم البيانية العشوائية الأسية دقيقة إحصائياً، إلا أنها تتطلب حسابات كبيرة لملاءمة البيانات الحقيقية

المساهمات الأساسية

  1. اقتراح نموذج نمو Price-Pareto: توسيع نموذج 3DSI إلى الشبكات غير المتجانسة ذات البنية المجتمعية، مما يسمح بمعاملات مختلفة لكل مجتمع
  2. التحليل النظري: إثبات أن توزيع الاستشهادات داخل المجتمعات يتقارب إلى توزيع Pareto من النوع الثاني واشتقاق الصيغ التحليلية ذات الصلة
  3. صيغ معامل جيني: توفير صيغ تحليلية دقيقة لحساب معامل جيني داخل المجتمعات والشبكة الكلية
  4. طرق تقدير المعاملات: تطوير طرق متعددة لتقدير المعاملات، خاصة المقدرات المستندة إلى معامل جيني
  5. التحقق التجريبي: التحقق من فعالية النموذج على مجموعات بيانات CORA و DBLP

شرح الطريقة

تعريف المهمة

الإدخال: شبكة استشهادات ذات بنية مجتمعية الإخراج: نموذج تسلسل الدرجات لكل مجتمع ومعاملات النموذج الهدف: نمذجة دقيقة لخصائص توزيع الاستشهادات داخل كل مجتمع

معمارية النموذج

مراجعة نموذج 3DSI الأساسي

الافتراضات الأساسية للنموذج القياسي 3DSI:

  • إضافة عقدة جديدة في كل تكرار، مع تخصيص m استشهادات
  • توزيع (1-ρ)m استشهادات عشوائياً (استشهادات عرضية)
  • توزيع ρm استشهادات من خلال الاتصال التفضيلي (استشهادات تفضيلية)

العلاقة التكرارية للدرجة:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

التوسيع إلى البنية المجتمعية

التوسيعات الرئيسية:

  1. تخصيص المجتمع: تخصيص عقدة جديدة للمجتمع i باحتمالية p_i
  2. عدم تجانس المعاملات: لكل مجتمع معاملات خاصة به m_i و ρ_i
  3. قواعد الاستشهادات:
    • يتم اختيار الاستشهادات العرضية عشوائياً من الشبكة بأكملها
    • يتم اختيار الاستشهادات التفضيلية من نفس المجتمع فقط
    • لا يُسمح بالحلقات الذاتية

الصيغة التكرارية:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

حساب الدخل العرضي

نمذجة العشوائية في نمو الشبكة من خلال التوزيع ذي الحدين السالب:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

حيث ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ هو متوسط الاستشهادات العرضية المرجحة.

الحل الشكلي المغلق

بإدخال المعامل الفعال ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i)، نحصل على حل شكلي مغلق:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

نقاط الابتكار التقني

  1. مفهوم الوقت المحلي: إدخال الوقت النسبي بالنسبة لحجم المجتمع، مما يسمح بالتعامل مع المجتمعات ذات معدلات النمو المختلفة
  2. معالجة التوزيع المختلط: نمذجة العشوائية في نمو الشبكة من خلال التوزيع ذي الحدين السالب، مما يحسب الدخل العرضي بدقة
  3. المعامل الفعال: إدخال ν_i كنسخة "فعالة" من ρ في نموذج 3DSI القياسي، مما يبسط التحليل
  4. التحليل التقاربي: إثبات أن توزيع الدرجات يتقارب إلى توزيع Pareto من النوع الثاني، مما يؤسس الصلة بين نموذج Price وتوزيع Pareto

إعداد التجارب

مجموعات البيانات

  1. مجموعة بيانات CORA:
    • 2,708 عقدة، 5,429 حافة
    • 7 مجتمعات تخصصية
    • متوسط الدرجة الداخلة/الخارجة: 2.005
  2. شبكة مؤلفي DBLP v14:
    • 481,387 عقدة، 58,544,370 حافة
    • 8 مجتمعات أكبر
    • متوسط الدرجة الداخلة/الخارجة: 121.616
    • معالجة البيانات المسبقة: تجميع استشهادات الأوراق كاستشهادات للمؤلفين، إزالة الاستشهادات الذاتية

مؤشرات التقييم

  1. ملاءمة توزيع الدرجات: مقارنة القيم المرصودة مع التنبؤات النموذجية من خلال دالة الكثافة
  2. دقة تقدير المعاملات: تقييم دقة طرق التقدير المختلفة
  3. معامل جيني: مقارنة معامل جيني المحسوب نظرياً مع المقاس الفعلي

طرق تقدير المعاملات

المقدر المستند إلى معامل جيني (الطريقة الرئيسية):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

الطرق البديلة:

  • المقدر المستند إلى عدد الحواف داخل المجتمع
  • حل النظام الخطي المستند على معادلات الدرجة الداخلة

نتائج التجارب

النتائج الرئيسية

  1. مجموعة بيانات CORA: يؤدي النموذج بشكل جيد في جميع المجتمعات السبعة، خاصة في ملاءمة ذيل التوزيع
  2. مجموعة بيانات DBLP: ملاءمة جيدة في معظم المجتمعات الثمانية، على الرغم من أن بعض المجتمعات (مثل "نظرية التحكم") لها ملاءمة أقل جودة
  3. الشبكة الكلية: نموذج 3DSI القياسي والنموذج المقترح متطابقان تقريباً في تسلسل الدرجات العام، باستثناء الاختلافات في الذيل

نتائج تقدير المعاملات

معاملات مجموعة بيانات CORA:

  • نطاق m̂_i: 1.798-2.338
  • نطاق ρ̂_i: 0.457-0.710
  • نطاق معامل جيني: 0.674-0.757

معاملات مجموعة بيانات DBLP:

  • نطاق m̂_i: 35.39-144.31
  • نطاق ρ̂_i: 0.523-0.810
  • نطاق معامل جيني: 0.726-0.814

الاكتشافات الرئيسية

  1. عدم تجانس المعاملات: وجود اختلافات كبيرة في قيم ρ̂ بين التخصصات المختلفة داخل نفس الشبكة، مما يؤكد أن التخصصات المختلفة لها نسب استشهادات عرضية-تفضيلية مختلفة
  2. ميزة ملاءمة الذيل: يتفوق النموذج بشكل خاص في ملاءمة ذيل توزيع الدرجات، وهو أمر مهم لفهم نمط توزيع الأوراق عالية الاستشهادات
  3. الاتساق العام: المتوسط المرجح لنموذج المجتمع يتطابق بدرجة عالية مع نموذج 3DSI العام

التحليل النظري

الخصائص التقاربية

عندما t→∞، يتقارب توزيع الدرجات إلى توزيع Pareto من النوع الثاني:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

المعاملات: α = 1/ν_i، λ = ⟨a⟩/ν_i

صيغ معامل جيني

معامل جيني داخل المجتمع:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

معامل جيني الكلي: يتم تمثيله من خلال التكامل للتوزيع المختلط، يتضمن صيغاً معقدة تتعلق بالدوال الهندسية الزائدة، مع توفير صيغ تقريبية عملية.

الأعمال ذات الصلة

نماذج نمو الشبكات الأساسية

  • نموذج Price: أول من أدخل الاتصال التفضيلي وظاهرة "الأغنياء يزدادون ثراءً"
  • نموذج Barabási-Albert: توسيع نموذج Price وإثبات خصائصه الرياضية
  • نموذج Bianconi-Barabási للياقة البدنية: إدخال مفهوم "اللياقة البدنية" الجوهرية للعقدة

نماذج البنية المجتمعية

  • نموذج الكتل العشوائية (SBM): نموذج توليد كلاسيكي ذو بنية مجتمعية
  • نماذج المواضيع: مثل تخصيص Dirichlet الكامن (LDA)، التنبؤ بالروابط بناءً على تشابه المواضيع
  • نموذج المواضيع العلائقية (RTM): الجمع بين LDA والتنبؤ بالروابط

الطرق الحديثة

  • الشبكات العصبية الرسومية: مثل شبكات الالتفاف الرسومية، لكنها تفتقر إلى الدقة الإحصائية
  • نماذج الرسوم البيانية العشوائية الأسية: إطار عمل صارم إحصائياً لكن معقد حسابياً
  • نموذج 3DSI: الأساس المباشر لهذه الورقة، لكنه لا يدعم البنية المجتمعية

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. توسيع ناجح لنموذج 3DSI إلى الشبكات ذات البنية المجتمعية مع الحفاظ على خصائص تحليلية جيدة
  2. إثبات نظري أن توزيع الدرجات في المجتمعات يتقارب إلى توزيع Pareto من النوع الثاني
  3. توفير إطار عمل كامل لتقدير المعاملات وصيغ حساب معامل جيني
  4. التحقق من فعالية النموذج على بيانات حقيقية

القيود

  1. تسلسل الدرجات العام: بسبب تعقيد مزج المجتمعات، لا يمكن الحصول على تمثيل تحليلي بسيط لتسلسل الدرجات العام
  2. افتراضات النموذج: يفترض أن الحواف العرضية موزعة بشكل موحد عبر الشبكة، والحواف التفضيلية مقتصرة على المجتمع
  3. استقلالية المعاملات: قيم ν_i غير مستقلة بين المجتمعات المختلفة، مما يزيد من تعقيد التحليل
  4. جودة الملاءمة: لا يمكن ملاءمة بعض مجتمعات الشبكات الحقيقية بشكل مثالي، مما يعكس عدم القدرة على التنبؤ بسلوك الشبكات الحقيقية

الاتجاهات المستقبلية

  1. توليد الرسوم البيانية المرجعية: تطوير إطار عمل خوارزمي لكشف المجتمعات
  2. الحواف العرضية غير المنتظمة: النظر في التوزيع غير المنتظم للحواف العرضية
  3. المعاملات المتغيرة بمرور الوقت: دراسة كيفية تغير المعاملات مع حجم الشبكة
  4. الاستشهادات عبر التخصصات: نمذجة التغييرات الزمنية في اتجاهات الاستشهادات عبر التخصصات

التقييم المتعمق

المميزات

  1. صرامة نظرية: توفير اشتقاق رياضي كامل وتحليل تقاربي
  2. قوة عملية: طرق تقدير المعاملات بسيطة ومباشرة وسهلة التطبيق
  3. الابتكار: أول من يتعامل مع البنية المجتمعية في إطار الاتصال التفضيلي
  4. التحقق الكافي: التحقق على مجموعتي بيانات حقيقيتين بأحجام مختلفة
  5. التحليل الشامل: سلسلة تحليل كاملة من العلاقات التكرارية إلى الحل الشكلي المغلق إلى الخصائص التقاربية

أوجه القصور

  1. قيود النموذج: قواعد التوزيع للاستشهادات العرضية والتفضيلية مبسطة نسبياً
  2. كشف المجتمعات: يعتمد على تقسيم مجتمع محدد مسبقاً، لم يتطرق إلى اكتشاف المجتمعات
  3. الديناميكية: لم يتم النظر في تطور البنية المجتمعية بمرور الوقت
  4. نطاق التحقق: تم التحقق فقط على شبكات الاستشهادات، وتطبيقيتها على أنواع شبكات أخرى غير معروفة

التأثير

  1. المساهمة النظرية: إنشاء صلة جديدة بين نموذج Price وتوزيع Pareto
  2. المنهجية: توفير أداة نمذجة بنية مجتمعية جديدة لعلم الشبكات
  3. القيمة التطبيقية: لها قيمة تطبيقية مباشرة في قياس العلوم وتحليل الشبكات
  4. قابلية التكرار: توفير خوارزميات وصيغ واضحة، سهلة التكرار

السيناريوهات المعمول بها

  1. قياس العلوم: تحليل أنماط الاستشهادات في التخصصات المختلفة
  2. الشبكات الاجتماعية: نمذجة نمو الشبكات الاجتماعية ذات البنية الجماعية
  3. الاختبار المرجعي: توفير شبكات مرجعية لخوارزميات كشف المجتمعات
  4. تحليل السياسات: فهم تأثير تطور التخصصات وتخصيص الموارد

المراجع

تشمل المراجع الرئيسية:

  • Price (1965): شبكات الأوراق العلمية - نموذج Price الأصلي
  • Siudem et al. (2020): الأبعاد الثلاثة للتأثير العلمي - نموذج 3DSI
  • Albert & Barabási (2002): الميكانيكا الإحصائية للشبكات المعقدة - نموذج BA
  • Fortunato (2010): كشف المجتمعات في الرسوم البيانية - مسح كشف المجتمعات
  • Holland et al. (1983): نماذج الكتل العشوائية - نموذج الكتل العشوائية

تقدم هذه الورقة مساهمة مهمة في مجال التقاطع بين علم الشبكات وقياس العلوم، وتوفر من خلال التحليل الرياضي الصارم والتحقق التجريبي أداة نظرية جديدة لفهم نمو الشبكات ذات البنية المجتمعية.