2025-11-25T01:25:17.472232

The Price-Pareto growth model of networks with community structure

Brzozowski, Gagolewski, Siudem et al.
We introduce a new analytical framework for modelling degree sequences in individual communities of real-world networks, e.g., citations to papers in different fields. Our work is inspired by Price's model and its recent generalisation called 3DSI (three dimensions of scientific impact), which assumes that citations are gained partly accidentally, and to some extent preferentially. Our generalisation is motivated by existing research indicating significant differences between how various scientific disciplines grow, namely, minding different growth ratios, average reference list lengths, and preferential citing tendencies. Extending the 3DSI model to heterogeneous networks with a community structure allows us to devise new analytical formulas for, e.g., citation number inequality and preferentiality measures. We show that the distribution of citations in a community tends to a Pareto type II distribution. We also present analytical formulas for estimating its parameters and Gini's index. The new model is validated on real citation networks.
academic

नेटवर्क कम्युनिटी संरचना के साथ मूल्य-पारेटो वृद्धि मॉडल

मूल जानकारी

  • पेपर ID: 2510.13392
  • शीर्षक: नेटवर्क कम्युनिटी संरचना के साथ मूल्य-पारेटो वृद्धि मॉडल
  • लेखक: Łukasz Brzozowski, Marek Gagolewski, Grzegorz Siudem, Barbara Żogała-Siudem
  • वर्गीकरण: physics.soc-ph cs.SI stat.AP
  • प्रकाशन समय: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.13392

सारांश

यह पेपर वास्तविक नेटवर्क में विभिन्न कम्युनिटीज़ के डिग्री अनुक्रमों को मॉडल करने के लिए एक नई विश्लेषणात्मक रूपरेखा प्रस्तावित करता है, जैसे विभिन्न क्षेत्रों के पेपरों के उद्धरण। यह कार्य Price मॉडल और इसके नवीनतम सामान्यीकरण 3DSI (वैज्ञानिक प्रभाव के तीन आयाम) मॉडल से प्रेरित है, जो मानता है कि उद्धरण का एक हिस्सा संयोग से प्राप्त होता है और एक हिस्सा प्राथमिकता से। अनुसंधान प्रेरणा इस तथ्य से आती है कि विभिन्न वैज्ञानिक विषयों में वृद्धि के तरीकों में महत्वपूर्ण अंतर होते हैं, जिनमें विभिन्न वृद्धि दरें, औसत संदर्भ सूची की लंबाई और प्राथमिकता उद्धरण प्रवृत्तियां शामिल हैं। 3DSI मॉडल को कम्युनिटी संरचना वाले विषम नेटवर्क तक विस्तारित करने से उद्धरण असमानता और प्राथमिकता उपायों की गणना के लिए नए विश्लेषणात्मक सूत्र डिजाइन करना संभव हो जाता है। अनुसंधान से पता चलता है कि कम्युनिटीज़ में उद्धरण वितरण पारेटो II प्रकार के वितरण की ओर प्रवृत्त होता है, और इसके मापदंडों और गिनी गुणांक का अनुमान लगाने के लिए विश्लेषणात्मक सूत्र प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान मौजूदा उद्धरण नेटवर्क मॉडल की कम्युनिटी संरचना को प्रभावी ढंग से संभालने में असमर्थता की समस्या को हल करने का लक्ष्य रखता है। Barabási-Albert मॉडल और Price मॉडल जैसे पारंपरिक नेटवर्क वृद्धि मॉडल नेटवर्क की स्केल-मुक्त विशेषताओं की व्याख्या कर सकते हैं, लेकिन वे सापेक्ष समरूपता की धारणा पर आधारित हैं और स्थानीय परिवर्तनशीलता वाली नेटवर्क विशेषताओं को नहीं पकड़ सकते हैं, विशेष रूप से कम्युनिटी संरचना वाली नेटवर्क।

समस्या की महत्ता

  1. विषय विविधता: विभिन्न वैज्ञानिक विषयों में नेटवर्क वृद्धि पैटर्न में महत्वपूर्ण अंतर होते हैं, जिनमें वृद्धि दरें, औसत संदर्भ सूची की लंबाई और प्राथमिकता उद्धरण प्रवृत्तियां शामिल हैं
  2. कम्युनिटी संरचना की सार्वभौमिकता: कम्युनिटी संरचना जैविक, शहरी और सामाजिक नेटवर्क में महत्वपूर्ण भूमिका निभाती है, लेकिन आधुनिक उद्धरण नेटवर्क मॉडलिंग में अक्सर अनदेखी की जाती है
  3. विश्लेषणात्मक उपकरणों की कमी: ऐसे उपकरणों की कमी है जो सैद्धांतिक अंतर्दृष्टि प्रदान कर सकें और कम्युनिटी संरचना को संभाल सकें

मौजूदा विधियों की सीमाएं

  1. सरल नेटवर्क मॉडल: BA मॉडल, Price मॉडल, 3DSI मॉडल अच्छे विश्लेषणात्मक गुण रखते हैं, लेकिन कम्युनिटी संरचना का समर्थन नहीं करते हैं
  2. जटिल तकनीकी मॉडल: ग्राफ न्यूरल नेटवर्क, ग्राफ वेरिएशनल ऑटोएनकोडर कम्युनिटीज़ को संभाल सकते हैं, लेकिन सैद्धांतिक अंतर्दृष्टि की कमी है और ब्लैक-बॉक्स व्याख्या की आवश्यकता है
  3. कम्प्यूटेशनली जटिल मॉडल: एक्सपोनेंशियल रैंडम ग्राफ मॉडल सांख्यिकीय रूप से सटीक हैं, लेकिन वास्तविक डेटा को फिट करने के लिए बड़ी मात्रा में कम्प्यूटेशन की आवश्यकता होती है

मुख्य योगदान

  1. Price-Pareto वृद्धि मॉडल प्रस्तावित करना: 3DSI मॉडल को कम्युनिटी संरचना वाले विषम नेटवर्क तक विस्तारित करना, जो विभिन्न कम्युनिटीज़ को विभिन्न मापदंडों की अनुमति देता है
  2. सैद्धांतिक विश्लेषण: यह साबित करना कि कम्युनिटी के भीतर उद्धरण वितरण पारेटो II प्रकार के वितरण में परिवर्तित होता है, और संबंधित विश्लेषणात्मक सूत्र प्राप्त करना
  3. गिनी गुणांक सूत्र: कम्युनिटी के भीतर और संपूर्ण नेटवर्क के गिनी गुणांक की गणना के लिए सटीक विश्लेषणात्मक सूत्र प्रदान करना
  4. पैरामीटर अनुमान विधि: कई पैरामीटर अनुमान विधियां विकसित करना, विशेष रूप से गिनी गुणांक पर आधारित अनुमानक
  5. अनुभवजन्य सत्यापन: CORA और DBLP डेटासेट पर मॉडल की प्रभावशीलता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

इनपुट: कम्युनिटी संरचना वाली उद्धरण नेटवर्क आउटपुट: प्रत्येक कम्युनिटी के डिग्री अनुक्रम मॉडल और उनके मापदंड उद्देश्य: प्रत्येक कम्युनिटी के भीतर उद्धरण वितरण विशेषताओं को सटीकता से मॉडल करना

मॉडल आर्किटेक्चर

मूल 3DSI मॉडल समीक्षा

मानक 3DSI मॉडल की मुख्य धारणाएं:

  • प्रत्येक पुनरावृत्ति में एक नया नोड जोड़ा जाता है, m उद्धरण आवंटित किए जाते हैं
  • (1-ρ)m उद्धरण यादृच्छिक रूप से आवंटित किए जाते हैं (संयोग उद्धरण)
  • ρm उद्धरण प्राथमिकता कनेक्शन के अनुसार आवंटित किए जाते हैं (प्राथमिकता उद्धरण)

डिग्री का पुनरावृत्ति संबंध:

d^(t)(ℓ) = d^(t-1)(ℓ) + Acc^(t)(ℓ) + ρm * [d^(t-1)(ℓ) + Acc^(t)(ℓ)] / [(t-1)m + (1-ρ)m]

कम्युनिटी संरचना विस्तार

मुख्य विस्तार:

  1. कम्युनिटी आवंटन: नए नोड को संभावना p_i के साथ कम्युनिटी i को आवंटित किया जाता है
  2. पैरामीटर विषमता: प्रत्येक कम्युनिटी के अपने m_i और ρ_i मापदंड होते हैं
  3. उद्धरण नियम:
    • संयोग उद्धरण पूरे नेटवर्क से यादृच्छिक रूप से चुने जाते हैं
    • प्राथमिकता उद्धरण केवल एक ही कम्युनिटी से चुने जाते हैं
    • स्व-लूप की अनुमति नहीं है

पुनरावृत्ति सूत्र:

d_i^(t)(ℓ) = d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ) + ρ_i*m_i * [d_i^(t-1)(ℓ) + Acc_i^(t)(ℓ)] / Σ_{r=1}^{t-1}[d_i^(t-1)(r) + Acc_i^(t-1)(r)]

संयोग आय गणना

नेटवर्क वृद्धि की यादृच्छिकता को नकारात्मक द्विपद वितरण के माध्यम से मॉडल किया जाता है:

Acc_i^(t)(ℓ) = ⟨a⟩/(t-1)

जहां ⟨a⟩ = ⟨m⟩ - ⟨ρm⟩ भारित औसत संयोग उद्धरण संख्या है।

बंद-रूप समाधान

प्रभावी पैरामीटर ν_i = ρ_im_i/(⟨a⟩ + ρ_im_i) का परिचय देते हुए, बंद-रूप समाधान प्राप्त करना:

d_i^(t)(ℓ) = (⟨a⟩/ν_i) * [Γ(ℓ-ν_i)*Γ(t) / (Γ(ℓ)*Γ(t-ν_i)) - 1]

तकनीकी नवाचार बिंदु

  1. स्थानीय समय अवधारणा: कम्युनिटी आकार के सापेक्ष स्थानीय समय का परिचय, जो विभिन्न वृद्धि दरों वाली कम्युनिटीज़ को संभालने में सक्षम बनाता है
  2. मिश्रित वितरण हैंडलिंग: नेटवर्क वृद्धि की यादृच्छिकता को मॉडल करने के लिए नकारात्मक द्विपद वितरण के माध्यम से, संयोग आय की सटीक गणना
  3. प्रभावी पैरामीटर: ν_i को मानक 3DSI मॉडल में ρ का "प्रभावी" संस्करण के रूप में परिचय, विश्लेषण को सरल बनाता है
  4. स्पर्शोन्मुख विश्लेषण: यह साबित करना कि डिग्री वितरण पारेटो II वितरण में परिवर्तित होता है, Price मॉडल और पारेटो वितरण के बीच संबंध स्थापित करता है

प्रयोग सेटअप

डेटासेट

  1. CORA डेटासेट:
    • 2,708 नोड्स, 5,429 किनारे
    • 7 विषय कम्युनिटीज़
    • औसत इन-डिग्री/आउट-डिग्री: 2.005
  2. DBLP v14 लेखक नेटवर्क:
    • 481,387 नोड्स, 58,544,370 किनारे
    • 8 सबसे बड़ी कम्युनिटीज़
    • औसत इन-डिग्री/आउट-डिग्री: 121.616
    • डेटा प्रीप्रोसेसिंग: पेपर उद्धरणों को लेखक उद्धरणों में एकत्रित करना, स्व-उद्धरण हटाना

मूल्यांकन मेट्रिक्स

  1. डिग्री वितरण फिटिंग: घनत्व फ़ंक्शन के माध्यम से अवलोकित मानों और मॉडल भविष्यवाणियों की तुलना
  2. पैरामीटर अनुमान सटीकता: विभिन्न अनुमान विधियों की सटीकता का मूल्यांकन
  3. गिनी गुणांक: सैद्धांतिक गणना और वास्तविक माप के गिनी गुणांक की तुलना

पैरामीटर अनुमान विधियां

गिनी गुणांक पर आधारित अनुमानक (मुख्य विधि):

m̂_i = Ψ_i/(N_i-1)
p̂_i = N_i/N  
ρ̂_i = Σ_i(2G_i + N_i - 2G_i*N_i) / [Ψ_i(G_i + 1 - G_i*N_i)]

वैकल्पिक विधियां:

  • कम्युनिटी के भीतर किनारों की संख्या पर आधारित अनुमानक
  • इन-डिग्री और समीकरणों के आधार पर रैखिक प्रणाली समाधान

प्रयोग परिणाम

मुख्य परिणाम

  1. CORA डेटासेट: मॉडल सभी 7 कम्युनिटीज़ में अच्छा प्रदर्शन करता है, विशेष रूप से वितरण की पूंछ में फिटिंग प्रभाव उत्कृष्ट है
  2. DBLP डेटासेट: 8 कम्युनिटीज़ में से अधिकांश में अच्छी फिटिंग है, हालांकि कुछ कम्युनिटीज़ (जैसे "नियंत्रण सिद्धांत") में फिटिंग प्रभाव कम है
  3. संपूर्ण नेटवर्क: मानक 3DSI मॉडल और यह मॉडल वैश्विक डिग्री अनुक्रम पर लगभग समान हैं, पूंछ अंतर को छोड़कर

पैरामीटर अनुमान परिणाम

CORA डेटासेट पैरामीटर:

  • m̂_i रेंज: 1.798-2.338
  • ρ̂_i रेंज: 0.457-0.710
  • गिनी गुणांक रेंज: 0.674-0.757

DBLP डेटासेट पैरामीटर:

  • m̂_i रेंज: 35.39-144.31
  • ρ̂_i रेंज: 0.523-0.810
  • गिनी गुणांक रेंज: 0.726-0.814

मुख्य निष्कर्ष

  1. पैरामीटर विषमता: एक ही नेटवर्क के भीतर विभिन्न विषयों के ρ̂ मानों में बड़ा अंतर है, जो यह साबित करता है कि विभिन्न विषयों में संयोग-प्राथमिकता उद्धरण अनुपात अलग-अलग होते हैं
  2. पूंछ फिटिंग लाभ: मॉडल डिग्री वितरण की पूंछ में विशेष रूप से अच्छा फिटिंग प्रभाव प्रदान करता है, जो उच्च उद्धरण पेपरों के वितरण पैटर्न को समझने के लिए महत्वपूर्ण है
  3. वैश्विक सामंजस्य: कम्युनिटी मॉडल का भारित औसत वैश्विक 3DSI मॉडल के साथ अत्यधिक सुसंगत है

सैद्धांतिक विश्लेषण

स्पर्शोन्मुख गुण

जब t→∞ हो, तो डिग्री वितरण पारेटो II प्रकार के वितरण में परिवर्तित होता है:

f_i(x) = (1/⟨a⟩) * (1 + ν_i*x/⟨a⟩)^{-1-1/ν_i}

पैरामीटर: α = 1/ν_i, λ = ⟨a⟩/ν_i

गिनी गुणांक सूत्र

कम्युनिटी के भीतर गिनी गुणांक:

G_i^(t) = (t-ν_i)/(t-1) * 1/(2-ν_i)

संपूर्ण गिनी गुणांक: मिश्रित वितरण के अभिन्न प्रतिनिधित्व के माध्यम से, जिसमें हाइपरजियोमेट्रिक फ़ंक्शन के जटिल सूत्र शामिल हैं, और व्यावहारिक अनुमानित सूत्र प्रदान करता है।

संबंधित कार्य

मूल नेटवर्क वृद्धि मॉडल

  • Price मॉडल: पहली बार प्राथमिकता कनेक्शन और "अमीर और अमीर होते जाएं" घटना का परिचय
  • Barabási-Albert मॉडल: Price मॉडल को सामान्य बनाता है और इसके गणितीय गुणों को साबित करता है
  • Bianconi-Barabási अनुकूलन मॉडल: नोड्स की आंतरिक "अनुकूलन" अवधारणा का परिचय

कम्युनिटी संरचना मॉडल

  • यादृच्छिक ब्लॉक मॉडल (SBM): कम्युनिटी संरचना वाले उत्पादन मॉडल का शास्त्रीय
  • विषय मॉडल: जैसे लेटेंट डिरिचलेट आवंटन (LDA), विषय समानता के आधार पर लिंक भविष्यवाणी
  • संबंधपरक विषय मॉडल (RTM): LDA और लिंक भविष्यवाणी को जोड़ता है

आधुनिक विधियां

  • ग्राफ न्यूरल नेटवर्क: जैसे ग्राफ कनवोल्यूशनल नेटवर्क, लेकिन सांख्यिकीय सटीकता की कमी
  • एक्सपोनेंशियल रैंडम ग्राफ मॉडल: सांख्यिकीय रूपरेखा कठोर लेकिन कम्प्यूटेशनली जटिल
  • 3DSI मॉडल: इस पेपर का सीधा आधार, लेकिन कम्युनिटी संरचना का समर्थन नहीं करता

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. 3DSI मॉडल को कम्युनिटी संरचना नेटवर्क तक सफलतापूर्वक विस्तारित करना, अच्छे विश्लेषणात्मक गुणों को बनाए रखना
  2. सैद्धांतिक रूप से यह साबित करना कि कम्युनिटी डिग्री वितरण पारेटो II वितरण में परिवर्तित होता है
  3. संपूर्ण पैरामीटर अनुमान रूपरेखा और गिनी गुणांक गणना सूत्र प्रदान करना
  4. वास्तविक डेटा पर मॉडल की प्रभावशीलता को सत्यापित करना

सीमाएं

  1. वैश्विक डिग्री अनुक्रम: कम्युनिटी मिश्रण की जटिलता के कारण, वैश्विक डिग्री अनुक्रम का सरल विश्लेषणात्मक प्रतिनिधित्व प्राप्त नहीं किया जा सकता
  2. मॉडल धारणाएं: मानता है कि संयोग उद्धरण पूरे नेटवर्क में समान रूप से वितरित होते हैं, प्राथमिकता उद्धरण केवल कम्युनिटी के भीतर सीमित होते हैं
  3. पैरामीटर स्वतंत्रता: ν_i मान विभिन्न कम्युनिटीज़ में स्वतंत्र नहीं हैं, विश्लेषण जटिलता बढ़ाता है
  4. फिटिंग गुणवत्ता: कुछ वास्तविक नेटवर्क कम्युनिटीज़ को पूरी तरह से फिट नहीं किया जा सकता, वास्तविक नेटवर्क व्यवहार की अप्रत्याशितता को दर्शाता है

भविष्य की दिशाएं

  1. बेंचमार्क ग्राफ जनरेशन: कम्युनिटी डिटेक्शन के लिए एल्गोरिदम रूपरेखा विकसित करना
  2. गैर-समान संयोग किनारे: संयोग किनारों के गैर-समान वितरण पर विचार करना
  3. समय-परिवर्तनशील पैरामीटर: नेटवर्क आकार के साथ पैरामीटर परिवर्तन का अध्ययन करना
  4. क्रॉस-डिसिप्लिनरी उद्धरण: क्रॉस-डिसिप्लिनरी उद्धरण प्रवृत्तियों के समय परिवर्तन को मॉडल करना

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक कठोरता: संपूर्ण गणितीय व्युत्पत्ति और स्पर्शोन्मुख विश्लेषण प्रदान करता है
  2. व्यावहारिक शक्ति: पैरामीटर अनुमान विधियां सरल और सीधी हैं, लागू करने में आसान हैं
  3. नवाचार: प्राथमिकता कनेक्शन रूपरेखा के तहत कम्युनिटी संरचना को संभालने वाला पहला
  4. पर्याप्त सत्यापन: दो अलग-अलग आकार के वास्तविक डेटासेट पर सत्यापित
  5. विश्लेषण पूर्णता: पुनरावृत्ति संबंध से बंद-रूप समाधान तक स्पर्शोन्मुख गुणों तक संपूर्ण विश्लेषण श्रृंखला

कमियां

  1. मॉडल सीमाएं: संयोग उद्धरण और प्राथमिकता उद्धरण के आवंटन नियम अपेक्षाकृत सरलीकृत हैं
  2. कम्युनिटी डिटेक्शन: पूर्व-निर्धारित कम्युनिटी विभाजन पर निर्भर, कम्युनिटी खोज में शामिल नहीं
  3. गतिशीलता: कम्युनिटी संरचना के समय के साथ विकास पर विचार नहीं करता
  4. सत्यापन रेंज: केवल उद्धरण नेटवर्क पर सत्यापित, अन्य प्रकार के नेटवर्क पर प्रयोज्यता अज्ञात है

प्रभाव

  1. सैद्धांतिक योगदान: Price मॉडल और पारेटो वितरण के बीच नया संबंध स्थापित करता है
  2. पद्धति विज्ञान: नेटवर्क विज्ञान के लिए कम्युनिटी संरचना मॉडलिंग का नया उपकरण प्रदान करता है
  3. अनुप्रयोग मूल्य: वैज्ञानिक मेट्रिक्स और नेटवर्क विश्लेषण के लिए सीधे अनुप्रयोग मूल्य है
  4. पुनरुत्पादनीयता: स्पष्ट एल्गोरिदम और सूत्र प्रदान करता है, पुनरुत्पादन में आसान है

प्रयोज्य परिदृश्य

  1. वैज्ञानिक मेट्रिक्स: विभिन्न विषयों के उद्धरण पैटर्न का विश्लेषण करना
  2. सामाजिक नेटवर्क: समूह संरचना वाली सामाजिक नेटवर्क वृद्धि को मॉडल करना
  3. बेंचमार्क परीक्षण: कम्युनिटी डिटेक्शन एल्गोरिदम के लिए बेंचमार्क नेटवर्क प्रदान करना
  4. नीति विश्लेषण: विषय विकास और संसाधन आवंटन के प्रभाव को समझना

संदर्भ

मुख्य संदर्भ साहित्य में शामिल हैं:

  • Price (1965): वैज्ञानिक पेपरों के नेटवर्क - मूल Price मॉडल
  • Siudem et al. (2020): वैज्ञानिक प्रभाव के तीन आयाम - 3DSI मॉडल
  • Albert & Barabási (2002): जटिल नेटवर्क की सांख्यिकीय यांत्रिकी - BA मॉडल
  • Fortunato (2010): ग्राफ में कम्युनिटी डिटेक्शन - कम्युनिटी डिटेक्शन समीक्षा
  • Holland et al. (1983): स्टोकेस्टिक ब्लॉकमॉडल - यादृच्छिक ब्लॉक मॉडल

यह पेपर नेटवर्क विज्ञान और वैज्ञानिक मेट्रिक्स के अंतःविषय क्षेत्र में महत्वपूर्ण योगदान देता है। कठोर गणितीय विश्लेषण और अनुभवजन्य सत्यापन के माध्यम से, यह कम्युनिटी संरचना वाली नेटवर्क वृद्धि को समझने के लिए नए सैद्धांतिक उपकरण प्रदान करता है।