Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.
- पेपर ID: 2510.09562
- शीर्षक: आश्रित और विषम भारी-पूंछ वाले डेटा के लिए सामान्यीकृत टेलर का नियम
- लेखक: पोक हिम चेंग (कोलंबिया विश्वविद्यालय), जोएल ई. कोहेन (रॉकफेलर विश्वविद्यालय और कोलंबिया विश्वविद्यालय), होक कान लिंग (क्वीन्स विश्वविद्यालय), शेउंग ची फिलिप यम (चीनी विश्वविद्यालय हांगकांग)
- वर्गीकरण: math.ST stat.TH
- प्रकाशन समय: 13 अक्टूबर, 2025
- पेपर लिंक: https://arxiv.org/abs/2510.09562
टेलर का नियम (जिसे भौतिकी में उतार-चढ़ाव स्केलिंग नियम या सांख्यिकी में शक्ति-नियम विचरण फलन भी कहा जाता है) पारिस्थितिकी, भौतिकी, वित्त और महामारी विज्ञान जैसे क्षेत्रों में व्यापक रूप से देखा जाने वाला एक अनुभवजन्य पैटर्न है। यह दर्शाता है कि नमूना विचरण नमूना माध्य की शक्ति फलन के अनुसार स्केल होता है। यह पेपर अनंत माध्य और विचरण वाले भारी-पूंछ वाले वितरण के संदर्भ में टेलर के नियम के सामान्यीकरण का अध्ययन करता है। हम संभाव्यता सीमाएं स्थापित करते हैं और संबंधित अभिसरण दरों का विश्लेषण करते हैं। हमारे परिणाम स्वतंत्र समान वितरण की धारणा को शिथिल करके यादृच्छिक चर के बीच आश्रितता और विषमता को समायोजित करके मौजूदा साहित्य का विस्तार करते हैं। यह सामान्यीकरण समय श्रृंखला और नेटवर्क संरचना डेटा जैसे आश्रित डेटा पर लागू होने में सक्षम बनाता है। हम व्यापक सिमुलेशन द्वारा सैद्धांतिक विकास का समर्थन करते हैं और वास्तविक नेटवर्क डेटा पर अनुप्रयोग के माध्यम से व्यावहारिक प्रासंगिकता प्रदर्शित करते हैं।
- टेलर के नियम का शास्त्रीय रूप: शास्त्रीय टेलर का नियम नमूना विचरण और नमूना माध्य के बीच शक्ति-नियम संबंध का वर्णन करता है: VarX=aμXb, जहां a>0 और b स्थिरांक हैं।
- मौजूदा अनुसंधान की सीमाएं:
- अधिकांश अनुसंधान हल्के-पूंछ वाले डेटा पर केंद्रित है, जहां जनसंख्या माध्य और विचरण मौजूद हैं
- मुख्य रूप से डेटा स्वतंत्र समान वितरण है यह मानते हैं
- आश्रित और विषम डेटा के लिए व्यवस्थित सिद्धांत की कमी
- भारी-पूंछ वाले वितरण का महत्व: वित्त, जोखिम प्रबंधन, नेटवर्क विश्लेषण आदि क्षेत्रों में, भारी-पूंछ वाले वितरण (पूंछ सूचकांक α ∈ (0,1), अनंत माध्य और विचरण के साथ) व्यापक रूप से मौजूद हैं
- वास्तविक डेटा की जटिलता: व्यावहारिक डेटा अक्सर आश्रितता (जैसे समय श्रृंखला) और विषमता (जैसे नेटवर्क डेटा) प्रदर्शित करता है
- सैद्धांतिक रिक्तता: आश्रित और विषम भारी-पूंछ वाले डेटा के लिए टेलर के नियम के सैद्धांतिक ढांचे की कमी
- सैद्धांतिक ढांचे का विस्तार: टेलर के नियम को अनंत माध्य और विचरण वाले भारी-पूंछ वाले वितरण तक सामान्यीकृत करना
- आश्रितता का प्रबंधन: स्वतंत्र समान वितरण की धारणा को शिथिल करना, कमजोर आश्रित डेटा के लिए लागू शर्तें स्थापित करना
- विषमता का मॉडलिंग: विभिन्न वितरण के मिश्रण को संभालना
- नेटवर्क डेटा अनुप्रयोग: नेटवर्क संरचना डेटा पर टेलर के नियम को लागू करना
- अभिसरण दर विश्लेषण: विस्तृत अभिसरण दर विशेषता प्रदान करना
- अनुभवजन्य सत्यापन: तीन वास्तविक नेटवर्क डेटासेट के माध्यम से सैद्धांतिक परिणामों का सत्यापन
भारी-पूंछ वाले वितरण F(x)=x−αl(x) (जहां α>0, l(⋅) धीरे-धीरे बदलने वाला फलन है) के तहत टेलर के नियम का अध्ययन, विशेष रूप से जब α∈(0,1) हो तो माध्य और विचरण अनंत हों।
गैर-नकारात्मक यादृच्छिक चर X1,…,Xn के लिए, सामान्य जीवन फलन Fˉ(x)=x−αl(x) के साथ, परिभाषित करें:
- p-वें क्रम का नमूना क्षण: Mn,p:=n−1∑i=1nXip
- k-वें क्रम का नमूना केंद्रीय क्षण: Mn,kc:=n−1∑i=1n(Xi−Mn,1)k
शर्त A(p): काटे गए यादृच्छिक चर X˘i:=Xi1(Xi<vn) को संतुष्ट करते हैं:
∑i=jCov(X˘ip,X˘jp)=o(vn2pcn2)
प्रमेय 2.8 (उच्च-क्रम क्षणों के लिए टेलर का नियम):
h1,h2>α के लिए, यदि शर्त A(p) p=h1 और p=h2 के लिए संतुष्ट है, तो:
logMn,h2logMn,h1−ι(h1,h2)=Op(lognlogcn)+O(logn∣logl(tn)∣)
जहां ι(h1,h2):=h2−αh1−α।
प्रमेय 2.11 (केंद्रीय क्षणों के लिए टेलर का नियम):
α∈(0,1) और पूर्णांक k>α के लिए:
logMn,1log∣Mn,kc∣−ι(k,1)=Op(lognlogcn)+O(logn∣logl(tn)∣)
काराता प्रमेय का उपयोग करके काटे गए भारी-पूंछ वाले यादृच्छिक चर के क्षणों को स्थापित करना, काटने के स्तर tn और vn के चतुर चयन के माध्यम से अनंत क्षणों वाले भारी-पूंछ वाले यादृच्छिक चर को अनुमानित करना।
यह साबित करना कि कई मिश्रण शर्तें (मजबूत मिश्रण, φ-मिश्रण आदि) शर्त A(p) को संतुष्ट करती हैं, और AR(1) मॉडल के लिए विशिष्ट अनुप्रयोग देना।
मिश्रित वितरण के मामले के लिए, जहां un चर FU(x)=x−αl(x) का पालन करते हैं, n−un चर अधिक हल्के-पूंछ वाले वितरण FV का पालन करते हैं, यह साबित करना कि टेलर का नियम अभी भी लागू होता है।
- विकिपीडिया टॉक डेटासेट: 147,602 उपयोगकर्ता, उपयोगकर्ताओं के बीच चर्चा पृष्ठ संपादन की संख्या दर्ज की गई
- एपिनियन्स डेटासेट: 120,492 उत्पाद नोड, प्रत्येक उत्पाद द्वारा प्राप्त समीक्षाओं की संख्या दर्ज की गई
- DBpedia डेटासेट: 2,302 देश नोड, प्रत्येक देश से जुड़ी संस्थाओं की संख्या दर्ज की गई
- हिल अनुमानक: पूंछ सूचकांक α का अनुमान लगाने के लिए
- टेलर का नियम ढलान: log विचरण और log माध्य का प्रतिगमन ढलान
- फिट की अच्छाई: समायोजित R2 और विश्वास अंतराल
- नकारात्मक द्विपद वितरण फिटिंग
- पेरेटो वितरण फिटिंग
- सामान्यीकृत पेरेटो वितरण फिटिंग
तीनों डेटासेट के हिल अनुमानक और टेलर के नियम द्वारा निहित पूंछ सूचकांक अत्यधिक सुसंगत हैं:
- विकिपीडिया टॉक: हिल अनुमान 0.563, टेलर के नियम का अनुमान निकट
- एपिनियन्स: हिल अनुमान 0.539, टेलर के नियम का अनुमान 0.539
- DBpedia: हिल अनुमान 0.409, टेलर के नियम का अनुमान सुसंगत
सभी डेटासेट स्पष्ट रैखिक संबंध प्रदर्शित करते हैं:
| डेटासेट | ढलान | समायोजित R2 | 95% विश्वास अंतराल |
|---|
| विकिपीडिया टॉक | 4.027 | 0.617 | (3.396, 4.658) |
| एपिनियन्स | 3.145 | 0.674 | (2.709, 3.580) |
| DBpedia | 2.767 | 0.904 | (2.587, 2.946) |
पेरेटो वितरण मध्यम मूल्य श्रेणी में नकारात्मक द्विपद वितरण की तुलना में डेटा को बेहतर तरीके से फिट करता है, लेकिन चरम पूंछ में विचलन मौजूद है। सामान्यीकृत पेरेटो वितरण सर्वोत्तम पूंछ फिटिंग प्रदान करता है।
पेपर सैद्धांतिक परिणामों को सत्यापित करने के लिए व्यापक सिमुलेशन के माध्यम से:
- स्वतंत्र समान वितरण मामला: पेरेटो, स्थिर वितरण आदि के टेलर के नियम को सत्यापित करना
- AR(1) मॉडल: समय श्रृंखला आश्रितता के तहत सैद्धांतिक भविष्यवाणियों की पुष्टि करना
- विषम डेटा: मिश्रित वितरण मामले में सिमुलेशन परिणाम सिद्धांत के अनुरूप हैं
- नेटवर्क डेटा: यादृच्छिक ग्राफ पर सिमुलेशन नेटवर्क अनुप्रयोग का समर्थन करता है
- टेलर (1961) द्वारा पहली बार प्रस्तावित
- कोहेन आदि (2013, 2020, 2022) द्वारा भारी-पूंछ वाले वितरण पर विस्तार
- ब्राउन आदि (2017, 2021) द्वारा α-स्थिर वितरण पर अनुसंधान
- डे ला पेना आदि (2022) द्वारा हल्के-पूंछ वाले आश्रित डेटा पर गतिशील टेलर के नियम का अनुसंधान
- यह पेपर भारी-पूंछ वाले आश्रित डेटा को व्यवस्थित रूप से संभालने वाला पहला है
यह पेपर नेटवर्क डेटा पर टेलर के नियम को लागू करने वाला पहला अनुसंधान है।
- सैद्धांतिक विस्तार सफल: आश्रित और विषम भारी-पूंछ वाले डेटा के लिए टेलर के नियम को सफलतापूर्वक सामान्यीकृत किया गया
- व्यावहारिकता सत्यापन: वास्तविक नेटवर्क डेटा ने सिद्धांत की व्यावहारिक मूल्य को सत्यापित किया
- अभिसरण दर स्पष्ट: विस्तृत अभिसरण दर विश्लेषण प्रदान किया गया
- शर्त A(p) का सत्यापन: व्यावहारिक अनुप्रयोग में शर्त A(p) को सत्यापित करना कठिन हो सकता है
- धीरे-धीरे बदलने वाले फलन की जटिलता: विभिन्न धीरे-धीरे बदलने वाले फलनों की अभिसरण दरों में बड़ा अंतर है
- सीमित नमूना प्रदर्शन: सिद्धांत स्पर्शोन्मुख है, सीमित नमूने में पूर्वाग्रह हो सकता है
- α ∈ (1,2) मामला: परिमित माध्य लेकिन अनंत विचरण वाले मामले तक विस्तार
- अधिक जटिल नेटवर्क संरचना: अधिक सामान्य नेटवर्क आश्रितता संरचना का अध्ययन
- अनुप्रयोग क्षेत्र का विस्तार: अन्य क्षेत्रों में अनुप्रयोग की खोज
- सैद्धांतिक कठोरता: गणितीय व्युत्पत्ति सख्त है, प्रमाण पूर्ण हैं
- नवाचार महत्वपूर्ण: आश्रित और विषम भारी-पूंछ वाले डेटा के टेलर के नियम को व्यवस्थित रूप से संभालने वाला पहला
- अनुभवजन्य पर्याप्त: सिमुलेशन और वास्तविक डेटा सत्यापन व्यापक हैं
- अनुप्रयोग मूल्य उच्च: नेटवर्क डेटा अनुप्रयोग में महत्वपूर्ण व्यावहारिक महत्व है
- तकनीकी जटिलता: काटने की तकनीक और शर्त A(p) का व्यावहारिक अनुप्रयोग कठिन हो सकता है
- धारणा सीमा: धीरे-धीरे बदलने वाले फलन की धारणा को व्यावहारिक रूप से सत्यापित करने की आवश्यकता है
- कम्प्यूटेशनल जटिलता: कुछ सैद्धांतिक परिणामों का कम्प्यूटेशनल कार्यान्वयन जटिल हो सकता है
- सैद्धांतिक योगदान महत्वपूर्ण: भारी-पूंछ वाले आश्रित डेटा के टेलर के नियम के लिए सैद्धांतिक आधार स्थापित किया
- अनुप्रयोग संभावनाएं विस्तृत: नेटवर्क विश्लेषण, वित्तीय जोखिम आदि क्षेत्रों में महत्वपूर्ण अनुप्रयोग मूल्य है
- पद्धति विज्ञान महत्व: काटने की तकनीक और मिश्रण शर्त प्रबंधन संबंधित अनुसंधान के लिए प्रतिमान प्रदान करते हैं
- नेटवर्क विश्लेषण: सामाजिक नेटवर्क, उद्धरण नेटवर्क आदि की डिग्री वितरण विश्लेषण
- वित्तीय जोखिम: चरम घटनाओं की पूंछ जोखिम मॉडलिंग
- पारिस्थितिकी अनुसंधान: प्रजाति वितरण की स्थानिक आश्रितता विश्लेषण
- महामारी विज्ञान: महामारी प्रसार के नेटवर्क प्रभाव अनुसंधान
पेपर 99 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
- टेलर के नियम के शास्त्रीय साहित्य: टेलर (1961), कोहेन आदि की श्रृंखला कार्य
- भारी-पूंछ वाले वितरण सिद्धांत: बिंघम आदि (1987), एम्ब्रेच्ट्स आदि (2013)
- मिश्रण प्रक्रिया सिद्धांत: ब्रैडली (2005), एंड्रयूज (1983)
- नेटवर्क डेटा स्रोत: स्टैनफोर्ड SNAP परियोजना आदि
समग्र मूल्यांकन: यह सैद्धांतिक सांख्यिकी का एक उच्च-गुणवत्ता वाला पेपर है, जो टेलर के नियम के सामान्यीकरण में महत्वपूर्ण योगदान देता है। पेपर सैद्धांतिक रूप से कठोर है, अनुभवजन्य रूप से पर्याप्त है, विशेष रूप से नेटवर्क डेटा अनुप्रयोग में अग्रणी महत्व है। यद्यपि तकनीकी जटिलता अधिक है, लेकिन यह संबंधित क्षेत्रों के अनुसंधान के लिए महत्वपूर्ण सैद्धांतिक आधार और पद्धति उपकरण प्रदान करता है।