Simple stochastic processes behind Menzerath's Law
MiliÄka
This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.
academic
मेंजेराथ के नियम के पीछे सरल स्टोकेस्टिक प्रक्रियाएं
यह पेपर मेंजेराथ नियम (जिसे मेंजेराथ-अल्टमैन नियम भी कहा जाता है) का पुनर्विचार करता है, जो भाषाई संरचनाओं की लंबाई और उनके घटक भागों की औसत लंबाई के बीच संबंध का वर्णन करता है। नवीनतम शोध से पता चलता है कि सरल स्टोकेस्टिक प्रक्रियाएं मेंजेराथ व्यवहार प्रदर्शित कर सकती हैं, लेकिन मौजूदा मॉडल वास्तविक विश्व के डेटा को सटीक रूप से प्रतिबिंबित नहीं कर सकते। यदि हम इस मौलिक सिद्धांत को अपनाते हैं कि शब्दावली दो आयामों -音節 और फोनीम - पर लंबाई में परिवर्तन कर सकती है, जहां इन चर के बीच सहसंबंध अपूर्ण है और परिवर्तन गुणक प्रकृति के हैं, तो हम द्विचर लॉग-सामान्य वितरण प्राप्त कर सकते हैं। यह पेपर दर्शाता है कि इस अत्यंत सरल सिद्धांत से शुरू करके, हम शास्त्रीय अल्टमैन मॉडल प्राप्त कर सकते हैं। यदि संयुक्त वितरण को सीमांत वितरण से स्वतंत्र रूप से मॉडल किया जाए, तो गॉसियन कोपुला का उपयोग करके अधिक सटीक मॉडल प्राप्त किया जा सकता है।
समस्या का समाधान करना:
मेंजेराथ नियम भाषाविज्ञान में एक महत्वपूर्ण नियम है जो भाषाई संरचनाओं (जैसे शब्दावली) की लंबाई और उनके घटक भागों की औसत लंबाई के बीच व्युत्क्रम संबंध का वर्णन करता है। हालांकि यह नियम अनुभवजन्य रूप से व्यापक रूप से सत्यापित है, लेकिन इसमें संतोषजनक सैद्धांतिक व्याख्या और स्टोकेस्टिक प्रक्रिया का आधार नहीं है।
समस्या की महत्ता:
मेंजेराथ नियम अपनी सार्वभौमिकता और विभिन्न विभाजन स्तरों को एकीकृत ढांचे में एकीकृत करने की क्षमता के कारण मात्रात्मक भाषाविज्ञान समुदाय में व्यापक रूप से मान्यता प्राप्त है। इसके पीछे की स्टोकेस्टिक प्रक्रियाओं को समझना भाषा विकास सिद्धांत और मात्रात्मक भाषाविज्ञान के लिए महत्वपूर्ण है।
मौजूदा विधियों की सीमाएं:
Torre et al. (2021) का शोध दर्शाता है कि सरल स्टोकेस्टिक प्रक्रियाएं मेंजेराथ व्यवहार प्रदर्शित कर सकती हैं, लेकिन मॉडल वास्तविक डेटा के साथ मेल नहीं खाता
शास्त्रीय अल्टमैन मॉडल (1980) में स्टोकेस्टिक प्रक्रिया व्युत्पत्ति और पैरामीटर व्याख्या का अभाव है
मौजूदा मॉडल मुख्य रूप से पाठ उत्पादन प्रक्रिया पर ध्यान केंद्रित करते हैं, जबकि भाषा विकास में शब्दावली लंबाई के निर्धारण तंत्र को नजरअंदाज करते हैं
अनुसंधान प्रेरणा:
लेखक का मानना है कि मेंजेराथ नियम को पाठ उत्पादन के दृष्टिकोण के बजाय भाषा विकास के दृष्टिकोण से समझा जाना चाहिए, और संयुक्त वितरण मॉडलिंग के माध्यम से इस नियम की स्टोकेस्टिक प्रक्रिया का आधार समझाने का प्रस्ताव दिया गया है।
भाषाई संरचनाओं की लंबाई (जैसे शब्दों की音節 संख्या x) और उनके घटक भागों की लंबाई (जैसे फोनीम संख्या y) के बीच संयुक्त वितरण का अध्ययन करना, और इससे मेंजेराथ नियम का रूप व्युत्पन्न करना।
बुनियादी सिद्धांत: मान लीजिए कि शब्दावली की लंबाई में परिवर्तन गुणक प्रकृति के हैं, अर्थात् लंबे शब्द छोटे शब्दों की तुलना में लंबाई में अधिक आसानी से परिवर्तन होते हैं।
गणितीय व्युत्पत्ति:
लॉग-रूपांतरित रैखिक प्रतिगमन से शुरू करें:
log z = α + β log x
जहां z = xy
पैरामीटर व्याख्या:
β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅
द्विचर लॉग-सामान्य वितरण भाषाई दृष्टि से उचित यादृच्छिक सिद्धांत का प्रतिनिधित्व करता है, जो संरचनाओं को घटक और उप-घटक भागों पर लंबाई में मॉडल कर सकता है
गॉसियन कोपुला संयुक्त वितरण को मॉडल करने का एक प्रभावी उपकरण है, जब संयुक्त वितरण पर ध्यान केंद्रित किया जाए तो उत्कृष्ट प्रदर्शन करता है
संयुक्त वितरण मॉडलिंग को माध्य मॉडलिंग से पहले प्राथमिकता दी जानी चाहिए, अधिक जानकारी प्रदान करता है
व्यावहारिक अनुप्रयोग में, सीमांत वितरण के मजबूत मॉडल पैरामीटर और सहसंबंध गुणांक का उपयोग करने पर विचार करना चाहिए
Altmann, G. (1980). Prolegomena to Menzerath's law
Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?
यह पेपर मेंजेराथ नियम अनुसंधान में महत्वपूर्ण सैद्धांतिक योगदान देता है, स्टोकेस्टिक प्रक्रिया मॉडलिंग के माध्यम से शास्त्रीय नियम के लिए नया समझ दृष्टिकोण प्रदान करता है, उच्च शैक्षणिक मूल्य और व्यावहारिक महत्व रखता है।