Simulating Keystroke and Computing the Theoretical Probability of Infinite Monkey Theorem with Markov Process
Yi, Zhou, Jiang
The Infinite Monkey Theorem states that if one monkey randomly hits the keys in front of a typewriter keyboard during an infinite amount of time, any works written by William Shakespeare will almost surely be typed out at the end of the total text. Due to the seemingly low chance of typing the exact literature works, our group are motivated to find out the expected time the Hamlet, our target text, being typed out by simulated random typing on a standard keyboard. For finding the answer, 30 users randomly typed characters into a file. Then, the frequency of each characters occurred following the previous character is calculated. This conditional probability is used to build the Markov matrix by considering all 128 times 128 cases. Finally, the expected time we estimated is about 10 to the power of 34 (min), which is surprisingly lower than the theoretical computation, and not achievable at all even in the cosmic time.
academic
कीस्ट्रोक सिमुलेशन और मार्कोव प्रक्रिया के साथ अनंत बंदर प्रमेय की सैद्धांतिक संभावना की गणना
अनंत बंदर प्रमेय में कहा गया है कि यदि एक बंदर अनंत समय के लिए यादृच्छिक रूप से टाइपराइटर कीबोर्ड पर दबाता है, तो वह लगभग निश्चित रूप से शेक्सपियर की किसी भी रचना को टाइप करेगा। यह अनुसंधान यादृच्छिक टाइपिंग से हैमलेट उत्पन्न करने के लिए आवश्यक अपेक्षित समय का अनुमान लगाता है। शोधकर्ताओं ने 30 स्वयंसेवकों से यादृच्छिक टाइपिंग डेटा एकत्र किया, वर्णों के बीच सशर्त संभावनाओं की गणना की, और 128×128 मार्कोव मैट्रिक्स का निर्माण किया। अनुसंधान से पता चलता है कि हैमलेट के पहले 78 वर्णों को सही ढंग से टाइप करने का अपेक्षित समय लगभग 10^134 मिनट है (ब्रह्मांड की आयु का लगभग 1.41533×10^117 गुना), यह परिणाम सैद्धांतिक स्वतंत्र धारणा की तुलना में थोड़ा कम है, लेकिन फिर भी पूरी तरह से अप्राप्य है।
यह अनुसंधान अनंत बंदर प्रमेय में एक विशिष्ट समस्या को परिमाणित करने का लक्ष्य रखता है: यादृच्छिक टाइपिंग से शेक्सपियर के हैमलेट की संपूर्ण पाठ्य सामग्री उत्पन्न करने की संभावना और अपेक्षित समय क्या है?
सैद्धांतिक मूल्य: अनंत बंदर प्रमेय संभाव्यता सिद्धांत में एक शास्त्रीय विचार प्रयोग है, लेकिन वास्तविक मानव टाइपिंग व्यवहार पर आधारित अनुभवजन्य अनुमान की कमी है
शैक्षिक महत्व: जनता को अत्यंत छोटी संभावना वाली घटनाओं और गणितीय संभावना के वास्तविक अर्थ को समझने में मदद करता है
पद्धतिगत नवाचार: वर्ण अनुक्रम उत्पन्न संभावना गणना के लिए मार्कोव श्रृंखला के अनुप्रयोग की व्यवहार्यता की खोज करता है
स्वतंत्र समान संभावना धारणा: पारंपरिक विधि मानती है कि प्रत्येक वर्ण स्वतंत्र और समान संभावना के साथ प्रकट होता है, जो वास्तविक टाइपिंग व्यवहार से मेल नहीं खाता
अनुभवजन्य डेटा की कमी: 2002 के प्लिमाउथ विश्वविद्यालय के वास्तविक बंदर प्रयोग से पता चलता है कि वास्तविक स्थिति सिद्धांत से कहीं अधिक जटिल है (बंदर ने केवल बड़ी संख्या में "S" टाइप किए और कीबोर्ड को नुकसान पहुंचाया)
वर्ण निर्भरता को नजरअंदाज करना: मौजूदा सिमुलेशन विधियां कीबोर्ड लेआउट और टाइपिंग आदतों से उत्पन्न वर्णों के बीच निर्भरता को पर्याप्त रूप से ध्यान में नहीं रखती हैं
शोधकर्ता ग्राफ संभावना विधि (graph likelihood approach) से प्रेरित हैं, यह मानते हुए कि कीबोर्ड पर वर्णों के बीच स्थानिक निर्भरता है - एक निश्चित वर्ण टाइप करने के बाद, उसके आसन्न वर्ण को टाइप करने की अधिक संभावना है। इसलिए उन्होंने यादृच्छिक टाइपिंग प्रक्रिया को अधिक यथार्थवादी रूप से सिमुलेट करने के लिए मार्कोव श्रृंखला मॉडल का उपयोग करने का प्रस्ताव दिया है।
वास्तविक टाइपिंग डेटा पर आधारित मार्कोव संक्रमण मैट्रिक्स का निर्माण: 30 स्वयंसेवकों से यादृच्छिक टाइपिंग नमूने (लगभग 100,000 वर्ण) एकत्र किए, वर्णों के बीच सशर्त संक्रमण संभावनाओं की गणना की, और 128×128 मार्कोव मैट्रिक्स स्थापित किया
तर्कसंगत संख्या भंडारण योजना का प्रस्ताव: Python फ्लोटिंग-पॉइंट सटीकता सीमा (लगभग 10^-16) के लिए, अंश और हर को अलग से संग्रहीत करने की तर्कसंगत संख्या विधि अपनाई, जिससे अत्यंत छोटी संभावनाओं (10^-134 स्तर तक) की गणना संभव हुई
कीबोर्ड टाइपिंग आवृत्ति का भौगोलिक दृश्य: ArcGIS और GeoPandas का उपयोग करके कीबोर्ड हीट मैप बनाया, मानव यादृच्छिक टाइपिंग के स्थानिक वितरण पैटर्न को सहज रूप से प्रदर्शित किया
मार्कोव श्रृंखला अभिसरण का सैद्धांतिक प्रमाण: Bolzano-Weierstrass प्रमेय और Banach संपीड़न मानचित्र सिद्धांत के आधार पर, मार्कोव मैट्रिक्स की अभिसरण का प्रमाण दिया
परिमाणित अनुमान परिणाम: यादृच्छिक टाइपिंग से हैमलेट के पहले 78 वर्णों को उत्पन्न करने की संभावना को 10^-134 के रूप में सफलतापूर्वक गणना की, जो 10^134 मिनट के अपेक्षित समय के अनुरूप है
इनपुट: मानक टाइपराइटर कीबोर्ड (LG Rog Strix Flare) पर यादृच्छिक टाइपिंग अनुक्रम आउटपुट: शेक्सपियर के हैमलेट की संपूर्ण पाठ्य सामग्री को सही ढंग से टाइप करने की संभावना और अपेक्षित समय बाधा शर्तें:
मानक कीबोर्ड का उपयोग करें (कार्यात्मक कुंजियों को हटाएं, वर्ण कुंजियों को रखें)
वास्तविक मानव टाइपिंग व्यवहार डेटा पर आधारित
वर्णों के बीच मार्कोव निर्भरता संबंध पर विचार करें
प्रारंभिक वर्ण: 26 लोअरकेस अक्षरों से समान रूप से यादृच्छिक रूप से चुनें (संभावना 1/26)
बाद के वर्ण उत्पन्न करना (छद्म कोड):
दिया गया पिछला वर्ण v (ASCII मान):
1. संक्रमण मैट्रिक्स की पंक्ति v को खोजें
2. Python randint() का उपयोग करके यादृच्छिक पूर्णांक k ∈ [1, 10^18] उत्पन्न करें
3. न्यूनतम स्तंभ सूचकांक m खोजें जहां S[m,v] ≥ k/10^18
4. ASCII मान m वाला वर्ण लौटाएं
चुनौती: 5 वर्णों के छोटे शब्द की संभावना पहले से ही 10^-7 तक पहुंच जाती है, 10 वर्णों से अधिक Python फ्लोटिंग सटीकता से अधिक हो जाएगी नवाचार: पूरी प्रक्रिया में तर्कसंगत संख्या संचालन का उपयोग करें, सटीक गणना क्षमता बनाए रखें
GeoPandas: आवृत्ति डेटा को भौगोलिक आकार के साथ मर्ज करें
मार्कोव मैट्रिक्स गणना:
# छद्म कोड उदाहरण
प्रत्येक नमूना फाइल के लिए:
i को 1 से len(text) तक के लिए:
पिछला_वर्ण = text[i-1]
वर्तमान_वर्ण = text[i]
संक्रमण_गणना[पिछला_वर्ण][वर्तमान_वर्ण] += 1
# संभावना में सामान्यीकृत करें
सभी_वर्ण में v के लिए:
कुल = sum(संक्रमण_गणना[v])
सभी_वर्ण में u के लिए:
P[u][v] = संक्रमण_गणना[v][u] / कुल
अंश = 399770177810507862706549314796261397652584412911038561649332165981925926705239960397734...
हर = 748723275279540762914329174346517245028241767538803575420430089763950062541466819509857...
घातक विरलता समस्या: मुख्य विधि डेटा अपर्याप्तता के कारण लक्ष्य (संपूर्ण हैमलेट संभावना गणना) को पूरा नहीं कर सकती
पहली वर्ण धारणा अनुभवजन्य सत्यापन की कमी: समान वितरण धारणा अनुभवजन्य परीक्षण से नहीं गुजरी
आसन्न कुंजी निर्भरता अपर्याप्त उपयोग: हालांकि स्थानिक निर्भरता धारणा प्रस्तावित है, लेकिन मॉडल में कीबोर्ड ज्यामितीय संरचना को स्पष्ट रूप से मॉडल नहीं किया गया है
"अधिक कम" का भ्रामक अभिव्यक्ति: सारांश में कहा गया है कि परिणाम "सैद्धांतिक गणना से आश्चर्यजनक रूप से कम है", लेकिन वास्तव में 10^134 अभी भी खगोलीय संख्या है, और विरलता के कारण सैद्धांतिक मान के साथ तुलना नहीं की जा सकती
व्यावहारिक मूल्य सीमित: 78 वर्णों की संभावना संपूर्ण प्रमेय को समझने में सीमित सहायता प्रदान करती है
Caps Lock गणना एल्गोरिथ्म अनुमानित: लगातार बड़े-छोटे पैटर्न के आधार पर अनुमान बड़ी त्रुटि हो सकती है
Shift कुंजी आवंटन विधि सरलीकृत: लंबाई अनुपात के आधार पर आवंटन वास्तविक उपयोग आदतों को नजरअंदाज करता है (दाएं हाथ के टाइपिस्ट बाएं Shift का अधिक उपयोग कर सकते हैं)
यह एक महत्वाकांक्षी लेकिन कार्यान्वयन में मौलिक दोष वाला स्नातक अनुसंधान पेपर है। शोधकर्ता वास्तविक डेटा और मार्कोव मॉडल के माध्यम से अनंत बंदर प्रमेय की संभावना अनुमान में सुधार करने का प्रयास करते हैं, यह विचार स्वयं नवीन है। हालांकि, 100,000 वर्णों का नमूना आकार 128×128 संक्रमण मैट्रिक्स मॉडलिंग के लिए बहुत अपर्याप्त है, जिससे मुख्य लक्ष्य (संपूर्ण हैमलेट संभावना गणना) प्राप्त नहीं हो सका, केवल पहले 78 वर्णों का परिणाम मिला।
पेपर का सबसे बड़ा मूल्य अनुसंधान प्रक्रिया में कठिनाइयों को ईमानदारी से प्रदर्शित करना है, जिसमें विरल मैट्रिक्स समस्याएं, संख्यात्मक सटीकता चुनौतियां आदि शामिल हैं, जो बाद के शोधकर्ताओं के लिए चेतावनी का काम करते हैं। कीबोर्ड हीट मैप दृश्य और तर्कसंगत संख्या गणना योजना चमकदार बिंदु हैं, लेकिन विधि पर मौलिक समस्या को ठीक नहीं कर सकते।
अनुसंधान को वास्तव में मूल्यवान बनाने के लिए, निम्नलिखित की आवश्यकता है:
नमूना आकार को कम से कम 100 गुना बढ़ाएं (दस लाख वर्ण स्तर तक)
शून्य संभावना को संभालने के लिए चिकनाई तकनीकें लागू करें
स्वतंत्र मॉडल के साथ कठोर मात्रात्मक तुलना करें
विधि की प्रयोज्यता सीमा स्पष्ट रूप से बताएं (छोटे अनुक्रम)
कुल मिलाकर, यह एक लाभकारी अन्वेषणात्मक प्रयास है, लेकिन परिपक्व शैक्षणिक कार्य से दूरी अभी बाकी है।