Simulating Keystroke and Computing the Theoretical Probability of Infinite Monkey Theorem with Markov Process
Yi, Zhou, Jiang
The Infinite Monkey Theorem states that if one monkey randomly hits the keys in front of a typewriter keyboard during an infinite amount of time, any works written by William Shakespeare will almost surely be typed out at the end of the total text. Due to the seemingly low chance of typing the exact literature works, our group are motivated to find out the expected time the Hamlet, our target text, being typed out by simulated random typing on a standard keyboard. For finding the answer, 30 users randomly typed characters into a file. Then, the frequency of each characters occurred following the previous character is calculated. This conditional probability is used to build the Markov matrix by considering all 128 times 128 cases. Finally, the expected time we estimated is about 10 to the power of 34 (min), which is surprisingly lower than the theoretical computation, and not achievable at all even in the cosmic time.
academic
কীস্ট্রোক সিমুলেশন এবং মার্কভ প্রক্রিয়ার মাধ্যমে অসীম বানর উপপাদ্যের তাত্ত্বিক সম্ভাবনা গণনা
অসীম বানর উপপাদ্য বলে যে যদি একটি বানর অসীম সময় ধরে এলোমেলোভাবে টাইপরাইটার কীবোর্ড আঘাত করে, তাহলে এটি প্রায় নিশ্চিতভাবে শেক্সপিয়ারের যেকোনো রচনা টাইপ করবে। এই গবেষণা পরীক্ষামূলক পদ্ধতির মাধ্যমে এলোমেলো টাইপিং থেকে হ্যামলেট উৎপাদনের প্রত্যাশিত সময় অনুমান করে। গবেষকরা ৩০ জন স্বেচ্ছাসেবকের এলোমেলো টাইপিং ডেটা সংগ্রহ করেছেন, অক্ষরগুলির মধ্যে শর্তসাপেক্ষ সম্ভাবনা গণনা করেছেন এবং একটি ১২৮×১২৮ মার্কভ ম্যাট্রিক্স তৈরি করেছেন। গবেষণায় দেখা গেছে যে হ্যামলেট-এর প্রথম ৭৮টি অক্ষর সঠিকভাবে টাইপ করার প্রত্যাশিত সময় প্রায় ১০^১३৪ মিনিট (মহাবিশ্বের বয়সের প্রায় ১.৪১৫৩৩×১০^১১৭ গুণ), যা তাত্ত্বিক স্বাধীনতা অনুমানের গণনা ফলাফলের চেয়ে সামান্য কম হলেও সম্পূর্ণভাবে অসাধ্য।
এই গবেষণার লক্ষ্য অসীম বানর উপপাদ্যের একটি নির্দিষ্ট সমস্যা পরিমাণ করা: এলোমেলো টাইপিং থেকে শেক্সপিয়ারের হ্যামলেট সম্পূর্ণ পাঠ্য উৎপাদনের সম্ভাবনা এবং প্রত্যাশিত সময় কত?
তাত্ত্বিক মূল্য: অসীম বানর উপপাদ্য সম্ভাবনা তত্ত্বের একটি ক্লাসিক চিন্তা পরীক্ষা, কিন্তু প্রকৃত মানব টাইপিং আচরণের উপর ভিত্তি করে অভিজ্ঞতামূলক অনুমান অনুপস্থিত
শিক্ষামূলক তাৎপর্য: জনসাধারণকে অত্যন্ত ছোট সম্ভাবনা ঘটনা এবং গাণিতিক সম্ভাবনার প্রকৃত অর্থ বুঝতে সাহায্য করা
পদ্ধতিগত উদ্ভাবন: অক্ষর ক্রম উৎপাদন সম্ভাবনা গণনায় মার্কভ শৃঙ্খল প্রয়োগের সম্ভাব্যতা অন্বেষণ করা
স্বাধীন সমসম্ভাব্য অনুমান: ঐতিহ্যবাহী পদ্ধতি প্রতিটি অক্ষর স্বাধীন এবং সমসম্ভাব্য হওয়ার অনুমান করে, যা প্রকৃত টাইপিং আচরণের সাথে সামঞ্জস্যপূর্ণ নয়
অভিজ্ঞতামূলক ডেটার অভাব: ২০০২ সালের প্লিমাউথ বিশ্ববিদ্যালয়ের প্রকৃত বানর পরীক্ষা দেখায় যে প্রকৃত পরিস্থিতি তাত্ত্বিক পরিস্থিতির চেয়ে অনেক বেশি জটিল (বানর শুধুমাত্র অসংখ্য "S" টাইপ করেছিল এবং কীবোর্ড ক্ষতিগ্রস্ত করেছিল)
অক্ষর নির্ভরতা উপেক্ষা: বিদ্যমান সিমুলেশন পদ্ধতি কীবোর্ড লেআউট এবং টাইপিং অভ্যাস দ্বারা সৃষ্ট অক্ষরগুলির মধ্যে নির্ভরতা যথাযথভাবে বিবেচনা করে না
গবেষকরা গ্রাফ সম্ভাবনা পদ্ধতি (graph likelihood approach) দ্বারা অনুপ্রাণিত হয়ে বিশ্বাস করেন যে কীবোর্ডের অক্ষরগুলির মধ্যে স্থানিক নির্ভরতা রয়েছে—একটি অক্ষর টাইপ করার পরে, এর সংলগ্ন অক্ষর টাইপ করার সম্ভাবনা বেশি। তাই তারা এলোমেলো টাইপিং প্রক্রিয়া আরও বাস্তবসম্মতভাবে সিমুলেট করতে মার্কভ শৃঙ্খল মডেল ব্যবহার করার প্রস্তাব দেন।
১. প্রকৃত টাইপিং ডেটার উপর ভিত্তি করে মার্কভ রূপান্তর ম্যাট্রিক্স নির্মাণ: ৩০ জন স্বেচ্ছাসেবকের এলোমেলো টাইপিং নমুনা সংগ্রহ করা হয়েছে (প্রায় ১০০,০০০ অক্ষর), অক্ষরগুলির মধ্যে শর্তসাপেক্ষ রূপান্তর সম্ভাবনা গণনা করা হয়েছে এবং একটি ১২৮×१२८ মার্কভ ম্যাট্রিক্স প্রতিষ্ঠা করা হয়েছে
२. যুক্তিসঙ্গত সংখ্যা সংরক্ষণ পরিকল্পনা প্রস্তাব: পাইথন ফ্লোটিং-পয়েন্ট নির্ভুলতার সীমাবদ্ধতার জন্য (প্রায় ১০^-१६), অংক-হর বিভাজন সংরক্ষণের যুক্তিসঙ্গত সংখ্যা পদ্ধতি গ্রহণ করা হয়েছে, যা অত্যন্ত ছোট সম্ভাবনা (१०^-१३४ স্তরে পৌঁছানো) গণনা সক্ষম করে
३. কীবোর্ড টাইপিং ফ্রিকোয়েন্সির ভৌগোলিক ভিজ্যুয়ালাইজেশন বাস্তবায়ন: ArcGIS এবং GeoPandas ব্যবহার করে কীবোর্ড হিট ম্যাপ তৈরি করা হয়েছে, যা মানব এলোমেলো টাইপিংয়ের স্থানিক বিতরণ প্যাটার্ন স্পষ্টভাবে প্রদর্শন করে
४. মার্কভ শৃঙ্খলের সংযোগের তাত্ত্বিক প্রমাণ প্রদান: বোলজানো-ওয়েয়ারস্ট্রাস উপপাদ্য এবং বানাখ সংকোচন ম্যাপিং নীতির উপর ভিত্তি করে, মার্কভ ম্যাট্রিক্সের সংযোগ প্রমাণ করা হয়েছে
५. পরিমাণগত অনুমান ফলাফল: এলোমেলো টাইপিং থেকে হ্যামলেট-এর প্রথম ७८টি অক্ষর উৎপাদনের সম্ভাবনা সফলভাবে १०^-१३४ হিসাবে গণনা করা হয়েছে, যা १०^१३४ মিনিটের প্রত্যাশিত সময়ের সাথে সামঞ্জস্যপূর্ণ
ইনপুট: মান টাইপরাইটার কীবোর্ড (LG Rog Strix Flare) থেকে এলোমেলো টাইপিং ক্রম আউটপুট: শেক্সপিয়ারের হ্যামলেট সম্পূর্ণ পাঠ্য সঠিকভাবে টাইপ করার সম্ভাবনা এবং প্রত্যাশিত সময় সীমাবদ্ধতা:
মান কীবোর্ড ব্যবহার করুন (কার্যকরী কী সরান, অক্ষর কী রাখুন)
সরলীকৃত সংস্করণ: শুধুমাত্র २६টি ছোট অক্ষর (ASCII ९७-१२२)
বাস্তব সংস্করণ: সমস্ত সাধারণ অক্ষর কী (ASCII ३२-१२६ এবং নতুন লাইন ১०)
ARMOURY CRATE সফটওয়্যার ব্যবহার করে কার্যকরী কীগুলির কার্যকারিতা সরান
পরীক্ষামূলক প্রোটোকল (প্রতিটি অংশগ্রহণকারী):
१. চোখ বন্ধ করার জন্য চোখের পট্টি ব্যবহার করুন
२. প্রতিটি টাইপিং ১५० সেকেন্ড স্থায়ী হয় (প্রত্যাশিত १२००-१५०० অক্ষর উৎপাদন)
३. প্রতিটি ব্যক্তি ४টি টাইপিং কাজ সম্পন্ন করে (२টি সরলীকৃত সংস্করণ, २টি বাস্তব সংস্করণ)
४. মোট ३०×४=१२० উপ-নমুনা সংগ্রহ করা হয়েছে
ফ্রিকোয়েন্সি গণনা পদ্ধতি:
সাধারণ অক্ষর: সরাসরি ঘটনা সংখ্যা জমা করুন
Caps Lock: সংলগ্ন বড়-ছোট প্যাটার্ন সনাক্ত করে অনুমান করুন (যেমন "ছোট-বড়-বড়" বা "বড়-ছোট-ছোট" ক্রম)
Shift কী: সংলগ্ন অক্ষর বড়-ছোট পরিবর্তন সনাক্ত করে, এবং বাম-ডান Shift কী দৈর্ঘ্য অনুপাত (५.०१:६.१७) অনুযায়ী ফ্রিকোয়েন্সি বরাদ্দ করুন
পূর্ণসংখ্যা রূপান্তর:
CDF ম্যাট্রিক্সকে 1018 দ্বারা গুণ করে পূর্ণসংখ্যা ম্যাট্রিক্স S~-এ রূপান্তরিত করা হয়, পরবর্তী গণনা সহজতর করতে:
S~i,v=Si,v×1018
প্রাথমিক অক্ষর: २६টি ছোট অক্ষর থেকে সমানভাবে এলোমেলোভাবে নির্বাচন করুন (সম্ভাবনা १/२६)
পরবর্তী অক্ষর উৎপাদন (সিউডোকোড):
প্রদত্ত পূর্ববর্তী অক্ষর v (ASCII মান):
१. রূপান্তর ম্যাট্রিক্সের v সারি অবস্থান করুন
२. পাইথন randint() ব্যবহার করে এলোমেলো পূর্ণসংখ্যা k ∈ [१, १०^१८] উৎপাদন করুন
३. সর্বনিম্ন স্তম্ভ সূচক m খুঁজুন যাতে S[m,v] ≥ k/१०^१८
४. ASCII মান m সহ অক্ষর ফেরত দিন
চ্যালেঞ্জ: ५টি অক্ষরের সংক্ষিপ্ত শব্দের সম্ভাবনা ইতিমধ্যে १०^-७ এ পৌঁছেছে, १०টি অক্ষর পাইথন ফ্লোটিং নির্ভুলতা অতিক্রম করবে উদ্ভাবন: সম্পূর্ণ প্রক্রিয়া জুড়ে যুক্তিসঙ্গত সংখ্যা গণনা ব্যবহার করুন, নির্ভুল গণনা ক্ষমতা বজায় রাখুন
१. ক্রম উৎপাদন সম্ভাবনা: P(লক্ষ্যক্রম)
२. প্রত্যাশিত উৎপাদন সময়: E[τ]=1/P×(অক্ষরসংখ্যা/७६०) মিনিট
३. কীবোর্ড হিট ম্যাপ: বিভিন্ন কীর আপেক্ষিক ফ্রিকোয়েন্সির স্থানিক বিতরণ
४. মার্কভ ম্যাট্রিক্স বিরলতা: শূন্য উপাদান অনুপাত
যদিও পেপারটি কঠোর পদ্ধতি তুলনা পরীক্ষা পরিচালনা করে না, সাহিত্য পর্যালোচনায় তুলনা বেঞ্চমার্ক উল্লেখ করা হয়েছে:
१. স্বাধীন সমসম্ভাব্য মডেল: প্রতিটি অক্ষর স্বাধীন এবং সমসম্ভাব্য (१/९५) অনুমান করুন
२. বিবর্তনীয় অ্যালগরিদম: "জিন" অপ্টিমাইজেশনের মাধ্যমে অক্ষর ফ্রিকোয়েন্সি বিতরণ
३. গ্রাফ সম্ভাবনা পদ্ধতি: সমস্যাটি গ্রাফ শীর্ষবিন্দু উৎপাদন সম্ভাবনায় পুনর্গঠন করুন
ArcGIS/ArcMap: কীবোর্ড আকৃতি ফাইল তৈরি করুন (.shp)
GeoPandas: ফ্রিকোয়েন্সি ডেটা ভৌগোলিক আকৃতির সাথে একত্রিত করুন
মার্কভ ম্যাট্রিক্স গণনা:
# সিউডোকোড উদাহরণ
প্রতিটি নমুনা ফাইলের জন্য:
i এর জন্য range(१, len(text)):
prev_char = text[i-१]
curr_char = text[i]
transition_count[prev_char][curr_char] += १
# সম্ভাবনায় নর্মালাইজ করুন
সমস্ত_chars-এ v এর জন্য:
total = sum(transition_count[v])
সমস্ত_chars-এ u এর জন্য:
P[u][v] = transition_count[v][u] / total
"আরও কম" বিভ্রান্তিকর প্রকাশ: সারসংক্ষেপ বলে ফলাফল "তাত্ত্বিক গণনার চেয়ে আশ্চর্যজনকভাবে কম", কিন্তু প্রকৃতপক্ষে १०^१३४ এখনও জ্যোতির্বিজ্ঞান সংখ্যা, এবং বিরলতার কারণে তাত্ত্বিক মূল্যের সাথে তুলনা করা যায় না
ব্যবহারিক মূল্য সীমিত: প্রথম ७८টি অক্ষর সম্ভাবনা সম্পূর্ণ সংজ্ঞা বোঝার জন্য সীমিত সহায়তা
Caps Lock গণনা অ্যালগরিদম অপরিশোধিত: ক্রমাগত বড়-ছোট প্যাটার্নের উপর ভিত্তি করে অনুমান উল্লেখযোগ্য ত্রুটি হতে পারে
Shift কী বরাদ্দ পদ্ধতি সরলীকৃত: দৈর্ঘ্য অনুপাত দ্বারা বরাদ্দ প্রকৃত ব্যবহার অভ্যাস উপেক্ষা করে (ডান-হাতের টাইপিস্টরা বাম Shift আরও ঘন ঘন ব্যবহার করতে পারে)
এটি একটি উচ্চাভিলাষী কিন্তু বাস্তবায়নে মৌলিক ত্রুটি সহ স্নাতক গবেষণা পত্র। গবেষকরা প্রকৃত ডেটা এবং মার্কভ মডেল ব্যবহার করে অসীম বানর উপপাদ্যের সম্ভাবনা অনুমান উন্নত করার চেষ্টা করেছেন, এই ধারণা নিজেই উদ্ভাবনী। তবে, १००,००० অক্ষরের নমুনা পরিমাণ १२८×१२८ রূপান্তর ম্যাট্রিক্স মডেলিংয়ের জন্য অপর্যাপ্ত, যার ফলে মূল লক্ষ্য (সম্পূর্ণ হ্যামলেট সম্ভাবনা গণনা) অর্জিত হয়নি, শুধুমাত্র প্রথম ७८টি অক্ষরের ফলাফল পাওয়া গেছে।
পত্রের সবচেয়ে বড় মূল্য গবেষণা প্রক্রিয়ার অসুবিধা সৎভাবে প্রদর্শনে নিহিত, বিরল ম্যাট্রিক্স সমস্যা, সংখ্যাগত নির্ভুলতা চ্যালেঞ্জ ইত্যাদি সহ, যা পরবর্তী গবেষকদের জন্য সতর্কতা অর্থ। কীবোর্ড হিট ম্যাপ ভিজ্যুয়ালাইজেশন এবং যুক্তিসঙ্গত সংখ্যা গণনা পরিকল্পনা উজ্জ্বল স্থান, কিন্তু পদ্ধতিগত মৌলিক সমস্যা পূরণ করতে পারে না।
গবেষণা সত্যিকারের মূল্যবান হতে, প্রয়োজন:
१. নমুনা পরিমাণ অন্তত १००গুণ সম্প্রসারণ (লক্ষ লক্ষ অক্ষর স্তরে পৌঁছান)
२. শূন্য সম্ভাবনা প্রক্রিয়া করতে মসৃণকরণ কৌশল ব্যবহার করুন
३. স্বাধীন মডেলের সাথে কঠোর পরিমাণগত তুলনা
४. পদ্ধতির প্রযোজ্য পরিসীমা স্পষ্টভাবে নির্দিষ্ট করুন (সংক্ষিপ্ত ক্রম)
সামগ্রিকভাবে, এটি একটি উপকারী অন্বেষণমূলক প্রচেষ্টা, কিন্তু পরিপক্ক একাডেমিক কাজ থেকে দূরত্বে রয়েছে।