Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
Blackwell इष्टतमता की ओर: बेलमैन इष्टतमता ही आप प्राप्त कर सकते हैं
यद्यपि औसत लाभ इष्टतमता मार्कोव निर्णय प्रक्रियाओं (MDPs) में एक सामान्य प्रदर्शन माप है, यह अक्सर अत्यधिक स्पर्शोन्मुख होती है। तत्काल हानि के माप को आगे जोड़ने से पूर्वाग्रह इष्टतमता की एक पदानुक्रम उत्पन्न होती है, जो Blackwell इष्टतमता तक जाती है। यह पेपर ऐसी इष्टतमता के क्रम की नीतियों को पहचानने की समस्या का अध्ययन करता है। इसके लिए, प्रत्येक क्रम के लिए, हम लुप्त होती त्रुटि संभावना के साथ एक सीखने वाला एल्गोरिदम बनाते हैं। इसके अलावा, हम MDP की श्रेणियों को चिन्हित करते हैं जहां पहचान एल्गोरिदम सीमित समय में रुक सकता है। यह श्रेणी अद्वितीय Bellman इष्टतम नीति वाले MDPs के अनुरूप है, और विचार की गई इष्टतमता के क्रम पर निर्भर नहीं करती है। अंत में, हम एक सुगम्य रोक नियम प्रदान करते हैं, जो हमारे सीखने वाले एल्गोरिदम के साथ युग्मित होने पर, जब भी संभव हो सीमित समय में ट्रिगर होता है।
इस पेपर द्वारा अध्ययन की गई मूल समस्या मार्कोव निर्णय प्रक्रियाओं में उच्च-क्रम इष्टतम नीतियों को सीखने की पहचान योग्यता समस्या है। विशेष रूप से:
पारंपरिक औसत लाभ इष्टतमता की सीमाएं: MDP में, पारंपरिक औसत लाभ इष्टतमता केवल दीर्घकालीन स्पर्शोन्मुख प्रदर्शन पर ध्यान केंद्रित करती है, अल्पकालीन तत्काल पुरस्कार के महत्व को नजरअंदाज करती है।
उच्च-क्रम इष्टतमता की पदानुक्रम: लाभ इष्टतमता से पूर्वाग्रह इष्टतमता तक, और फिर Blackwell इष्टतमता तक, एक संपूर्ण इष्टतमता पदानुक्रम बनता है, जहां प्रत्येक स्तर प्रदर्शन में अधिक सूक्ष्म अंतर पर विचार करता है।
सीखने की कठिनाई: पेपर एक सरल लेकिन गहन उदाहरण (चित्र 1) के माध्यम से दिखाता है कि सबसे सरल परिस्थितियों में भी, उच्च-क्रम इष्टतम नीतियों को सीखना मौलिक कठिनाइयों का सामना करता है।
पेपर की मूल प्रेरणा एक महत्वपूर्ण अवलोकन से उत्पन्न होती है: यहां तक कि केवल एक अज्ञात पैरामीटर वाले सरल MDP में भी, उच्च-क्रम इष्टतम नीतियों को सीखना असंभव हो सकता है। यह प्रतीत होने वाला विरोधाभासी घटना उच्च-क्रम इष्टतमता सीखने की आंतरिक कठिनाइयों को प्रकट करती है।
सुसंगत एल्गोरिदम HOPE का निर्माण: प्रत्येक इष्टतमता क्रम n≥-1 के लिए, Higher Order Policy iteration Epsilonized (HOPE) एल्गोरिदम प्रस्तावित किया गया है, जिसमें लुप्त होती त्रुटि संभावना है।
गैर-अपक्षयी MDP श्रेणी का संपूर्ण लक्षण वर्णन: सिद्ध किया गया है कि MDP गैर-अपक्षयी है (अर्थात्, पहचान एल्गोरिदम सीमित समय में रुक सकता है) यदि और केवल यदि इसमें अद्वितीय Bellman इष्टतम नीति है।
अपक्षय पतन प्रमेय: सिद्ध किया गया है कि सभी इष्टतमता क्रमों (लाभ इष्टतमता से Blackwell इष्टतमता तक) की गैर-अपक्षयी MDP श्रेणियां पूरी तरह से समान हैं, यह एक आश्चर्यजनक परिणाम है।
गणनीय रोक नियम प्रदान किया: एक सुगम्य रोक नियम दिया गया है, जो HOPE एल्गोरिदम को संभव होने पर सीमित समय में रोकने में सक्षम बनाता है।
इनपुट: अज्ञात संचार MDP M = (Z, ν, p), जहां Z स्थिति-क्रिया जोड़ी स्पेस है, ν पुरस्कार फ़ंक्शन है, p संक्रमण कर्नेल है
आउटपुट: n-क्रम इष्टतम नीति π ∈ Π*_n(M)
लक्ष्य: पहचान एल्गोरिदम का निर्माण करें ताकि अनुशंसित नीति की त्रुटि संभावना 0 की ओर जाए
इनपुट: वांछित इष्टतमता क्रम n ≥ -1
प्रारंभिकीकरण: t ← 0
लूप:
1. अनुभवजन्य MDP M̂_t का निर्माण करें
2. ε ← t^(-1/4) सेट करें
3. ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t) की गणना करें
4. ∏_s A_n(s) में से कोई भी नीति अनुशंसित करें
5. क्रिया को समान रूप से नमूना करें, पुरस्कार और अगली स्थिति का अवलोकन करें
6. t ← t + 1
पारंपरिक नीति पुनरावृत्ति को Bellman समीकरण को सटीक रूप से संतुष्ट करने की आवश्यकता होती है, लेकिन सीखने के वातावरण में यह असंभव है। HOPI शोर के वातावरण में एल्गोरिदम को सही तरीके से काम करने के लिए शिथिलता पैरामीटर ε को शुरू करके इसे संभव बनाता है।
प्रस्ताव 5: किसी भी एकल-श्रृंखला Bellman इष्टतम नीति π और सटीकता ε > 0 के लिए, M' ∈ M मौजूद है जैसे कि d_∞(M,M') < ε और π M' की अद्वितीय लाभ इष्टतम नीति है।
यह तकनीक दो चरणों के माध्यम से लागू की जाती है:
पहले गैर-इष्टतम क्रियाओं को दंडित करके π को अद्वितीय Bellman इष्टतम नीति बनाएं
फिर π को अद्वितीय लाभ इष्टतम नीति बनाने के लिए ergodic परिवर्तन के माध्यम से
(ε,δ)-PAC सेटिंग में लाभ इष्टतम नीतियों की पहचान करने पर हाल के कार्य, लेकिन ये कार्य मुख्य रूप से अनुमानित इष्टतमता पर ध्यान केंद्रित करते हैं न कि सटीक इष्टतमता पर।
Boone और Gaujal (2023) ने निर्धारक संक्रमण MDP में Blackwell इष्टतम नीतियों की सीखने की क्षमता का अध्ययन किया, यह पेपर इसे यादृच्छिक परिस्थितियों तक विस्तारित करता है।
पेपर सुदृढ़ करण सीखने और मार्कोव निर्णय प्रक्रियाओं के क्षेत्र के महत्वपूर्ण साहित्य का हवाला देता है, जिसमें शामिल हैं:
Puterman (1994): मार्कोव निर्णय प्रक्रियाओं की शास्त्रीय पाठ्यपुस्तक
Blackwell (1962): Blackwell इष्टतमता की मूल परिभाषा
Kaufmann et al. (2016): इष्टतम भुजा पहचान की जटिलता सिद्धांत
Boone and Gaujal (2023): निर्धारक MDP में Blackwell इष्टतमता की सीखने की क्षमता
यह पेपर कठोर सैद्धांतिक विश्लेषण के माध्यम से सुदृढ़ करण सीखने में एक मौलिक और गहन घटना को प्रकट करता है: उच्च-क्रम इष्टतमता की सीखने की कठिनाई पूरी तरह से Bellman इष्टतमता की संरचना द्वारा निर्धारित होती है। यह परिणाम न केवल महत्वपूर्ण सैद्धांतिक महत्व रखता है, बल्कि व्यावहारिक एल्गोरिदम डिजाइन के लिए भी महत्वपूर्ण मार्गदर्शन प्रदान करता है।