Minimizing Spectral Risk Measures Applied to Markov Decision Processes
Bäuerle, Glauner
We study the minimization of a spectral risk measure of the total discounted cost generated by a Markov Decision Process (MDP) over a finite or infinite planning horizon. The MDP is assumed to have Borel state and action spaces and the cost function may be unbounded above. The optimization problem is split into two minimization problems using an infimum representation for spectral risk measures. We show that the inner minimization problem can be solved as an ordinary MDP on an extended state space and give sufficient conditions under which an optimal policy exists. Regarding the infinite dimensional outer minimization problem, we prove the existence of a solution and derive an algorithm for its numerical approximation. Our results include the findings in Bäuerle and Ott (2011) in the special case that the risk measure is Expected Shortfall. As an application, we present a dynamic extension of the classical static optimal reinsurance problem, where an insurance company minimizes its cost of capital.
academic
मार्कोव निर्णय प्रक्रियाओं पर लागू वर्णक्रमीय जोखिम उपायों को न्यूनतम करना
यह पेपर परिमित या अनंत नियोजन क्षितिज के तहत मार्कोव निर्णय प्रक्रियाओं (MDP) द्वारा उत्पन्न कुल छूट लागत के वर्णक्रमीय जोखिम उपायों को न्यूनतम करने का अध्ययन करता है। MDP में बोरेल स्थिति और कार्य स्थान होते हैं, लागत फ़ंक्शन ऊपर की ओर असीमित हो सकता है। वर्णक्रमीय जोखिम उपायों के अनंत प्रतिनिधित्व का उपयोग करके, लेखकों ने अनुकूलन समस्या को दो न्यूनतमकरण समस्याओं में विघटित किया। लेखकों ने साबित किया कि आंतरिक न्यूनतमकरण समस्या को विस्तारित स्थिति स्थान पर एक सामान्य MDP के रूप में हल किया जा सकता है, और इष्टतम नीति के अस्तित्व के लिए पर्याप्त शर्तें दीं। अनंत-आयामी बाहरी न्यूनतमकरण समस्या के लिए, समाधान के अस्तित्व को साबित किया गया और संख्यात्मक सन्निकटन एल्गोरिदम प्राप्त किए गए। जब जोखिम उपाय अपेक्षित कमी (Expected Shortfall) है, तो परिणामों में Bäuerle और Ott (2011) की खोजें शामिल हैं। एक अनुप्रयोग के रूप में, शास्त्रीय स्थिर इष्टतम पुनः बीमा समस्या का एक गतिशील विस्तार प्रस्तावित किया गया है।
पारंपरिक मार्कोव निर्णय प्रक्रियाएं आमतौर पर अनुकूलन के लिए अपेक्षा मानदंड का उपयोग करती हैं, यह विधि जोखिम-तटस्थ निर्णय निर्माताओं को मॉडल करती है। हालांकि, व्यावहारिक अनुप्रयोगों में, निर्णय निर्माता अक्सर जोखिम-संवेदनशील होते हैं और अनिश्चितता और जोखिम कारकों पर विचार करने की आवश्यकता होती है।
जोखिम संवेदनशीलता की आवश्यकता: पारंपरिक अपेक्षा मानदंड उच्च जोखिम वाली इष्टतम नीति का कारण बन सकता है, जो वास्तविक निर्णय निर्माताओं की जोखिम प्राथमिकताओं के अनुरूप नहीं है
सैद्धांतिक अंतराल: मौजूदा साहित्य मुख्य रूप से पुनरावर्ती जोखिम उपायों या विशिष्ट जोखिम उपायों (जैसे अपेक्षित कमी) पर केंद्रित है, सामान्य वर्णक्रमीय जोखिम उपायों के व्यवस्थित अनुसंधान की कमी है
व्यावहारिक अनुप्रयोग: बीमा, वित्त और अन्य क्षेत्रों को अधिक परिष्कृत जोखिम प्रबंधन उपकरणों की आवश्यकता है
यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण साहित्य का संदर्भ देता है:
Bäuerle, N. and Ott, J. (2011). Markov decision processes with Average-Value-at-Risk criteria
Rockafellar, R. T. and Uryasev, S. (2000). Optimization of Conditional Value-at-Risk
Pichler, A. (2015). Premiums and reserves, adjusted by distortions
McNeil, A. J., Frey, R., and Embrechts, P. (2015). Quantitative Risk Management
समग्र मूल्यांकन: यह जोखिम-संवेदनशील मार्कोव निर्णय प्रक्रिया क्षेत्र में एक उच्च-गुणवत्ता वाला सैद्धांतिक पेपर है जो महत्वपूर्ण योगदान देता है। पेपर सैद्धांतिक रूप से कठोर है, विधि नवीन है, और व्यावहारिक जोखिम प्रबंधन समस्याओं के लिए मूल्यवान उपकरण प्रदान करता है। हालांकि संख्यात्मक प्रयोगों के पहलू में कुछ कमी है, लेकिन इसका सैद्धांतिक मूल्य और पद्धति संबंधी योगदान इसे इस क्षेत्र का महत्वपूर्ण साहित्य बनाता है।