2025-11-10T02:48:02.300387

Markov Decision Processes with Recursive Risk Measures

BÃ¤uerle, Glauner

In this paper, we consider risk-sensitive Markov Decision Processes (MDPs) with Borel state and action spaces and unbounded cost under both finite and infinite planning horizons. Our optimality criterion is based on the recursive application of static risk measures. This is motivated by recursive utilities in the economic literature, has been studied before for the entropic risk measure and is extended here to an axiomatic characterization of suitable risk measures. We derive a Bellman equation and prove the existence of Markovian optimal policies. For an infinite planning horizon, the model is shown to be contractive and the optimal policy to be stationary. Moreover, we establish a connection to distributionally robust MDPs, which provides a global interpretation of the recursively defined objective function. Monotone models are studied in particular.

academic

पुनरावर्ती जोखिम उपायों के साथ मार्कोव निर्णय प्रक्रियाएं

बुनियादी जानकारी

पेपर ID: 2010.07220
शीर्षक: Markov Decision Processes with Recursive Risk Measures
लेखक: Nicole Bäuerle, Alexander Glauner
वर्गीकरण: math.OC (अनुकूलन और नियंत्रण), q-fin.RM (मात्रात्मक वित्त - जोखिम प्रबंधन)
प्रकाशन समय: 14 अक्टूबर 2020 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2010.07220

सारांश

यह पेपर बोरेल अवस्था और क्रिया स्थानों तथा असीमित लागत वाली जोखिम-संवेदनशील मार्कोव निर्णय प्रक्रियाओं (MDPs) का अध्ययन करता है, जिसमें परिमित और अनंत योजना क्षितिज दोनों शामिल हैं। अनुकूलन मानदंड स्थिर जोखिम उपायों के पुनरावर्ती अनुप्रयोग पर आधारित है। यह दृष्टिकोण आर्थिक साहित्य में पुनरावर्ती उपयोगिता से प्रेरित है, जिसे पहले एंट्रॉपी जोखिम उपायों में अध्ययन किया गया है, लेकिन यह पेपर इसे जोखिम उपायों के स्वयंसिद्ध लक्षणों के अनुरूप विस्तारित करता है। लेख बेलमैन समीकरण प्राप्त करता है और मार्कोव इष्टतम नीतियों के अस्तित्व को साबित करता है। अनंत योजना क्षितिज के लिए, मॉडल को संकुचन साबित किया जाता है और इष्टतम नीति स्थिर होती है। इसके अतिरिक्त, वितरण-मजबूत MDPs के साथ संबंध स्थापित किए जाते हैं, जो पुनरावर्ती रूप से परिभाषित उद्देश्य कार्यों के लिए वैश्विक व्याख्या प्रदान करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

पारंपरिक मार्कोव निर्णय प्रक्रिया सिद्धांत परिमित या अनंत समय क्षितिज पर नियंत्रित गतिशील प्रणालियों की अपेक्षित छूट लागत को कम करने पर ध्यान केंद्रित करता है। हालांकि, सरल अपेक्षा निर्णय के वास्तविक जोखिम को प्रतिबिंबित नहीं कर सकती, यह नकद प्रवाह प्रबंधन जैसे अनुप्रयोगों में विशेष रूप से महत्वपूर्ण है।

अनुसंधान प्रेरणा

जोखिम संवेदनशीलता की आवश्यकता: वित्त और बीमा जैसे क्षेत्रों में, निर्णय निर्माता सरल अपेक्षा के बजाय गतिशील उपयोगिता का उपयोग करके प्रदर्शन का मूल्यांकन करना पसंद करते हैं
समय-संगति: मौजूदा गतिशील जोखिम उपाय सिद्धांत से पता चलता है कि एकमात्र समय-सुसंगत जोखिम उपाय वे हैं जो स्थिर जोखिम उपायों को पुनरावर्ती करते हैं
सैद्धांतिक पूर्णता: विशिष्ट जोखिम उपायों तक सीमित न रहकर सामान्य जोखिम उपायों के लिए एक संपूर्ण सैद्धांतिक ढांचा स्थापित करने की आवश्यकता है

मौजूदा दृष्टिकोण की सीमाएं

अधिकांश अनुसंधान परिबद्ध यादृच्छिक चर या विशिष्ट जोखिम उपाय प्रकारों तक सीमित है
कुछ दृष्टिकोणों को अप्रत्यक्ष जोखिम उपाय गुणों की धारणा की आवश्यकता है
सामान्य बोरेल स्थानों और असीमित लागत कार्यों के लिए व्यवस्थित उपचार की कमी है

मुख्य योगदान

सैद्धांतिक ढांचे का विस्तार: पुनरावर्ती जोखिम उपाय MDP सिद्धांत को एंट्रॉपी जोखिम उपायों से सामान्य स्वयंसिद्ध जोखिम उपायों तक विस्तारित करना
बेलमैन समीकरण व्युत्पत्ति: पुनरावर्ती जोखिम उपाय MDP के लिए बेलमैन समीकरण प्राप्त करना और मार्कोव इष्टतम नीतियों के अस्तित्व को साबित करना
संकुचन प्रमाण: अनंत क्षितिज मॉडल की संकुचन क्षमता और स्थिर इष्टतम नीति के अस्तित्व को साबित करना
वितरण-मजबूत संबंध: वितरण-मजबूत MDPs के साथ सैद्धांतिक संबंध स्थापित करना, पुनरावर्ती उद्देश्य कार्यों के लिए वैश्विक व्याख्या प्रदान करना
एकरस मॉडल विश्लेषण: एकरस गुणों वाले विशेष मॉडलों का गहन अध्ययन, निरंतरता धारणाओं को शिथिल करना

विधि विवरण

कार्य परिभाषा

अवस्था स्थान E और क्रिया स्थान A के साथ बोरेल स्थानों की मार्कोव निर्णय प्रक्रिया पर विचार करें, जहां:

अवस्था संक्रमण को मापने योग्य संक्रमण फलन $T_n: D_n \times Z \to E$ द्वारा दिया जाता है
प्रथम-चरण लागत फलन $c_n: D_n \times E \to \mathbb{R}$
टर्मिनल लागत फलन $c_N: E \to \mathbb{R}$

पुनरावर्ती जोखिम उपाय ढांचा

जोखिम उपाय गुण

लेख निम्नलिखित गुणों वाले जोखिम उपाय $\rho: L^p \to \overline{\mathbb{R}}$ पर विचार करता है:

मौद्रिकता: एकरसता और स्थानांतरण अपरिवर्तनीयता
सुसंगतता: सकारात्मक समरूपता और उप-योजकता
Fatou गुण: नियंत्रित अभिसरण के संबंध में निम्न अर्ध-निरंतरता

पुनरावर्ती मूल्य परिभाषा

नीति $\pi = (d_0, \ldots, d_{N-1})$ के लिए, पुनरावर्ती रूप से मूल्य फलन परिभाषित करें: $V_N^\pi(h_N) = c_N(x_N)$ $V_n^\pi(h_n) = \rho_n\left(c_n(x_n, d_n(h_n), T_n(x_n, d_n(h_n), Z_{n+1})) + V_{n+1}^\pi(\cdot)\right)$

तकनीकी नवाचार बिंदु

1. वैश्विक सीमा फलन विधि

वैश्विक ऊपरी और निचली सीमा फलनों की अवधारणा प्रस्तावित की गई है, जो पारंपरिक स्थानीय सीमा फलनों की तुलना में पुनरावर्ती जोखिम उपायों के लिए अधिक उपयुक्त है:

लेम्मा 4.3: उपयुक्त सुसंगत जोखिम उपायों के लिए, यदि स्थानीय सीमा फलन मौजूद हैं जो संतुष्ट करते हैं: $\rho_n(c_n(x,a,T_n(x,a,Z_{n+1}))) \geq \underline{b}(x)$ $\rho_n(-\underline{b}(T_n(x,a,Z_{n+1}))) \leq -\alpha\underline{b}(x)$

तो वैश्विक सीमा फलन $\underline{B} = \frac{1}{1-\alpha}\underline{b}$ है।

2. बेलमैन समीकरण

प्रमेय 4.7: उपयुक्त धारणाओं के तहत, मूल्य फलन बेलमैन समीकरण को संतुष्ट करता है: $J_N(x) = c_N(x)$ $J_n(x) = T_nJ_{n+1}(x) = \inf_{a \in D_n(x)} \rho_n(c_n(x,a,T_n(x,a,Z_{n+1})) + J_{n+1}(T_n(x,a,Z_{n+1})))$

3. संकुचन गुण

लेम्मा 5.4: बेलमैन ऑपरेटर $T$ अंतराल $I = [\underline{B}, \overline{B}]$ पर मापांक $\alpha\beta$ का संकुचन मानचित्र है।

प्रायोगिक सेटअप

सैद्धांतिक सत्यापन

पेपर मुख्य रूप से विधि की प्रभावकारिता को सत्यापित करने के लिए सैद्धांतिक विश्लेषण और गणितीय उदाहरणों के माध्यम से, बड़े पैमाने पर संख्यात्मक प्रयोगों के बजाय।

अनुप्रयोग मामले

Value-at-Risk की अदूरदर्शिता: एकरस मॉडलों में साबित किया कि VaR मानदंड के तहत इष्टतम नीति अदूरदर्शी है
रोकने की समस्या: थ्रेसहोल्ड नीति संरचना के संरक्षण को प्रदर्शित करना
कैसीनो खेल: इष्टतम सट्टेबाजी रणनीति का विश्लेषण
नकद संतुलन समस्या: (S⁻, S⁺) रणनीति की इष्टतमता को साबित करना

प्रायोगिक परिणाम

मुख्य सैद्धांतिक परिणाम

परिमित क्षितिज

मार्कोव इष्टतम नीतियों के अस्तित्व को साबित किया
पुनरावर्ती बेलमैन समीकरण स्थापित किया
मूल्य फलन निम्न अर्ध-निरंतर है

अनंत क्षितिज

प्रमेय 5.5:
- सीमा मूल्य फलन बेलमैन ऑपरेटर का अद्वितीय निश्चित बिंदु है
- एक इष्टतम स्थिर नीति मौजूद है
- मॉडल संकुचन गुण रखता है, संकुचन मापांक $\alpha\beta < 1$

विशेष मामले परिणाम

परिबद्ध लागत मामला

अनुपात 5.6: जब प्रथम-चरण लागत परिबद्ध हो, तो Fatou गुण वाला कोई भी सामान्यीकृत मौद्रिक जोखिम उपाय लागू होता है।

एकरस मॉडल

प्रस्ताव 7.5: एकरस धारणाओं के तहत, जोखिम उपाय की सुसंगतता को शिथिल किया जा सकता है, केवल सह-एकरस योजकता की आवश्यकता है।

मामले का विश्लेषण

Value-at-Risk अदूरदर्शिता

एकरस मॉडलों में, जब लागत फलन क्रिया पर निर्भर नहीं करता है: $J_n(x) = \inf_{a \in D(x)} h(\text{VaR}_\alpha(T(x,a,Z)))$ जहां $h$ एकरस निम्न अर्ध-निरंतर फलन है, जिससे इष्टतम नीति स्थिर और अदूरदर्शी है।

नकद संतुलन समस्या

शास्त्रीय MDP में संरचनात्मक गुणों को संरक्षित करता है:

महत्वपूर्ण स्तर $S^-$ और $S^+$ मौजूद हैं
इष्टतम नीति $(S^-, S^+)$ रूप रखती है
मूल्य फलन उत्तलता को संरक्षित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

स्थिर जोखिम उपायों का पुनरावर्ती अनुप्रयोग जोखिम-संवेदनशील MDP के लिए एक एकीकृत सैद्धांतिक ढांचा प्रदान करता है
उपयुक्त धारणाओं के तहत, एक संपूर्ण बेलमैन सिद्धांत स्थापित किया जा सकता है
एकरस मॉडल महत्वपूर्ण तकनीकी धारणाओं को शिथिल करने की अनुमति देते हैं
वितरण-मजबूत MDP के साथ संबंध वैश्विक व्याख्या प्रदान करता है

सीमाएं

तकनीकी धारणाएं: अपेक्षाकृत जटिल वैश्विक सीमा फलन धारणाओं की आवश्यकता है
कम्प्यूटेशनल जटिलता: पेपर संख्यात्मक कम्प्यूटेशन विधियों पर पर्याप्त चर्चा नहीं करता है
अनुभवजन्य सत्यापन: सैद्धांतिक परिणामों को सत्यापित करने के लिए बड़े पैमाने पर संख्यात्मक प्रयोगों की कमी है

भविष्य की दिशाएं

कुशल संख्यात्मक एल्गोरिदम विकसित करना
अधिक सामान्य जोखिम उपाय श्रेणियों का अध्ययन करना
जोखिम-संवेदनशील वातावरण में सीखने वाली एल्गोरिदम का अन्वेषण करना

गहन मूल्यांकन

लाभ

सैद्धांतिक कठोरता: संपूर्ण गणितीय ढांचा प्रदान करता है, प्रमाण कठोर हैं
सामान्यता: मौजूदा कार्य की तुलना में, अधिक व्यापक जोखिम उपायों और मॉडल सेटिंग्स पर लागू होता है
नवाचार: वैश्विक सीमा फलन विधि और वितरण-मजबूत MDP के साथ संबंध नवीन हैं
संरचना संरक्षण: साबित करता है कि कई शास्त्रीय MDP संरचनात्मक गुण जोखिम-संवेदनशील मामले में भी बने रहते हैं

कमियां

कम्प्यूटेशनल पहलू: ठोस एल्गोरिदम और संख्यात्मक विधियों की कमी
व्यावहारिक अनुप्रयोग: सैद्धांतिक रूप से मजबूत, व्यावहारिक अनुप्रयोग मामले अपेक्षाकृत सीमित हैं
धारणा शर्तें: कुछ तकनीकी धारणाएं व्यावहारिक अनुप्रयोगों में सत्यापित करना मुश्किल हो सकती हैं

प्रभाव

सैद्धांतिक योगदान: जोखिम-संवेदनशील MDP के लिए ठोस सैद्धांतिक आधार प्रदान करता है
पद्धति मूल्य: पुनरावर्ती जोखिम उपाय विधि संबंधित क्षेत्रों में अनुसंधान दिशा को प्रभावित कर सकती है
अंतः-विषय महत्व: संचालन अनुसंधान, वित्तीय गणित और संभाव्यता सिद्धांत जैसे कई क्षेत्रों को जोड़ता है

लागू परिदृश्य

वित्तीय इंजीनियरिंग: पोर्टफोलियो अनुकूलन, जोखिम प्रबंधन
बीमा बीमांकिक: आरक्षण प्रबंधन, पुनः बीमा रणनीति
आपूर्ति श्रृंखला प्रबंधन: अनिश्चितता के तहत जोखिम-संवेदनशील निर्णय
ऊर्जा प्रबंधन: जोखिम पर विचार करते हुए विद्युत प्रेषण और मूल्य निर्धारण

संदर्भ

पेपर 34 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें जोखिम उपाय सिद्धांत, मार्कोव निर्णय प्रक्रियाएं, गतिशील प्रोग्रामिंग आदि मुख्य क्षेत्रों के शास्त्रीय और अग्रणी कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह जोखिम-संवेदनशील मार्कोव निर्णय प्रक्रिया क्षेत्र में एक उच्च-गुणवत्ता वाला सैद्धांतिक पेपर है जो महत्वपूर्ण योगदान देता है। हालांकि यह सैद्धांतिक विश्लेषण पर केंद्रित है, लेकिन यह इस क्षेत्र के आगे के विकास के लिए एक महत्वपूर्ण आधार स्थापित करता है।