We consider robust Markov Decision Processes with Borel state and action spaces, unbounded cost and finite time horizon. Our formulation leads to a Stackelberg game against nature. Under integrability, continuity and compactness assumptions we derive a robust cost iteration for a fixed policy of the decision maker and a value iteration for the robust optimization problem. Moreover, we show the existence of deterministic optimal policies for both players. This is in contrast to classical zero-sum games. In case the state space is the real line we show under some convexity assumptions that the interchange of supremum and infimum is possible with the help of Sion's minimax Theorem. Further, we consider the problem with special ambiguity sets. In particular we are able to derive some cases where the robust optimization problem coincides with the minimization of a coherent risk measure. In the final section we discuss two applications: A robust LQ problem and a robust problem for managing regenerative energy.
- معرّف الورقة: 2007.13103
- العنوان: Distributionally Robust Markov Decision Processes and their Connection to Risk Measures
- المؤلفون: Nicole Bäuerle, Alexander Glauner
- التصنيف: math.OC (التحسين الرياضي والتحكم)، q-fin.RM (إدارة المخاطر المالية الكمية)
- تاريخ النشر: 26 يوليو 2020
- رابط الورقة: https://arxiv.org/abs/2007.13103
تدرس هذه الورقة عمليات ماركوف القرار القوية ذات فضاء الحالة والعمل من نوع بوريل، والتكاليف غير المحدودة، والأفق الزمني المحدود. تُصاغ المسألة كلعبة ستاكلبرج تنافسية مع الطبيعة. في ظل افتراضات التكاملية والاستمرارية والانضغاط، يشتق المؤلفون تكرار التكلفة القوية للسياسة الثابتة للمتخذ القرار وتكرار القيمة لمسألة التحسين القوي. علاوة على ذلك، يثبتان وجود سياسات محددة مثلى لكلا الطرفين، وهو ما يتناقض مع نظرية الألعاب الصفرية الكلاسيكية. عندما تكون مساحة الحالة خط الأعداد الحقيقي، يمكن تحقيق تبديل الحد الأعلى والحد الأدنى باستخدام نظرية سيون للنقطة السرجية في ظل افتراضات التحدب معينة. تتناول الورقة أيضاً حالات مجموعات الغموض الخاصة، وتشتق بشكل خاص الحالات التي تتطابق فيها مسألة التحسين القوي مع تقليل مقاييس المخاطر المتماسكة.
تفترض عمليات ماركوف القرار التقليدية أن جميع المعاملات والتوزيعات معروفة أو يمكن تقديرها بدقة. ومع ذلك، في التطبيقات العملية، قد يؤدي استخدام هذه السياسة "المثلى" إلى تدهور الأداء بشكل كبير عندما تنحرف المعاملات أو التوزيعات الحقيقية عن الافتراضات.
- مشكلة عدم اليقين في النموذج: احتمالات الانتقال الحقيقية غالباً لا يمكن الحصول عليها بدقة، مع وجود غموض في النموذج
- متطلبات تجنب المخاطر: يوضح مفارقة إلسبرج أن متخذي القرار يميلون إلى تجنب الغموض
- القيود النظرية: تقتصر معظم الأبحاث حول عمليات ماركوف القرار القوية على فضاءات الحالة والعمل المحدودة
- الاحتياجات التطبيقية: الحاجة إلى معالجة المشاكل العملية ذات فضاء الحالة المستمر ودوال التكلفة غير المحدودة
- تقتصر معظم الدراسات على فضاءات الحالة والعمل القابلة للعد أو المحدودة
- نقص في معالجة الفضاءات المستمرة والتكاليف غير المحدودة
- الارتباط بمقاييس المخاطر غير كافٍ
- نقص في إثبات وجود السياسات المحددة المثلى
- توسيع الإطار النظري: توسيع نظرية عمليات ماركوف القرار القوية الموجودة من الفضاءات القابلة للعد إلى فضاءات بوريل، مع معالجة دوال التكلفة غير المحدودة
- نمذجة نظرية اللعبة: صياغة المسألة كلعبة ستاكلبرج، مع الطبيعة كمتابع ومتخذ القرار كقائد
- وجود السياسات المثلى: إثبات وجود السياسات المحددة المثلى لكلا الطرفين، وهو ما يختلف عن نظرية الألعاب الصفرية الكلاسيكية
- شروط تبديل القيم الحدية: تحقيق تبديل الحد الأعلى والحد الأدنى باستخدام نظرية سيون في ظل افتراضات التحدب
- الارتباط بمقاييس المخاطر: إنشاء التكافؤ بين التحسين القوي ومقاييس المخاطر المتماسكة تحت مجموعات غموض خاصة
- التطبيقات العملية: توفير حالتي تطبيق لمسألة LQ القوية وإدارة الطاقة المتجددة
النظر في عملية ماركوف قرار ذات أفق زمني محدود N:
- فضاء الحالة: E (فضاء بوريل)
- فضاء العمل: A (فضاء بوريل)
- دالة الانتقال: Tn:Dn×Z→E
- دالة التكلفة: cn:Dn×E→R
- الاضطرابات: Z1,…,ZN عناصر عشوائية مستقلة
الهدف هو تقليل التكلفة المتوقعة في أسوأ الحالات:
V0(x)=infπ∈ΠRsupγ∈ΓV0πγ(x)
تعريف مجموعة الغموض Qn⊆Mq(Ωn,An,Pn)، حيث:
- Mq(Ωn,An,Pn): مجموعة مقاييس الاحتمال المطلقة المستمرة فيما يتعلق بـ Pn
- مزودة بطوبولوجيا ضعيفة* σ(Lq,Lp)، حيث p1+q1=1
- متخذ القرار: يختار السياسة π=(π0,π1,…,πN−1)
- الطبيعة: تراقب إجراءات متخذ القرار ثم تختار γ=(γ0,…,γN−1)
- هيكل المعلومات: الطبيعة هي متابع ويمكنها مراقبة إجراءات متخذ القرار
في ظل شروط الافتراض، تحقق دالة القيمة معادلة بيلمان:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)
حيث:
Lnv(x,a,Q)=∫cn(x,a,Tn(x,a,z))+v(Tn(x,a,z))Q(dz)
استخدام نظرية الاختيار القابل للقياس لريدر للتعامل مع مشاكل القياس في الفضاءات المستمرة، مما يضمن وجود السياسات المثلى.
اعتماد طوبولوجيا ضعيفة* σ(Lq,Lp) بدلاً من طوبولوجيا التقارب الضعيف، مما يسهل إنشاء الارتباط بمقاييس المخاطر التكرارية.
إدخال دوال حدية عليا وسفلى bˉ و b للتعامل مع التكاليف غير المحدودة، مما يضمن التعريف الجيد لدوال القيمة.
استخدام نظرية سيون للنقطة السرجية في ظل افتراضات النموذج المحدب لتحقيق:
infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
في ظل الافتراضات 2.1 و 3.1:
- قيمة السياسة القوية Vnπ(hn) قابلة للقياس وتحقق العلاقة التكرارية
- إذا كانت مجموعة الغموض مغلقة ضعيفة*، فإنه يوجد قاعدة قرار مثلى للطبيعة
- يكفي النظر في السياسات ماركوفية المحددة: Vn(hn)=Jn(xn)
- Jn∈B وتحقق معادلة بيلمان
- توجد سياسة ماركوفية مثلى لمتخذ القرار
في النموذج المحدب:
Jn(x)=infa∈Dn(x)supQ∈Qn+1LnJn+1(x,a,Q)=supQ∈Qn+1infa∈Dn(x)LnJn+1(x,a,Q)
في ظل النموذج المحدب ومجموعة الغموض المغلقة ضعيفة*، يوجد زوج سياسات توازن ناش.
عندما تمتلك مجموعة الغموض هيكلاً خاصاً، يكون التحسين القوي مكافئاً لتحسين مقاييس المخاطر الطيفية:
ρϕ(X)=supY∈QdE[XY]
حيث ϕ هي دالة طيفية.
في ظل مجموعات غموض ثابتة قانوناً، يمكن إعادة صياغة المسألة كـ:
infπ∈ΠMρ(∑n=0N−1cn(Xn,dn(Xn),Xn+1)+cN(XN))
النظر في مسألة خطية تربيعية:
- فضاء الحالة: E=R، فضاء العمل: A=Rd
- دالة الانتقال: Tn(x,a,Zn+1)=Un+1x+Vn+1Ta+Wn+1
- دالة التكلفة: cn(x,a)=x2Qn+aTRna
- في ظل افتراضات الاستقلالية، السياسة المثلى للطبيعة لا تعتمد على الحالة
- يمكن تبديل القيم الحدية باستخدام نظرية سيون، مما يبسط الحل
- عندما يكون بالإمكان اختيار EQ[UnVn]=0، يكون التحكم الأمثل dn∗(x)=0
إدارة منشأة توليد الرياح المشتركة والتخزين:
- الحالة: كمية التخزين في البطارية x∈[0,K]
- العمل: كمية التوليد المعلنة a∈[0,B]
- المكافأة: Pa (حيث P>0 هو سعر الكهرباء)
- العقوبة: عقوبة نسبية c>0 عند النقص
Jn(x)=infa∈D(x)supQ∈Q{−aP+∫aBJn+1((x+z−a)∧K)Q(dz)+∫0a[(P+c)(x+z−a)−+Jn+1((x+z−a)+)]Q(dz)}
- Iyengar (2005): أول من اقترح عمليات ماركوف قرار قوية في ظل شروط المستطيل
- Nilim & El Ghaoui (2005): عمل معاصر لفضاء الحالة المحدود
- Wiesemann et al. (2013): طريقة منطقة الثقة
- Xu & Mannor (2010): مجموعات عدم اليقين المتداخلة
- توسيع الفضاء: من المحدود/القابل للعد إلى فضاء بوريل عام
- معالجة التكاليف: السماح بدوال التكلفة غير المحدودة
- خصائص السياسة: إثبات وجود السياسات المحددة المثلى
- العمق النظري: إنشاء ارتباط عميق بمقاييس المخاطر
- توسيع نظرية عمليات ماركوف القرار القوية بنجاح إلى الفضاءات المستمرة والتكاليف غير المحدودة
- إنشاء نظرية تكرار قيمة كاملة وإثبات وجود السياسات المثلى
- الكشف عن الارتباط العميق بين التحسين القوي ومقاييس المخاطر
- توفير طرق حل عملية وأمثلة تطبيقية
- شروط الافتراض: تتطلب افتراضات قوية نسبياً للتكاملية والاستمرارية والانضغاط
- متطلبات التحدب: يتطلب تبديل القيم الحدية أن يكون النموذج محدباً
- التعقيد الحسابي: حساب الحد الأعلى في الفضاء المستمر لا يزال صعباً
- اختيار مجموعة الغموض: يتطلب بناء مجموعات غموض معقولة في التطبيقات العملية معرفة مجالية
- تطوير الخوارزميات: تصميم خوارزميات حل عددية فعالة
- تخفيف الافتراضات: استكشاف النتائج النظرية في ظل شروط أكثر عمومية
- توسيع التطبيقات: التطبيقات المحددة في المجالات المالية والبحثية العملياتية
- دمج التعلم: الجمع مع التعلم عبر الإنترنت والطرق التكيفية
- مساهمة نظرية كبيرة: توسيع نطاق تطبيق عمليات ماركوف القرار القوية بشكل أساسي
- الطريقة صارمة: استخدام نظرية القياس والتحليل الدالي العميقة
- الهيكل واضح: من الافتراضات الأساسية إلى النظريات الرئيسية، الخط المنطقي واضح
- الارتباط عميق: إنشاء جسر بين نظرية التحسين وإدارة المخاطر
- القيمة التطبيقية: توفير إطار نمذجة عملي قابل للاستخدام
- عتبة تقنية عالية: يتطلب خلفية رياضية قوية للفهم الكامل
- التحديات الحسابية: لا يزال هناك مسافة من النتائج النظرية إلى الحساب العملي
- قيود الافتراضات: قد يكون من الصعب تلبية بعض الافتراضات في التطبيقات العملية
- التحقق العددي غير كافٍ: نقص التجارب العددية واسعة النطاق للتحقق
- القيمة الأكاديمية: توفير أساس نظري مهم للتحسين القوي وإدارة المخاطر
- آفاق التطبيق: تطبيقات واسعة في إدارة المخاطر المالية وأنظمة الطاقة
- مساهمة منهجية: توفير منظور جديد لنمذجة لعبة ستاكلبرج للمشاكل ذات الصلة
- البحث اللاحق: وضع أساس لمزيد من التطوير النظري وتصميم الخوارزميات
- الهندسة المالية: تحسين المحفظة، إدارة المخاطر
- أنظمة الطاقة: جدولة الطاقة المتجددة، إدارة التخزين
- إدارة سلسلة الإمداد: التحكم في المخزون تحت عدم اليقين في الطلب
- البحث العملياتي: تخصيص الموارد، التخطيط الإنتاجي
تستشهد الورقة بـ 75 مرجعاً ذا صلة، تشمل بشكل أساسي:
- Iyengar (2005): عمل تأسيسي في البرمجة الديناميكية القوية
- Sion (1958): النتيجة الكلاسيكية لنظرية النقطة السرجية
- Bäuerle & Rieder (2011): كتاب متخصص في عمليات ماركوف القرار
- Epstein & Schneider (2003): نظرية المسبقات المتعددة التكرارية
- Ruszczyński (2010): البرمجة الديناميكية الكارهة للمخاطر
التقييم الشامل: هذه ورقة عالية الجودة في المجال المتقاطع بين التحسين القوي وعمليات ماركوف القرار، وقد قدمت مساهمات مهمة. على الرغم من أن الطريقة تقنية جداً، إلا أنها توفر أساساً متيناً لتطوير النظرية والتطبيقات العملية في هذا المجال.