Towards Blackwell Optimality: Bellman Optimality Is All You Can Get
Boone, Tuynman
Although average gain optimality is a commonly adopted performance measure in Markov Decision Processes (MDPs), it is often too asymptotic. Further incorporating measures of immediate losses leads to the hierarchy of bias optimalities, all the way up to Blackwell optimality. In this paper, we investigate the problem of identifying policies of such optimality orders. To that end, for each order, we construct a learning algorithm with vanishing probability of error. Furthermore, we characterize the class of MDPs for which identification algorithms can stop in finite time. That class corresponds to the MDPs with a unique Bellman optimal policy, and does not depend on the optimality order considered. Lastly, we provide a tractable stopping rule that when coupled to our learning algorithm triggers in finite time whenever it is possible to do so.
academic
نحو الأمثلية الكلاسيكية: أمثلية بيلمان هي كل ما يمكنك الحصول عليه
على الرغم من أن الأمثلية ذات الكسب المتوسط هي مقياس أداء شائع الاستخدام في عمليات القرار ماركوفية (MDPs)، إلا أنها غالباً ما تكون مقاربة جداً. يؤدي دمج مقاييس الخسارة الفورية إلى تسلسل هرمي من الأمثليات المنحازة، وصولاً إلى أمثلية بلاكويل. تدرس هذه الورقة مشكلة تحديد سياسات هذه الرتب من الأمثليات. لهذا الغرض، نقوم ببناء خوارزمية تعلم لكل رتبة بها احتمالية خطأ متلاشية. علاوة على ذلك، نوصف فئات MDPs التي يمكن للخوارزمية أن تتوقف فيها في وقت محدود. تتوافق هذه الفئة مع MDPs التي لها سياسة بيلمان مثلى فريدة، وهي لا تعتمد على رتبة الأمثلية المدروسة. أخيراً، نقدم قاعدة توقف قابلة للحساب التي، عند دمجها مع خوارزميتنا للتعلم، تُطلق في وقت محدود كلما أمكن ذلك.
تركز المشكلة الأساسية للدراسة على مشكلة القابلية للتحديد في تعلم سياسات الأمثلية العليا في عمليات القرار ماركوفية. بشكل محدد:
قيود الأمثلية ذات الكسب المتوسط التقليدية: في MDPs، تركز الأمثلية ذات الكسب المتوسط التقليدية فقط على الأداء المقارب طويل الأجل، متجاهلة أهمية المكافآت الفورية قصيرة الأجل.
التسلسل الهرمي للأمثليات العليا: من أمثلية الكسب إلى أمثلية الانحياز، وصولاً إلى أمثلية بلاكويل، يشكل تسلسلاً هرمياً كاملاً من الأمثليات، حيث يأخذ كل مستوى في الاعتبار الفروقات الأداء الأكثر دقة.
مشكلة التعلم: تعرض الورقة من خلال مثال بسيط لكن عميق (الشكل 1) الصعوبات الأساسية التي تواجه تعلم سياسات الأمثلية العليا حتى في أبسط الحالات.
يستمد دافع الورقة الأساسي من ملاحظة مهمة: حتى في MDPs البسيطة التي تحتوي على معامل واحد فقط غير معروف، قد يكون تعلم سياسات الأمثلية العليا مستحيلاً. تكشف هذه الظاهرة التي تبدو متناقضة عن الصعوبات الجوهرية في تعلم الأمثليات العليا.
بناء خوارزمية متسقة HOPE: لكل رتبة أمثلية n≥-1، نقترح خوارزمية Higher Order Policy iteration Epsilonized (HOPE) بها احتمالية خطأ متلاشية.
وصف كامل لفئة MDPs غير المتحللة: نثبت أن MDP غير متحلل (أي أن خوارزمية التحديد يمكن أن تتوقف في وقت محدود) إذا وفقط إذا كان يمتلك سياسة بيلمان مثلى فريدة.
نظرية انهيار التحلل: نثبت أن فئات MDPs غير المتحللة لجميع رتب الأمثليات (من أمثلية الكسب إلى أمثلية بلاكويل) متطابقة تماماً، وهي نتيجة مفاجئة.
توفير قاعدة توقف قابلة للحساب: نقدم قاعدة توقف معالجة بسهولة تمكّن خوارزمية HOPE من التوقف في وقت محدود عند الإمكان.
الإدخال: MDP اتصالي غير معروف M = (Z, ν, p)، حيث Z هي مساحة أزواج الحالة-الإجراء، ν هي دالة المكافأة، p هي نواة الانتقال
الإخراج: سياسة مثلى من الرتبة n π ∈ Π*_n(M)
الهدف: بناء خوارزمية تحديد بحيث يميل احتمالية خطأ السياسة الموصى بها إلى 0
الإدخال: رتبة الأمثلية المطلوبة n ≥ -1
التهيئة: t ← 0
الحلقة:
1. بناء MDP تجريبي M̂_t
2. تعيين ε ← t^(-1/4)
3. حساب ∏_s A_n(s) ← HOPI_{n,ε}(M̂_t)
4. التوصية بأي سياسة في ∏_s A_n(s)
5. أخذ عينات موحدة من الإجراء، ملاحظة المكافأة والحالة التالية
6. t ← t + 1
يتطلب تكرار السياسة التقليدي تلبية معادلة بيلمان بدقة، لكن هذا مستحيل في بيئة التعلم. يحقق HOPI ذلك من خلال إدخال معامل تخفيف ε، مما يسمح للخوارزمية بالعمل بشكل صحيح تحت الضوضاء.
تستشهد الورقة بالأدبيات المهمة في مجالات التعلم الآلي وعمليات القرار ماركوفية، بما في ذلك:
Puterman (1994): الكتاب المدرسي الكلاسيكي لعمليات القرار ماركوفية
Blackwell (1962): التعريف الأصلي لأمثلية بلاكويل
Kaufmann et al. (2016): نظرية التعقيد لتحديد الذراع المثلى
Boone and Gaujal (2023): قابلية تعلم أمثلية بلاكويل في MDPs الحتمية
تكشف هذه الورقة من خلال التحليل النظري الصارم عن ظاهرة أساسية وعميقة في التعلم الآلي: تحدد صعوبة تعلم الأمثليات العليا بالكامل من خلال هيكل أمثلية بيلمان. لا تحمل هذه النتيجة أهمية نظرية مهمة فحسب، بل توفر أيضاً إرشادات مهمة لتصميم الخوارزميات العملية.