State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}.
This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy.
We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.
- معرّف الورقة: 2510.09965
- العنوان: التعيينات المتماثلة للتجميع الحفاظ على القيمة في عمليات قرار ماركوف
- المؤلفون: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
- التصنيف: cs.LG cs.AI stat.ML
- تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2510.09965
تقدم هذه الورقة إطار عمل تجريدي قائم على التعيينات المتماثلة لمعالجة مشكلة تجميع الحالات في عمليات قرار ماركوف (MDP). يحدد الإطار المتماثلة من خلال إنشاء علاقة خطية بين دوال القيمة في سلسلتي ماركوف، مما يحافظ على تكافؤ السياسات المثلى مع تقليل التعقيد الحسابي. تقدم الورقة خوارزميتي HPG و EBHPG، توفران ضمانات نظرية عند تحقق الشروط الكافية وعدم تحققها على التوالي، وتتحقق من صحة النتائج النظرية من خلال التجارب.
مع التطبيق الواسع لعمليات قرار ماركوف في المشاكل الواقعية المعقدة، أصبحت مشكلة التعقيد الحسابي الناجمة عن فضاء الحالات الكبير متزايدة الأهمية. يهدف تجميع الحالات، كاستراتيجية رئيسية، إلى تقليل تكاليف الحساب من خلال ضغط فضاء الحالات، لكن التحدي الأساسي يكمن في كيفية ضمان أن السياسة المُحسَّنة في الفضاء المجرد تبقى مثلى في عملية قرار ماركوف الأصلية.
- الكفاءة الحسابية: يزداد التعقيد في حل عمليات قرار ماركوف الكبيرة بشكل أسي مع فضاء الحالات
- التطبيقات العملية: الحاجة الملحة في مجالات التنسيق متعدد الوكلاء، وتعلم التمثيل البصري، والأنظمة التشغيلية
- الأهمية النظرية: الافتقار إلى أدوات تحليل نظرية منهجية لتكافؤ السياسات المثلى
- الطرق القائمة على الميزات: تتطلب موارد حسابية كبيرة، خاصة في الإعدادات عالية الأبعاد
- التجميع القائم على القيمة: بينما يركز على تقليل خطأ دالة القيمة، إلا أنه يفتقر إلى أدوات نظرية لتكافؤ السياسات المثلى
- نظرية عمليات قرار ماركوف المتماثلة: تتطلب أن تحافظ عملية قرار ماركوف المجردة بالكامل على الحوافز والديناميكيات الانتقالية للعملية الأصلية، وهي شروط صارمة جداً
- اقتراح إطار عمل سلاسل ماركوف المتماثلة: إنشاء إطار نظري أكثر مرونة من عمليات قرار ماركوف المتماثلة التقليدية، يتطلب فقط علاقة خطية بين دوال القيمة
- إنشاء شروط كافية لتكافؤ السياسات المثلى: إثبات أنه عندما يحتوي الفضاء الصفي لمصفوفة الترميز على الفضاء الممتد من متجهات الانتقال الأساسية، يتحقق تكافؤ السياسات المثلى
- تطوير خوارزمية HPG: خوارزمية تدرج السياسة التي تضمن تكافؤ السياسات المثلى عند تحقق الشروط الكافية
- تصميم خوارزمية EBHPG: خوارزمية موسعة للتعامل مع الحالات التي لا تحقق الشروط الكافية، توفر ضمانات حد أدنى للأداء
- توفير تحليل حدود الخطأ: اشتقاق الحد الأعلى للخطأ التقريبي وحد أدنى لأداء دالة الهدف
بالنظر إلى عملية قرار ماركوف ذات الأفق اللانهائي MS=(S,A,PSA,γ,r)، الهدف هو إيجاد مصفوفة ترميز Pν وفضاء حالات مجرد U، بحيث تبقى السياسة المُحسَّنة في الفضاء المجرد مثلى في عملية قرار ماركوف الأصلية.
التعريف 1: بالنظر إلى سلسلة ماركوف الأساسية MSπ المستحثة بواسطة السياسة π وسلسلة ماركوف المجردة MUμ، إذا تحققت الشروط التالية، يُقال إن MUμ هي سلسلة ماركوف متماثلة لـ MSπ:
PUμPν=PνPSπRUπ,ν=PνRSπ
حيث Pν∈R∣U∣×∣S∣ هي مصفوفة الترميز.
النظرية 1: إذا كانت MUμ سلسلة ماركوف متماثلة لـ MSπ، فإن دوال القيمة الخاصة بهما تحقق العلاقة الخطية:
VUμ=PνVSπ
النظرية 3: بالنظر إلى عملية قرار ماركوف الأساسية MS ومصفوفة الترميز Pν، يوجد تعيين متماثل fν:ΠS→ΠU إذا وفقط إذا كان الفضاء الصفي لـ Pν يحتوي على span(F)، حيث F هي أقصى مجموعة مستقلة خطياً من جميع متجهات الانتقال الأساسية.
عند تحقق الشروط الكافية:
- حساب شبه معكوس Moore-Penrose Pν† لـ Pν
- حساب مصفوفة الانتقال المجردة عبر Cπθt=PSπθtPν†
- تقييم دالة القيمة المجردة VUfν(πθt)
- تحديث معاملات السياسة θt+1
التعقيد الحسابي: O(∣S∣∣A∣+∣U∣∣S∣2+∣U∣3)، وهو يتفوق بشكل ملحوظ على التقييم القياسي للسياسة O(∣S∣∣A∣+∣S∣3) عندما يكون ∣U∣≪∣S∣.
عند عدم تحقق الشروط الكافية، تحسين حد أدنى للأداء:
JS(π~)≥JU(fν(π~))−1−γ∥g(π~,ν)∥
حيث 1−γ∥g(π,ν)∥ هو الحد الأعلى للفرق في الأداء.
- تخفيف الشروط: بالمقارنة مع عمليات قرار ماركوف المتماثلة التقليدية التي تتطلب تساوياً كاملاً في احتمالات الانتقال، تتطلب هذه الورقة فقط علاقة اعتماد خطي
- تحسين العمليات المصفوفية: تحقيق التجميع من خلال العمليات المصفوفية بدلاً من الحلقات التكرارية، مما يحسن الكفاءة الحسابية
- حدود الخطأ: توفير ضمانات نظرية عند عدم تحقق الشروط المثالية واتجاهات التحسين
- النماذج العشوائية: ∣S∣=100,∣A∣=10، كثافة مصفوفة الانتقال 10%-100%
- عمليات قرار ماركوف الضعيفة الاقتران: ∣S∣=3600,∣A∣=10، محاكاة القرارات الهرمية
- عالم الشبكة ذو الأربع غرف: ∣S∣=6400,∣A∣=4، مهمة الملاحة الكلاسيكية
- إدارة الطوابير المتسلسلة: ∣S∣=6084,∣A∣=3، مستوحاة من نظام الخادم الفعلي
- أداء السياسة: JS(π)=Es0∼ξS[VSπ(s0)]
- وقت الحساب: قياس الوقت الفعلي للكفاءة الفعلية
- التقارب: تقارب تكرار السياسة إلى الحل الأمثل
تشمل 7 طرق أساسية:
- تكرار السياسة القياسي (PolicyIter)
- تقنيات التجميع الكلاسيكية (Bertsekas)
- الطرق الحديثة: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.
- معدل التعلم: 1×10−3
- عدد الحالات المجردة: ∣U∣=int(0.5×r)
- الأجهزة: معالج AMD Ryzen 7 5800X + بطاقة رسومات NVIDIA GeForce RTX 3090
يعرض الشكل 2 نتائج التحقق على مهام صغيرة الحجم بـ ∣S∣=100:
- عند تحقق الشروط الكافية: المنحنيات المسماة "100%" (المقابلة لـ ∣U∣=r) تتقارب إلى القيمة المثلى في جميع المهام، مما يتحقق من صحة النظريات 2 و 3
- عند عدم تحقق الشروط الكافية: المنحنيات المسماة "80%"، "50%"، "20%" تظهر تذبذباً واضحاً، ولا يمكن ضمان التقارب إلى الحل الأمثل
- أداء EBHPG: تتحسن الأداء الفعلية (الخط الصلب) مع تحسن حد الأداء الأدنى (الخط المتقطع)، مما يتحقق من النظريات 5 و 6
يعرض الشكل 3 مقارنة الأداء على مهام واسعة النطاق:
- الكفاءة الحسابية: تتفوق الطريقة المقترحة بشكل ملحوظ على طرق المقارنة الأساسية في جميع المهام باستثناء بيئة الأربع غرف
- القائم على النموذج مقابل بدون نموذج: تتفوق الطرق القائمة على النموذج بشكل عام على الطرق الخالية من النموذج، لأنها تستخدم التخطيط الدقيق بدلاً من أخذ العينات
- ميزة العمليات المصفوفية: توفر العمليات المصفوفية مقابل تنفيذ الحلقات المتداخلة في طرق المقارنة تحسناً ملحوظاً في الكفاءة
يصعب على جميع الطرق تجاوز الأساس في بيئة الأربع غرف، الأسباب المحتملة:
- هيكل الحوافز نادر جداً
- الجمع بين فضاء الحالات الكبير والحوافز النادرة يجعل الاستكشاف صعباً
- قد تؤدي ندرة دالة الحوافز إلى إبطاء كفاءة تكرار السياسة
- الطرق القائمة على الميزات: استخدام وظائف الميزات المصممة يدوياً أو المتعلمة، مثل شبكات بايز الديناميكية والتحليل الطيفي
- التجميع القائم على القيمة: التركيز على تقليل خطأ تقريب دالة القيمة، مثل خوارزميات التجميع التكراري التكيفي
- نظرية عمليات قرار ماركوف المتماثلة: إطار التعيينات الحافظة للبنية المقترح من قبل Ravindran
- نظرية المحاكاة الثنائية: امتداد مفهوم التكافؤ السلوكي الكلاسيكي في عمليات قرار ماركوف
- امتداد الفضاء المستمر: امتداد مقياس المحاكاة الثنائية إلى فضاء الحالات المستمر من قبل Ferns وآخرين
بالمقارنة مع الطرق الموجودة، توفر هذه الورقة شروطاً كافية أكثر مرونة وتنفيذاً حسابياً أكثر كفاءة.
- إنشاء إطار نظري لتجميع الحالات قائم على التعيينات المتماثلة
- توفير شروط كافية لتكافؤ السياسات المثلى، أكثر مرونة من شروط عمليات قرار ماركوف المتماثلة التقليدية
- تطوير خوارزميتي HPG و EBHPG العمليتين، تم التحقق منهما نظرياً وتجريبياً
- تقييد الشروط الكافية: في بعض الحالات، قد تكون تكلفة حساب الشروط الكافية لا تزال مرتفعة
- ضمانات التقارب: عند وجود خطأ تقريبي، لا يمكن ضمان التقارب إلى السياسة المثلى
- الفضاء المستمر: لم يتم توسيع التحليل إلى فضاء الحالات المستمر
- تخفيف الشروط الكافية لتكافؤ السياسات المثلى
- التوسع إلى فضاء الحالات المستمر
- تحسين ضمانات التقارب في حالة وجود خطأ تقريبي
- المساهمة النظرية: اقتراح إطار نظري أكثر عمومية من الطرق الموجودة
- العملية: يأخذ تصميم الخوارزمية في الاعتبار الكفاءة الحسابية، مناسب للتطبيقات واسعة النطاق
- الاكتمال: من التحليل النظري إلى تصميم الخوارزمية إلى التحقق التجريبي، يشكل سلسلة بحثية كاملة
- الدقة: الاشتقاق الرياضي دقيق وتصميم التجارب معقول
- نطاق التطبيق: قد تكون الشروط الكافية في بعض الحالات لا تزال صارمة جداً
- تغطية التجارب: تتطلب النتائج الشاذة في بيئة الأربع غرف تحليلاً أعمق
- طرق المقارنة: قد لا تكون بعض الطرق المقارنة أحدث طرق الفن (SOTA)
- القيمة النظرية: توفير أدوات نظرية جديدة لتجميع حالات عمليات قرار ماركوف
- القيمة العملية: تظهر الخوارزميات مزايا في مهام عملية متعددة
- القابلية للتوسع: يتمتع الإطار بإمكانية التوسع إلى مشاكل أخرى
- حل عمليات قرار ماركوف واسعة النطاق
- التعلم الهرمي المعزز
- الأنظمة متعددة الوكلاء
- مشاكل القرار ذات فضاء الحالات المنظم
تستشهد الورقة بـ 50 مرجعاً ذا صلة، تغطي نظرية عمليات قرار ماركوف والتجريد الحالي والتعلم المعزز وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة عالية الجودة تجمع بين النظرية والممارسة، وتقدم مساهمات مهمة في مجال تجميع حالات عمليات قرار ماركوف. الإطار النظري مبتكر وعملي، وتصميم الخوارزمية معقول، والتحقق التجريبي شامل. على الرغم من وجود بعض القيود، فإن الورقة بشكل عام توفر أدوات نظرية وطرقاً عملية قيمة لتطور هذا المجال.