2025-11-20T19:43:15.563163

Homomorphic Mappings for Value-Preserving State Aggregation in Markov Decision Processes

Zhao, Li, Feng et al.

State aggregation aims to reduce the computational complexity of solving Markov Decision Processes (MDPs) while preserving the performance of the original system. A fundamental challenge lies in optimizing policies within the aggregated, or abstract, space such that the performance remains optimal in the ground MDP-a property referred to as {"}optimal policy equivalence {"}. This paper presents an abstraction framework based on the notion of homomorphism, in which two Markov chains are deemed homomorphic if their value functions exhibit a linear relationship. Within this theoretical framework, we establish a sufficient condition for the equivalence of optimal policy. We further examine scenarios where the sufficient condition is not met and derive an upper bound on the approximation error and a performance lower bound for the objective function under the ground MDP. We propose Homomorphic Policy Gradient (HPG), which guarantees optimal policy equivalence under sufficient conditions, and its extension, Error-Bounded HPG (EBHPG), which balances computational efficiency and the performance loss induced by aggregation. In the experiments, we validated the theoretical results and conducted comparative evaluations against seven algorithms.

academic

التعيينات المتماثلة للتجميع الحفاظ على القيمة في عمليات قرار ماركوف

المعلومات الأساسية

معرّف الورقة: 2510.09965
العنوان: التعيينات المتماثلة للتجميع الحفاظ على القيمة في عمليات قرار ماركوف
المؤلفون: Shuo Zhao, Yongqiang Li, Yu Feng, Zhongsheng Hou, Yuanjing Feng
التصنيف: cs.LG cs.AI stat.ML
تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.09965

الملخص

تقدم هذه الورقة إطار عمل تجريدي قائم على التعيينات المتماثلة لمعالجة مشكلة تجميع الحالات في عمليات قرار ماركوف (MDP). يحدد الإطار المتماثلة من خلال إنشاء علاقة خطية بين دوال القيمة في سلسلتي ماركوف، مما يحافظ على تكافؤ السياسات المثلى مع تقليل التعقيد الحسابي. تقدم الورقة خوارزميتي HPG و EBHPG، توفران ضمانات نظرية عند تحقق الشروط الكافية وعدم تحققها على التوالي، وتتحقق من صحة النتائج النظرية من خلال التجارب.

خلفية البحث والدافع

تعريف المشكلة

مع التطبيق الواسع لعمليات قرار ماركوف في المشاكل الواقعية المعقدة، أصبحت مشكلة التعقيد الحسابي الناجمة عن فضاء الحالات الكبير متزايدة الأهمية. يهدف تجميع الحالات، كاستراتيجية رئيسية، إلى تقليل تكاليف الحساب من خلال ضغط فضاء الحالات، لكن التحدي الأساسي يكمن في كيفية ضمان أن السياسة المُحسَّنة في الفضاء المجرد تبقى مثلى في عملية قرار ماركوف الأصلية.

أهمية البحث

الكفاءة الحسابية: يزداد التعقيد في حل عمليات قرار ماركوف الكبيرة بشكل أسي مع فضاء الحالات
التطبيقات العملية: الحاجة الملحة في مجالات التنسيق متعدد الوكلاء، وتعلم التمثيل البصري، والأنظمة التشغيلية
الأهمية النظرية: الافتقار إلى أدوات تحليل نظرية منهجية لتكافؤ السياسات المثلى

قيود الطرق الموجودة

الطرق القائمة على الميزات: تتطلب موارد حسابية كبيرة، خاصة في الإعدادات عالية الأبعاد
التجميع القائم على القيمة: بينما يركز على تقليل خطأ دالة القيمة، إلا أنه يفتقر إلى أدوات نظرية لتكافؤ السياسات المثلى
نظرية عمليات قرار ماركوف المتماثلة: تتطلب أن تحافظ عملية قرار ماركوف المجردة بالكامل على الحوافز والديناميكيات الانتقالية للعملية الأصلية، وهي شروط صارمة جداً

المساهمات الأساسية

اقتراح إطار عمل سلاسل ماركوف المتماثلة: إنشاء إطار نظري أكثر مرونة من عمليات قرار ماركوف المتماثلة التقليدية، يتطلب فقط علاقة خطية بين دوال القيمة
إنشاء شروط كافية لتكافؤ السياسات المثلى: إثبات أنه عندما يحتوي الفضاء الصفي لمصفوفة الترميز على الفضاء الممتد من متجهات الانتقال الأساسية، يتحقق تكافؤ السياسات المثلى
تطوير خوارزمية HPG: خوارزمية تدرج السياسة التي تضمن تكافؤ السياسات المثلى عند تحقق الشروط الكافية
تصميم خوارزمية EBHPG: خوارزمية موسعة للتعامل مع الحالات التي لا تحقق الشروط الكافية، توفر ضمانات حد أدنى للأداء
توفير تحليل حدود الخطأ: اشتقاق الحد الأعلى للخطأ التقريبي وحد أدنى لأداء دالة الهدف

شرح الطريقة

تعريف المهمة

بالنظر إلى عملية قرار ماركوف ذات الأفق اللانهائي $M_S = (S,A,P_{SA},\gamma,r)$ ، الهدف هو إيجاد مصفوفة ترميز $P_\nu$ وفضاء حالات مجرد $U$ ، بحيث تبقى السياسة المُحسَّنة في الفضاء المجرد مثلى في عملية قرار ماركوف الأصلية.

الإطار النظري الأساسي

تعريف سلاسل ماركوف المتماثلة

التعريف 1: بالنظر إلى سلسلة ماركوف الأساسية $M^\pi_S$ المستحثة بواسطة السياسة $\pi$ وسلسلة ماركوف المجردة $M^\mu_U$ ، إذا تحققت الشروط التالية، يُقال إن $M^\mu_U$ هي سلسلة ماركوف متماثلة لـ $M^\pi_S$ :

$P^\mu_U P_\nu = P_\nu P^\pi_S$ $R^{\pi,\nu}_U = P_\nu R^\pi_S$

حيث $P_\nu \in \mathbb{R}^{|U| \times |S|}$ هي مصفوفة الترميز.

العلاقة الخطية لدوال القيمة

النظرية 1: إذا كانت $M^\mu_U$ سلسلة ماركوف متماثلة لـ $M^\pi_S$ ، فإن دوال القيمة الخاصة بهما تحقق العلاقة الخطية: $V^\mu_U = P_\nu V^\pi_S$

شروط وجود التعيينات المتماثلة

النظرية 3: بالنظر إلى عملية قرار ماركوف الأساسية $M_S$ ومصفوفة الترميز $P_\nu$ ، يوجد تعيين متماثل $f_\nu: \Pi_S \to \Pi_U$ إذا وفقط إذا كان الفضاء الصفي لـ $P_\nu$ يحتوي على $\text{span}(F)$ ، حيث $F$ هي أقصى مجموعة مستقلة خطياً من جميع متجهات الانتقال الأساسية.

تصميم الخوارزميات

خوارزمية HPG (الخوارزمية 1)

عند تحقق الشروط الكافية:

حساب شبه معكوس Moore-Penrose $P_\nu^\dagger$ لـ $P_\nu$
حساب مصفوفة الانتقال المجردة عبر $C^{\pi_{\theta_t}} = P^{\pi_{\theta_t}}_S P_\nu^\dagger$
تقييم دالة القيمة المجردة $V^{f_\nu(\pi_{\theta_t})}_U$
تحديث معاملات السياسة $\theta_{t+1}$

التعقيد الحسابي: $O(|S||A| + |U||S|^2 + |U|^3)$ ، وهو يتفوق بشكل ملحوظ على التقييم القياسي للسياسة $O(|S||A| + |S|^3)$ عندما يكون $|U| \ll |S|$ .

خوارزمية EBHPG (الخوارزمية 2)

عند عدم تحقق الشروط الكافية، تحسين حد أدنى للأداء: $J_S(\tilde{\pi}) \geq J_U(f_\nu(\tilde{\pi})) - \frac{\|g(\tilde{\pi},\nu)\|}{1-\gamma}$

حيث $\frac{\|g(\pi,\nu)\|}{1-\gamma}$ هو الحد الأعلى للفرق في الأداء.

نقاط الابتكار التقني

تخفيف الشروط: بالمقارنة مع عمليات قرار ماركوف المتماثلة التقليدية التي تتطلب تساوياً كاملاً في احتمالات الانتقال، تتطلب هذه الورقة فقط علاقة اعتماد خطي
تحسين العمليات المصفوفية: تحقيق التجميع من خلال العمليات المصفوفية بدلاً من الحلقات التكرارية، مما يحسن الكفاءة الحسابية
حدود الخطأ: توفير ضمانات نظرية عند عدم تحقق الشروط المثالية واتجاهات التحسين

إعداد التجارب

مجموعات البيانات

النماذج العشوائية: $|S|=100, |A|=10$ ، كثافة مصفوفة الانتقال 10%-100%
عمليات قرار ماركوف الضعيفة الاقتران: $|S|=3600, |A|=10$ ، محاكاة القرارات الهرمية
عالم الشبكة ذو الأربع غرف: $|S|=6400, |A|=4$ ، مهمة الملاحة الكلاسيكية
إدارة الطوابير المتسلسلة: $|S|=6084, |A|=3$ ، مستوحاة من نظام الخادم الفعلي

مقاييس التقييم

أداء السياسة: $J_S(\pi) = \mathbb{E}_{s_0 \sim \xi_S}[V^\pi_S(s_0)]$
وقت الحساب: قياس الوقت الفعلي للكفاءة الفعلية
التقارب: تقارب تكرار السياسة إلى الحل الأمثل

طرق المقارنة

تشمل 7 طرق أساسية:

تكرار السياسة القياسي (PolicyIter)
تقنيات التجميع الكلاسيكية (Bertsekas)
الطرق الحديثة: Ayoub et al., Chen, Forghieri et al., Ishfaq et al., Lee et al.

تفاصيل التنفيذ

معدل التعلم: $1 \times 10^{-3}$
عدد الحالات المجردة: $|U| = \text{int}(0.5 \times r)$
الأجهزة: معالج AMD Ryzen 7 5800X + بطاقة رسومات NVIDIA GeForce RTX 3090

نتائج التجارب

تجارب التحقق النظري

يعرض الشكل 2 نتائج التحقق على مهام صغيرة الحجم بـ $|S|=100$ :

عند تحقق الشروط الكافية: المنحنيات المسماة "100%" (المقابلة لـ $|U|=r$ ) تتقارب إلى القيمة المثلى في جميع المهام، مما يتحقق من صحة النظريات 2 و 3
عند عدم تحقق الشروط الكافية: المنحنيات المسماة "80%"، "50%"، "20%" تظهر تذبذباً واضحاً، ولا يمكن ضمان التقارب إلى الحل الأمثل
أداء EBHPG: تتحسن الأداء الفعلية (الخط الصلب) مع تحسن حد الأداء الأدنى (الخط المتقطع)، مما يتحقق من النظريات 5 و 6

مقارنة الأداء على نطاق واسع

يعرض الشكل 3 مقارنة الأداء على مهام واسعة النطاق:

الكفاءة الحسابية: تتفوق الطريقة المقترحة بشكل ملحوظ على طرق المقارنة الأساسية في جميع المهام باستثناء بيئة الأربع غرف
القائم على النموذج مقابل بدون نموذج: تتفوق الطرق القائمة على النموذج بشكل عام على الطرق الخالية من النموذج، لأنها تستخدم التخطيط الدقيق بدلاً من أخذ العينات
ميزة العمليات المصفوفية: توفر العمليات المصفوفية مقابل تنفيذ الحلقات المتداخلة في طرق المقارنة تحسناً ملحوظاً في الكفاءة

تحليل الحالات الخاصة

يصعب على جميع الطرق تجاوز الأساس في بيئة الأربع غرف، الأسباب المحتملة:

هيكل الحوافز نادر جداً
الجمع بين فضاء الحالات الكبير والحوافز النادرة يجعل الاستكشاف صعباً
قد تؤدي ندرة دالة الحوافز إلى إبطاء كفاءة تكرار السياسة

الأعمال ذات الصلة

تصنيف طرق التجريد الحالي

الطرق القائمة على الميزات: استخدام وظائف الميزات المصممة يدوياً أو المتعلمة، مثل شبكات بايز الديناميكية والتحليل الطيفي
التجميع القائم على القيمة: التركيز على تقليل خطأ تقريب دالة القيمة، مثل خوارزميات التجميع التكراري التكيفي

تطور الأطر النظرية

نظرية عمليات قرار ماركوف المتماثلة: إطار التعيينات الحافظة للبنية المقترح من قبل Ravindran
نظرية المحاكاة الثنائية: امتداد مفهوم التكافؤ السلوكي الكلاسيكي في عمليات قرار ماركوف
امتداد الفضاء المستمر: امتداد مقياس المحاكاة الثنائية إلى فضاء الحالات المستمر من قبل Ferns وآخرين

الميزة النسبية للورقة الحالية

بالمقارنة مع الطرق الموجودة، توفر هذه الورقة شروطاً كافية أكثر مرونة وتنفيذاً حسابياً أكثر كفاءة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إنشاء إطار نظري لتجميع الحالات قائم على التعيينات المتماثلة
توفير شروط كافية لتكافؤ السياسات المثلى، أكثر مرونة من شروط عمليات قرار ماركوف المتماثلة التقليدية
تطوير خوارزميتي HPG و EBHPG العمليتين، تم التحقق منهما نظرياً وتجريبياً

القيود

تقييد الشروط الكافية: في بعض الحالات، قد تكون تكلفة حساب الشروط الكافية لا تزال مرتفعة
ضمانات التقارب: عند وجود خطأ تقريبي، لا يمكن ضمان التقارب إلى السياسة المثلى
الفضاء المستمر: لم يتم توسيع التحليل إلى فضاء الحالات المستمر

الاتجاهات المستقبلية

تخفيف الشروط الكافية لتكافؤ السياسات المثلى
التوسع إلى فضاء الحالات المستمر
تحسين ضمانات التقارب في حالة وجود خطأ تقريبي

التقييم المتعمق

المميزات

المساهمة النظرية: اقتراح إطار نظري أكثر عمومية من الطرق الموجودة
العملية: يأخذ تصميم الخوارزمية في الاعتبار الكفاءة الحسابية، مناسب للتطبيقات واسعة النطاق
الاكتمال: من التحليل النظري إلى تصميم الخوارزمية إلى التحقق التجريبي، يشكل سلسلة بحثية كاملة
الدقة: الاشتقاق الرياضي دقيق وتصميم التجارب معقول

أوجه القصور

نطاق التطبيق: قد تكون الشروط الكافية في بعض الحالات لا تزال صارمة جداً
تغطية التجارب: تتطلب النتائج الشاذة في بيئة الأربع غرف تحليلاً أعمق
طرق المقارنة: قد لا تكون بعض الطرق المقارنة أحدث طرق الفن (SOTA)

التأثير

القيمة النظرية: توفير أدوات نظرية جديدة لتجميع حالات عمليات قرار ماركوف
القيمة العملية: تظهر الخوارزميات مزايا في مهام عملية متعددة
القابلية للتوسع: يتمتع الإطار بإمكانية التوسع إلى مشاكل أخرى

السيناريوهات المناسبة

حل عمليات قرار ماركوف واسعة النطاق
التعلم الهرمي المعزز
الأنظمة متعددة الوكلاء
مشاكل القرار ذات فضاء الحالات المنظم

المراجع

تستشهد الورقة بـ 50 مرجعاً ذا صلة، تغطي نظرية عمليات قرار ماركوف والتجريد الحالي والتعلم المعزز وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: هذه ورقة عالية الجودة تجمع بين النظرية والممارسة، وتقدم مساهمات مهمة في مجال تجميع حالات عمليات قرار ماركوف. الإطار النظري مبتكر وعملي، وتصميم الخوارزمية معقول، والتحقق التجريبي شامل. على الرغم من وجود بعض القيود، فإن الورقة بشكل عام توفر أدوات نظرية وطرقاً عملية قيمة لتطور هذا المجال.