2025-11-19T05:19:13.941336

Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals

Sorstkins, Tariq, Bilal
This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.
academic

التعلم للتراجع: التعلم المعزز المعزز بالتراجع مع إشارات القابلية للعكس

المعلومات الأساسية

  • معرف الورقة: 2510.14503
  • العنوان: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
  • المؤلفون: Andrejs Sorstkins¹, Omer Tariq², Muhammad Bilal¹
  • التصنيف: cs.LG
  • تاريخ النشر: 17 أكتوبر 2025 (نسخة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.14503

الملخص

تقترح هذه الورقة إطار عمل للتعلم القابل للعكس يهدف إلى تحسين قوة واستقرار وكفاءة وكلاء التعلم المعزز القائم على القيمة، مع معالجة مشاكل الإفراط في تقدير القيمة وعدم الاستقرار في البيئات غير القابلة للعكس جزئياً. يتضمن الإطار آليتين أساسيتين متكاملتين: مقياس قابلية عكس الانتقال المدفوع بالتجربة Φ(s,a) وعملية تراجع الحالة الانتقائية. في بيئة CliffWalking-v0، يقلل الإطار الانخفاضات الكارثية بنسبة تزيد عن 99.8%، مع تحسين متوسط مكافأة الحلقة بنسبة 55%. في بيئة Taxi-v3، يتم قمع الإجراءات غير القانونية بنسبة ≥99.9%، مع تحسين المكافآت المتراكمة بنسبة 65.7%، مع تقليل كبير في تباين المكافآت في كلا البيئتين.

الخلفية البحثية والدافع

المشاكل الأساسية

  1. مشكلة الإفراط في تقدير القيمة: مشكلة الإفراط في تقدير دالة Q المنتشرة في التعلم العميق المعزز تؤدي إلى تفضيل الوكيل للمسارات الكاذبة إحصائياً أو منخفضة الاحتمالية، مما يسبب تحديثات سياسة متذبذبة وزيادة وقت التقارب
  2. السلامة في البيئات غير القابلة للعكس: في التطبيقات الحساسة للسلامة (مثل القيادة الذاتية والجراحة الآلية وتخطيط العلاج الطبي)، قد تؤدي الأخطاء غير القابلة للعكس إلى عواقب كارثية
  3. قيود الطرق الموجودة: تتطلب الحلول التقليدية لمشكلة الإفراط في تقدير قيمة Q (مثل التعلم المزدوج Q والتعلم المحافظ Q) عادة زيادة في التكلفة الحسابية وتعقيد العينة

الدافع البحثي

القابلية للعكس في البنية المعرفية البشرية هي أساس الاتخاذ الحذر للقرارات والتعلم التكيفي. يعتاد البشر على تقييم المكافأة الفورية للإجراء المعطى وكذلك درجة إمكانية عكس أو تعويض هذا الإجراء بخطوات لاحقة. تدمج هذه الورقة هذه القدرة على "التراجع" عن القرارات دون المستوى الأمثل في إطار التعلم المعزز، مما يوفر حلاً للتطبيقات الحساسة للسلامة على نطاق واسع.

المساهمات الأساسية

  1. مقدّر قابلية العكس الخالي من النموذج القابل للتوسع: يقترح مقدّر قابلية عكس عبر الإنترنت لكل زوج حالة-إجراء Φ(s,a)، مما يتجنب تدريب المصنف
  2. عملية التراجع الصريحة: دمج عملية التراجع الصريحة في جداول تحديثات Q-Learning و SARSA
  3. آلية الاقتران المبدئية: دمج تشكيل Φ والتراجع الانتقائي بشكل مبدئي لتحديد المخاطر السلبية دون قمع الاستكشاف
  4. التقييم الشامل: من خلال التقييم الواسع والتحليل الحساس والتجارب الاستئصالية، تحديد المكونات المهمة للسلامة والأداء

شرح الطريقة

تعريف المهمة

في عملية القرار ماركوفي (S,A,P,R,γ)، يختار الوكيل إجراء a∈A في الحالة s∈S، ويتلقى مكافأة r، وينتقل إلى s'~P(·|s,a). الهدف هو تعلم دالة القيمة الأمثل للإجراء Q*(s,a) مع ضمان السلامة في البيئات غير القابلة للعكس جزئياً.

معمارية النموذج

1. مقدّر قابلية العكس المستند إلى التجربة

الحفاظ على تقدير قابلية العكس من خلال بنية FIFO:

  • لكل انتقال مرصود (st,at)→st+1، ادفع السجل (s0,a0,d) إلى قائمة FIFO L
  • d = t+K هو الموعد النهائي الذي يجب العودة فيه إلى s0
  • استخدم المتوسط المتحرك الأسي (EMA) لتحديث جدول قابلية العكس:
Φ[s0,a0] ← (1-αφ)Φ[s0,a0] + αφ·y

حيث y∈{0,1} يشير إلى ما إذا تم العودة إلى الحالة الأصلية خلال K خطوة.

2. تعلم TD وآلية العقوبة

تشكيل المكافأة المعاقبة:

r' = r - λ(1 - Φ[st,at])

خطأ TD المعدل:

  • Q-Learning: δ = r' + γmax_a' Q(st+1,a') - Q(st,at)
  • SARSA: δ = r' + γQ(st+1,at+1) - Q(st,at)

3. عملية التراجع

تنفيذ التراجع عند تفعيل شروط العتبة:

snext = {
  st,     إذا تم انتهاك العتبة
  st+1,   وإلا
}

يتم تعريف شرط العتبة كـ: القيمة المستهدفة ≤ T·Q(st,at)

نقاط الابتكار التقني

  1. تقدير قابلية العكس الخفيف الوزن: استبدال تقدير قائم على المصنف بتقدير تجريبي قائم على FIFO، مما يتجنب الإفراط في التدريب الخاص بالسياسة
  2. العقوبة المحلية: استخدام Φ لكل زوج حالة-إجراء لإنتاج عقوبة محلية بدلاً من عتبة عامة
  3. آلية الإلغاء الصريحة: توفير بدائل استرجاع قابلة للتشغيل لإلغاء الخطوات الضارة فوراً عند اكتشاف انتقالات عالية المخاطر
  4. نافذة زمنية تكيفية: التحكم في النطاق الزمني من خلال المعامل K لالتقاط قابلية العكس قصيرة أو طويلة الأجل دون إعادة تدريب

إعداد التجربة

مجموعات البيانات

استخدام بيئتين كلاسيكيتين من "toy-text" في Gymnasium v1.2.0:

  1. CliffWalking-v0: شبكة 4×12، بيئة حتمية
    • فضاء الملاحظة: 48 حالة قابلة للوصول
    • فضاء الإجراء: 4 حركات منفصلة
    • عقوبة الجرف: -100، الخطوة العادية: -1
  2. Taxi-v3: شبكة 5×5، مهمة استقبال وتوصيل سيارة أجرة
    • فضاء الملاحظة: 500 حالة
    • فضاء الإجراء: 6 إجراءات
    • عقوبة الإجراء غير القانوني: -10، التوصيل الناجح: +20

مقاييس التقييم

  • متوسط مكافأة الحلقة
  • تكرار الأحداث الكارثية (السقوط/الإجراءات غير القانونية)
  • عدد مرات التراجع
  • تباين المكافآت
  • كفاءة المسار (الخطوات/الحلقة)

الطرق المقارنة

  • Q-Learning الأساسي
  • التراجع فقط (RollbackOnly)
  • عقوبة العتبة فقط (ThresholdPeAgent)
  • تقدير السابقة فقط (PrecedenceOnly)
  • النموذج الكامل (FullModel)

تفاصيل التنفيذ

  • ميزانية التدريب: 100,000 حلقة مستقلة لكل بيئة
  • إعدادات المعاملات: α=0.1, γ=0.99, ε=0.1
  • تهيئة جدول Q: Q0=-1
  • ضبط المعاملات الفائقة الخاصة بالبيئة

نتائج التجربة

النتائج الرئيسية

بيئة CliffWalking-v0

  • تحسن الأداء: متوسط المكافأة من -399.77 إلى -179.81 (+55.0%)
  • السلامة: انخفاض حالات السقوط من 2.209 إلى 0.004 (-99.8%)
  • التحكم في التباين: الانحراف المعياري للمكافآت من 563.78 إلى 160.97 (-71.4%)
  • الكفاءة: زيادة الخطوات بنسبة 1.01% فقط (181.06→182.89)

بيئة Taxi-v3

  • تحسن الأداء: متوسط المكافأة من -1652.93 إلى -567.09 (+65.7%)
  • السلامة: انخفاض الإجراءات غير القانونية من 110.217 إلى 0.069 (-99.9%)
  • التحكم في التباين: الانحراف المعياري للمكافآت من 652.74 إلى 267.00 (-59.1%)
  • طول المسار: زيادة الخطوات بنسبة 2.46% (681.85→698.65)

التجارب الاستئصالية

تؤكد الدراسات الاستئصالية أن التراجع هو العامل الرئيسي:

  • يستعيد RollbackOnly تقريباً جميع تحسينات المكافآت للنموذج الكامل في كلا البيئتين
  • يؤدي PrecedenceOnly أداءً ضعيفاً في كلا المهمتين
  • آلية العتبة ثانوية، وتضيف قيمة بشكل أساسي عند الاقتران مع التراجع

تحليل حساسية المعاملات

حساسية المعاملات الفائقة الخاصة بالبيئة:

  • CliffWalking-v0: K=2, λ=0.6, عقوبة=1.2, Φ0=0.0 (سابقة متشائمة)
  • Taxi-v3: K=0, λ=0.8, عقوبة=1.1, Φ0=0.8 (سابقة متفائلة)

تشير هذه التناقضات إلى أن التعلم المعزز المدرك لقابلية العكس يتطلب تعديل الانحيازات الخاصة بالبيئة.

الأعمال ذات الصلة

حلول الإفراط في تقدير القيمة

  • Double Q-Learning: استخدام مقدّرين مستقلين لفصل الاختيار والتقييم
  • TD3: قمع التفاؤل الزائد من خلال ناقدين مزدوجين وتحديث السياسة المتأخر
  • Maxmin Q-Learning: الاستيفاء بين N ناقد

طرق الاستكشاف الآمن

  1. الطرق القائمة على القيود: إطار GSE وActSafe وغيرها
  2. الطرق القائمة على التحقق: طرق التحقق الرسمي مثل VELM
  3. تحسين المقايضة بين المكافأة والسلامة: تقنيات التلاعب بالتدرج

موضع هذه الورقة

على عكس الطرق الموجودة، تقدم هذه الورقة منظوراً مدفوعاً بقابلية العكس، مما يوفر قابلية استرجاع ديناميكية بدلاً من مرشحات السلامة الثابتة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تحسن كبير في السلامة: تقليل الفشل الكارثي بنسبة >99% في كلا البيئتين
  2. تحسن كبير في الأداء: تحسن المكافآت المتراكمة بنسبة 55-66%
  3. التحكم الفعال في التباين: انخفاض ملحوظ في التشتت لمقاييس المكافآت والسلامة
  4. التكيف مع البيئة: تتطلب البيئات المختلفة معاملات فائقة مثلى مختلفة

القيود

  1. محدود بالبيئات الجدولية: قد لا تنطبق الاستنتاجات مباشرة على إعدادات التقريب الدالي
  2. افتراضات عملية التراجع: يتطلب الوصول إلى بدائل الحالة السابقة الآمنة
  3. حساسية المعاملات الفائقة: يتطلب اختيار معاملات فائقة واعية بالبيئة
  4. تطبيق الأنظمة العملية: قد يكون التراجع في الأنظمة الحقيقية غير تافه

الاتجاهات المستقبلية

  1. دمج التراجع في إعدادات التقريب الدالي
  2. توسيع مجال التجارب لتقليل حالات الاستخدام لتقدير السابقة
  3. تطوير ضبط المعاملات الفائقة التكيفي عبر البيئات
  4. دراسة النظائر الواقعية للتراجع في الروبوتات وأنظمة دعم القرار

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول من يدمج آلية "إلغاء" صريحة في التعلم المعزز، مفهوم جديد وبديهي
  2. تجارب شاملة: دراسات استئصالية شاملة وتحليل حساسية المعاملات واختبارات الدلالة الإحصائية
  3. نتائج مقنعة: تحسينات كبيرة وثابتة في السلامة والأداء
  4. أساس نظري متين: تشكيل رسمي لمفهوم قابلية العكس من الإدراك البشري إلى إطار خوارزمي

أوجه القصور

  1. قيود البيئة: التحقق فقط في بيئات جدولية بسيطة، افتقار التحقق في بيئات معقدة
  2. مشاكل قابلية التوسع: الشكوك حول قابلية توسع بنية FIFO والطرق الجدولية في المشاكل الكبيرة
  3. قيود الجدوى العملية: قد تكون عمليات "التراجع" في العالم الحقيقي غير قابلة للتطبيق أو مكلفة
  4. نقص التحليل النظري: افتقار ضمانات التقارب والحدود النظرية للأداء

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد للتعلم المعزز الآمن
  2. القيمة العملية: توفير إطار عمل حل قابل للتشغيل للتطبيقات الحساسة للسلامة
  3. قابلية التكرار: الطريقة بسيطة وواضحة، سهلة التكرار والتوسع

السيناريوهات المعمول بها

  1. الأنظمة الحساسة للسلامة: القيادة الذاتية والأجهزة الطبية والتحكم الصناعي
  2. ذكاء اللعبة: ألعاب الاستراتيجية التي تتطلب تجنب الأخطاء المميتة
  3. التحكم الروبوتي: مهام التشغيل التي تتطلب القدرة على التصحيح
  4. التداول المالي الآلي: أنظمة التداول الآلي التي تتطلب التحكم في المخاطر

المراجع

تستشهد الورقة بـ 48 مرجعاً ذا صلة، تغطي النظرية الأساسية للتعلم المعزز والاستكشاف الآمن والإفراط في تقدير القيمة وغيرها من المجالات الأساسية، مما يوفر أساساً نظرياً متيناً لهذا البحث.


التقييم الإجمالي: هذه ورقة مبتكرة وذات قيمة عملية تدمج بنجاح مفهوم "التراجع" من الإدراك البشري في التعلم المعزز، محققة تحسينات كبيرة في السلامة والأداء. على الرغم من أنها حالياً محدودة بالبيئات الجدولية، إلا أنها تفتح اتجاهاً جديداً لأبحاث التعلم المعزز الآمن في المستقبل.