2025-11-17T12:28:12.099327

Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

Tang, Cheng, Kumar
The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
academic

التعلم المعزز الخصومي القوي في الألعاب العشوائية عبر نمذجة التسلسل

المعلومات الأساسية

  • معرّف الورقة: 2510.11877
  • العنوان: التعلم المعزز الخصومي القوي في الألعاب العشوائية عبر نمذجة التسلسل
  • المؤلفون: Xiaohang Tang (جامعة كوليدج لندن)، Zhuowen Cheng (باحث مستقل)، Satyabrat Kumar (جامعة كوليدج لندن)
  • التصنيف: cs.LG cs.GT
  • تاريخ النشر/المؤتمر: ورشة عمل المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية (NeurIPS 2025): التعلم الموثوق
  • رابط الورقة: https://arxiv.org/abs/2510.11877

الملخص

يُعتبر محول الرموز (Transformer) معمارية ذات قوة تعبيرية عالية لنمذجة التسلسل، وقد تم تكييفها مؤخراً لحل مشاكل اتخاذ القرار المتسلسل، وأشهرها Decision Transformer (DT)، الذي يتعلم السياسات من خلال تشريط العائد المتوقع. ومع ذلك، فإن القوة الخصومية للطرق المستندة إلى نمذجة التسلسل في التعلم المعزز لم تُستكشف إلى حد كبير. تقدم هذه الورقة Conservative Adversarially Robust Decision Transformer (CART)، وهو، حسب علمنا، الإطار الأول المصمم لتعزيز قوة DT في الألعاب العشوائية الخصومية. نقوم بنمذجة التفاعل بين البطل والخصم في كل مرحلة كلعبة مرحلية، حيث يتم تعريف العائد على أنه القيمة المتوقعة القصوى للحالات اللاحقة، مما يدمج بشكل صريح نقل الحالة العشوائي. من خلال تشريط سياسة المحول على قيم NashQ المشتقة من هذه الألعاب المرحلية، تولد CART سياسات ذات قابلية استغلال منخفضة (قوة خصومية) وتحفظ تجاه عدم اليقين في الانتقال.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث لحلها هي تحسين القوة الخصومية لـ Decision Transformer في بيئة الألعاب العشوائية. بشكل محدد:

  1. ضعف Decision Transformer: على الرغم من أن DT يُظهر أداءً ممتازاً في مهام اتخاذ القرار المتسلسل، إلا أنه عرضة للاستغلال في البيئات الخصومية، لأنه يتعلم السياسات من خلال التعلم بالمحاكاة، وقد تُعزى العوائد العالية فقط إلى نقاط ضعف استراتيجية الخصم وليس إلى القوة الحقيقية.
  2. حدود الطرق الموجودة: على الرغم من أن Adversarially Robust Decision Transformer (ARDT) يخفف من هذه المشكلة من خلال تشريط عائد minimax، فإن تطبيقه يقتصر على التعلم المعزز الخصومي مع نقل الحالة الحتمي، وقد يُظهر تفاؤلاً مفرطاً في الألعاب ذات نقل الحالة العشوائي.
  3. تحديات معالجة العشوائية: في الألعاب العشوائية، يكون نقل الحالة احتمالياً بطبيعته، وقد يتجاهل ARDT احتمالات الانتقال لأنه يشرط فقط عائد minimax، مما يؤدي إلى سوء تقدير احتمالية الوصول إلى ألعاب فرعية عالية العائد.

أهمية البحث

تتجلى أهمية هذه المشكلة في:

  • الجدوى العملية: غالباً ما تتضمن أنظمة الوكلاء المتعددة في العالم الحقيقي عدم اليقين والخصومية
  • الأهمية النظرية: ملء الفجوة البحثية في نمذجة التسلسل فيما يتعلق بالقوة الخصومية
  • الأمان: تحسين موثوقية أنظمة الذكاء الاصطناعي في البيئات الخصومية

المساهمات الأساسية

  1. أول إطار عمل Decision Transformer قوي للألعاب العشوائية: تقديم CART، وهو أول طريقة مصممة خصيصاً لتعزيز قوة DT في الألعاب العشوائية الخصومية.
  2. نمذجة اللعبة المرحلية: نمذجة تفاعل البطل والخصم في كل خطوة زمنية كلعبة مرحلية، مع تعريف دالة العائد على أنها القيمة المتوقعة القصوى للحالات اللاحقة، مع الأخذ في الاعتبار الانتقال العشوائي للحالة بشكل صريح.
  3. خوارزمية تقدير قيم NashQ: الجمع بين الانحدار المتوقع (Expectile Regression) وتعلم الفرق الزمني (TD) لحل قيم Q الصغرى القصوى المثلى لجميع المراحل.
  4. التحقق التجريبي: التحقق من تفوق CART في دقة تقدير قيم minimax والعائد في أسوأ الحالات عبر عدة ألعاب عشوائية اصطناعية.

شرح الطريقة

تعريف المهمة

تُعرّف اللعبة العشوائية بـ (S,A,Aˉ,T,R)(S,A,\bar{A},T,R)، حيث:

  • SS: فضاء الحالة
  • A,AˉA,\bar{A}: فضاء الإجراءات للبطل والخصم
  • TT: توزيع احتمالية الانتقال st+1T(st,at,aˉt)s_{t+1} \sim T(\cdot|s_t,a_t,\bar{a}_t)
  • RR: دالة المكافأة

الهدف هو تعلم سياسة البطل التي تتمتع بقوة تجاه الخصم المتكيف: (π,πˉ)=maxπminπˉEτρπ,πˉ[trt](\pi^*,\bar{\pi}^*) = \max_\pi \min_{\bar{\pi}} E_{\tau\sim\rho^{\pi,\bar{\pi}}}[\sum_t r_t]

معمارية النموذج

1. نمذجة اللعبة المرحلية

نمذجة التفاعل في كل خطوة زمنية كلعبة مرحلية، حيث: Qˉ(s,a,aˉ)=EsT(s,a)[r+V(s)]\bar{Q}(s,a,\bar{a}) = E_{s'\sim T(\cdot|s,a)}[r + V(s')]V(s)=maxaQ(s,a)V(s') = \max_{a'} Q(s',a')

حيث تمثل دالة VV القيمة المتوقعة لتنفيذ إجراء البطل الأمثل في حالة المرحلة التالية ss'.

2. حساب قيم NashQ

تُعرّف قيم NashQ للعبة متسلسلة بـ: QCART(s,a)=minaˉQ(s,a,aˉ)Q_{CART}(s,a) = \min_{\bar{a}} Q(s,a,\bar{a})

3. تنفيذ الخوارزمية العملية

نظراً لأن عمليات min/max المباشرة غير فعالة، نستخدم الانحدار المتوقع للتقريب:

الخطوة 1: تعلم عائد اللعبة المرحليةL(Qˉ)=E(s,a,aˉ,r,s)D[Qˉ(s,a,aˉ)V(s)r]L(\bar{Q}) = E_{(s,a,\bar{a},r,s')\sim D}[\bar{Q}(s,a,\bar{a}) - V(s') - r]

الخطوة 2: تقدير قيم NashQL(Q)=E(s,a,aˉ,r,s)D[LERα0(Q(s,a)Qˉ(s,a,aˉ))]L(Q) = E_{(s,a,\bar{a},r,s')\sim D}[L^{\alpha\to0}_{ER}(Q(s,a) - \bar{Q}(s,a,\bar{a}))]

الخطوة 3: تقريب دالة القيمة الحالية المثلىL(V)=E(s,a)D[LERα1(V(s)Q(s,a))]L(V) = E_{(s',a')\sim D}[L^{\alpha\to1}_{ER}(V(s') - Q(s',a'))]

حيث يُعرّف هدف الانحدار المتوقع بـ: LERα(u)=E[uα1(u>0)u2]L^\alpha_{ER}(u) = E[u|\alpha - \mathbf{1}(u>0)| \cdot u^2]

نقاط الابتكار التقني

  1. معالجة صريحة للعشوائية: من خلال إدخال دالة قيمة حالية إضافية VV، نأخذ في الاعتبار بشكل صريح عشوائية نقل الحالة، مما يتجنب مشكلة التفاؤل المفرط في ARDT.
  2. دمج الانحدار المتوقع وتعلم TD: استخدام مبتكر للانحدار المتوقع لتقريب عمليات min/max، مما يجعل التعلم على بيانات المسار أكثر كفاءة.
  3. توازن التحفظ والقوة: من خلال تشريط قيم NashQ، نولد سياسات تتمتع بقوة خصومية وتحفظ تجاه عدم اليقين في الانتقال.

إعداد التجارب

مجموعات البيانات

تُجرى التجارب على ألعاب عشوائية اصطناعية، تشمل:

  1. ألعاب عشوائية ثنائية المراحل: المثال التوضيحي الرئيسي
  2. ألعاب عشوائية ثلاثية المراحل: تفاعلات متسلسلة أكثر تعقيداً
  3. 5 متغيرات لعبة: اختبار القوة في إعدادات عشوائية مختلفة

يستخدم جمع البيانات سياسة سلوك عشوائية موحدة، تحتوي على 10510^5 مسار، تغطي جميع المسارات الممكنة.

مقاييس التقييم

  • العائد في أسوأ الحالات: أداء السياسة ضد الخصم الأمثل
  • دقة تقدير قيم minimax: الانحراف عن القيم النظرية

طرق المقارنة

  • Decision Transformer (DT): محول القرار الأصلي
  • Adversarially Robust Decision Transformer (ARDT): الطريقة الخصومية القوية الموجودة

تفاصيل التنفيذ

  • يُفترض أن يكون الخصم في وقت الاختبار استراتيجية مثلى
  • استخدام هدف عائد عالي للفك
  • تحسين متناوب لثلاث دوال خسارة حتى التقارب

نتائج التجارب

النتائج الرئيسية

نتائج اللعبة العشوائية ثنائية المراحل

في اللعبة العشوائية ثنائية المراحل التوضيحية:

  • CART: 8.0 (العائد في أسوأ الحالات)
  • ARDT: 5.7
  • DT: 6.0

متوسط الأداء عبر 5 ألعاب

الأداء المتوسطة عبر 5 ألعاب خصومية عشوائية اصطناعية:

  • CART: 8.115 ± أقل تباين
  • ARDT: 5.948
  • DT: 6.421

النتائج الرئيسية

  1. حساسية الهدف العائد: يحافظ CART على أعلى عائد في أسوأ الحالات عبر إعدادات هدف عائد مختلفة، بينما يحصل ARDT و DT على عوائد أقل تحت الهجمات الخصومية.
  2. مشكلة التفاؤل المفرط: يميل ARDT إلى أن يضلله المسارات النادرة عالية العائد، مما يؤدي إلى المبالغة في تقدير قيم الإجراءات مع تجاهل احتمالات الانتقال الحقيقية، مما يفقد القوة عند أهداف عائد عالية.
  3. مزايا التحفظ: يتعامل CART مع العشوائية من خلال النظر المشترك في العائد وعشوائية نقل الحالة، مع التركيز على السياسات الممكنة التي تزيد إلى الحد الأقصى من العائد المتوقع في أسوأ الحالات.

تحليل الحالة

في المثال التوضيحي بالشكل 1:

  • يتجاهل ARDT الاحتمالية الصغيرة للوصول إلى الحالة المتوقعة s2s'_2، مما يؤدي إلى تقدير متفائل جداً لقيم الحالة والإجراء
  • يتعامل CART مع العشوائية من خلال تخصيص القيم المتوقعة القصوى، مما يؤدي إلى تقدير قيم أكثر تحفظاً ودقة

الأعمال ذات الصلة

حل الألعاب العشوائية

تم دراسة حل الألعاب ثنائية اللاعبين في التعلم عبر الإنترنت على نطاق واسع، من خلال اللعب الذاتي عبر الإنترنت لتقليل الندم والتقارب إلى توازن ناش. لكن هذا العمل يركز على إعداد التعلم غير المتصل.

التعلم المعزز غير المتصل

  • Conservative Q-Learning (CQL): تخفيف المبالغة في تقدير قيمة Q من خلال أهداف متشائمة
  • Implicit Q-Learning (IQL): تحقيق استقرار القيمة من خلال تعلم دوال القيمة الضمنية عبر الانحدار المتوقع
  • ARDT: تحقيق القوة الخصومية في الألعاب الثابتة ذات المجموع الصفري من خلال انحدار minimax المتوقع

توسيعات Decision Transformer

  • Trajectory Transformer: التقاط عشوائية المسار من خلال متغيرات كامنة
  • Online Decision Transformer: دمج التعلم المعزز الهجين غير المتصل والمتصل
  • Multi-Game Decision Transformer: دعم التعلم الانتقالي والتكيف قليل الأمثلة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينجح CART في حل مشكلة القوة الخصومية لـ DT في الألعاب العشوائية من خلال:

  1. نمذجة التفاعل كلعبة مرحلية، مع الأخذ في الاعتبار الانتقال العشوائي بشكل صريح
  2. استخدام قيم NashQ للتشريط، لتوليد سياسات قوية وتحفظية
  3. تحقيق أداء متفوقة في أسوأ الحالات عبر عدة ألعاب عشوائية

القيود

  1. نطاق التجارب: التحقق الحالي فقط على ألعاب اصطناعية قصيرة المدى
  2. التعقيد الحسابي: قد يؤدي التحسين المتناوب لثلاث دوال هدف إلى زيادة التكلفة الحسابية
  3. التحليل النظري: غياب الضمانات النظرية للتقارب والقوة

الاتجاهات المستقبلية

  1. التوسع إلى بيئات معقدة: مثل متغيرات البوكر (بوكر Kuhn و Leduc) وبيئات المنافسة بين الوكلاء المتعددة الأخرى الأكثر تعقيداً
  2. التخطيط طويل الأجل: استكشاف ألعاب أكبر حجماً وآفاق تخطيط أطول
  3. تحسين نظري: توفير تحليل نظري للتقارب والقوة

التقييم العميق

المزايا

  1. ابتكار قوي: أول دمج للقوة الخصومية في نمذجة التسلسل للألعاب العشوائية، ملء فجوة بحثية مهمة
  2. طريقة معقولة: من خلال الجمع بين نمذجة اللعبة المرحلية والانحدار المتوقع، معالجة أنيقة للتحديات المزدوجة للعشوائية والخصومية
  3. تجارب شاملة: على الرغم من أنها في بيئات اصطناعية، تم تصميم متغيرات متعددة للتحقق من فعالية الطريقة
  4. أهمية المشكلة: تحل المشكلة ذات قيمة عملية وأهمية نظرية مهمة

أوجه القصور

  1. قيود التجارب: التحقق فقط في بيئات اصطناعية بسيطة، غياب التحقق من التطبيقات في العالم الحقيقي
  2. غياب النظرية: غياب التحليل النظري للتقارب والتعقيد والقوة
  3. تعقيد الطريقة: الحاجة إلى تحسين متناوب لدوال أهداف متعددة، قد يؤثر على الجدوى العملية
  4. مقارنة محدودة: المقارنة فقط مع ARDT و DT، غياب المقارنة مع طرق التعلم المعزز القوية الأخرى

التأثير

  1. المساهمة الأكاديمية: فتح اتجاه جديد لتطبيق نمذجة التسلسل في البيئات الخصومية
  2. القيمة العملية: توفير أفكار جديدة لتطوير أنظمة متعددة الوكلاء أكثر قوة
  3. قابلية الاستنساخ: وصف الطريقة واضح، إعداد التجارب بسيط، سهل الاستنساخ

السيناريوهات المعمول بها

  1. أنظمة الوكلاء المتعددة: بيئات تتسم بالخصومية وعدم اليقين
  2. التطبيقات الحساسة للأمان: سيناريوهات تتطلب ضمان أداء أسوأ الحالات
  3. التعلم غير المتصل: بيئات لا يمكن فيها إجراء تفاعل عبر الإنترنت

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم المعزز ونظرية الألعاب ونمذجة التسلسل، بما في ذلك:

  • Chen et al. (2021) - العمل الأصلي لـ Decision Transformer
  • Tang et al. (2024a) - طريقة ARDT
  • Hu and Wellman (2003) - Nash Q-Learning
  • Vaswani et al. (2017) - معمارية Transformer

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحل مشكلة مهمة وتحديثية. على الرغم من وجود مجال للتحسن في التحقق التجريبي والتحليل النظري، فإن ابتكاريتها ومعقولية الطريقة تجعلها مساهمة قيمة في هذا المجال.