Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach
Lu, Lai, Xu
Reinforcement learning (RL) for the Markov Decision Process (MDP) has emerged in many security-related applications, such as autonomous driving, financial decisions, and drone/robot algorithms. In order to improve the robustness/defense of RL systems against adversaries, studying various adversarial attacks on RL systems is very important. Most previous work considered deterministic adversarial attack strategies in MDP, which the recipient (victim) agent can defeat by reversing the deterministic attacks. In this paper, we propose a provably ``invincible'' or ``uncounterable'' type of adversarial attack on RL. The attackers apply a rate-distortion information-theoretic approach to randomly change agents' observations of the transition kernel (or other properties) so that the agent gains zero or very limited information about the ground-truth kernel (or other properties) during the training. We derive an information-theoretic lower bound on the recipient agent's reward regret and show the impact of rate-distortion attacks on state-of-the-art model-based and model-free algorithms. We also extend this notion of an information-theoretic approach to other types of adversarial attack, such as state observation attacks.
academic
الهجمات الخصومة التي لا تُقهر بشكل قابل للإثبات على أنظمة التعلم المعزز: نهج نظري المعلومات معدل التشويه
يجعل الانتشار الواسع للتعلم المعزز في التطبيقات الحساسة أمنياً من الضروري دراسة الهجمات الخصومة. ركزت الأعمال السابقة على استراتيجيات الهجوم الحتمية، والتي يمكن للوكيل الضحية الدفاع عنها من خلال عكس الهجوم الحتمي. تقترح هذه الورقة طريقة هجوم خصومة قابلة للإثبات "لا تُقهر"، حيث يطبق المهاجم طريقة نظرية المعلومات معدل التشويه لتعديل عشوائي ملاحظات الوكيل للنواة الانتقالية، مما يضمن أن الوكيل يحصل على معلومات صفرية أو قليلة جداً عن النواة الحقيقية أثناء التدريب. تشتق الورقة حداً أدنى نظري المعلومات لندم المكافأة للوكيل الضحية، وتوضح تأثير هجمات معدل التشويه على الخوارزميات الحديثة القائمة على النموذج والخالية من النموذج.
المشكلة الأساسية: تعتمد هجمات التعلم المعزز الخصومة الحالية بشكل أساسي على استراتيجيات حتمية، والتي يمكن للوكيل الضحية الدفاع عنها من خلال تعلم نمط الهجوم وعكسه، مما يفتقر إلى ضمانات نظرية لـ "عدم القابلية للهزيمة".
الأهمية: يُطبق التعلم المعزز على نطاق واسع في المجالات الحساسة أمنياً مثل القيادة الذاتية والقرارات المالية وخوارزميات الطائرات بدون طيار والروبوتات. يعتبر دراسة الهجمات الخصومة في أسوأ الحالات أمراً حاسماً لتقييم وتحسين قوة أنظمة التعلم المعزز.
قيود الطرق الموجودة:
تفترض الهجمات الحتمية أن الضحية لا تعرف عن وجود الهجوم
إذا أدركت الضحية الهجوم، قد تجد العلاقة بين النواة الانتقالية المزيفة والحقيقية
لا يمكن ضمان فعالية الهجوم، ويفتقر إلى إثبات نظري لـ "عدم القابلية للهزيمة"
الدافع البحثي: تصميم طريقة هجوم خصومة لا يمكن للضحية الدفاع عنها بفعالية حتى لو عرفت استراتيجية الهجوم، مع توفير ضمانات نظرية من منظور نظري المعلومات.
اقتراح هجوم نظري المعلومات معدل التشويه: تطبيق نظرية معدل التشويه لأول مرة على الهجمات الخصومة في التعلم المعزز، من خلال عشوائية ملاحظات النواة الانتقالية لتقليل المعلومات المتبادلة.
إثبات الحد الأدنى النظري: اشتقاق حد أدنى نظري المعلومات لندم المكافأة للوكيل الضحية، مما يثبت "عدم القابلية للهزيمة" للهجوم.
تحليل نظري لـ MDP النواة العشوائية: تحليل وجود السياسات المثلى في MDP مع نوى انتقالية غير مؤكدة، مع اكتشاف أن السياسات المثلى بالمعنى التقليدي قد لا توجد.
خوارزمية تكرار السياسة الجديدة: اقتراح خوارزمية تكرار سياسة جديدة لـ MDP النواة العشوائية، مع إثبات أنها لا تتقارب دائماً إلى الحل الأمثل.
التحقق التجريبي الواسع: التحقق من فعالية الهجوم في إعدادات متعددة تشمل التخطيط وتعلم Q الجدولي وتعلم Q العميق.
الضمانات النظرية: يتمتع هجوم معدل التشويه المقترح بـ "عدم قابلية للهزيمة" قابلة للإثبات، حيث لا يمكن للضحية الدفاع بفعالية حتى لو عرفت استراتيجية الهجوم.
التطبيق الواسع: يمكن تطبيق طريقة الهجوم على خوارزميات التعلم المعزز القائمة على النموذج والخالية من النموذج.
سهولة التنفيذ: يمكن تنفيذ الهجوم من خلال ملاحظات الحالة العشوائية بشكل بسيط، مع متطلبات منخفضة للمهاجم.
الجدوى العملية: تفترض الهجمات في الورقة أن المهاجم يمكنه التحكم بالكامل في ملاحظات البيئة للضحية، وهذا قد يكون صعب التحقيق في النشر الفعلي.
نقص البحث عن الدفاع: على الرغم من ادعاء "عدم القابلية للهزيمة"، فإن النقاش حول استراتيجيات الدفاع المحتملة محدود، مثل الكشف عن الشذوذ والتحقق من مصادر متعددة.
تحليل التعقيد الحسابي: تحليل غير كافٍ للتعقيد الحسابي لإيجاد معاملات الهجوم المثلى لفضاءات الحالة الكبيرة.
الاعتبارات الأخلاقية: كطريقة هجوم، يفتقر إلى مناقشة الاستخدام المحتمل الخاطئ وتدابير الوقاية.
تستشهد الورقة بأعمال مهمة من مجالات متعددة تشمل التعلم المعزز ونظرية المعلومات والهجمات الخصومة، بما في ذلك:
كتب التعلم المعزز الكلاسيكية (Sutton & Barto, 2018)
أساسيات نظرية المعلومات (Cover & Thomas, 2006)
الأعمال ذات الصلة بـ MDP قوية التوزيع (Iyengar, 2005; Nilim & El Ghaoui, 2003)
الأبحاث الحديثة عن الهجمات الخصومة في التعلم المعزز (Zhang et al., 2020; Liu & Lai, 2021)
التقييم الشامل: هذه ورقة بحثية ذات مساهمة نظرية مهمة في مجال أمان التعلم المعزز، حيث توفر منظوراً جديداً وضمانات نظرية صارمة للهجمات الخصومة من خلال إدخال نظرية معدل التشويه. على الرغم من أن هناك حاجة إلى مزيد من العمل في جدوى النشر العملي وآليات الدفاع، فإن إطارها النظري وطرق التحليل توفر أساساً متيناً لمزيد من البحث في هذا المجال.