2025-11-20T05:04:14.304346

Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach

Lu, Lai, Xu

Reinforcement learning (RL) for the Markov Decision Process (MDP) has emerged in many security-related applications, such as autonomous driving, financial decisions, and drone/robot algorithms. In order to improve the robustness/defense of RL systems against adversaries, studying various adversarial attacks on RL systems is very important. Most previous work considered deterministic adversarial attack strategies in MDP, which the recipient (victim) agent can defeat by reversing the deterministic attacks. In this paper, we propose a provably ``invincible'' or ``uncounterable'' type of adversarial attack on RL. The attackers apply a rate-distortion information-theoretic approach to randomly change agents' observations of the transition kernel (or other properties) so that the agent gains zero or very limited information about the ground-truth kernel (or other properties) during the training. We derive an information-theoretic lower bound on the recipient agent's reward regret and show the impact of rate-distortion attacks on state-of-the-art model-based and model-free algorithms. We also extend this notion of an information-theoretic approach to other types of adversarial attack, such as state observation attacks.

academic

सुदृढ़ता से अपराजेय प्रतिकूल आक्रमण सुदृढीकरण शिक्षा प्रणालियों पर: दर-विकृति सूचना-सैद्धांतिक दृष्टिकोण

मूल जानकारी

पेपर ID: 2510.13792
शीर्षक: Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach
लेखक: Ziqing Lu (University of Iowa), Lifeng Lai (University of California, Davis), Weiyu Xu (University of Iowa)
वर्गीकरण: cs.LG cs.AI
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13792

सारांश

सुदृढीकरण शिक्षा (RL) का सुरक्षा-संबंधित अनुप्रयोगों में व्यापक तैनाती प्रतिकूल आक्रमणों के अनुसंधान को महत्वपूर्ण बनाती है। पूर्ववर्ती कार्य मुख्य रूप से नियतात्मक प्रतिकूल आक्रमण रणनीतियों पर विचार करते हैं, जिससे पीड़ित एजेंट नियतात्मक आक्रमणों को उलट कर बचाव कर सकते हैं। यह पेपर एक सिद्ध रूप से "अपराजेय" प्रतिकूल आक्रमण विधि प्रस्तावित करता है, जहां आक्रमणकारी दर-विकृति सूचना सिद्धांत विधि लागू करते हुए एजेंट के संक्रमण कर्नेल के अवलोकनों को यादृच्छिक रूप से परिवर्तित करता है, जिससे एजेंट प्रशिक्षण के दौरान वास्तविक कर्नेल के बारे में शून्य या न्यूनतम सूचना प्राप्त करता है। पेपर पीड़ित एजेंट के पुरस्कार खेद के लिए सूचना-सैद्धांतिक निचली सीमा प्राप्त करता है और अत्याधुनिक मॉडल-आधारित और मॉडल-मुक्त एल्गोरिदम पर दर-विकृति आक्रमण के प्रभाव को प्रदर्शित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: मौजूदा सुदृढीकरण शिक्षा प्रतिकूल आक्रमण मुख्य रूप से नियतात्मक रणनीतियों को अपनाते हैं, यह आक्रमण पीड़ित एजेंट द्वारा आक्रमण पैटर्न सीखकर और उलट कर बचाव किया जा सकता है, सैद्धांतिक गारंटी वाली "अपरिवर्तनीयता" की कमी है।
महत्व: सुदृढीकरण शिक्षा को स्वायत्त वाहन, वित्तीय निर्णय, ड्रोन/रोबोट एल्गोरिदम जैसे सुरक्षा-महत्वपूर्ण क्षेत्रों में व्यापक रूप से लागू किया जाता है, सबसे खराब स्थिति में प्रतिकूल आक्रमणों का अनुसंधान RL प्रणालियों की मजबूती का आकलन और सुधार के लिए महत्वपूर्ण है।
मौजूदा विधियों की सीमाएं:
- नियतात्मक आक्रमण मानते हैं कि पीड़ित को आक्रमण के बारे में पता नहीं है
- यदि पीड़ित को आक्रमण का पता चल जाए, तो वह नकली संक्रमण कर्नेल और वास्तविक कर्नेल के बीच मानचित्रण संबंध खोज सकता है
- आक्रमण की प्रभावशीलता की गारंटी नहीं दे सकते, सैद्धांतिक "अपराजेयता" प्रमाण की कमी है
अनुसंधान प्रेरणा: एक ऐसी प्रतिकूल आक्रमण विधि डिजाइन करना जो तब भी प्रभावी हो जब पीड़ित को आक्रमण रणनीति का पता हो, और सूचना-सैद्धांतिक दृष्टिकोण से सैद्धांतिक गारंटी प्रदान करना।

मूल योगदान

दर-विकृति सूचना-सैद्धांतिक प्रतिकूल आक्रमण प्रस्तावित करना: पहली बार दर-विकृति सिद्धांत को सुदृढीकरण शिक्षा प्रतिकूल आक्रमण में लागू करना, संक्रमण कर्नेल अवलोकनों को यादृच्छिक करके पारस्परिक सूचना को न्यूनतम करना।
सैद्धांतिक निचली सीमा प्रमाण: पीड़ित एजेंट के पुरस्कार खेद के लिए सूचना-सैद्धांतिक निचली सीमा प्राप्त करना, आक्रमण की "अपराजेयता" को सिद्ध करना।
यादृच्छिक कर्नेल MDP सैद्धांतिक विश्लेषण: अनिश्चित संक्रमण कर्नेल वाले MDP में इष्टतम नीति के अस्तित्व का विश्लेषण, पाते हैं कि पारंपरिक अर्थ में इष्टतम नीति मौजूद नहीं हो सकती।
नई नीति पुनरावृत्ति एल्गोरिदम: यादृच्छिक कर्नेल MDP के लिए नई नीति पुनरावृत्ति एल्गोरिदम प्रस्तावित करना, और सिद्ध करना कि यह हमेशा इष्टतम समाधान में परिवर्तित नहीं होता।
व्यापक प्रायोगिक सत्यापन: योजना, सारणीबद्ध Q-शिक्षा और गहन Q-शिक्षा जैसी कई सेटिंग्स में आक्रमण की प्रभावशीलता को सत्यापित करना।

विधि विवरण

कार्य परिभाषा

एक पाँच-टुपल MDP पर विचार करें: (S, A, X, r, γ), जहां:

S: स्थिति स्पेस, |S| = S
A: कार्य स्पेस, |A| = A
X: यादृच्छिक संक्रमण कर्नेल, पूर्व वितरण p से नमूना लिया गया
r: पुरस्कार फ़ंक्शन r: S × A × S → 0,1
γ ∈ 0,1: छूट कारक

आक्रमण सेटिंग: आक्रमणकारी संभावना फ़ंक्शन P(Y|X) डिजाइन करके वास्तविक संक्रमण कर्नेल X को यादृच्छिक रूप से नकली अवलोकन कर्नेल Y में मैप करता है।

मॉडल आर्किटेक्चर

1. दर-विकृति आक्रमण ढांचा

आक्रमणकारी का अनुकूलन उद्देश्य:

min_{p(X,Y)} I(X;Y)                    (1)
s.t. E_{p(X,Y)}C(X → Y) ≤ B          (2)

जहां I(X;Y) पारस्परिक सूचना है, B आक्रमण बजट है।

2. पीड़ित नीति अनुकूलन

नकली अवलोकन Y_i दिया गया, पीड़ित की इष्टतम नीति:

π*(·|Y_i) = argmin_π E_{P(X|Y_i)}||V_X^π - V_X^{π*(X)}||_∞

3. खेद परिभाषा

कुल खेद को इस प्रकार परिभाषित किया गया है:

R = E_{p(X,Y)}||V^{π*(X)} - V^{π*(·|Y)}||_∞

तकनीकी नवाचार बिंदु

1. यादृच्छिकीकरण रणनीति

नियतात्मक आक्रमण के विपरीत, संभावना वितरण P(Y|X) का उपयोग करके यादृच्छिक मानचित्रण अपनाना
भले ही पीड़ित को आक्रमण रणनीति का पता हो, फिर भी वास्तविक संक्रमण कर्नेल निर्धारित नहीं कर सकता

2. सूचना-सैद्धांतिक गारंटी

पारस्परिक सूचना I(X;Y) को न्यूनतम करके पीड़ित को न्यूनतम सूचना प्राप्त करना सुनिश्चित करना
Fano असमानता का उपयोग करके खेद निचली सीमा को डिकोडिंग त्रुटि संभावना से जोड़ना

3. कार्यान्वयन विधि

हाइपरपैरामीटर संशोधन: प्रशिक्षण पर्यावरण गतिशीलता के हाइपरपैरामीटर को बदलना
प्रत्यक्ष प्रतिस्थापन: नकली कर्नेल का निर्माण करके वास्तविक कर्नेल को सीधे प्रतिस्थापित करना
स्थिति अवलोकन आक्रमण: यादृच्छिक स्थिति क्रमपरिवर्तन के माध्यम से कार्यान्वयन, सबसे कमजोर आवश्यकता

प्रायोगिक सेटअप

डेटासेट और पर्यावरण

Block World: 12-स्थिति ग्रिड दुनिया, 4 कार्य (पूर्व पश्चिम उत्तर दक्षिण)
CartPole: निरंतर स्थिति स्पेस, 2 कार्य (बाएं दाएं आंदोलन)
3-स्थिति MDP: सैद्धांतिक विश्लेषण के लिए सरल पर्यावरण

मूल्यांकन मेट्रिक्स

खेद (Regret): R = E_{p(X,Y)}||V^{π*(X)} - V^{π*(·|Y)}||_∞
पारस्परिक सूचना: I(X;Y)
सापेक्ष प्रदर्शन हानि: इष्टतम V मान का प्रतिशत खेद

तुलना विधियां

नियतात्मक आक्रमण
आक्रमण रहित आधारभूत
बजट बाधा के तहत इष्टतम आक्रमण

कार्यान्वयन विवरण

Block World में "स्लिपेज संभावना" α के माध्यम से आक्रमण (α=0.8 या 0.2)
CartPole में स्थिति अवलोकन शोर δ के माध्यम से आक्रमण
समान पूर्व वितरण p(X_i) = 1/2 का उपयोग

प्रायोगिक परिणाम

मुख्य परिणाम

1. सैद्धांतिक निचली सीमा सत्यापन

प्रमेय 3.1: शर्तों को संतुष्ट करने वाले MDP में, खेद संतुष्ट करता है:

R ≥ εP_e
H(P_e) + P_e log|Ω(X)| ≥ H(X|Y) = H(X) - I(X;Y)

जहां P_e इष्टतम डिकोडर की त्रुटि संभावना है, ε > 0 नीति अंतर की निचली सीमा है।

2. योजना आक्रमण प्रभाव

3-स्थिति MDP में, I(X;Y) = 0 आक्रमण 44.3% प्रदर्शन हानि का कारण बनता है
खेद मान R = 3.84, इष्टतम V मान का 44.3%

3. मॉडल-मुक्त शिक्षा आक्रमण

Block World: यादृच्छिक आक्रमण नियतात्मक आक्रमण की तुलना में अधिक हानि का कारण बनता है
CartPole: DQN प्रशिक्षण में खेद प्रशिक्षण दौर के साथ बढ़ता है
स्थिति क्रमपरिवर्तन आक्रमण: सरल स्थिति यादृच्छिक क्रमपरिवर्तन के माध्यम से प्रभावी आक्रमण

विलोपन प्रयोग

1. बजट बाधा विश्लेषण

आक्रमण बजट B 0 से 0.711 तक बढ़ने पर, खेद एकरस रूप से बढ़ता है
जब B 0.711 तक पहुंचता है, तो खेद अधिकतम मान 44.3% तक पहुंचता है

2. न्यूनतम पारस्परिक सूचना आक्रमण

पारस्परिक सूचना को सीधे न्यूनतम करना: min I(X;Y)
बजट B=0.7285 पर अधिकतम खेद 44.3% तक पहुंचता है

महत्वपूर्ण निष्कर्ष

1. इष्टतम नीति अस्तित्व की अनुपस्थिति

प्रमेय 4.1: यादृच्छिक कर्नेल MDP के लिए, हमेशा इष्टतम नीति π* मौजूद नहीं होती जो संतुष्ट करे:

π* = argmax_π E_X V_X^π(s), ∀s ∈ S

2. नीति पुनरावृत्ति अभिसरण की अनुपस्थिति

प्रमेय 5.1: भले ही इष्टतम नीति मौजूद हो, विस्तारित नीति पुनरावृत्ति एल्गोरिदम हमेशा इष्टतम समाधान में परिवर्तित नहीं होता।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक गारंटी: प्रस्तावित दर-विकृति आक्रमण में सिद्ध रूप से "अपराजेय" गुण हैं, भले ही पीड़ित को आक्रमण रणनीति का पता हो, वह प्रभावी बचाव नहीं कर सकता।
व्यापक प्रयोज्यता: आक्रमण विधि मॉडल-आधारित और मॉडल-मुक्त सुदृढीकरण शिक्षा एल्गोरिदम पर लागू की जा सकती है।
कार्यान्वयन सरलता: यादृच्छिक स्थिति अवलोकन आक्रमण के माध्यम से सरल कार्यान्वयन, आक्रमणकारी के लिए कम आवश्यकताएं।

सीमाएं

इष्टतम नीति की कमी: यादृच्छिक कर्नेल MDP में पारंपरिक इष्टतम नीति मौजूद नहीं हो सकती, नई नीति परिभाषा की आवश्यकता है।
एल्गोरिदम अभिसरण: प्रस्तावित नीति पुनरावृत्ति एल्गोरिदम इष्टतम समाधान में अभिसरण की गारंटी नहीं देता।
व्यावहारिक तैनाती: वास्तविक पर्यावरण में आक्रमण को लागू करने की व्यवहार्यता और पहचान योग्यता को आगे के अनुसंधान की आवश्यकता है।

नैतिक विचार

आक्रमण विधि के रूप में, संभावित दुरुपयोग की चर्चा और निवारक उपाय की कमी है।

गहन मूल्यांकन

शक्तियां

सैद्धांतिक नवाचार: पहली बार दर-विकृति सिद्धांत को सुदृढीकरण शिक्षा प्रतिकूल आक्रमण में पेश करना, कठोर सैद्धांतिक विश्लेषण ढांचा प्रदान करना।
समस्या महत्व: मौजूदा नियतात्मक आक्रमणों को उलट दिए जाने की मूल समस्या को हल करना, महत्वपूर्ण सुरक्षा महत्व है।
सैद्धांतिक कठोरता: सूचना-सैद्धांतिक उपकरणों के माध्यम से आक्रमण प्रभावशीलता के गणितीय प्रमाण प्रदान करना, खेद निचली सीमा और Fano असमानता के अनुप्रयोग सहित।
प्रायोगिक पूर्णता: योजना, सारणीबद्ध शिक्षा, गहन शिक्षा जैसी कई सेटिंग्स को कवर करना, विधि की व्यापक प्रयोज्यता को सत्यापित करना।

कमियां

व्यावहारिक व्यवहार्यता: पेपर में आक्रमण मानता है कि आक्रमणकारी पीड़ित के पर्यावरण अवलोकन को पूरी तरह नियंत्रित कर सकता है, जो व्यावहारिक तैनाती में कार्यान्वयन करना मुश्किल हो सकता है।
रक्षा अनुसंधान अपर्याप्त: हालांकि "अपराजेय" होने का दावा किया जाता है, संभावित रक्षा रणनीतियों पर चर्चा सीमित है, जैसे विसंगति पहचान, बहु-स्रोत सत्यापन आदि।
कम्प्यूटेशनल जटिलता: बड़े पैमाने पर स्थिति स्पेस के लिए, इष्टतम आक्रमण पैरामीटर खोजने की कम्प्यूटेशनल जटिलता विश्लेषण अपर्याप्त है।
नैतिक विचार: आक्रमण विधि के रूप में, संभावित दुरुपयोग पर चर्चा और निवारक उपाय की कमी है।

प्रभाव

शैक्षणिक योगदान: सुदृढीकरण शिक्षा सुरक्षा अनुसंधान के लिए नया सैद्धांतिक ढांचा और विश्लेषण उपकरण प्रदान करना।
व्यावहारिक मूल्य: RL प्रणालियों के सबसे खराब स्थिति प्रदर्शन का मूल्यांकन करने में सहायता, मजबूती डिजाइन को निर्देशित करना।
पुनरुत्पादनीयता: विस्तृत एल्गोरिदम विवरण और प्रायोगिक सेटअप प्रदान करना, पुनरुत्पादन और विस्तार को सुविधाजनक बनाना।

प्रयोज्य परिदृश्य

सुरक्षा मूल्यांकन: महत्वपूर्ण अनुप्रयोगों में RL प्रणालियों की मजबूती का मूल्यांकन
एल्गोरिदम डिजाइन: आक्रमण-प्रतिरोधी RL एल्गोरिदम के विकास को निर्देशित करना
सैद्धांतिक अनुसंधान: अनिश्चित पर्यावरण में RL सिद्धांत के लिए नया दृष्टिकोण प्रदान करना
रक्षा तंत्र: लाल दल परीक्षण उपकरण के रूप में रक्षा प्रभावशीलता का मूल्यांकन करना

संदर्भ

पेपर सुदृढीकरण शिक्षा, सूचना सिद्धांत, प्रतिकूल आक्रमण और अन्य क्षेत्रों के महत्वपूर्ण कार्यों का उद्धरण करता है, जिसमें शामिल हैं:

शास्त्रीय RL पाठ्यपुस्तकें (Sutton & Barto, 2018)
सूचना सिद्धांत मूलभूत (Cover & Thomas, 2006)
वितरण-मजबूत MDP संबंधित कार्य (Iyengar, 2005; Nilim & El Ghaoui, 2003)
हाल के RL प्रतिकूल आक्रमण अनुसंधान (Zhang et al., 2020; Liu & Lai, 2021)

समग्र मूल्यांकन: यह सुदृढीकरण शिक्षा सुरक्षा क्षेत्र में महत्वपूर्ण सैद्धांतिक योगदान वाला एक पेपर है, जो दर-विकृति सिद्धांत को पेश करके प्रतिकूल आक्रमणों के लिए नया दृष्टिकोण और कठोर सैद्धांतिक गारंटी प्रदान करता है। हालांकि व्यावहारिक तैनाती व्यवहार्यता और रक्षा तंत्र के पहलुओं में अभी भी सुधार की गुंजाइश है, लेकिन इसका सैद्धांतिक ढांचा और विश्लेषण विधि इस क्षेत्र के आगे के अनुसंधान के लिए एक ठोस आधार प्रदान करती है।