The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to enhance the robustness of DT in adversarial stochastic games. We formulate the interaction between the protagonist and the adversary at each stage as a stage game, where the payoff is defined as the expected maximum value over subsequent states, thereby explicitly incorporating stochastic state transitions. By conditioning Transformer policies on the NashQ value derived from these stage games, CART generates policy that are simultaneously less exploitable (adversarially robust) and conservative to transition uncertainty. Empirically, CART achieves more accurate minimax value estimation and consistently attains superior worst-case returns across a range of adversarial stochastic games.
- पेपर ID: 2510.11877
- शीर्षक: स्टोकेस्टिक गेम्स में अनुक्रम मॉडलिंग के माध्यम से मजबूत प्रतिकूल सुदृढ़ीकरण शिक्षण
- लेखक: Xiaohang Tang (यूनिवर्सिटी कॉलेज लंदन), Zhuowen Cheng (स्वतंत्र शोधकर्ता), Satyabrat Kumar (यूनिवर्सिटी कॉलेज लंदन)
- वर्गीकरण: cs.LG cs.GT
- प्रकाशन समय/सम्मेलन: 39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन (NeurIPS 2025) कार्यशाला: विश्वसनीय ML
- पेपर लिंक: https://arxiv.org/abs/2510.11877
ट्रांसफॉर्मर अनुक्रम मॉडलिंग के लिए एक उच्च अभिव्यक्तिशील आर्किटेक्चर है, जिसे हाल ही में अनुक्रमिक निर्णय समस्याओं को हल करने के लिए अनुकूलित किया गया है, जिसमें सबसे प्रसिद्ध Decision Transformer (DT) है, जो अपेक्षित रिटर्न को शर्तबद्ध करके नीति सीखता है। हालांकि, अनुक्रम मॉडलिंग-आधारित सुदृढ़ीकरण शिक्षण विधियों की प्रतिकूल मजबूती बहुत हद तक अन्वेषित नहीं रही है। यह पेपर Conservative Adversarially Robust Decision Transformer (CART) प्रस्तुत करता है, जो हमारे ज्ञान के अनुसार, प्रतिकूल स्टोकेस्टिक गेम्स में DT की मजबूती को बढ़ाने के लिए डिज़ाइन किया गया पहला ढांचा है। हम प्रत्येक चरण में नायक और प्रतिद्वंद्वी के बीच की बातचीत को चरण गेम के रूप में मॉडल करते हैं, जहां पेआउट को बाद की स्थिति के अपेक्षित अधिकतम के रूप में परिभाषित किया जाता है, जिससे स्टोकेस्टिक स्थिति संक्रमण को स्पष्ट रूप से शामिल किया जाता है। इन चरण गेम्स से प्राप्त NashQ मानों पर ट्रांसफॉर्मर नीति को शर्तबद्ध करके, CART द्वारा उत्पन्न नीति में कम शोषणीयता (प्रतिकूल मजबूत) और संक्रमण अनिश्चितता के प्रति रूढ़िवादिता दोनों होती है।
यह अनुसंधान स्टोकेस्टिक गेम वातावरण में Decision Transformer की प्रतिकूल मजबूती में सुधार करने के लिए मूल समस्या को संबोधित करता है। विशेष रूप से:
- Decision Transformer की कमजोरी: हालांकि DT अनुक्रमिक निर्णय कार्यों में उत्कृष्ट प्रदर्शन करता है, लेकिन प्रतिकूल वातावरण में इसका शोषण किया जा सकता है, क्योंकि यह नकल शिक्षा के माध्यम से नीति सीखता है, उच्च रिटर्न केवल प्रतिद्वंद्वी की कमजोरी के कारण हो सकता है न कि वास्तविक मजबूती के कारण।
- मौजूदा विधियों की सीमाएं: Adversarially Robust Decision Transformer (ARDT) हालांकि मिनिमैक्स रिटर्न को शर्तबद्ध करके इस समस्या को कम करता है, लेकिन इसकी प्रयोज्यता केवल निर्धारक स्थिति संक्रमण के साथ प्रतिकूल सुदृढ़ीकरण शिक्षण तक सीमित है, स्टोकेस्टिक स्थिति संक्रमण के साथ गेम्स में अत्यधिक आशावादी हो सकता है।
- स्टोकेस्टिकता प्रबंधन की चुनौती: स्टोकेस्टिक गेम्स में, स्थिति संक्रमण स्वाभाविक रूप से संभाव्य है, ARDT केवल मिनिमैक्स रिटर्न को शर्तबद्ध करके संक्रमण संभावनाओं को अनदेखा कर सकता है, जिससे उच्च रिटर्न उप-गेम्स तक पहुंचने की संभावना का गलत अनुमान हो सकता है।
इस समस्या का महत्व निम्नलिखित में प्रतिबिंबित होता है:
- व्यावहारिकता: वास्तविक दुनिया की बहु-एजेंट प्रणालियों में अक्सर अनिश्चितता और प्रतिकूलता शामिल होती है
- सैद्धांतिक महत्व: अनुक्रम मॉडलिंग में प्रतिकूल मजबूती के अनुसंधान में अंतराल को भरना
- सुरक्षा: प्रतिकूल वातावरण में AI प्रणालियों की विश्वसनीयता में सुधार
- स्टोकेस्टिक गेम्स के लिए पहला मजबूत Decision Transformer ढांचा: CART प्रस्तावित किया गया है, जो प्रतिकूल स्टोकेस्टिक गेम्स में DT की मजबूती को बढ़ाने के लिए विशेष रूप से डिज़ाइन किया गया पहला तरीका है।
- चरण गेम मॉडलिंग: प्रत्येक समय चरण पर नायक-प्रतिद्वंद्वी बातचीत को चरण गेम के रूप में मॉडल किया जाता है, पेआउट फ़ंक्शन को बाद की स्थिति के अपेक्षित अधिकतम के रूप में परिभाषित किया जाता है, स्पष्ट रूप से स्टोकेस्टिक स्थिति संक्रमण पर विचार करते हुए।
- NashQ मान अनुमान एल्गोरिदम: सभी चरणों के लिए इष्टतम मिनिमैक्स Q मानों को हल करने के लिए अपेक्षित प्रतिगमन (Expectile Regression) और अस्थायी अंतर (TD) शिक्षण को जोड़ता है।
- अनुभवजन्य सत्यापन: कई सिंथेटिक स्टोकेस्टिक गेम्स में CART की मिनिमैक्स मान अनुमान सटीकता और सबसे खराब स्थिति रिटर्न में श्रेष्ठता को सत्यापित किया गया है।
स्टोकेस्टिक गेम को (S,A,Aˉ,T,R) के रूप में परिभाषित किया जाता है, जहां:
- S: स्थिति स्पेस
- A,Aˉ: नायक और प्रतिद्वंद्वी कार्य स्पेस
- T: संक्रमण संभावना वितरण st+1∼T(⋅∣st,at,aˉt)
- R: पुरस्कार फ़ंक्शन
लक्ष्य आत्मनिर्भर प्रतिद्वंद्वी के लिए मजबूत नायक नीति सीखना है:
(π∗,πˉ∗)=maxπminπˉEτ∼ρπ,πˉ[∑trt]
प्रत्येक समय चरण पर बातचीत को चरण गेम के रूप में मॉडल किया जाता है, जहां:
Qˉ(s,a,aˉ)=Es′∼T(⋅∣s,a)[r+V(s′)]V(s′)=maxa′Q(s′,a′)
यहां V फ़ंक्शन अगले चरण की स्थिति s′ में इष्टतम नायक कार्य को निष्पादित करने के अपेक्षित मान को दर्शाता है।
अनुक्रमिक गेम का NashQ मान इस प्रकार परिभाषित किया जाता है:
QCART(s,a)=minaˉQ(s,a,aˉ)
सीधे min/max संचालन की अक्षमता के कारण, अपेक्षित प्रतिगमन का उपयोग करके अनुमान लगाया जाता है:
चरण 1: चरण गेम पेआउट सीखनाL(Qˉ)=E(s,a,aˉ,r,s′)∼D[Qˉ(s,a,aˉ)−V(s′)−r]
चरण 2: NashQ मानों का अनुमानL(Q)=E(s,a,aˉ,r,s′)∼D[LERα→0(Q(s,a)−Qˉ(s,a,aˉ))]
चरण 3: इष्टतम स्थिति मान फ़ंक्शन का अनुमानL(V)=E(s′,a′)∼D[LERα→1(V(s′)−Q(s′,a′))]
जहां अपेक्षित प्रतिगमन लक्ष्य को इस प्रकार परिभाषित किया जाता है: LERα(u)=E[u∣α−1(u>0)∣⋅u2]
- स्पष्ट स्टोकेस्टिकता प्रबंधन: अतिरिक्त स्थिति मान फ़ंक्शन V को शामिल करके, स्थिति संक्रमण की स्टोकेस्टिकता को स्पष्ट रूप से विचार किया जाता है, ARDT की अत्यधिक आशावादिता समस्या से बचा जाता है।
- अपेक्षित प्रतिगमन और TD शिक्षण का संयोजन: min/max संचालन को अनुमानित करने के लिए अपेक्षित प्रतिगमन का नवीन उपयोग, ट्रैजेक्टरी डेटा पर शिक्षण को अधिक कुशल बनाता है।
- रूढ़िवादिता और मजबूती संतुलन: NashQ मानों को शर्तबद्ध करके, ऐसी नीति उत्पन्न की जाती है जो प्रतिकूल मजबूती और संक्रमण अनिश्चितता के प्रति रूढ़िवादिता दोनों को प्रदर्शित करती है।
प्रयोग सिंथेटिक स्टोकेस्टिक गेम्स पर किए गए हैं, जिनमें शामिल हैं:
- द्वि-चरण स्टोकेस्टिक गेम: मुख्य उदाहरण
- त्रि-चरण स्टोकेस्टिक गेम: अधिक जटिल अनुक्रमिक बातचीत
- 5 गेम वेरिएंट: विभिन्न स्टोकेस्टिकता सेटिंग्स में मजबूती का परीक्षण
डेटा संग्रह समान यादृच्छिक व्यवहार नीति का उपयोग करता है, जिसमें 105 ट्रैजेक्टरी शामिल हैं, सभी संभावित ट्रैजेक्टरी को कवर करते हैं।
- सबसे खराब स्थिति रिटर्न: सर्वोत्तम प्रतिद्वंद्वी के विरुद्ध नीति का प्रदर्शन
- मिनिमैक्स मान अनुमान सटीकता: सैद्धांतिक मान से विचलन
- Decision Transformer (DT): मूल निर्णय ट्रांसफॉर्मर
- Adversarially Robust Decision Transformer (ARDT): मौजूदा प्रतिकूल मजबूती विधि
- परीक्षण समय पर प्रतिद्वंद्वी को इष्टतम रणनीति माना जाता है
- उच्च लक्ष्य रिटर्न के साथ डिकोडिंग का उपयोग
- तीनों हानि फ़ंक्शन को अभिसरण तक वैकल्पिक रूप से अनुकूलित करना
उदाहरणात्मक द्वि-चरण स्टोकेस्टिक गेम में:
- CART: 8.0 (सबसे खराब स्थिति रिटर्न)
- ARDT: 5.7
- DT: 6.0
5 सिंथेटिक प्रतिकूल स्टोकेस्टिक गेम्स में औसत प्रदर्शन:
- CART: 8.115 ± न्यूनतम विचरण
- ARDT: 5.948
- DT: 6.421
- लक्ष्य रिटर्न संवेदनशीलता: CART विभिन्न लक्ष्य रिटर्न सेटिंग्स में सबसे अधिक सबसे खराब स्थिति रिटर्न बनाए रखता है, जबकि ARDT और DT प्रतिकूल हमलों के तहत कम रिटर्न प्राप्त करते हैं।
- अत्यधिक आशावादिता समस्या: ARDT दुर्लभ उच्च पुरस्कार ट्रैजेक्टरी द्वारा गुमराह हो सकता है, कार्य मानों को अधिक अनुमानित करता है जबकि वास्तविक संक्रमण संभावनाओं को अनदेखा करता है, उच्च लक्ष्य रिटर्न पर मजबूती खो देता है।
- रूढ़िवादिता लाभ: CART पुरस्कार और स्थिति संक्रमण स्टोकेस्टिकता को संयुक्त रूप से विचार करके, सबसे खराब स्थिति अपेक्षित रिटर्न को अधिकतम करने में सक्षम नीतियों पर ध्यान केंद्रित करता है।
चित्र 1 के उदाहरण में:
- ARDT अपेक्षित स्थिति s2′ तक पहुंचने की छोटी संभावना को अनदेखा करता है, स्थिति और कार्य मान अनुमान में अत्यधिक आशावादी है
- CART अपेक्षित अधिकतम को आवंटित करके स्टोकेस्टिकता को संभालता है, मान अनुमान अधिक रूढ़िवादी और सटीक है
ऑनलाइन शिक्षा में दो-व्यक्ति गेम समाधान व्यापक रूप से अनुसंधान किया गया है, नैश संतुलन में अभिसरण के लिए ऑनलाइन स्व-खेल के माध्यम से खेद न्यूनीकरण। लेकिन यह कार्य ऑफलाइन शिक्षा सेटिंग पर केंद्रित है।
- Conservative Q-Learning (CQL): निराशावादी लक्ष्य के माध्यम से Q मान अधिकतमकरण को कम करना
- Implicit Q-Learning (IQL): अपेक्षित प्रतिगमन के माध्यम से निहित मान फ़ंक्शन सीखना मान स्थिरीकरण प्राप्त करता है
- ARDT: स्थिर शून्य-योग गेम्स में मिनिमैक्स अपेक्षित प्रतिगमन के माध्यम से प्रतिकूल मजबूती
- Trajectory Transformer: ट्रैजेक्टरी स्टोकेस्टिकता को कैप्चर करने के लिए अव्यक्त चर
- Online Decision Transformer: मिश्रित ऑफलाइन-ऑनलाइन सुदृढ़ीकरण शिक्षण को एकीकृत करता है
- Multi-Game Decision Transformer: स्थानांतरण शिक्षा और कम-नमूना अनुकूलन का समर्थन करता है
CART निम्नलिखित तरीकों से स्टोकेस्टिक गेम्स में DT की प्रतिकूल मजबूती समस्या को सफलतापूर्वक हल करता है:
- बातचीत को चरण गेम के रूप में मॉडल करना, स्टोकेस्टिक संक्रमण को स्पष्ट रूप से विचार करते हुए
- NashQ मानों का उपयोग करके शर्तबद्ध करना, ऐसी नीति उत्पन्न करना जो मजबूत और रूढ़िवादी दोनों हो
- कई स्टोकेस्टिक गेम्स में श्रेष्ठ सबसे खराब स्थिति प्रदर्शन प्राप्त करना
- प्रयोगात्मक पैमाना: वर्तमान में केवल छोटे समय क्षेत्र के सिंथेटिक गेम्स पर सत्यापित
- कम्प्यूटेशनल जटिलता: तीन उद्देश्य फ़ंक्शन का वैकल्पिक अनुकूलन कम्प्यूटेशनल ओवरहेड बढ़ा सकता है
- सैद्धांतिक विश्लेषण: अभिसरण और मजबूती के सैद्धांतिक गारंटी की कमी
- जटिल वातावरण में विस्तार: जैसे पोकर वेरिएंट (Kuhn और Leduc पोकर) अधिक जटिल बहु-एजेंट प्रतिस्पर्धी वातावरण
- दीर्घकालीन योजना: बड़े पैमाने के गेम्स और लंबे योजना समय क्षेत्र की खोज
- सैद्धांतिक सुधार: अभिसरण और मजबूती के सैद्धांतिक विश्लेषण प्रदान करना
- मजबूत नवाचार: पहली बार स्टोकेस्टिक गेम्स में अनुक्रम मॉडलिंग के लिए प्रतिकूल मजबूती को शामिल किया गया, महत्वपूर्ण अनुसंधान अंतराल को भरा गया
- विवेकपूर्ण विधि: चरण गेम मॉडलिंग और अपेक्षित प्रतिगमन के संयोजन के माध्यम से, स्टोकेस्टिकता और प्रतिकूलता की दोहरी चुनौती को सुरुचिपूर्ण तरीके से संभाला गया
- पर्याप्त प्रयोग: हालांकि सिंथेटिक वातावरण है, लेकिन विधि की प्रभावशीलता को सत्यापित करने के लिए कई वेरिएंट डिज़ाइन किए गए हैं
- महत्वपूर्ण समस्या: हल की गई समस्या का महत्वपूर्ण व्यावहारिक मूल्य और सैद्धांतिक महत्व है
- प्रयोगात्मक सीमाएं: केवल सरल सिंथेटिक वातावरण में सत्यापित, वास्तविक दुनिया के अनुप्रयोग का सत्यापन अभाव
- सैद्धांतिक कमी: अभिसरण, जटिलता और मजबूती के सैद्धांतिक विश्लेषण की कमी
- विधि जटिलता: कई उद्देश्य फ़ंक्शन के वैकल्पिक अनुकूलन की आवश्यकता, व्यावहारिकता को प्रभावित कर सकता है
- सीमित तुलना: केवल ARDT और DT के साथ तुलना, अन्य मजबूत सुदृढ़ीकरण शिक्षण विधियों के साथ तुलना की कमी
- शैक्षणिक योगदान: प्रतिकूल वातावरण में अनुक्रम मॉडलिंग के अनुप्रयोग के लिए नई दिशा खोली गई
- व्यावहारिक मूल्य: अधिक मजबूत बहु-एजेंट प्रणालियों को विकसित करने के लिए नई सोच प्रदान की गई
- पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, प्रयोग सेटअप सरल है, पुनरुत्पादन में आसान
- बहु-एजेंट प्रणालियां: प्रतिकूलता और अनिश्चितता वाले वातावरण
- सुरक्षा-महत्वपूर्ण अनुप्रयोग: सबसे खराब स्थिति प्रदर्शन की गारंटी की आवश्यकता वाले परिदृश्य
- ऑफलाइन शिक्षा: ऑनलाइन इंटरैक्शन संभव न हो सकने वाले वातावरण
यह पेपर सुदृढ़ीकरण शिक्षण, गेम सिद्धांत और अनुक्रम मॉडलिंग क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- Chen et al. (2021) - Decision Transformer का मूल कार्य
- Tang et al. (2024a) - ARDT विधि
- Hu और Wellman (2003) - Nash Q-Learning
- Vaswani et al. (2017) - ट्रांसफॉर्मर आर्किटेक्चर
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता का अनुसंधान पत्र है जो एक महत्वपूर्ण और चुनौतीपूर्ण समस्या को हल करता है। हालांकि प्रयोगात्मक सत्यापन और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन इसकी नवीनता और विधि की विवेकपूर्णता इसे इस क्षेत्र का एक मूल्यवान योगदान बनाती है।