2025-11-24T20:28:16.394652

Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control

Ayabe, Kera, Kawamoto

Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.

academic

ऑफलाइन-टू-ऑनलाइन सुदृढ़ रोबोट नियंत्रण के लिए प्रतिकूल सूक्ष्म-समायोजन

मूल जानकारी

पेपर ID: 2510.13358
शीर्षक: ऑफलाइन-टू-ऑनलाइन सुदृढ़ रोबोट नियंत्रण के लिए प्रतिकूल सूक्ष्म-समायोजन
लेखक: शिंगो अयाबे, हिरोशी केरा, काज़ुहिको कावामोतो (चिबा विश्वविद्यालय)
वर्गीकरण: cs.RO (रोबोटिक्स), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13358

सारांश

ऑफलाइन सुदृढ़ शिक्षा जोखिम भरे ऑनलाइन इंटरैक्शन के बिना नमूना-कुशल नीति अधिग्रहण सक्षम करती है, लेकिन स्थिर डेटासेट पर प्रशिक्षित नीतियां क्रिया-स्थान विक्षोभ (जैसे एक्चुएटर विफलता) का सामना करते समय कमजोर रहती हैं। यह अनुसंधान एक ऑफलाइन-टू-ऑनलाइन ढांचा प्रस्तावित करता है जो पहले स्वच्छ डेटा पर नीति को प्रशिक्षित करता है, फिर प्रतिकूल सूक्ष्म-समायोजन निष्पादित करता है, निष्पादित क्रियाओं में विक्षोभ को इंजेक्ट करके मुआवजा व्यवहार को प्रेरित करता है और दृढ़ता में सुधार करता है। प्रदर्शन-जागरूक पाठ्यक्रम आगे प्रशिक्षण प्रक्रिया के दौरान घातीय गतिशील औसत संकेत के माध्यम से विक्षोभ संभावना को समायोजित करके, संपूर्ण शिक्षण प्रक्रिया में दृढ़ता और स्थिरता को संतुलित करता है। सतत नियंत्रण गति कार्यों पर प्रयोग दर्शाते हैं कि प्रस्तावित विधि दृढ़ता के संदर्भ में केवल ऑफलाइन आधारभूत से लगातार बेहतर है, और शुरुआत से प्रशिक्षण की तुलना में तेजी से अभिसरित होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान क्रिया-स्थान विक्षोभ के तहत ऑफलाइन सुदृढ़ शिक्षा नीति की कमजोरी को संबोधित करता है। विशेष रूप से:

ऑफलाइन RL की सीमाएं: ऑफलाइन सुदृढ़ शिक्षा हालांकि ऑनलाइन इंटरैक्शन के जोखिम और लागत से बचती है, लेकिन प्रशिक्षित नीति एक्चुएटर विफलता, क्रिया शोर आदि क्रिया-स्थान विक्षोभ का सामना करते समय कमजोर प्रदर्शन करती है।
रूढ़िवाद और दृढ़ता का मौलिक संघर्ष: लेखक एक महत्वपूर्ण अंतर्दृष्टि की पहचान करते हैं—रूढ़िवादी ऑफलाइन RL विधियां और क्रिया-स्थान दृढ़ता मौलिक रूप से असंगत हैं। रूढ़िवादी विधियां नीति को डेटासेट क्रिया वितरण के भीतर रखने के लिए बाहर निकालने की त्रुटि को रोकने के लिए बाधित करती हैं, लेकिन क्रिया विक्षोभ के लिए दृढ़ता को ठीक इन वितरण-बाहर नमूनों को सीखने की आवश्यकता होती है जो बाधित हैं।

समस्या की महत्ता

सुरक्षा-महत्वपूर्ण अनुप्रयोग: स्वास्थ्यसेवा, ऊर्जा प्रबंधन, रोबोट नियंत्रण जैसे सुरक्षा-महत्वपूर्ण क्षेत्रों में, नीति को अप्रत्याशित विक्षोभ को संभालने में सक्षम होना चाहिए
व्यावहारिक तैनाती की आवश्यकता: वास्तविक रोबोट प्रणालियों में एक्चुएटर विफलता और क्रिया शोर अनिवार्य हैं
सिद्धांत और व्यवहार का अंतराल: मौजूदा ऑफलाइन RL विधियां मुख्य रूप से स्थिति-स्थान विक्षोभ पर ध्यान केंद्रित करती हैं, क्रिया-स्थान विक्षोभ पर अनुसंधान अपर्याप्त है

मौजूदा विधियों की सीमाएं

ऑफलाइन RL रूढ़िवादी बाधा: TD3+BC जैसी विधियां व्यवहार क्लोनिंग हानि के माध्यम से नीति को डेटासेट वितरण के पास बाधित करती हैं, अनुकूलनशीलता को सीमित करती हैं
विक्षोभ डेटा की कमी: ऑफलाइन डेटासेट आमतौर पर विक्षोभ-जागरूक संक्रमण नहीं रखते हैं, विक्षोभ के तहत नीति प्रभावशीलता का मूल्यांकन नहीं कर सकते
स्थिति बनाम क्रिया विक्षोभ: मौजूदा दृढ़ता अनुसंधान मुख्य रूप से स्थिति विक्षोभ (सेंसर शोर) को लक्षित करता है, क्रिया विक्षोभ अनुसंधान कम है

मूल योगदान

प्रतिकूल सूक्ष्म-समायोजन विधि प्रस्तावित करना: ऑनलाइन प्रशिक्षण के दौरान विक्षोभ को इंजेक्ट करना, क्रिया विक्षोभ के लिए लक्षित अनुकूलन प्राप्त करना, साथ ही ऑफलाइन पूर्व-प्रशिक्षण की नमूना दक्षता बनाए रखना
सुसंगत श्रेष्ठ प्रदर्शन साबित करना: प्रतिकूल सूक्ष्म-समायोजन दृढ़ता के संदर्भ में केवल ऑफलाइन और पूरी तरह से ऑनलाइन आधारभूत से लगातार बेहतर है
आत्मनिर्भर पाठ्यक्रम रणनीति डिजाइन करना: नीति प्रदर्शन के आधार पर विक्षोभ संभावना को समायोजित करने वाली आत्मनिर्भर पाठ्यक्रम, प्रतिकूल स्थितियों के अति-फिटिंग को रोकना, साथ ही प्रशिक्षण स्थिरता बनाए रखना, निश्चित अनुसूची विधियों की महत्वपूर्ण सीमाओं को हल करना
सैद्धांतिक अंतर्दृष्टि: रूढ़िवादी ऑफलाइन RL और क्रिया-स्थान दृढ़ता के मौलिक असंगतता का औपचारिक विश्लेषण

विधि विवरण

कार्य परिभाषा

उद्देश्य: क्रिया-स्थान विक्षोभ के तहत इष्टतम दृढ़ नीति खोजना $\pi^* = \arg\max_\pi \min_{\tilde{a} \in U} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, \tilde{a})\right]$

जहां $\tilde{a}$ पूर्वनिर्धारित सेट $U$ से प्रतिकूल विक्षोभ क्रिया है।

मॉडल आर्किटेक्चर

1. ऑफलाइन पूर्व-प्रशिक्षण चरण

स्वच्छ डेटासेट पर TD3+BC एल्गोरिथ्म का उपयोग करके पूर्व-प्रशिक्षण: $\pi = \arg\max_\pi \mathbb{E}_{(s_t,a_t)\sim D}[Q^\pi(s_t, \pi(s_t)) - \|\pi(s_t) - a_t\|^2]$

दूसरा पद नीति को व्यवहार नीति के पास रखने के लिए रूढ़िवाद बनाए रखने के लिए बाध्य करता है।

2. प्रतिकूल सूक्ष्म-समायोजन चरण

विक्षोभ इंजेक्शन तंत्र: $a'_t = a_t + \delta_a \odot a_t \text{ संभावना } q \text{ के साथ}$

जहां $\odot$ तत्व-वार गुणन को दर्शाता है, $\delta_a$ पूर्वनिर्धारित प्रतिकूल विक्षोभ है।

लक्ष्य अपडेट: $y_t = \tilde{r}_t + \gamma \min_{i\in\{1,2\}} Q_{\theta^-_i}(\tilde{s}_{t+1}, \pi_{\phi^-}(\tilde{s}_{t+1}) + \varepsilon)$

जहां $\tilde{s}_{t+1} \sim P(\cdot|s_t, \tilde{a}_t)$ , $\tilde{r}_t = r(s_t, \tilde{a}_t)$ ।

3. पाठ्यक्रम शिक्षण तंत्र

रैखिक पाठ्यक्रम: $q \leftarrow \text{clip}(q + c, 0, 1)$ जहां $c$ निश्चित चरण आकार है।

आत्मनिर्भर पाठ्यक्रम: $\Delta q = \eta(\bar{R}_n - \bar{R}_{n-1})$ $\bar{R}_n = \beta R_n + (1-\beta)\bar{R}_{n-1}$

जहां $\bar{R}_n$ घातीय गतिशील औसत प्रदर्शन है, $\eta$ और $\beta$ अनुकूलन गतिविज्ञान को नियंत्रित करते हैं।

तकनीकी नवाचार बिंदु

विक्षोभ पूर्वनिर्धारण: अंतर विकास एल्गोरिथ्म का उपयोग करके विक्षोभ सेट को पूर्वनिर्मित करना, सूक्ष्म-समायोजन के दौरान महंगे आंतरिक-लूप न्यूनीकरण से बचना
प्रदर्शन-जागरूक अनुसूची: आत्मनिर्भर पाठ्यक्रम नीति प्रदर्शन के आधार पर विक्षोभ संभावना को गतिशील रूप से समायोजित करता है, प्रदर्शन सुधार पर दृढ़ता बढ़ाने के लिए $q$ बढ़ाता है, प्रदर्शन में गिरावट पर प्रशिक्षण को स्थिर करने के लिए $q$ घटाता है
संतुलन तंत्र: घातीय गतिशील औसत के माध्यम से अल्पकालिक उतार-चढ़ाव को फ़िल्टर करना, स्थिर प्रदर्शन प्रवृत्ति अनुमान प्रदान करना

प्रयोगात्मक सेटअप

डेटासेट

स्रोत: D4RL विशेषज्ञ डेटासेट
वातावरण: OpenAI Gym में Hopper-v2, HalfCheetah-v2, Ant-v2 द्विपद रोबोट वातावरण
भौतिकी इंजन: MuJoCo भौतिकी सिमुलेशन

मूल्यांकन मेट्रिक्स

प्राथमिक मेट्रिक: D4RL मानकीकृत एपिसोड पुरस्कार
मूल्यांकन स्थितियां: सामान्य (कोई विक्षोभ नहीं), यादृच्छिक विक्षोभ, प्रतिकूल विक्षोभ
सांख्यिकी: 100 एपिसोड का औसत प्रदर्शन, 5 स्वतंत्र चलन

तुलना विधियां

केवल ऑफलाइन: केवल ऑफलाइन प्रशिक्षित TD3+BC
पूरी तरह से ऑनलाइन (प्रतिकूल): शुरुआत से ऑनलाइन प्रतिकूल प्रशिक्षण
सूक्ष्म-समायोजित वेरिएंट: विभिन्न विक्षोभ स्थितियों के तहत सूक्ष्म-समायोजित नीतियां

कार्यान्वयन विवरण

पूर्व-प्रशिक्षण: 5 मिलियन चरण TD3+BC
सूक्ष्म-समायोजन: 1 मिलियन चरण TD3 (पाठ्यक्रम प्रयोग 3 मिलियन चरण)
विक्षोभ तीव्रता: Hopper/HalfCheetah $\epsilon=0.3$ , Ant $\epsilon=0.5$
विक्षोभ संभावना: Hopper $q=0.5$ , HalfCheetah/Ant $q=0.1$
आत्मनिर्भर पैरामीटर: $\beta=0.9$ , $\eta$ वातावरण-विशिष्ट समायोजन

प्रयोगात्मक परिणाम

मुख्य परिणाम

तालिका 1 मूल निष्कर्ष:

Ant-v2 प्रतिकूल स्थिति: प्रतिकूल सूक्ष्म-समायोजन 91.6 बनाम ऑफलाइन -21.0 बनाम पूरी तरह से ऑनलाइन 24.0
Hopper-v2 प्रतिकूल स्थिति: प्रतिकूल सूक्ष्म-समायोजन 83.5 बनाम ऑफलाइन 13.7 बनाम पूरी तरह से ऑनलाइन 57.0
सुसंगत लाभ: प्रतिकूल सूक्ष्म-समायोजन सभी वातावरणों के प्रतिकूल मूल्यांकन में आधारभूत से महत्वपूर्ण रूप से बेहतर है

मुख्य अंतर्दृष्टि:

सूक्ष्म-समायोजन स्थिति मूल्यांकन स्थिति से मेल खाने पर सर्वोत्तम प्रदर्शन करती है
ऑफलाइन नीति विक्षोभ के तहत तेजी से प्रदर्शन में गिरावट (यहां तक कि नकारात्मक पुरस्कार)
प्रतिकूल सूक्ष्म-समायोजन शुरुआत से प्रशिक्षण की तुलना में तेजी से अभिसरित होता है

विलोपन प्रयोग

पाठ्यक्रम रणनीति तुलना (तालिका 2):

1M चरण: आत्मनिर्भर पाठ्यक्रम $q_{ada}$ सभी वातावरणों में निश्चित $q_{fix}$ और रैखिक $q_{lin}$ से लगातार बेहतर है
3M चरण: रैखिक पाठ्यक्रम अति-फिटिंग प्रदर्शित करता है, सामान्य प्रदर्शन में गिरावट (Hopper: 95.1→76.5)
आत्मनिर्भर लाभ: $q_{ada}$ सामान्य प्रदर्शन को बनाए रखता या सुधारता है, साथ ही प्रतिकूल दृढ़ता बनाए रखता है

केस विश्लेषण

चित्र 5 पाठ्यक्रम प्रक्षेपवक्र:

रैखिक रणनीति: $q$ मान निर्दयी रूप से बढ़ता है, अति-फिटिंग की ओर ले जाता है
आत्मनिर्भर रणनीति: प्रदर्शन प्रतिक्रिया के आधार पर $q$ वृद्धि को समायोजित करता है, अत्यधिक कठिन अपग्रेड को रोकता है

प्रयोगात्मक निष्कर्ष

अभिसरण गति: प्रतिकूल सूक्ष्म-समायोजन ऑफलाइन पूर्व-प्रशिक्षण का लाभ उठाकर तेजी से अभिसरण प्राप्त करता है
दृढ़ता-स्थिरता व्यापार-बंद: आत्मनिर्भर पाठ्यक्रम दोनों को सफलतापूर्वक संतुलित करता है
वातावरण विशिष्टता: विभिन्न वातावरणों को विभिन्न हाइपरपैरामीटर समायोजन की आवश्यकता होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मौलिक असंगतता: रूढ़िवादी ऑफलाइन RL और क्रिया-स्थान दृढ़ता के बीच संरचनात्मक संघर्ष मौजूद है
प्रभावी समाधान: प्रतिकूल सूक्ष्म-समायोजन ऑफलाइन दक्षता और ऑनलाइन अनुकूलनशीलता को सफलतापूर्वक जोड़ता है
पाठ्यक्रम शिक्षा मूल्य: आत्मनिर्भर अनुसूची निश्चित रणनीति से बेहतर है, अति-फिटिंग से बचता है

सीमाएं

सैद्धांतिक गारंटी की कमी: पाठ्यक्रम आत्मनिर्भरता का सैद्धांतिक विश्लेषण अभाव
वातावरण जटिलता: प्रयोग केवल अपेक्षाकृत सरल गति कार्यों तक सीमित हैं
विक्षोभ प्रकार: मुख्य रूप से गुणक विक्षोभ पर ध्यान केंद्रित, अन्य प्रकार के विक्षोभ पर्याप्त रूप से अन्वेषित नहीं

भविष्य की दिशाएं

सैद्धांतिक विकास: पाठ्यक्रम आत्मनिर्भरता के लिए सैद्धांतिक गारंटी स्थापित करना
जटिल वातावरण: स्थिति और क्रिया-स्थान विक्षोभ के पारस्परिक प्रभाव का अन्वेषण
विक्षोभ विविधता: विक्षोभ के व्यापक प्रकार और पैटर्न का अनुसंधान

गहन मूल्यांकन

शक्तियां

गहन मूल मूल्य: रूढ़िवाद और दृढ़ता के मौलिक संघर्ष की पहचान महत्वपूर्ण योगदान है
विधि डिजाइन तर्कसंगत: प्रतिकूल सूक्ष्म-समायोजन ढांचा तार्किक रूप से स्पष्ट, तकनीकी रूप से व्यावहारिक
व्यापक प्रयोग: बहु-वातावरण, बहु-आधारभूत, बहु-मेट्रिक व्यापक मूल्यांकन
उच्च व्यावहारिक मूल्य: वास्तविक रोबोट तैनाती में महत्वपूर्ण समस्या का समाधान

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण और दृढ़ता के सैद्धांतिक गारंटी की कमी
वातावरण सीमा: केवल MuJoCo सिमुलेशन वातावरण में परीक्षण, वास्तविक रोबोट सत्यापन की कमी
हाइपरपैरामीटर संवेदनशीलता: आत्मनिर्भर पाठ्यक्रम को वातावरण-विशिष्ट पैरामीटर समायोजन की आवश्यकता
कम्प्यूटेशनल ओवरहेड: विक्षोभ पूर्वनिर्धारण और प्रदर्शन मूल्यांकन कम्प्यूटेशनल लागत बढ़ाते हैं

प्रभाव

शैक्षणिक योगदान: ऑफलाइन RL दृढ़ता अनुसंधान के लिए नया दृष्टिकोण और विधि प्रदान करता है
व्यावहारिक मूल्य: सुरक्षा-महत्वपूर्ण रोबोट अनुप्रयोगों के लिए व्यावहारिक समाधान
पुनरुत्पादनीयता: विधि विवरण विस्तृत, प्रयोग सेटअप स्पष्ट

लागू परिदृश्य

रोबोट नियंत्रण: एक्चुएटर विफलता को संभालने की आवश्यकता वाली स्वायत्त प्रणालियां
सुरक्षा-महत्वपूर्ण अनुप्रयोग: चिकित्सा रोबोट, औद्योगिक स्वचालन आदि
संसाधन-सीमित वातावरण: नमूना दक्षता की आवश्यकता लेकिन दृढ़ता की मांग वाले परिदृश्य

संदर्भ

पेपर सुदृढ़ शिक्षा क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

ऑफलाइन RL: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
दृढ़ RL: Pinto et al. (प्रतिकूल प्रशिक्षण), Yang et al. (RORL)
ऑफलाइन-टू-ऑनलाइन: Nair et al. (AWAC), Lee et al. (O2O)

समग्र मूल्यांकन: यह सैद्धांतिक अंतर्दृष्टि, विधि नवाचार और प्रयोगात्मक सत्यापन के संदर्भ में महत्वपूर्ण योगदान वाला उच्च-गुणवत्ता वाला अनुसंधान पत्र है। हालांकि सैद्धांतिक विश्लेषण और वास्तविक वातावरण सत्यापन में सुधार की गुंजाइश है, लेकिन यह ऑफलाइन सुदृढ़ शिक्षा दृढ़ता अनुसंधान के लिए एक महत्वपूर्ण दिशा खोलता है, जिसमें उच्च शैक्षणिक और व्यावहारिक मूल्य है।