Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- पेपर ID: 2510.13358
- शीर्षक: ऑफलाइन-टू-ऑनलाइन सुदृढ़ रोबोट नियंत्रण के लिए प्रतिकूल सूक्ष्म-समायोजन
- लेखक: शिंगो अयाबे, हिरोशी केरा, काज़ुहिको कावामोतो (चिबा विश्वविद्यालय)
- वर्गीकरण: cs.RO (रोबोटिक्स), cs.AI (कृत्रिम बुद्धिमत्ता)
- प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13358
ऑफलाइन सुदृढ़ शिक्षा जोखिम भरे ऑनलाइन इंटरैक्शन के बिना नमूना-कुशल नीति अधिग्रहण सक्षम करती है, लेकिन स्थिर डेटासेट पर प्रशिक्षित नीतियां क्रिया-स्थान विक्षोभ (जैसे एक्चुएटर विफलता) का सामना करते समय कमजोर रहती हैं। यह अनुसंधान एक ऑफलाइन-टू-ऑनलाइन ढांचा प्रस्तावित करता है जो पहले स्वच्छ डेटा पर नीति को प्रशिक्षित करता है, फिर प्रतिकूल सूक्ष्म-समायोजन निष्पादित करता है, निष्पादित क्रियाओं में विक्षोभ को इंजेक्ट करके मुआवजा व्यवहार को प्रेरित करता है और दृढ़ता में सुधार करता है। प्रदर्शन-जागरूक पाठ्यक्रम आगे प्रशिक्षण प्रक्रिया के दौरान घातीय गतिशील औसत संकेत के माध्यम से विक्षोभ संभावना को समायोजित करके, संपूर्ण शिक्षण प्रक्रिया में दृढ़ता और स्थिरता को संतुलित करता है। सतत नियंत्रण गति कार्यों पर प्रयोग दर्शाते हैं कि प्रस्तावित विधि दृढ़ता के संदर्भ में केवल ऑफलाइन आधारभूत से लगातार बेहतर है, और शुरुआत से प्रशिक्षण की तुलना में तेजी से अभिसरित होता है।
यह अनुसंधान क्रिया-स्थान विक्षोभ के तहत ऑफलाइन सुदृढ़ शिक्षा नीति की कमजोरी को संबोधित करता है। विशेष रूप से:
- ऑफलाइन RL की सीमाएं: ऑफलाइन सुदृढ़ शिक्षा हालांकि ऑनलाइन इंटरैक्शन के जोखिम और लागत से बचती है, लेकिन प्रशिक्षित नीति एक्चुएटर विफलता, क्रिया शोर आदि क्रिया-स्थान विक्षोभ का सामना करते समय कमजोर प्रदर्शन करती है।
- रूढ़िवाद और दृढ़ता का मौलिक संघर्ष: लेखक एक महत्वपूर्ण अंतर्दृष्टि की पहचान करते हैं—रूढ़िवादी ऑफलाइन RL विधियां और क्रिया-स्थान दृढ़ता मौलिक रूप से असंगत हैं। रूढ़िवादी विधियां नीति को डेटासेट क्रिया वितरण के भीतर रखने के लिए बाहर निकालने की त्रुटि को रोकने के लिए बाधित करती हैं, लेकिन क्रिया विक्षोभ के लिए दृढ़ता को ठीक इन वितरण-बाहर नमूनों को सीखने की आवश्यकता होती है जो बाधित हैं।
- सुरक्षा-महत्वपूर्ण अनुप्रयोग: स्वास्थ्यसेवा, ऊर्जा प्रबंधन, रोबोट नियंत्रण जैसे सुरक्षा-महत्वपूर्ण क्षेत्रों में, नीति को अप्रत्याशित विक्षोभ को संभालने में सक्षम होना चाहिए
- व्यावहारिक तैनाती की आवश्यकता: वास्तविक रोबोट प्रणालियों में एक्चुएटर विफलता और क्रिया शोर अनिवार्य हैं
- सिद्धांत और व्यवहार का अंतराल: मौजूदा ऑफलाइन RL विधियां मुख्य रूप से स्थिति-स्थान विक्षोभ पर ध्यान केंद्रित करती हैं, क्रिया-स्थान विक्षोभ पर अनुसंधान अपर्याप्त है
- ऑफलाइन RL रूढ़िवादी बाधा: TD3+BC जैसी विधियां व्यवहार क्लोनिंग हानि के माध्यम से नीति को डेटासेट वितरण के पास बाधित करती हैं, अनुकूलनशीलता को सीमित करती हैं
- विक्षोभ डेटा की कमी: ऑफलाइन डेटासेट आमतौर पर विक्षोभ-जागरूक संक्रमण नहीं रखते हैं, विक्षोभ के तहत नीति प्रभावशीलता का मूल्यांकन नहीं कर सकते
- स्थिति बनाम क्रिया विक्षोभ: मौजूदा दृढ़ता अनुसंधान मुख्य रूप से स्थिति विक्षोभ (सेंसर शोर) को लक्षित करता है, क्रिया विक्षोभ अनुसंधान कम है
- प्रतिकूल सूक्ष्म-समायोजन विधि प्रस्तावित करना: ऑनलाइन प्रशिक्षण के दौरान विक्षोभ को इंजेक्ट करना, क्रिया विक्षोभ के लिए लक्षित अनुकूलन प्राप्त करना, साथ ही ऑफलाइन पूर्व-प्रशिक्षण की नमूना दक्षता बनाए रखना
- सुसंगत श्रेष्ठ प्रदर्शन साबित करना: प्रतिकूल सूक्ष्म-समायोजन दृढ़ता के संदर्भ में केवल ऑफलाइन और पूरी तरह से ऑनलाइन आधारभूत से लगातार बेहतर है
- आत्मनिर्भर पाठ्यक्रम रणनीति डिजाइन करना: नीति प्रदर्शन के आधार पर विक्षोभ संभावना को समायोजित करने वाली आत्मनिर्भर पाठ्यक्रम, प्रतिकूल स्थितियों के अति-फिटिंग को रोकना, साथ ही प्रशिक्षण स्थिरता बनाए रखना, निश्चित अनुसूची विधियों की महत्वपूर्ण सीमाओं को हल करना
- सैद्धांतिक अंतर्दृष्टि: रूढ़िवादी ऑफलाइन RL और क्रिया-स्थान दृढ़ता के मौलिक असंगतता का औपचारिक विश्लेषण
उद्देश्य: क्रिया-स्थान विक्षोभ के तहत इष्टतम दृढ़ नीति खोजना
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
जहां a~ पूर्वनिर्धारित सेट U से प्रतिकूल विक्षोभ क्रिया है।
स्वच्छ डेटासेट पर TD3+BC एल्गोरिथ्म का उपयोग करके पूर्व-प्रशिक्षण:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
दूसरा पद नीति को व्यवहार नीति के पास रखने के लिए रूढ़िवाद बनाए रखने के लिए बाध्य करता है।
विक्षोभ इंजेक्शन तंत्र:
at′=at+δa⊙at संभावना q के साथ
जहां ⊙ तत्व-वार गुणन को दर्शाता है, δa पूर्वनिर्धारित प्रतिकूल विक्षोभ है।
लक्ष्य अपडेट:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
जहां s~t+1∼P(⋅∣st,a~t), r~t=r(st,a~t)।
रैखिक पाठ्यक्रम:
q←clip(q+c,0,1)
जहां c निश्चित चरण आकार है।
आत्मनिर्भर पाठ्यक्रम:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
जहां Rˉn घातीय गतिशील औसत प्रदर्शन है, η और β अनुकूलन गतिविज्ञान को नियंत्रित करते हैं।
- विक्षोभ पूर्वनिर्धारण: अंतर विकास एल्गोरिथ्म का उपयोग करके विक्षोभ सेट को पूर्वनिर्मित करना, सूक्ष्म-समायोजन के दौरान महंगे आंतरिक-लूप न्यूनीकरण से बचना
- प्रदर्शन-जागरूक अनुसूची: आत्मनिर्भर पाठ्यक्रम नीति प्रदर्शन के आधार पर विक्षोभ संभावना को गतिशील रूप से समायोजित करता है, प्रदर्शन सुधार पर दृढ़ता बढ़ाने के लिए q बढ़ाता है, प्रदर्शन में गिरावट पर प्रशिक्षण को स्थिर करने के लिए q घटाता है
- संतुलन तंत्र: घातीय गतिशील औसत के माध्यम से अल्पकालिक उतार-चढ़ाव को फ़िल्टर करना, स्थिर प्रदर्शन प्रवृत्ति अनुमान प्रदान करना
- स्रोत: D4RL विशेषज्ञ डेटासेट
- वातावरण: OpenAI Gym में Hopper-v2, HalfCheetah-v2, Ant-v2 द्विपद रोबोट वातावरण
- भौतिकी इंजन: MuJoCo भौतिकी सिमुलेशन
- प्राथमिक मेट्रिक: D4RL मानकीकृत एपिसोड पुरस्कार
- मूल्यांकन स्थितियां: सामान्य (कोई विक्षोभ नहीं), यादृच्छिक विक्षोभ, प्रतिकूल विक्षोभ
- सांख्यिकी: 100 एपिसोड का औसत प्रदर्शन, 5 स्वतंत्र चलन
- केवल ऑफलाइन: केवल ऑफलाइन प्रशिक्षित TD3+BC
- पूरी तरह से ऑनलाइन (प्रतिकूल): शुरुआत से ऑनलाइन प्रतिकूल प्रशिक्षण
- सूक्ष्म-समायोजित वेरिएंट: विभिन्न विक्षोभ स्थितियों के तहत सूक्ष्म-समायोजित नीतियां
- पूर्व-प्रशिक्षण: 5 मिलियन चरण TD3+BC
- सूक्ष्म-समायोजन: 1 मिलियन चरण TD3 (पाठ्यक्रम प्रयोग 3 मिलियन चरण)
- विक्षोभ तीव्रता: Hopper/HalfCheetah ϵ=0.3, Ant ϵ=0.5
- विक्षोभ संभावना: Hopper q=0.5, HalfCheetah/Ant q=0.1
- आत्मनिर्भर पैरामीटर: β=0.9, η वातावरण-विशिष्ट समायोजन
तालिका 1 मूल निष्कर्ष:
- Ant-v2 प्रतिकूल स्थिति: प्रतिकूल सूक्ष्म-समायोजन 91.6 बनाम ऑफलाइन -21.0 बनाम पूरी तरह से ऑनलाइन 24.0
- Hopper-v2 प्रतिकूल स्थिति: प्रतिकूल सूक्ष्म-समायोजन 83.5 बनाम ऑफलाइन 13.7 बनाम पूरी तरह से ऑनलाइन 57.0
- सुसंगत लाभ: प्रतिकूल सूक्ष्म-समायोजन सभी वातावरणों के प्रतिकूल मूल्यांकन में आधारभूत से महत्वपूर्ण रूप से बेहतर है
मुख्य अंतर्दृष्टि:
- सूक्ष्म-समायोजन स्थिति मूल्यांकन स्थिति से मेल खाने पर सर्वोत्तम प्रदर्शन करती है
- ऑफलाइन नीति विक्षोभ के तहत तेजी से प्रदर्शन में गिरावट (यहां तक कि नकारात्मक पुरस्कार)
- प्रतिकूल सूक्ष्म-समायोजन शुरुआत से प्रशिक्षण की तुलना में तेजी से अभिसरित होता है
पाठ्यक्रम रणनीति तुलना (तालिका 2):
- 1M चरण: आत्मनिर्भर पाठ्यक्रम qada सभी वातावरणों में निश्चित qfix और रैखिक qlin से लगातार बेहतर है
- 3M चरण: रैखिक पाठ्यक्रम अति-फिटिंग प्रदर्शित करता है, सामान्य प्रदर्शन में गिरावट (Hopper: 95.1→76.5)
- आत्मनिर्भर लाभ: qada सामान्य प्रदर्शन को बनाए रखता या सुधारता है, साथ ही प्रतिकूल दृढ़ता बनाए रखता है
चित्र 5 पाठ्यक्रम प्रक्षेपवक्र:
- रैखिक रणनीति: q मान निर्दयी रूप से बढ़ता है, अति-फिटिंग की ओर ले जाता है
- आत्मनिर्भर रणनीति: प्रदर्शन प्रतिक्रिया के आधार पर q वृद्धि को समायोजित करता है, अत्यधिक कठिन अपग्रेड को रोकता है
- अभिसरण गति: प्रतिकूल सूक्ष्म-समायोजन ऑफलाइन पूर्व-प्रशिक्षण का लाभ उठाकर तेजी से अभिसरण प्राप्त करता है
- दृढ़ता-स्थिरता व्यापार-बंद: आत्मनिर्भर पाठ्यक्रम दोनों को सफलतापूर्वक संतुलित करता है
- वातावरण विशिष्टता: विभिन्न वातावरणों को विभिन्न हाइपरपैरामीटर समायोजन की आवश्यकता होती है
- रूढ़िवादी विधियां: TD3+BC, CQL, IQL आदि नीति को डेटा वितरण के पास बाधित करके
- मूल चुनौती: वितरण-बाहर स्थिति-क्रिया जोड़ी के Q-मान का अधिक अनुमान
- स्थिति विक्षोभ: RORL जैसी विधियां मूल्य वितरण को सुचारू करके दृढ़ता में सुधार करती हैं
- क्रिया विक्षोभ: अनुसंधान अपेक्षाकृत कम है, मौजूदा कार्य दर्शाता है कि ऑफलाइन नीति विशेष रूप से कमजोर है
- प्रतिनिधि विधियां: AWAC, O2O, Policy Expansion आदि
- मुख्य चुनौती: प्रारंभिक सूक्ष्म-समायोजन चरण में प्रदर्शन में गिरावट
- मौलिक असंगतता: रूढ़िवादी ऑफलाइन RL और क्रिया-स्थान दृढ़ता के बीच संरचनात्मक संघर्ष मौजूद है
- प्रभावी समाधान: प्रतिकूल सूक्ष्म-समायोजन ऑफलाइन दक्षता और ऑनलाइन अनुकूलनशीलता को सफलतापूर्वक जोड़ता है
- पाठ्यक्रम शिक्षा मूल्य: आत्मनिर्भर अनुसूची निश्चित रणनीति से बेहतर है, अति-फिटिंग से बचता है
- सैद्धांतिक गारंटी की कमी: पाठ्यक्रम आत्मनिर्भरता का सैद्धांतिक विश्लेषण अभाव
- वातावरण जटिलता: प्रयोग केवल अपेक्षाकृत सरल गति कार्यों तक सीमित हैं
- विक्षोभ प्रकार: मुख्य रूप से गुणक विक्षोभ पर ध्यान केंद्रित, अन्य प्रकार के विक्षोभ पर्याप्त रूप से अन्वेषित नहीं
- सैद्धांतिक विकास: पाठ्यक्रम आत्मनिर्भरता के लिए सैद्धांतिक गारंटी स्थापित करना
- जटिल वातावरण: स्थिति और क्रिया-स्थान विक्षोभ के पारस्परिक प्रभाव का अन्वेषण
- विक्षोभ विविधता: विक्षोभ के व्यापक प्रकार और पैटर्न का अनुसंधान
- गहन मूल मूल्य: रूढ़िवाद और दृढ़ता के मौलिक संघर्ष की पहचान महत्वपूर्ण योगदान है
- विधि डिजाइन तर्कसंगत: प्रतिकूल सूक्ष्म-समायोजन ढांचा तार्किक रूप से स्पष्ट, तकनीकी रूप से व्यावहारिक
- व्यापक प्रयोग: बहु-वातावरण, बहु-आधारभूत, बहु-मेट्रिक व्यापक मूल्यांकन
- उच्च व्यावहारिक मूल्य: वास्तविक रोबोट तैनाती में महत्वपूर्ण समस्या का समाधान
- अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण और दृढ़ता के सैद्धांतिक गारंटी की कमी
- वातावरण सीमा: केवल MuJoCo सिमुलेशन वातावरण में परीक्षण, वास्तविक रोबोट सत्यापन की कमी
- हाइपरपैरामीटर संवेदनशीलता: आत्मनिर्भर पाठ्यक्रम को वातावरण-विशिष्ट पैरामीटर समायोजन की आवश्यकता
- कम्प्यूटेशनल ओवरहेड: विक्षोभ पूर्वनिर्धारण और प्रदर्शन मूल्यांकन कम्प्यूटेशनल लागत बढ़ाते हैं
- शैक्षणिक योगदान: ऑफलाइन RL दृढ़ता अनुसंधान के लिए नया दृष्टिकोण और विधि प्रदान करता है
- व्यावहारिक मूल्य: सुरक्षा-महत्वपूर्ण रोबोट अनुप्रयोगों के लिए व्यावहारिक समाधान
- पुनरुत्पादनीयता: विधि विवरण विस्तृत, प्रयोग सेटअप स्पष्ट
- रोबोट नियंत्रण: एक्चुएटर विफलता को संभालने की आवश्यकता वाली स्वायत्त प्रणालियां
- सुरक्षा-महत्वपूर्ण अनुप्रयोग: चिकित्सा रोबोट, औद्योगिक स्वचालन आदि
- संसाधन-सीमित वातावरण: नमूना दक्षता की आवश्यकता लेकिन दृढ़ता की मांग वाले परिदृश्य
पेपर सुदृढ़ शिक्षा क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
- ऑफलाइन RL: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
- दृढ़ RL: Pinto et al. (प्रतिकूल प्रशिक्षण), Yang et al. (RORL)
- ऑफलाइन-टू-ऑनलाइन: Nair et al. (AWAC), Lee et al. (O2O)
समग्र मूल्यांकन: यह सैद्धांतिक अंतर्दृष्टि, विधि नवाचार और प्रयोगात्मक सत्यापन के संदर्भ में महत्वपूर्ण योगदान वाला उच्च-गुणवत्ता वाला अनुसंधान पत्र है। हालांकि सैद्धांतिक विश्लेषण और वास्तविक वातावरण सत्यापन में सुधार की गुंजाइश है, लेकिन यह ऑफलाइन सुदृढ़ शिक्षा दृढ़ता अनुसंधान के लिए एक महत्वपूर्ण दिशा खोलता है, जिसमें उच्च शैक्षणिक और व्यावहारिक मूल्य है।