2025-11-19T05:19:13.941336

Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals

Sorstkins, Tariq, Bilal

This paper proposes a reversible learning framework to improve the robustness and efficiency of value based Reinforcement Learning agents, addressing vulnerability to value overestimation and instability in partially irreversible environments. The framework has two complementary core mechanisms: an empirically derived transition reversibility measure called Phi of s and a, and a selective state rollback operation. We introduce an online per state action estimator called Phi that quantifies the likelihood of returning to a prior state within a fixed horizon K. This measure is used to adjust the penalty term during temporal difference updates dynamically, integrating reversibility awareness directly into the value function. The system also includes a selective rollback operator. When an action yields an expected return markedly lower than its instantaneous estimated value and violates a predefined threshold, the agent is penalized and returns to the preceding state rather than progressing. This interrupts sub optimal high risk trajectories and avoids catastrophic steps. By combining reversibility aware evaluation with targeted rollback, the method improves safety, performance, and stability. In the CliffWalking v0 domain, the framework reduced catastrophic falls by over 99.8 percent and yielded a 55 percent increase in mean episode return. In the Taxi v3 domain, it suppressed illegal actions by greater than or equal to 99.9 percent and achieved a 65.7 percent improvement in cumulative reward, while also sharply reducing reward variance in both environments. Ablation studies confirm that the rollback mechanism is the critical component underlying these safety and performance gains, marking a robust step toward safe and reliable sequential decision making.

academic

सीखना कैसे पूर्ववत करें: रोलबैक-संवर्धित सुदृढ़ीकरण शिक्षा पुनर्वर्तनीयता संकेतों के साथ

मूल जानकारी

पेपर ID: 2510.14503
शीर्षक: Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals
लेखक: Andrejs Sorstkins¹, Omer Tariq², Muhammad Bilal¹
वर्गीकरण: cs.LG
प्रकाशन तिथि: 17 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.14503

सारांश

यह पेपर एक पुनर्वर्तनीयता शिक्षण ढांचा प्रस्तावित करता है जो मूल्य-आधारित सुदृढ़ीकरण शिक्षा एजेंटों की मजबूती और दक्षता में सुधार करने के लिए डिज़ाइन किया गया है, मूल्य अति-अनुमान और आंशिक रूप से अपरिवर्तनीय वातावरण में अस्थिरता की समस्याओं को संबोधित करता है। यह ढांचा दो पूरक मूल मंत्रों को शामिल करता है: एक अनुभव-संचालित संक्रमण पुनर्वर्तनीयता मीट्रिक Φ(s,a) और एक चयनात्मक स्थिति रोलबैक ऑपरेशन। CliffWalking-v0 वातावरण में, यह ढांचा विनाशकारी गिरावट को 99.8% से अधिक कम करता है और औसत एपिसोड रिटर्न में 55% की वृद्धि करता है। Taxi-v3 वातावरण में, अवैध कार्यों को ≥99.9% दबाया जाता है, संचयी पुरस्कार 65.7% बढ़ता है, और दोनों वातावरणों में पुरस्कार विचरण में उल्लेखनीय कमी आती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएं

मूल्य अति-अनुमान समस्या: गहन सुदृढ़ीकरण शिक्षा में व्यापक रूप से मौजूद Q-फ़ंक्शन अति-अनुमान समस्या एजेंटों को सांख्यिकीय रूप से झूठे या कम संभावना वाली प्रक्षेपवक्र पसंद करने के लिए प्रेरित करती है, जिससे दोलनशील नीति अपडेट और अभिसरण समय में वृद्धि होती है
अपरिवर्तनीय वातावरण में सुरक्षा: सुरक्षा-महत्वपूर्ण अनुप्रयोगों में (जैसे स्वायत्त ड्राइविंग, रोबोटिक सर्जरी, चिकित्सा उपचार योजना), अपरिवर्तनीय त्रुटियां विनाशकारी परिणाम दे सकती हैं
मौजूदा विधियों की सीमाएं: Q-मूल्य अति-अनुमान के पारंपरिक समाधान (जैसे दोहरी Q-शिक्षा, रूढ़िवादी Q-शिक्षा) आमतौर पर बढ़ी हुई कम्प्यूटेशनल लागत और नमूना जटिलता की कीमत पर आते हैं

अनुसंधान प्रेरणा

मानव संज्ञानात्मक आर्किटेक्चर में पुनर्वर्तनीयता विवेकपूर्ण निर्णय लेने और अनुकूली शिक्षा का आधार है। मनुष्य आदतन दिए गए कार्य के तत्काल पुरस्कार और उस कार्य के बाद के चरणों द्वारा उलट या ऑफसेट किए जाने की सीमा का मूल्यांकन करते हैं। यह पेपर सुदृढ़ीकरण शिक्षा ढांचे में "पूर्ववत" करने की इस क्षमता को एम्बेड करता है, जो व्यापक सुरक्षा-महत्वपूर्ण अनुप्रयोगों के लिए समाधान प्रदान करता है।

मूल योगदान

स्केलेबल मॉडल-मुक्त पुनर्वर्तनीयता अनुमानक: एक ऑनलाइन, प्रति-स्थिति-कार्य पुनर्वर्तनीयता अनुमानक Φ(s,a) प्रस्तावित करता है, जो वर्गीकरणकर्ता प्रशिक्षण से बचता है
स्पष्ट रोलबैक ऑपरेशन: स्पष्ट रोलबैक ऑपरेशन को सारणीबद्ध Q-शिक्षा और SARSA अपडेट में एकीकृत करता है
सिद्धांतपूर्ण युग्मन तंत्र: Φ आकार और चयनात्मक रोलबैक को सिद्धांतपूर्ण रूप से संयोजित करता है, अन्वेषण को दबाए बिना नीचे की ओर जोखिम को सीमित करता है
व्यापक मूल्यांकन: व्यापक मूल्यांकन, संवेदनशीलता विश्लेषण और विलोपन प्रयोगों के माध्यम से, सुरक्षा और प्रदर्शन के लिए महत्वपूर्ण घटकों की पहचान करता है

विधि विवरण

कार्य परिभाषा

मार्कोव निर्णय प्रक्रिया (S,A,P,R,γ) में, एजेंट स्थिति s∈S में कार्य a∈A चुनता है, पुरस्कार r प्राप्त करता है, और s'～P(·|s,a) में स्थानांतरित होता है। लक्ष्य आंशिक रूप से अपरिवर्तनीय वातावरण में सुरक्षा सुनिश्चित करते हुए इष्टतम कार्य मूल्य फ़ंक्शन Q*(s,a) सीखना है।

मॉडल आर्किटेक्चर

1. अनुभवजन्य पुनर्वर्तनीयता अनुमानक

FIFO संरचना के माध्यम से पुनर्वर्तनीयता अनुमान बनाए रखता है:

प्रत्येक देखे गए संक्रमण (st,at)→st+1 के लिए, रिकॉर्ड (s0,a0,d) को FIFO सूची L में धकेलता है
d = t+K वह समय सीमा है जिसके भीतर s0 पर लौटना चाहिए
पुनर्वर्तनीयता तालिका को घातीय गतिशील औसत (EMA) का उपयोग करके अपडेट करता है:

Φ[s0,a0] ← (1-αφ)Φ[s0,a0] + αφ·y

जहां y∈{0,1} यह दर्शाता है कि K चरणों के भीतर मूल स्थिति पर लौटा गया था या नहीं।

2. TD शिक्षा और दंड तंत्र

दंडित पुरस्कार बनाता है:

r' = r - λ(1 - Φ[st,at])

संशोधित TD त्रुटि:

Q-शिक्षा: δ = r' + γmax_a' Q(st+1,a') - Q(st,at)
SARSA: δ = r' + γQ(st+1,at+1) - Q(st,at)

3. रोलबैक ऑपरेशन

जब थ्रेशोल्ड स्थिति ट्रिगर होती है तो रोलबैक निष्पादित करता है:

snext = {
  st,     यदि थ्रेशोल्ड का उल्लंघन हो
  st+1,   अन्यथा
}

थ्रेशोल्ड स्थिति को परिभाषित किया गया है: लक्ष्य मूल्य ≤ T·Q(st,at)

तकनीकी नवाचार

हल्का पुनर्वर्तनीयता अनुमान: वर्गीकरणकर्ता-आधारित पूर्ववर्ती अनुमान को FIFO-आधारित अनुभवजन्य अनुमान से बदलता है, नीति-विशिष्ट अतिफिटिंग से बचता है
स्थानीयकृत दंड: प्रति-स्थिति-कार्य Φ का उपयोग करके स्थानीयकृत दंड उत्पन्न करता है, वैश्विक थ्रेशोल्ड के बजाय
स्पष्ट पूर्ववत तंत्र: कार्यान्वयन योग्य पुनर्प्राप्ति आदिम प्रदान करता है, उच्च-जोखिम संक्रमण का पता चलने पर तुरंत हानिकारक चरणों को पूर्ववत करता है
अनुकूली समय विंडो: पैरामीटर K के माध्यम से समय सीमा को नियंत्रित करता है, पुनः प्रशिक्षण के बिना अल्पकालीन या दीर्घकालीन पुनर्वर्तनीयता को कैप्चर करता है

प्रयोगात्मक सेटअप

डेटासेट

Gymnasium v1.2.0 में दो शास्त्रीय सारणीबद्ध "खिलौना-पाठ" वातावरण का उपयोग करता है:

CliffWalking-v0: 4×12 ग्रिड, नियतात्मक वातावरण
- अवलोकन स्थान: 48 पहुंचने योग्य स्थितियां
- कार्य स्थान: 4 असतत गतिविधियां
- चट्टान दंड: -100, नियमित चरण: -1
Taxi-v3: 5×5 ग्रिड, टैक्सी पिकअप-ड्रॉपऑफ कार्य
- अवलोकन स्थान: 500 स्थितियां
- कार्य स्थान: 6 कार्य
- अवैध कार्य दंड: -10, सफल डिलीवरी: +20

मूल्यांकन मेट्रिक्स

औसत एपिसोड रिटर्न
विनाशकारी घटनाओं की आवृत्ति (गिरावट/अवैध कार्य)
रोलबैक की संख्या
पुरस्कार विचरण
प्रक्षेपवक्र दक्षता (चरण/एपिसोड)

तुलनात्मक विधियां

आधारभूत Q-शिक्षा
केवल रोलबैक (RollbackOnly)
केवल थ्रेशोल्ड दंड (ThresholdPeAgent)
केवल पूर्ववर्ती अनुमान (PrecedenceOnly)
पूर्ण मॉडल (FullModel)

कार्यान्वयन विवरण

प्रशिक्षण बजट: प्रति वातावरण 100,000 स्वतंत्र एपिसोड
पैरामीटर सेटिंग: α=0.1, γ=0.99, ε=0.1
Q तालिका आरंभीकरण: Q0=-1
वातावरण-विशिष्ट हाइपरपैरामीटर ट्यूनिंग

प्रयोगात्मक परिणाम

मुख्य परिणाम

CliffWalking-v0 वातावरण

प्रदर्शन सुधार: औसत रिटर्न -399.77 से -179.81 तक (+55.0%)
सुरक्षा: गिरावट की संख्या 2.209 से 0.004 तक (-99.8%)
विचरण नियंत्रण: रिटर्न मानक विचलन 563.78 से 160.97 तक (-71.4%)
दक्षता: चरण केवल 1.01% बढ़ते हैं (181.06→182.89)

Taxi-v3 वातावरण

प्रदर्शन सुधार: औसत रिटर्न -1652.93 से -567.09 तक (+65.7%)
सुरक्षा: अवैध कार्य 110.217 से 0.069 तक (-99.9%)
विचरण नियंत्रण: रिटर्न मानक विचलन 652.74 से 267.00 तक (-59.1%)
प्रक्षेपवक्र लंबाई: चरण 2.46% बढ़ते हैं (681.85→698.65)

विलोपन प्रयोग

विलोपन अध्ययन पुष्टि करता है कि रोलबैक मुख्य चालक है:

RollbackOnly दोनों वातावरणों में पूर्ण मॉडल के लगभग सभी रिटर्न सुधार को पुनः प्राप्त करता है
PrecedenceOnly दोनों कार्यों में खराब प्रदर्शन करता है
थ्रेशोल्ड तंत्र माध्यमिक है, मुख्य रूप से रोलबैक के साथ युग्मित होने पर मूल्य जोड़ता है

पैरामीटर संवेदनशीलता विश्लेषण

वातावरण-विशिष्ट हाइपरपैरामीटर संवेदनशीलता:

CliffWalking-v0: K=2, λ=0.6, दंड=1.2, Φ0=0.0 (निराशावादी पूर्व)
Taxi-v3: K=0, λ=0.8, दंड=1.1, Φ0=0.8 (आशावादी पूर्व)

ये विरोधाभास दर्शाते हैं कि पुनर्वर्तनीयता-जागरूक सुदृढ़ीकरण शिक्षा को वातावरण-विशिष्ट पूर्वाग्रह समायोजन की आवश्यकता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सुरक्षा में उल्लेखनीय सुधार: दोनों वातावरणों में विनाशकारी विफलता >99% कम हुई
प्रदर्शन में बड़ी वृद्धि: संचयी पुरस्कार 55-66% बढ़ता है
विचरण प्रभावी नियंत्रण: पुरस्कार और सुरक्षा मेट्रिक्स में विचलन में उल्लेखनीय कमी
वातावरण अनुकूलन: विभिन्न वातावरणों के लिए विभिन्न इष्टतम पैरामीटराइजेशन की आवश्यकता है

सीमाएं

सारणीबद्ध वातावरण तक सीमित: निष्कर्ष फ़ंक्शन सन्निकटन सेटिंग्स में सीधे सामान्यीकृत नहीं हो सकते हैं
रोलबैक ऑपरेशन मान्यताएं: सुरक्षित पूर्ववर्ती स्थिति आदिम तक पहुंच की आवश्यकता है
हाइपरपैरामीटर संवेदनशीलता: वातावरण-जागरूक हाइपरपैरामीटर चयन की आवश्यकता है
व्यावहारिक प्रणाली अनुप्रयोग: वास्तविक प्रणालियों में रोलबैक गैर-तुच्छ हो सकता है

भविष्य की दिशाएं

रोलबैक को फ़ंक्शन सन्निकटन सेटिंग्स में एकीकृत करना
पूर्ववर्ती अनुमान के उपयोग के मामलों को कम करने के लिए प्रायोगिक डोमेन का विस्तार करना
वातावरण भर में अनुकूली हाइपरपैरामीटर ट्यूनिंग विकसित करना
रोबोटिक्स और निर्णय समर्थन प्रणालियों में रोलबैक के वास्तविक समकक्षों की जांच करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: सुदृढ़ीकरण शिक्षा में स्पष्ट "पूर्ववत" तंत्र को पहली बार पेश करता है, अवधारणा नई और सहज है
पर्याप्त प्रयोग: व्यापक विलोपन अध्ययन, पैरामीटर संवेदनशीलता विश्लेषण और सांख्यिकीय महत्व परीक्षण
प्रेरक परिणाम: सुरक्षा और प्रदर्शन दोनों में महत्वपूर्ण और सुसंगत सुधार
ठोस सैद्धांतिक आधार: मानव संज्ञान में पुनर्वर्तनीयता की अवधारणा को एल्गोरिथ्मिक ढांचे में औपचारिक रूप देता है

कमियां

वातावरण सीमाएं: केवल सरल सारणीबद्ध वातावरण में सत्यापित, जटिल वातावरण में सत्यापन की कमी
स्केलेबिलिटी समस्याएं: FIFO संरचना और सारणीबद्ध विधि की बड़े पैमाने की समस्याओं में स्केलेबिलिटी संदिग्ध है
व्यावहारिक सीमाएं: वास्तविक दुनिया में "रोलबैक" ऑपरेशन अव्यावहारिक या महंगा हो सकता है
अपर्याप्त सैद्धांतिक विश्लेषण: अभिसरण गारंटी और सैद्धांतिक प्रदर्शन सीमाओं की कमी

प्रभाव

शैक्षणिक योगदान: सुरक्षित सुदृढ़ीकरण शिक्षा के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: सुरक्षा-महत्वपूर्ण अनुप्रयोगों के लिए कार्यान्वयन योग्य समाधान ढांचा प्रदान करता है
पुनरुत्पादनीयता: विधि सरल और स्पष्ट है, पुनरुत्पादन और विस्तार में आसान है

लागू परिदृश्य

सुरक्षा-महत्वपूर्ण प्रणालियां: स्वायत्त ड्राइविंग, चिकित्सा उपकरण, औद्योगिक नियंत्रण
गेम AI: घातक त्रुटियों से बचने की आवश्यकता वाली रणनीति गेम
रोबोट नियंत्रण: त्रुटि सुधार क्षमता की आवश्यकता वाले संचालन कार्य
वित्तीय व्यापार: जोखिम नियंत्रण की आवश्यकता वाली स्वचालित व्यापार प्रणालियां

संदर्भ

पेपर सुदृढ़ीकरण शिक्षा मूल सिद्धांत, सुरक्षित अन्वेषण, मूल्य अति-अनुमान आदि मूल क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हुए 48 संबंधित संदर्भों का हवाला देता है, जो इस अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह एक नवाचारी और व्यावहारिक मूल्य वाला पेपर है जो मानव संज्ञान में "पूर्ववत" की अवधारणा को सुदृढ़ीकरण शिक्षा में सफलतापूर्वक प्रस्तुत करता है, सुरक्षा और प्रदर्शन दोनों में महत्वपूर्ण सुधार प्राप्त करता है। हालांकि वर्तमान में सारणीबद्ध वातावरण तक सीमित है, यह भविष्य के सुरक्षित सुदृढ़ीकरण शिक्षा अनुसंधान के लिए नई दिशा खोलता है।