This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- पेपर ID: 2509.18964
- शीर्षक: असिंक्रोनस औसत Q-लर्निंग के लिए केंद्रीय सीमा प्रमेय
- लेखक: Xingtu Liu (साइमन फ्रेजर विश्वविद्यालय)
- वर्गीकरण: cs.LG math.OC stat.ML
- प्रकाशन सम्मेलन: OPT2025: मशीन लर्निंग के लिए अनुकूलन पर 17वीं वार्षिक कार्यशाला
- पेपर लिंक: https://arxiv.org/abs/2509.18964
यह पेपर असिंक्रोनस अपडेट के तहत Polyak-Ruppert औसत Q-लर्निंग के लिए केंद्रीय सीमा प्रमेय स्थापित करता है। लेख एक गैर-स्पर्शोन्मुख केंद्रीय सीमा प्रमेय साबित करता है, जिसका Wasserstein दूरी में अभिसरण दर पुनरावृत्तियों की संख्या, स्थिति-क्रिया स्पेस के आकार, छूट कारक और अन्वेषण गुणवत्ता पर निर्भरता को स्पष्ट रूप से प्रतिबिंबित करता है। इसके अतिरिक्त, एक कार्यात्मक केंद्रीय सीमा प्रमेय भी प्राप्त किया गया है, जो दर्शाता है कि आंशिक योग प्रक्रिया ब्राउनियन गति में कमजोर रूप से अभिसरित होती है।
- Q-लर्निंग का महत्व: Q-लर्निंग सुदृढ़ शिक्षा में सबसे व्यापक रूप से उपयोग किए जाने वाले एल्गोरिदम में से एक है, जो अनुभवजन्य प्रक्षेपवक्र से सीधे इष्टतम क्रिया-मूल्य फ़ंक्शन सीखता है, और Atari गेम, Go, रोबोटिक्स हेराफेरी और बड़े भाषा मॉडल संरेखण जैसे क्षेत्रों में विशाल सफलता प्राप्त की है।
- सैद्धांतिक विश्लेषण की चुनौतियाँ:
- Q-लर्निंग को स्टोकेस्टिक सन्निकटन (SA) का एक उदाहरण माना जा सकता है, लेकिन असिंक्रोनस Q-लर्निंग मार्कोवियन शोर के साथ एक गैर-रैखिक SA समस्या है
- रैखिक SA और TD लर्निंग की तुलना में, Q-लर्निंग का विश्लेषण अधिक चुनौतीपूर्ण है क्योंकि इसकी गैर-रैखिकता, गैर-चिकनी ऑपरेटर और गैर-स्थिर प्रक्रिया की विशेषताएं हैं
- असिंक्रोनस अपडेट मार्कोवियन शोर को और भी जोड़ता है, जिससे विश्लेषण की जटिलता बढ़ जाती है
- मौजूदा कार्य की सीमाएं:
- पूर्ववर्ती कार्य ने सिंक्रोनस Q-लर्निंग के लिए कार्यात्मक CLT स्थापित किया है, लेकिन सिंक्रोनस Q-लर्निंग केवल मार्टिंगेल शोर पर विचार करता है
- Zhang और Xie (2024) ने स्थिर चरण-लंबाई के असिंक्रोनस Q-लर्निंग के लिए कार्यात्मक CLT स्थापित किया है, लेकिन स्थिर चरण-लंबाई गैर-स्पर्शोन्मुख CLT स्थापित करने के लिए आवश्यक शर्तों को पूरा नहीं करती है
- वर्तमान में Q-लर्निंग के लिए कोई गैर-स्पर्शोन्मुख CLT नहीं है, यहां तक कि सिंक्रोनस सेटिंग में भी
केंद्रीय सीमा प्रमेय स्थापित करना एल्गोरिदम के सांख्यिकीय गुणों को समझने के लिए महत्वपूर्ण है, यह स्पर्शोन्मुख सामान्यता सुदृढ़ शिक्षा में अनिश्चितता परिमाणीकरण और सांख्यिकीय अनुमान के लिए महत्वपूर्ण है।
- Q-लर्निंग का पहला गैर-स्पर्शोन्मुख CLT: असिंक्रोनस औसत Q-लर्निंग के लिए गैर-स्पर्शोन्मुख केंद्रीय सीमा प्रमेय साबित किया गया है, अभिसरण दर O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3) है
- कार्यात्मक केंद्रीय सीमा प्रमेय: क्षय चरण-लंबाई के तहत असिंक्रोनस Q-लर्निंग के लिए कार्यात्मक CLT स्थापित किया गया है, जो दर्शाता है कि आंशिक योग प्रक्रिया ब्राउनियन गति में कमजोर रूप से अभिसरित होती है
- स्पष्ट निर्भरता संबंध: अभिसरण दर पुनरावृत्तियों की संख्या K, स्थिति-क्रिया स्पेस के आकार |S||A|, छूट कारक γ और अन्वेषण गुणवत्ता ρ पर निर्भरता को स्पष्ट रूप से प्रतिबिंबित करता है
- तकनीकी नवाचार: गैर-रैखिकता, मार्कोवियन शोर और गैर-चिकनी ऑपरेटर द्वारा लाई गई विश्लेषणात्मक चुनौतियों को हल किया गया है
अनंत क्षितिज छूट मार्कोव निर्णय प्रक्रिया (MDP) M=⟨S,A,P,r,γ⟩ पर विचार करें, जहां:
- S: स्थिति समुच्चय
- A: क्रिया समुच्चय
- P:S×A→ΔS: संक्रमण संभाव्यता फ़ंक्शन
- γ∈[0,1): छूट कारक
लक्ष्य इष्टतम Q फ़ंक्शन Q∗=maxπQπ सीखना है।
असिंक्रोनस Q-लर्निंग Q फ़ंक्शन अनुमानक Qk को बनाए रखता है, अपडेट नियम है:
Qk+1=Qk+αk(Fk−Qk)
जहां:
- Fk=F(Qk,yk), yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
मान्यता 1: एक इष्टतम नीति π∗ मौजूद है जैसे कि Q∈R∣S∣×∣A∣ के लिए:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
मान्यता 2: {yk}k≥0 एक अपरिवर्तनीय और अ-आवधिक परिमित-स्थिति मार्कोव श्रृंखला है।
बहुपद चरण-लंबाई αk=α(k+b)−β चुनें, जहां α,b>0, β∈(0.5,1)।
इस चयन के कारण:
- Polyak-Juditsky औसत योजना की मुख्य शर्तों को पूरा करता है
- स्थिर चरण-लंबाई शर्तें (i) और (iii) का उल्लंघन करती है, रैखिक चरण-लंबाई शर्त (ii) का उल्लंघन करती है
- बहुपद चरण-लंबाई सभी आवश्यक शर्तों को पूरा करती है
प्रमेय 4: मान्यताओं 1 और 2 के तहत:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
जहां Δk=Qk−Q∗, N~=(A−1ΣA−⊤)1/2N(0,I)।
परिणाम 5: जब β=2/3 हो, तो अभिसरण दर सरल हो जाता है:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
प्रमेय 6: प्रमेय 4 की सेटिंग में, आंशिक योग प्रक्रिया ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk D[0,1] पर (A−1ΣA−⊤)1/2B(⋅) में कमजोर रूप से अभिसरित होती है, जहां B(⋅) एक मानक ब्राउनियन गति है।
- गैर-रैखिकता: Q-लर्निंग एक गैर-रैखिक SA है, जो रैखिक SA से अधिक जटिल है
- मार्कोवियन शोर: असिंक्रोनस अपडेट गैर-स्वतंत्र समान वितरण वाले मार्कोवियन शोर को प्रस्तुत करता है
- गैर-चिकनी ऑपरेटर: असिंक्रोनस Q-लर्निंग में अनुभवजन्य Bellman ऑपरेटर गैर-चिकना है
- ऊपरी और निचली सीमा तकनीक: ऊपरी सीमा अनुक्रम Δk↑ और निचली सीमा अनुक्रम Δk↓ को प्रस्तुत करके, निचोड़ प्रमेय का उपयोग करते हुए
- पद विघटन: ∑k=1KΔk को छह पदों में विघटित करें:
- पद (1): प्रारंभिक त्रुटि पद
- पद (2): गैर-रैखिक त्रुटि पद
- पद (3): मार्कोवियन शोर पद
- पद (4-5): उच्च-क्रम सुधार पद
- पद (6): मार्टिंगेल अंतर अनुक्रम
- Poisson समीकरण तकनीक: मार्कोवियन शोर को मार्टिंगेल अंतर अनुक्रम में रूपांतरित करना
- मार्टिंगेल केंद्रीय सीमा प्रमेय: Srikant (2024) के गैर-स्पर्शोन्मुख मार्टिंगेल CLT को लागू करना
- Polyak, B. T. और Juditsky, A. B. (1992): औसत द्वारा स्टोकेस्टिक सन्निकटन का त्वरण
- Anastasiou आदि (2019): Polyak-Ruppert औसत SGD का गैर-स्पर्शोन्मुख CLT
- Mou आदि (2020): रैखिक SA का गैर-स्पर्शोन्मुख CLT
- Xie और Zhang (2022), Li आदि (2023): सिंक्रोनस Q-लर्निंग का कार्यात्मक CLT
- Zhang और Xie (2024): स्थिर चरण-लंबाई असिंक्रोनस Q-लर्निंग का कार्यात्मक CLT
- Srikant (2024), Samsonov आदि (2024): TD लर्निंग का गैर-स्पर्शोन्मुख CLT
- Q-लर्निंग के लिए पहला गैर-स्पर्शोन्मुख CLT स्थापित किया गया है, अभिसरण दर समस्या के मापदंडों पर स्पष्ट रूप से निर्भर करता है
- असिंक्रोनस Q-लर्निंग आंशिक योग प्रक्रिया के कमजोर अभिसरण को साबित किया गया है
- सुदृढ़ शिक्षा में अनिश्चितता परिमाणीकरण के लिए सैद्धांतिक आधार प्रदान किया गया है
- मजबूत Lipschitz मान्यता की आवश्यकता है (मान्यता 1)
- केवल परिमित स्थिति-क्रिया स्पेस पर विचार करता है
- अभिसरण दर इष्टतम नहीं हो सकती है
- अभिसरण दर में सुधार
- 1-Wasserstein दूरी के अलावा अन्य मेट्रिक्स तक विस्तार
- कार्यात्मक सन्निकटन सेटिंग पर विचार करना
- महत्वपूर्ण सैद्धांतिक योगदान: Q-लर्निंग के लिए पहला गैर-स्पर्शोन्मुख CLT, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है
- तकनीकी नवाचार: ऊपरी और निचली सीमा तकनीक, Poisson समीकरण और मार्टिंगेल CLT को चतुराई से संयोजित करके तकनीकी कठिनाइयों को हल किया गया है
- पूर्ण परिणाम: गैर-स्पर्शोन्मुख और कार्यात्मक CLT दोनों दिए गए हैं
- स्पष्ट निर्भरता संबंध: अभिसरण दर प्रत्येक मापदंड के प्रभाव को स्पष्ट रूप से प्रतिबिंबित करता है
- मजबूत मान्यताएं: Lipschitz मान्यता व्यावहारिक रूप से सत्यापित करना मुश्किल हो सकता है
- अभिसरण दर: K−1/6 की अभिसरण दर अपेक्षाकृत धीमी है
- परिमित स्थिति: निरंतर स्थिति स्पेस या कार्यात्मक सन्निकटन पर विचार नहीं किया गया है
- सैद्धांतिक मूल्य: Q-लर्निंग सैद्धांतिक विश्लेषण के लिए नए उपकरण और दृष्टिकोण प्रदान करता है
- व्यावहारिक महत्व: सुदृढ़ शिक्षा एल्गोरिदम के अनिश्चितता परिमाणीकरण के लिए सैद्धांतिक आधार स्थापित करता है
- पद्धति: प्रमाण तकनीक अन्य गैर-रैखिक SA समस्याओं तक सामान्यीकृत की जा सकती है
- तालिका-आधारित सुदृढ़ शिक्षा समस्याओं का सैद्धांतिक विश्लेषण
- असिंक्रोनस अपडेट एल्गोरिदम के अभिसरण अनुसंधान
- सुदृढ़ शिक्षा में सांख्यिकीय अनुमान और विश्वास अंतराल निर्माण
- Polyak, B. T. और Juditsky, A. B. (1992). औसत द्वारा स्टोकेस्टिक सन्निकटन का त्वरण।
- Xie, C. और Zhang, Z. (2022). औसत स्टोकेस्टिक सन्निकटन में एक सांख्यिकीय ऑनलाइन अनुमान दृष्टिकोण।
- Zhang, Y. और Xie, Q. (2024). स्थिर चरण-लंबाई Q-लर्निंग: वितरणात्मक अभिसरण, पूर्वाग्रह और एक्सट्रापोलेशन।