As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- पेपर ID: 2511.04256
- शीर्षक: SSPO: Subsentence-level Policy Optimization
- लेखक: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन तिथि: 6 नवंबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2511.04256
यह पेपर बड़े भाषा मॉडल (LLMs) के पश्च-प्रशिक्षण में सुदृढ़ीकरण सीखने के एल्गोरिदम के लिए SSPO (उप-वाक्य-स्तरीय नीति अनुकूलन) विधि प्रस्तावित करता है। मौजूदा RLVR (सत्यापन योग्य पुरस्कार सुदृढ़ीकरण सीखना) एल्गोरिदम जैसे GRPO और GSPO क्रमशः प्रशिक्षण अस्थिरता और कम नमूना उपयोग दर की समस्याओं का सामना करते हैं। GRPO टोकन-स्तरीय महत्व अनुपात का उपयोग करता है, जो विषम मानों से प्रभावित होकर प्रशिक्षण के पतन का कारण बनता है; GSPO प्रतिक्रिया-स्तरीय महत्व अनुपात का उपयोग करता है, जो उच्च विचरण समस्या को हल करता है लेकिन संपूर्ण प्रतिक्रिया को क्लिपिंग तंत्र द्वारा त्यागे जाने का कारण बनता है। SSPO वाक्य-स्तरीय महत्व अनुपात का परिचय देकर GRPO और GSPO के बीच संतुलन प्राप्त करता है। इसके अलावा, SSPO एक अनुकूली एन्ट्रॉपी क्लिपिंग तंत्र प्रस्तावित करता है जो क्लिपिंग सीमाओं को गतिशील रूप से समायोजित करता है, उच्च-एन्ट्रॉपी टोकन अन्वेषण को प्रोत्साहित करता है, और निम्न-एन्ट्रॉपी टोकन के अपडेट को सीमित करता है। प्रायोगिक परिणाम दिखाते हैं कि SSPO पाँच गणितीय तर्क डेटासेट पर औसत स्कोर 46.57 प्राप्त करता है, जो GRPO (43.01) और GSPO (44.42) को पार करता है, और तीन डेटासेट पर सर्वोत्तम प्रदर्शन प्राप्त करता है।
इस पेपर द्वारा समाधान की जाने वाली मूल समस्या यह है: बड़े भाषा मॉडल के सुदृढ़ीकरण सीखने के प्रशिक्षण में, प्रशिक्षण स्थिरता को बनाए रखते हुए नमूना उपयोग दर को कैसे बढ़ाया जाए, साथ ही एन्ट्रॉपी पतन घटना से कैसे बचा जाए।
- तर्क क्षमता वृद्धि की आवश्यकता: गणित, प्रोग्रामिंग आदि जटिल तर्क कार्यों में LLMs के अनुप्रयोग के साथ, प्रभावी पश्च-प्रशिक्षण अनुकूलन के लिए सुदृढ़ीकरण सीखने की आवश्यकता है
- प्रशिक्षण दक्षता और स्थिरता: बड़े पैमाने पर RL प्रशिक्षण को कम्प्यूटेशनल दक्षता और प्रशिक्षण स्थिरता के बीच संतुलन की आवश्यकता है, मॉडल पतन से बचने के लिए
- नमूना उपयोग दर: सीमित कम्प्यूटेशनल संसाधनों के तहत, उत्पन्न नमूना डेटा का अधिकतम उपयोग करना महत्वपूर्ण है
GRPO की समस्याएं:
- टोकन-स्तरीय महत्व अनुपात गणना का उपयोग: wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
- प्रत्येक टोकन का ग्रेडिएंट वजन भिन्न होता है, जिससे नीति ग्रेडिएंट उच्च विचरण होता है
- विषम टोकन से प्रभावित होने के लिए प्रवण, प्रतिक्रिया लंबाई बढ़ने के साथ प्रशिक्षण शोर जमा होता है, अंततः मॉडल प्रशिक्षण पतन का कारण बनता है
GSPO की समस्याएं:
- प्रतिक्रिया-स्तरीय महत्व अनुपात का उपयोग: si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
- संपूर्ण प्रतिक्रिया के सभी टोकन एक ही महत्व अनुपात साझा करते हैं
- जब कुछ टोकन में चरम महत्व वजन होता है, तो यह समग्र औसत को प्रभावित करता है, जिससे संपूर्ण प्रतिक्रिया PPO-CLIP तंत्र द्वारा त्यागी जाती है
- नमूना उपयोग दर में कमी, डेटा बर्बादी का कारण बनता है
लेखक मानते हैं कि टोकन-स्तरीय और प्रतिक्रिया-स्तरीय के बीच एक संतुलन बिंदु खोजने की आवश्यकता है, जो GSPO की प्रशिक्षण स्थिरता लाभ को बनाए रखते हुए नमूना उपयोग दर को बढ़ा सके, साथ ही गतिशील क्लिपिंग तंत्र समायोजन के माध्यम से एन्ट्रॉपी पतन समस्या को कम कर सके।
- उप-वाक्य-स्तरीय महत्व अनुपात प्रस्तावित करना: प्रतिक्रिया को कई अर्थपूर्ण खंडों में विभाजित करके (लाइन ब्रेक या डबल लाइन ब्रेक द्वारा सीमांकित), वाक्य दानेदारता पर महत्व अनुपात की गणना करना, GRPO के टोकन-स्तरीय और GSPO के प्रतिक्रिया-स्तरीय के बीच संतुलन प्राप्त करना
- अनुकूली एन्ट्रॉपी क्लिपिंग तंत्र डिजाइन करना: उप-वाक्य की एन्ट्रॉपी के आधार पर PPO-CLIP की क्लिपिंग सीमाओं को गतिशील रूप से समायोजित करना, उच्च-एन्ट्रॉपी टोकन के लिए क्लिपिंग रेंज को विस्तृत करके अन्वेषण को प्रोत्साहित करना, निम्न-एन्ट्रॉपी टोकन के लिए क्लिपिंग रेंज को संकीर्ण करके अपडेट को सीमित करना
- प्रायोगिक सत्यापन: Qwen2.5-Math-1.5B और 7B मॉडल पर, 5 गणितीय तर्क बेंचमार्क का उपयोग करके, SSPO औसत प्रदर्शन GRPO, GSPO, Dr.GRPO और GMPO आदि आधारभूत विधियों को पार करता है
- सैद्धांतिक विश्लेषण: विस्तृत ग्रेडिएंट उद्देश्य व्युत्पन्न प्रदान करना, यह साबित करना कि SSPO का ग्रेडिएंट वजन खंड के भीतर सुसंगत है, टोकन के बीच शोर हस्तक्षेप को समाप्त करता है, नीति ग्रेडिएंट विचरण को कम करता है
दिए गए प्रश्न x और प्रतिक्रिया y को देखते हुए, लक्ष्य सुदृढ़ीकरण सीखने के माध्यम से नीति πθ को अनुकूलित करना है, ताकि यह गणितीय तर्क कार्यों पर उच्च सत्यापन योग्य पुरस्कार r(x,y) प्राप्त कर सके। प्रत्येक प्रश्न के लिए, G प्रतिक्रिया नमूने उत्पन्न करें, समूह के भीतर सापेक्ष लाभ अनुमान के माध्यम से नीति अपडेट करें।
प्रतिक्रिया विभाजन:
- प्रतिक्रिया yi को लाइन ब्रेक या डबल लाइन ब्रेक द्वारा Nseg(yi) अर्थपूर्ण खंडों में विभाजित करें
- j-वां खंड yi,j के रूप में दर्ज किया जाता है, लंबाई ∣yi,j∣ के साथ
महत्व अनुपात गणना:
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
लाभ अनुमान (प्रतिक्रिया-स्तरीय):
A^i=std({r(x,yi)}i=1G)r(x,yi)−mean({r(x,yi)}i=1G)
अनुकूलन उद्देश्य (क्लिपिंग के बिना):
JSSPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣si,j(θ)A^i]
SSPO का ग्रेडिएंट उद्देश्य:
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
मुख्य विशेषता: एक ही खंड के भीतर सभी टोकन का ग्रेडिएंट वजन समान है, टोकन के बीच शोर हस्तक्षेप को समाप्त करता है, नीति ग्रेडिएंट विचरण को कम करता है।
टोकन-स्तरीय एन्ट्रॉपी गणना:
Ht=−∑v∈Vπθold(v∣x,o<t)logπθold(v∣x,o<t)
खंड-स्तरीय एन्ट्रॉपी:
Hi,j=∣yi,j∣1∑t=1∣yi,j∣Ht
गतिशील क्लिपिंग सीमाएं:
- ऊपरी सीमा: ϵhigh=1+α+Hi,j (α हाइपरपैरामीटर है)
- निचली सीमा:
0.3, & H_{i,j} > 1 \\
1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\
0.8, & H_{i,j} < 0.5
\end{cases}$$
**अंतिम अनुकूलन उद्देश्य**:
$$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$
### तकनीकी नवाचार बिंदु
#### 1. दानेदारता संतुलन डिजाइन
- **टोकन-स्तरीय (GRPO)**: अत्यधिक सूक्ष्म दानेदारता, उच्च विचरण
- **प्रतिक्रिया-स्तरीय (GSPO)**: अत्यधिक मोटी दानेदारता, कम नमूना उपयोग दर
- **उप-वाक्य-स्तरीय (SSPO)**: स्थिरता और नमूना उपयोग दर के बीच सर्वोत्तम संतुलन
#### 2. अनुकूली क्लिपिंग की तर्कसंगतता
- **उच्च-एन्ट्रॉपी परिदृश्य** ($H_{i,j} > 1$): मॉडल इन टोकन के बारे में अनिश्चित है, अन्वेषण को प्रोत्साहित करने के लिए क्लिपिंग रेंज को विस्तृत करें
- **मध्यम-एन्ट्रॉपी परिदृश्य** ($0.5 \leq H_{i,j} \leq 1$): क्लिपिंग रेंज को रैखिक रूप से समायोजित करें
- **निम्न-एन्ट्रॉपी परिदृश्य** ($H_{i,j} < 0.5$): मॉडल ने ये टोकन अच्छी तरह सीख लिए हैं, अपडेट को सीमित करने के लिए क्लिपिंग रेंज को संकीर्ण करें, अति-फिटिंग को रोकें
#### 3. LPO के साथ अंतर
समवर्ती कार्य LPO ने भी वाक्य दानेदारता महत्व नमूनाकरण प्रस्तावित किया है, लेकिन दो मुख्य अंतर हैं:
- **लाभ अनुमान सामान्यीकरण**: LPO टोकन-स्तरीय सामान्यीकरण करता है (प्रतिक्रिया लंबाई से प्रभावित), SSPO प्रतिक्रिया-स्तरीय सामान्यीकरण करता है (प्रतिक्रिया लंबाई से स्वतंत्र)
- **क्लिपिंग तंत्र**: LPO निश्चित PPO-CLIP का उपयोग करता है, SSPO अनुकूली एन्ट्रॉपी क्लिपिंग का उपयोग करता है
## प्रायोगिक सेटअप
### डेटासेट
**प्रशिक्षण डेटा**:
- **MATH Level 3-5**: 8523 गणितीय समस्याओं को शामिल करता है
- प्रत्येक समस्या के लिए 8 rollouts नमूना लें
- प्रतिक्रिया लंबाई सीमा 3000 टोकन पर सेट करें
- बैच आकार 128 पर सेट करें
**मूल्यांकन डेटासेट** (5 गणितीय तर्क बेंचमार्क):
1. **MATH-500**: MATH डेटासेट से 500 समस्याएं, बीजगणित, ज्यामिति, संख्या सिद्धांत आदि को शामिल करती हैं
2. **AMC23**: 83 मध्यम कठिनाई के बहुविकल्पीय प्रश्न
3. **AIME24**: 2024 अमेरिकी गणित आमंत्रण परीक्षा से 30 ओलंपिक-स्तरीय समस्याएं
4. **Minerva**: 272 स्नातक-स्तरीय बहु-चरणीय तर्क समस्याएं
5. **Olympiad Bench**: 675 उच्च कठिनाई वाली ओलंपिक समस्याएं
### मूल्यांकन मेट्रिक्स
- **लालची डिकोडिंग सटीकता (Avg@1)**: लालची डिकोडिंग का उपयोग करके मॉडल प्रदर्शन का मूल्यांकन करें
- **औसत स्कोर**: पाँच डेटासेट की औसत सटीकता
### तुलनात्मक विधियां
1. **GRPO**: टोकन-स्तरीय महत्व अनुपात की आधारभूत विधि
2. **GSPO**: प्रतिक्रिया-स्तरीय महत्व अनुपात विधि
3. **Dr.GRPO**: GRPO का सुधारा गया संस्करण
4. **GMPO**: ज्यामितीय माध्य नीति अनुकूलन
5. **SSPO (w/o entropy clip)**: केवल उप-वाक्य-स्तरीय महत्व अनुपात का उपयोग करते हुए, अनुकूली एन्ट्रॉपी क्लिपिंग का उपयोग न करने वाला विलोपन संस्करण
### कार्यान्वयन विवरण
- **मॉडल**: Qwen2.5-Math-1.5B और Qwen2.5-Math-7B
- **ढांचा**: veRL सुदृढ़ीकरण सीखने का ढांचा
- **टेम्पलेट**: प्रशिक्षण और मूल्यांकन के लिए Qwen-Math टेम्पलेट का उपयोग करें
- **मूल्यांकन रणनीति**: हर 10 चरणों पर 5 डेटासेट पर मूल्यांकन करें, अंतिम परिणाम के रूप में सर्वोत्तम स्कोर चुनें
## प्रायोगिक परिणाम
### मुख्य परिणाम
#### Qwen2.5-Math-1.5B मॉडल
| विधि | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 |
| GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 |
| Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 |
| GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 |
| SSPO (w/o entropy clip) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 |
| **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** |
#### Qwen2.5-Math-7B मॉडल
| विधि | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 |
| GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 |
| Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 |
| GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 |
| SSPO (w/o entropy clip) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 |
| **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** |
**मुख्य निष्कर्ष**:
1. **समग्र प्रदर्शन**: SSPO दोनों मॉडल आकारों पर सर्वोच्च औसत स्कोर प्राप्त करता है
- 1.5B मॉडल: 46.57 बनाम GRPO 43.01 (+3.56) बनाम GSPO 44.42 (+2.15)
- 7B मॉडल: 54.85 बनाम GRPO 53.15 (+1.70) बनाम GSPO 53.75 (+1.10)
2. **स्केल विस्तार**: SSPO बड़े मॉडल पर लाभ बनाए रखता है, हालांकि सुधार की मात्रा थोड़ी कम है
3. **SOTA प्रदर्शन**: 1.5B मॉडल के AIME24, AMC23 और Minerva तीन डेटासेट पर सर्वोत्तम प्राप्त करता है
### विलोपन प्रयोग
#### उप-वाक्य-स्तरीय महत्व अनुपात का योगदान
SSPO (w/o entropy clip) को GRPO और GSPO के साथ तुलना करें:
- **1.5B मॉडल**: 45.72 बनाम GRPO 43.01 (+2.71) बनाम GSPO 44.42 (+1.30)
- **7B मॉडल**: 53.99 बनाम GRPO 53.15 (+0.84) बनाम GSPO 53.75 (+0.24)
**निष्कर्ष**: उप-वाक्य-स्तरीय महत्व अनुपात स्वयं महत्वपूर्ण सुधार लाता है, दानेदारता चयन की महत्ता को साबित करता है।
#### अनुकूली एन्ट्रॉपी क्लिपिंग का योगदान
SSPO को SSPO (w/o entropy clip) के साथ तुलना करें:
- **1.5B मॉडल**: 46.57 बनाम 45.72 (+0.85)
- **7B मॉडल**: 54.85 बनाम 53.99 (+0.86)
**निष्कर्ष**: अनुकूली एन्ट्रॉपी क्लिपिंग दोनों मॉडल आकारों पर लगभग 0.85 का सुसंगत सुधार लाता है, इसकी प्रभावशीलता को साबित करता है।
### एन्ट्रॉपी विश्लेषण
चित्र 1 SSPO, SSPO (w/o entropy clip), GSPO और GRPO के प्रशिक्षण एन्ट्रॉपी परिवर्तन को दिखाता है:
**अवलोकन परिणाम**:
1. **GRPO और GSPO**: एन्ट्रॉपी तेजी से घटता है, मॉडल के जल्दी अभिसरण को दर्शाता है, एन्ट्रॉपी पतन जोखिम मौजूद है
2. **SSPO (w/o entropy clip)**: एन्ट्रॉपी GRPO और GSPO की तुलना में थोड़ी धीमी गति से घटता है
3. **SSPO**: एन्ट्रॉपी सर्वोच्च स्तर पर रहता है, सबसे धीमी गति से घटता है, यह दर्शाता है कि अनुकूली एन्ट्रॉपी क्लिपिंग एन्ट्रॉपी पतन को प्रभावी ढंग से कम करता है
**महत्व**: उच्च एन्ट्रॉपी का अर्थ है कि मॉडल अन्वेषण क्षमता बनाए रखता है, स्थानीय इष्टतम में जल्दी फंसता नहीं है, यह SSPO प्रदर्शन सुधार के तंत्र को समझाता है।
### प्रायोगिक निष्कर्ष
1. **दानेदारता संतुलन की महत्ता**: टोकन-स्तरीय और प्रतिक्रिया-स्तरीय के बीच उपयुक्त दानेदारता (उप-वाक्य-स्तरीय) चुनना प्रदर्शन के लिए महत्वपूर्ण है
2. **एन्ट्रॉपी प्रबंधन की आवश्यकता**: क्लिपिंग सीमाओं को गतिशील रूप से समायोजित करना एन्ट्रॉपी पतन को प्रभावी ढंग से रोक सकता है, प्रशिक्षण स्थिरता बनाए रख सकता है
3. **नमूना उपयोग दर में सुधार**: उप-वाक्य-स्तरीय महत्व अनुपात क्लिपिंग दर को कम करता है, नमूना उपयोग दक्षता में सुधार करता है
4. **मॉडल स्केल का प्रभाव**: बड़े मॉडल (7B) पर, आधारभूत विधियों के बीच प्रदर्शन अंतर कम हो जाता है, लेकिन SSPO अभी भी आगे रहता है
## संबंधित कार्य
### 1. GRPO सुदृढ़ीकरण सीखने का एल्गोरिदम
- **DeepSeek-R1 का सफल अनुप्रयोग**: GRPO तर्क कार्यों पर गुणात्मक छलांग प्राप्त करता है
- **मूल समस्या**: टोकन-स्तरीय महत्व अनुपात उच्च विचरण और प्रशिक्षण अस्थिरता का कारण बनता है
- **इस पेपर में सुधार**: उप-वाक्य-स्तरीय महत्व अनुपात और गतिशील क्लिपिंग का परिचय
### 2. महत्व अनुपात गणना
- **GRPO**: टोकन-स्तरीय, $w_{i,t}(θ)$, उच्च विचरण समस्या
- **GSPO**: प्रतिक्रिया-स्तरीय, $s_i(θ)$, कम नमूना उपयोग दर समस्या
- **LPO** (समवर्ती कार्य): वाक्य दानेदारता, लेकिन टोकन-स्तरीय सामान्यीकरण और निश्चित क्लिपिंग का उपयोग करता है
- **SSPO**: उप-वाक्य-स्तरीय, प्रतिक्रिया-स्तरीय सामान्यीकरण + अनुकूली एन्ट्रॉपी क्लिपिंग
### 3. क्लिपिंग तंत्र
- **PPO-CLIP**: मानक निश्चित क्लिपिंग रेंज
- **CISPO**: नरम क्लिपिंग ग्रेडिएंट
- **DCPO**: टोकन संभावना के आधार पर गतिशील क्लिपिंग
- **SSPO**: एन्ट्रॉपी के आधार पर अनुकूली क्लिपिंग, विशेष रूप से एन्ट्रॉपी पतन समस्या को हल करने के लिए
### 4. इस पेपर के लाभ
- **सैद्धांतिक पूर्णता**: विस्तृत ग्रेडिएंट व्युत्पन्न और सैद्धांतिक विश्लेषण प्रदान करता है
- **विधि नवीनता**: पहली बार उप-वाक्य-स्तरीय महत्व अनुपात और अनुकूली एन्ट्रॉपी क्लिपिंग को जोड़ता है
- **प्रायोगिक पूर्णता**: कई मॉडल आकारों और डेटासेट पर प्रभावशीलता को सत्यापित करता है
## निष्कर्ष और चर्चा
### मुख्य निष्कर्ष
1. **SSPO प्रभावशीलता**: उप-वाक्य-स्तरीय महत्व अनुपात और अनुकूली एन्ट्रॉपी क्लिपिंग के माध्यम से, SSPO गणितीय तर्क कार्यों पर मौजूदा विधियों को महत्वपूर्ण रूप से पार करता है
2. **दानेदारता संतुलन**: उप-वाक्य-स्तरीय टोकन-स्तरीय और प्रतिक्रिया-स्तरीय के बीच सर्वोत्तम संतुलन बिंदु है, प्रशिक्षण स्थिरता और नमूना उपयोग दर दोनों को सुनिश्चित करता है
3. **एन्ट्रॉपी प्रबंधन**: अनुकूली एन्ट्रॉपी क्लिपिंग तंत्र एन्ट्रॉपी पतन को प्रभावी ढंग से कम करता है, मॉडल अन्वेषण क्षमता बनाए रखता है
4. **स्केलेबिलिटी**: SSPO विभिन्न मॉडल आकारों (1.5B और 7B) पर उत्कृष्ट प्रदर्शन करता है
### सीमाएं
1. **अर्थपूर्ण विभाजन निर्भरता**: वर्तमान में लाइन ब्रेक को विभाजन मानदंड के रूप में उपयोग करता है, सभी कार्य प्रकारों के लिए उपयुक्त नहीं हो सकता है (जैसे स्पष्ट वाक्य संरचना के बिना कोड जनरेशन)
2. **हाइपरपैरामीटर संवेदनशीलता**: अनुकूली एन्ट्रॉपी क्लिपिंग अतिरिक्त हाइपरपैरामीटर (जैसे α और एन्ट्रॉपी थ्रेसहोल्ड) का परिचय देता है, विभिन्न कार्यों के लिए ट्यूनिंग की आवश्यकता है
3. **सीमित मूल्यांकन रेंज**: प्रयोग मुख्य रूप से गणितीय तर्क कार्यों पर केंद्रित हैं, अन्य क्षेत्रों (जैसे संवाद, कोड जनरेशन) पर प्रभाव अज्ञात है
4. **कम्प्यूटेशनल ओवरहेड**: प्रत्येक खंड की एन्ट्रॉपी की गणना करने की आवश्यकता है, कुछ कम्प्यूटेशनल लागत बढ़ाता है
5. **अपर्याप्त सैद्धांतिक विश्लेषण**: उप-वाक्य-स्तरीय क्यों इष्टतम है इसके बारे में सैद्धांतिक प्रमाण की कमी है
### भविष्य की दिशाएं
1. **अन्य क्षेत्रों में विस्तार**: SSPO को प्रोग्रामिंग, अर्थपूर्ण तर्क आदि कार्यों पर लागू करना
2. **अनुकूली विभाजन**: अर्थपूर्ण-आधारित गतिशील विभाजन विधि का अनुसंधान करना, लाइन ब्रेक पर सरल निर्भरता के बजाय
3. **सैद्धांतिक विश्लेषण**: दानेदारता चयन और एन्ट्रॉपी क्लिपिंग के बारे में सैद्धांतिक गारंटी प्रदान करना
4. **बड़े पैमाने पर सत्यापन**: बड़े पैमाने के मॉडल (जैसे 100B+ पैरामीटर) पर SSPO की प्रभावशीलता को सत्यापित करना
## गहन मूल्यांकन
### लाभ
#### 1. विधि नवीनता (★★★★☆)
- **मूल नवाचार स्पष्ट**: उप-वाक्य-स्तरीय महत्व अनुपात GRPO और GSPO का प्राकृतिक विस्तार है, लेकिन पहले व्यवस्थित रूप से अनुसंधान नहीं किया गया
- **अनुकूली एन्ट्रॉपी क्लिपिंग नवीन**: एन्ट्रॉपी को गतिशील क्लिपिंग सीमा समायोजन के लिए आधार के रूप में उपयोग करना, डिजाइन तर्कसंगत और सहज है
- **सैद्धांतिक समर्थन पर्याप्त**: पूर्ण ग्रेडिएंट व्युत्पन्न प्रदान करता है, समझाता है कि उप-वाक्य-स्तरीय विचरण को क्यों कम कर सकता है
#### 2. प्रायोगिक पूर्णता (★★★★☆)
- **बहु-मॉडल सत्यापन**: 1.5B और 7B दोनों आकारों पर सत्यापित
- **बहु-आधारभूत तुलना**: GRPO, GSPO, Dr.GRPO, GMPO आदि कई विधियों के साथ तुलना
- **पूर्ण विलोपन प्रयोग**: अलग से उप-वाक्य-स्तरीय महत्व अनुपात और अनुकूली एन्ट्रॉपी क्लिपिंग के योगदान को सत्यापित करता है
- **सहज एन्ट्रॉपी विश्लेषण**: एन्ट्रॉपी वक्र दृश्य के माध्यम से विधि की प्रभावशीलता को दिखाता है
#### 3. परिणाम विश्वसनीयता (★★★★☆)
- **सुसंगत सुधार**: सभी मूल्यांकन डेटासेट पर सुधार
- **सांख्यिकीय महत्व**: औसत सुधार 2-3 प्रतिशत बिंदु, व्यावहारिक महत्व है
- **SOTA प्रदर्शन**: कई डेटासेट पर सर्वोत्तम प्राप्त करता है
#### 4. लेखन स्पष्टता (★★★★☆)
- **संरचना स्पष्ट**: समस्या परिभाषा → विधि डिजाइन → प्रायोगिक सत्यापन का तार्किक प्रवाह सुचारु है
- **गणितीय अभिव्यक्ति सटीक**: सूत्र व्युत्पन्न विस्तृत, प्रतीक परिभाषा स्पष्ट है
- **चार्ट सहायक प्रभावी**: तालिका और चित्र 1 प्रभावी रूप से तर्क का समर्थन करते हैं
### कमियां
#### 1. विधि सीमाएं (★★★☆☆)
- **सरल विभाजन रणनीति**: केवल लाइन ब्रेक विभाजन का उपयोग करता है, स्पष्ट वाक्य संरचना के बिना कार्यों (जैसे कोड) के लिए उपयुक्त नहीं हो सकता है
- **हाइपरपैरामीटर परिचय**: अनुकूली एन्ट्रॉपी क्लिपिंग अतिरिक्त हाइपरपैरामीटर (α और एन्ट्रॉपी थ्रेसहोल्ड) का परिचय देता है, ट्यूनिंग की आवश्यकता है
- **दानेदारता चयन सैद्धांतिक कमी**: उप-वाक्य-स्तरीय क्यों इष्टतम है इसका सैद्धांतिक प्रमाण नहीं है, मुख्य रूप से अनुभवजन्य अवलोकन पर निर्भर है
#### 2. प्रायोगिक सेटअप खामियां (★★★☆☆)
- **एकल क्षेत्र**: केवल गणितीय तर्क कार्यों पर सत्यापित, अन्य क्षेत्रों (संवाद, कोड, अनुवाद) के प्रयोग की कमी है
- **सीमित मॉडल स्केल**: अधिकतम 7B तक सत्यापित, बड़े पैमाने के मॉडल (70B+) पर परीक्षण नहीं किया गया
- **सांख्यिकीय महत्व परीक्षण की कमी**: विश्वास अंतराल या कई चलाने के मानक विचलन प्रदान नहीं करता है
- **कम्प्यूटेशनल लागत रिपोर्ट नहीं**: SSPO की आधारभूत विधियों की तुलना में अतिरिक्त कम्प्यूटेशनल लागत का विश्लेषण नहीं किया गया
#### 3. विश्लेषण अपर्याप्त (★★★☆☆)
- **क्लिपिंग दर विश्लेषण की कमी**: हालांकि क्लिपिंग दर में कमी का उल्लेख किया गया है, लेकिन विशिष्ट डेटा प्रदान नहीं किया गया है
- **केस विश्लेषण की कमी**: विशिष्ट जनरेशन नमूने नहीं दिखाए गए हैं, SSPO के व्यवहार को सहज रूप से समझ नहीं सकते
- **विफलता केस विश्लेषण**: SSPO किन परिस्थितियों में खराब प्रदर्शन करता है इस पर चर्चा नहीं की गई है
- **LPO तुलना अपर्याप्त**: हालांकि LPO का उल्लेख किया गया है, लेकिन सीधे प्रायोगिक तुलना नहीं की गई है
#### 4. पुनरुत्पादनीयता (★★★☆☆)
- **कोड ओपन सोर्स नहीं**: पेपर कोड लिंक प्रदान नहीं करता है
- **हाइपरपैरामीटर विवरण अधूरे**: α का विशिष्ट मान स्पष्ट नहीं किया गया है
- **एन्ट्रॉपी थ्रेसहोल्ड चयन आधार**: 0.5, 1.0 आदि थ्रेसहोल्ड क्यों चुने गए इसका पर्याप्त व्याख्या नहीं है
### प्रभाव मूल्यांकन
#### 1. क्षेत्र में योगदान (★★★★☆)
- **पद्धति विज्ञान योगदान**: RLVR एल्गोरिदम के दानेदारता चयन के लिए नई सोच प्रदान करता है
- **व्यावहारिक मूल्य उच्च**: मौजूदा RL प्रशिक्षण प्रवाह में सीधे लागू किया जा सकता है
- **प्रेरणा शक्तिशाली**: अनुकूली एन्ट्रॉपी क्लिपिंग विचार अन्य RL एल्गोरिदम में सामान्यीकृत किया जा सकता है
#### 2. व्यावहारिक मूल्य (★★★★☆)
- **कार्यान्वयन आसान**: विधि सरल है, अतिरिक्त मॉडल घटकों की आवश्यकता नहीं है
- **प्लग-एंड-प्ले**: मौजूदा GRPO/GSPO को प्रतिस्थापित कर सकता है
- **प्रदर्शन सुधार स्पष्ट**: 2-3 प्रतिशत बिंदु सुधार गणितीय तर्क कार्यों में बहुत मूल्यवान है
#### 3. संभावित प्रभाव (★★★★☆)
- **औद्योगिक अनुप्रयोग संभावनाएं**: Ping An Technology से आता है, वास्तविक उत्पादों में लागू हो सकता है
- **भविष्य अनुसंधान दिशा**: दानेदारता चयन और अनुकूली क्लिपिंग पर अधिक अनुसंधान को प्रेरित कर सकता है
- **सीमाएं**: एकल क्षेत्र प्रभाव रेंज को सीमित कर सकता है
### लागू परिदृश्य
#### उपयुक्त परिदृश्य:
1. **गणितीय तर्क कार्य**: पेपर का मुख्य सत्यापन परिदृश्य, सर्वोत्तम प्रभाव
2. **संरचित जनरेशन कार्य**: प्रतिक्रिया में स्पष्ट वाक्य संरचना वाले कार्य (जैसे प्रश्नोत्तर, तर्क श्रृंखला जनरेशन)
3. **लंबे पाठ जनरेशन**: प्रतिक्रिया लंबाई अधिक होने पर, उप-वाक्य-स्तरीय दानेदारता लाभ अधिक स्पष्ट है
4. **स्थिर प्रशिक्षण की आवश्यकता वाले परिदृश्य**: प्रशिक्षण स्थिरता पर उच्च आवश्यकता वाले अनुप्रयोग
#### अनुपयुक्त परिदृश्य:
1. **कोड जनरेशन**: कोड में स्पष्ट वाक्य संरचना नहीं हो सकती है, लाइन ब्रेक विभाजन उपयुक्त नहीं है
2. **छोटा पाठ जनरेशन**: प्रतिक्रिया बहुत छोटी होने पर, उप-वाक्य-स्तरीय और प्रतिक्रिया-स्तरीय में अंतर नहीं है
3. **वास्तविक समय अनुप्रयोग**: एन्ट्रॉपी मान की गणना करने की आवश्यकता है, अनुमान ओवरहेड बढ़ाता है
4. **गैर-अंग्रेजी कार्य**: वाक्य विभाजन रणनीति को विभिन्न भाषाओं के लिए समायोजन की आवश्यकता हो सकती है
### समग्र मूल्यांकन: ★★★★☆ (4.2/5)
**अनुशंसा सूचकांक**: LLM सुदृढ़ीकरण सीखने के प्रशिक्षण में काम करने वाले शोधकर्ताओं और इंजीनियरों के लिए दृढ़ता से अनुशंसित
**उपयुक्त पाठक**:
- RL एल्गोरिदम पर अनुसंधान करने वाले विद्वान
- LLM प्रशिक्षण प्रणाली विकसित करने वाले इंजीनियर
- गणितीय तर्क क्षमता सुधार में रुचि रखने वाले शोधकर्ता
## संदर्भ साहित्य (मुख्य संदर्भ)
1. **Shao et al. (2024)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (GRPO मूल पेपर)
2. **Zhao et al. (2025)** - Geometric-mean policy optimization (GSPO पेपर)
3. **Schulman et al. (2017)** - Proximal policy optimization algorithms (PPO-CLIP मूल पेपर)
4. **Li et al. (2025)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (LPO समवर्ती कार्य)
5. **Hendrycks et al. (2021)** - Measuring mathematical problem solving with the MATH dataset
---
**सारांश**: SSPO एक ठोस अनुप्रयोग अनुसंधान पेपर है, जो मौजूदा RLVR एल्गोरिदम की विशिष्ट समस्याओं के लिए प्रभावी समाधान प्रस्तावित करता है। विधि डिजाइन तर्कसंगत है, प्रायोगिक सत्यापन पर्याप्त है, गणितीय तर्क कार्यों पर महत्वपूर्ण सुधार प्राप्त किया है। मुख्य योगदान महत्व अनुपात गणना दानेदारता के लिए सर्वोत्तम संतुलन बिंदु खोजना है, और अनुकूली एन्ट्रॉपी क्लिपिंग के माध्यम से एन्ट्रॉपी पतन समस्या को कम करना है। हालांकि सैद्धांतिक गहराई और अनुप्रयोग व्यापकता में सुधार की गुंजाइश है, लेकिन LLM सुदृढ़ीकरण सीखने के प्रशिक्षण के व्यावहारिक प्रगति को आगे बढ़ाने में महत्वपूर्ण मूल्य है।