2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: उप-वाक्य-स्तरीय नीति अनुकूलन

मूल जानकारी

पेपर ID: 2511.04256
शीर्षक: SSPO: Subsentence-level Policy Optimization
लेखक: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 6 नवंबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2511.04256

सारांश

यह पेपर बड़े भाषा मॉडल (LLMs) के पश्च-प्रशिक्षण में सुदृढ़ीकरण सीखने के एल्गोरिदम के लिए SSPO (उप-वाक्य-स्तरीय नीति अनुकूलन) विधि प्रस्तावित करता है। मौजूदा RLVR (सत्यापन योग्य पुरस्कार सुदृढ़ीकरण सीखना) एल्गोरिदम जैसे GRPO और GSPO क्रमशः प्रशिक्षण अस्थिरता और कम नमूना उपयोग दर की समस्याओं का सामना करते हैं। GRPO टोकन-स्तरीय महत्व अनुपात का उपयोग करता है, जो विषम मानों से प्रभावित होकर प्रशिक्षण के पतन का कारण बनता है; GSPO प्रतिक्रिया-स्तरीय महत्व अनुपात का उपयोग करता है, जो उच्च विचरण समस्या को हल करता है लेकिन संपूर्ण प्रतिक्रिया को क्लिपिंग तंत्र द्वारा त्यागे जाने का कारण बनता है। SSPO वाक्य-स्तरीय महत्व अनुपात का परिचय देकर GRPO और GSPO के बीच संतुलन प्राप्त करता है। इसके अलावा, SSPO एक अनुकूली एन्ट्रॉपी क्लिपिंग तंत्र प्रस्तावित करता है जो क्लिपिंग सीमाओं को गतिशील रूप से समायोजित करता है, उच्च-एन्ट्रॉपी टोकन अन्वेषण को प्रोत्साहित करता है, और निम्न-एन्ट्रॉपी टोकन के अपडेट को सीमित करता है। प्रायोगिक परिणाम दिखाते हैं कि SSPO पाँच गणितीय तर्क डेटासेट पर औसत स्कोर 46.57 प्राप्त करता है, जो GRPO (43.01) और GSPO (44.42) को पार करता है, और तीन डेटासेट पर सर्वोत्तम प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. अनुसंधान समस्या

इस पेपर द्वारा समाधान की जाने वाली मूल समस्या यह है: बड़े भाषा मॉडल के सुदृढ़ीकरण सीखने के प्रशिक्षण में, प्रशिक्षण स्थिरता को बनाए रखते हुए नमूना उपयोग दर को कैसे बढ़ाया जाए, साथ ही एन्ट्रॉपी पतन घटना से कैसे बचा जाए।

2. समस्या की महत्ता

तर्क क्षमता वृद्धि की आवश्यकता: गणित, प्रोग्रामिंग आदि जटिल तर्क कार्यों में LLMs के अनुप्रयोग के साथ, प्रभावी पश्च-प्रशिक्षण अनुकूलन के लिए सुदृढ़ीकरण सीखने की आवश्यकता है
प्रशिक्षण दक्षता और स्थिरता: बड़े पैमाने पर RL प्रशिक्षण को कम्प्यूटेशनल दक्षता और प्रशिक्षण स्थिरता के बीच संतुलन की आवश्यकता है, मॉडल पतन से बचने के लिए
नमूना उपयोग दर: सीमित कम्प्यूटेशनल संसाधनों के तहत, उत्पन्न नमूना डेटा का अधिकतम उपयोग करना महत्वपूर्ण है

3. मौजूदा विधियों की सीमाएं

GRPO की समस्याएं:

टोकन-स्तरीय महत्व अनुपात गणना का उपयोग: $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
प्रत्येक टोकन का ग्रेडिएंट वजन भिन्न होता है, जिससे नीति ग्रेडिएंट उच्च विचरण होता है
विषम टोकन से प्रभावित होने के लिए प्रवण, प्रतिक्रिया लंबाई बढ़ने के साथ प्रशिक्षण शोर जमा होता है, अंततः मॉडल प्रशिक्षण पतन का कारण बनता है

GSPO की समस्याएं:

प्रतिक्रिया-स्तरीय महत्व अनुपात का उपयोग: $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
संपूर्ण प्रतिक्रिया के सभी टोकन एक ही महत्व अनुपात साझा करते हैं
जब कुछ टोकन में चरम महत्व वजन होता है, तो यह समग्र औसत को प्रभावित करता है, जिससे संपूर्ण प्रतिक्रिया PPO-CLIP तंत्र द्वारा त्यागी जाती है
नमूना उपयोग दर में कमी, डेटा बर्बादी का कारण बनता है

4. अनुसंधान प्रेरणा

लेखक मानते हैं कि टोकन-स्तरीय और प्रतिक्रिया-स्तरीय के बीच एक संतुलन बिंदु खोजने की आवश्यकता है, जो GSPO की प्रशिक्षण स्थिरता लाभ को बनाए रखते हुए नमूना उपयोग दर को बढ़ा सके, साथ ही गतिशील क्लिपिंग तंत्र समायोजन के माध्यम से एन्ट्रॉपी पतन समस्या को कम कर सके।

मूल योगदान

उप-वाक्य-स्तरीय महत्व अनुपात प्रस्तावित करना: प्रतिक्रिया को कई अर्थपूर्ण खंडों में विभाजित करके (लाइन ब्रेक या डबल लाइन ब्रेक द्वारा सीमांकित), वाक्य दानेदारता पर महत्व अनुपात की गणना करना, GRPO के टोकन-स्तरीय और GSPO के प्रतिक्रिया-स्तरीय के बीच संतुलन प्राप्त करना
अनुकूली एन्ट्रॉपी क्लिपिंग तंत्र डिजाइन करना: उप-वाक्य की एन्ट्रॉपी के आधार पर PPO-CLIP की क्लिपिंग सीमाओं को गतिशील रूप से समायोजित करना, उच्च-एन्ट्रॉपी टोकन के लिए क्लिपिंग रेंज को विस्तृत करके अन्वेषण को प्रोत्साहित करना, निम्न-एन्ट्रॉपी टोकन के लिए क्लिपिंग रेंज को संकीर्ण करके अपडेट को सीमित करना
प्रायोगिक सत्यापन: Qwen2.5-Math-1.5B और 7B मॉडल पर, 5 गणितीय तर्क बेंचमार्क का उपयोग करके, SSPO औसत प्रदर्शन GRPO, GSPO, Dr.GRPO और GMPO आदि आधारभूत विधियों को पार करता है
सैद्धांतिक विश्लेषण: विस्तृत ग्रेडिएंट उद्देश्य व्युत्पन्न प्रदान करना, यह साबित करना कि SSPO का ग्रेडिएंट वजन खंड के भीतर सुसंगत है, टोकन के बीच शोर हस्तक्षेप को समाप्त करता है, नीति ग्रेडिएंट विचरण को कम करता है

विधि विवरण

कार्य परिभाषा

दिए गए प्रश्न $x$ और प्रतिक्रिया $y$ को देखते हुए, लक्ष्य सुदृढ़ीकरण सीखने के माध्यम से नीति $π_θ$ को अनुकूलित करना है, ताकि यह गणितीय तर्क कार्यों पर उच्च सत्यापन योग्य पुरस्कार $r(x, y)$ प्राप्त कर सके। प्रत्येक प्रश्न के लिए, $G$ प्रतिक्रिया नमूने उत्पन्न करें, समूह के भीतर सापेक्ष लाभ अनुमान के माध्यम से नीति अपडेट करें।

मॉडल आर्किटेक्चर

1. उप-वाक्य-स्तरीय महत्व अनुपात

प्रतिक्रिया विभाजन:

प्रतिक्रिया $y_i$ को लाइन ब्रेक या डबल लाइन ब्रेक द्वारा $N_{seg}(y_i)$ अर्थपूर्ण खंडों में विभाजित करें
$j$ -वां खंड $y_{i,j}$ के रूप में दर्ज किया जाता है, लंबाई $|y_{i,j}|$ के साथ

महत्व अनुपात गणना: $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

लाभ अनुमान (प्रतिक्रिया-स्तरीय): $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

अनुकूलन उद्देश्य (क्लिपिंग के बिना): $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. ग्रेडिएंट विश्लेषण

SSPO का ग्रेडिएंट उद्देश्य: $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

मुख्य विशेषता: एक ही खंड के भीतर सभी टोकन का ग्रेडिएंट वजन समान है, टोकन के बीच शोर हस्तक्षेप को समाप्त करता है, नीति ग्रेडिएंट विचरण को कम करता है।

3. अनुकूली एन्ट्रॉपी क्लिपिंग तंत्र

टोकन-स्तरीय एन्ट्रॉपी गणना: $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

खंड-स्तरीय एन्ट्रॉपी: $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

गतिशील क्लिपिंग सीमाएं:

ऊपरी सीमा: $ϵ_{high} = 1 + α + H_{i,j}$ (α हाइपरपैरामीटर है)
निचली सीमा: