2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: تحسين السياسة على مستوى الجملة الجزئية

المعلومات الأساسية

معرّف الورقة: 2511.04256
العنوان: SSPO: Subsentence-level Policy Optimization
المؤلفون: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (تقنية Ping An)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: 6 نوفمبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2511.04256

الملخص

تقترح هذه الورقة طريقة SSPO (تحسين السياسة على مستوى الجملة الجزئية) لخوارزميات التعلم المعزز في التدريب اللاحق لنماذج اللغة الكبيرة (LLMs). تعاني الخوارزميات الحالية للتعلم المعزز بالمكافآت القابلة للتحقق (RLVR) مثل GRPO و GSPO من مشاكل عدم الاستقرار في التدريب وانخفاض معدل استخدام العينات على التوالي. يستخدم GRPO نسب الأهمية على مستوى الرمز (token)، مما يجعله عرضة للقيم الشاذة التي تؤدي إلى انهيار التدريب؛ بينما يستخدم GSPO نسب الأهمية على مستوى الاستجابة، وعلى الرغم من حله لمشكلة التباين العالي، إلا أنه يؤدي إلى تجاهل الاستجابة بأكملها بواسطة آلية القص. يحقق SSPO توازناً بين GRPO و GSPO من خلال إدخال نسب الأهمية على مستوى الجملة. بالإضافة إلى ذلك، يقترح SSPO آلية قص熵 تكيفية تعدل حدود القص ديناميكياً، مما يشجع استكشاف الرموز عالية الإنتروبيا ويحد من نطاق تحديث الرموز منخفضة الإنتروبيا. تظهر نتائج التجارب أن SSPO يحقق متوسط درجة 46.57 على خمس مجموعات بيانات للاستدلال الرياضي، متفوقاً على GRPO (43.01) و GSPO (44.42)، مع تحقيق أداء مثلى على ثلاث مجموعات بيانات.

خلفية البحث والدافع

1. المشكلة الأساسية

تتمثل المشكلة الأساسية التي تعالجها هذه الورقة في: كيفية الحفاظ على استقرار التدريب وتحسين معدل استخدام العينات في نفس الوقت، مع تجنب ظاهرة انهيار الإنتروبيا في التعلم المعزز لنماذج اللغة الكبيرة.

2. أهمية المشكلة

الحاجة لتحسين القدرات الاستدلالية: مع تطبيق LLMs في المهام المعقدة مثل الرياضيات والبرمجة، يتطلب الأمر تحسين التدريب اللاحق الفعال من خلال التعلم المعزز
كفاءة التدريب والاستقرار: يتطلب التدريب على نطاق واسع موازنة بين الكفاءة الحسابية واستقرار التدريب، مع تجنب انهيار النموذج
معدل استخدام العينات: في ظل الموارد الحسابية المحدودة، من الضروري تعظيم استخدام بيانات العينات المولدة

3. قيود الطرق الموجودة

مشاكل GRPO:

يستخدم نسب الأهمية على مستوى الرمز: $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
أوزان التدرج لكل رمز مختلفة، مما يؤدي إلى تباين عالي في تدرج السياسة
عرضة للتأثر برموز شاذة، وعندما تزداد طول الاستجابة، يتراكم الضوضاء في التدريب، مما يؤدي في النهاية إلى انهيار التدريب

مشاكل GSPO:

يستخدم نسب الأهمية على مستوى الاستجابة: $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
جميع الرموز في الاستجابة تشترك في نفس نسبة الأهمية
عندما يكون لدى عدد قليل من الرموز أوزان أهمية متطرفة، فإنها تؤثر على المتوسط الإجمالي، مما يؤدي إلى تجاهل الاستجابة بأكملها بواسطة آلية PPO-CLIP
انخفاض معدل استخدام العينات، مما يسبب هدراً في البيانات

4. دافع البحث

يعتقد المؤلفون أنه من الضروري إيجاد نقطة توازن بين مستوى الرمز ومستوى الاستجابة، بحيث يحافظ على مزايا استقرار التدريب في GSPO ويحسن معدل استخدام العينات، مع تخفيف مشكلة انهيار الإنتروبيا من خلال تعديل آلية القص ديناميكياً.

المساهمات الأساسية

اقتراح نسب الأهمية على مستوى الجملة الجزئية: من خلال تقسيم الاستجابة إلى عدة أجزاء دلالية متعددة (محددة بفواصل الأسطر أو الأسطر المزدوجة)، يتم حساب نسب الأهمية على مستوى الجملة، مما يحقق توازناً بين مستوى الرمز في GRPO ومستوى الاستجابة في GSPO
تصميم آلية قص الإنتروبيا التكيفية: تعديل حدود قص PPO-CLIP ديناميكياً بناءً على قيمة الإنتروبيا للجملة الجزئية، مع توسيع نطاق القص للرموز عالية الإنتروبيا لتشجيع الاستكشاف، وتضييق نطاق القص للرموز منخفضة الإنتروبيا لتحديد التحديثات
التحقق التجريبي: على نماذج Qwen2.5-Math-1.5B و 7B، باستخدام 5 معايير اختبار للاستدلال الرياضي، يتفوق SSPO على طرق الأساس مثل GRPO و GSPO و Dr.GRPO و GMPO
التحليل النظري: توفير اشتقاق هدف التدرج التفصيلي، مما يثبت أن أوزان التدرج في SSPO متسقة داخل الجملة الجزئية، مما يلغي التداخل الضوضائي بين الرموز ويقلل تباين تدرج السياسة

شرح الطريقة

تعريف المهمة

بالنظر إلى الاستعلام $x$ والاستجابة $y$ ، الهدف هو تحسين السياسة $π_θ$ من خلال التعلم المعزز للحصول على مكافآت قابلة للتحقق أعلى $r(x, y)$ في مهام الاستدلال الرياضي. لكل استعلام، يتم توليد $G$ عينة استجابة، مع تحديث السياسة من خلال تقدير الميزة النسبية داخل المجموعة.

معمارية النموذج

1. نسب الأهمية على مستوى الجملة الجزئية

تقسيم الاستجابة:

تقسيم الاستجابة $y_i$ بناءً على فواصل الأسطر أو الأسطر المزدوجة إلى $N_{seg}(y_i)$ أجزاء دلالية
يُشار إلى الجزء $j$ بـ $y_{i,j}$ ، بطول $|y_{i,j}|$

حساب نسب الأهمية: $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

تقدير الميزة (على مستوى الاستجابة): $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

هدف التحسين (بدون قص): $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. تحليل التدرج

هدف التدرج في SSPO هو: $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

الخصائص الرئيسية: جميع الرموز داخل نفس الجملة الجزئية لها نفس وزن التدرج، مما يلغي التداخل الضوضائي بين الرموز ويقلل تباين تدرج السياسة.

3. آلية قص الإنتروبيا التكيفية

حساب الإنتروبيا على مستوى الرمز: $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

الإنتروبيا على مستوى الجملة الجزئية: $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

حدود القص الديناميكية:

الحد الأعلى: $ϵ_{high} = 1 + α + H_{i,j}$ (حيث α معامل فائق)
الحد الأدنى: