2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.
As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
academic

SSPO: تحسين السياسة على مستوى الجملة الجزئية

المعلومات الأساسية

  • معرّف الورقة: 2511.04256
  • العنوان: SSPO: Subsentence-level Policy Optimization
  • المؤلفون: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (تقنية Ping An)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: 6 نوفمبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2511.04256

الملخص

تقترح هذه الورقة طريقة SSPO (تحسين السياسة على مستوى الجملة الجزئية) لخوارزميات التعلم المعزز في التدريب اللاحق لنماذج اللغة الكبيرة (LLMs). تعاني الخوارزميات الحالية للتعلم المعزز بالمكافآت القابلة للتحقق (RLVR) مثل GRPO و GSPO من مشاكل عدم الاستقرار في التدريب وانخفاض معدل استخدام العينات على التوالي. يستخدم GRPO نسب الأهمية على مستوى الرمز (token)، مما يجعله عرضة للقيم الشاذة التي تؤدي إلى انهيار التدريب؛ بينما يستخدم GSPO نسب الأهمية على مستوى الاستجابة، وعلى الرغم من حله لمشكلة التباين العالي، إلا أنه يؤدي إلى تجاهل الاستجابة بأكملها بواسطة آلية القص. يحقق SSPO توازناً بين GRPO و GSPO من خلال إدخال نسب الأهمية على مستوى الجملة. بالإضافة إلى ذلك، يقترح SSPO آلية قص熵 تكيفية تعدل حدود القص ديناميكياً، مما يشجع استكشاف الرموز عالية الإنتروبيا ويحد من نطاق تحديث الرموز منخفضة الإنتروبيا. تظهر نتائج التجارب أن SSPO يحقق متوسط درجة 46.57 على خمس مجموعات بيانات للاستدلال الرياضي، متفوقاً على GRPO (43.01) و GSPO (44.42)، مع تحقيق أداء مثلى على ثلاث مجموعات بيانات.

خلفية البحث والدافع

1. المشكلة الأساسية

تتمثل المشكلة الأساسية التي تعالجها هذه الورقة في: كيفية الحفاظ على استقرار التدريب وتحسين معدل استخدام العينات في نفس الوقت، مع تجنب ظاهرة انهيار الإنتروبيا في التعلم المعزز لنماذج اللغة الكبيرة.

2. أهمية المشكلة

  • الحاجة لتحسين القدرات الاستدلالية: مع تطبيق LLMs في المهام المعقدة مثل الرياضيات والبرمجة، يتطلب الأمر تحسين التدريب اللاحق الفعال من خلال التعلم المعزز
  • كفاءة التدريب والاستقرار: يتطلب التدريب على نطاق واسع موازنة بين الكفاءة الحسابية واستقرار التدريب، مع تجنب انهيار النموذج
  • معدل استخدام العينات: في ظل الموارد الحسابية المحدودة، من الضروري تعظيم استخدام بيانات العينات المولدة

3. قيود الطرق الموجودة

مشاكل GRPO:

  • يستخدم نسب الأهمية على مستوى الرمز: wi,t(θ)=πθ(yi,tx,yi,<t)πθold(yi,tx,yi,<t)w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}
  • أوزان التدرج لكل رمز مختلفة، مما يؤدي إلى تباين عالي في تدرج السياسة
  • عرضة للتأثر برموز شاذة، وعندما تزداد طول الاستجابة، يتراكم الضوضاء في التدريب، مما يؤدي في النهاية إلى انهيار التدريب

مشاكل GSPO:

  • يستخدم نسب الأهمية على مستوى الاستجابة: si(θ)=(πθ(yix)πθold(yix))1yis_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}
  • جميع الرموز في الاستجابة تشترك في نفس نسبة الأهمية
  • عندما يكون لدى عدد قليل من الرموز أوزان أهمية متطرفة، فإنها تؤثر على المتوسط الإجمالي، مما يؤدي إلى تجاهل الاستجابة بأكملها بواسطة آلية PPO-CLIP
  • انخفاض معدل استخدام العينات، مما يسبب هدراً في البيانات

4. دافع البحث

يعتقد المؤلفون أنه من الضروري إيجاد نقطة توازن بين مستوى الرمز ومستوى الاستجابة، بحيث يحافظ على مزايا استقرار التدريب في GSPO ويحسن معدل استخدام العينات، مع تخفيف مشكلة انهيار الإنتروبيا من خلال تعديل آلية القص ديناميكياً.

المساهمات الأساسية

  1. اقتراح نسب الأهمية على مستوى الجملة الجزئية: من خلال تقسيم الاستجابة إلى عدة أجزاء دلالية متعددة (محددة بفواصل الأسطر أو الأسطر المزدوجة)، يتم حساب نسب الأهمية على مستوى الجملة، مما يحقق توازناً بين مستوى الرمز في GRPO ومستوى الاستجابة في GSPO
  2. تصميم آلية قص الإنتروبيا التكيفية: تعديل حدود قص PPO-CLIP ديناميكياً بناءً على قيمة الإنتروبيا للجملة الجزئية، مع توسيع نطاق القص للرموز عالية الإنتروبيا لتشجيع الاستكشاف، وتضييق نطاق القص للرموز منخفضة الإنتروبيا لتحديد التحديثات
  3. التحقق التجريبي: على نماذج Qwen2.5-Math-1.5B و 7B، باستخدام 5 معايير اختبار للاستدلال الرياضي، يتفوق SSPO على طرق الأساس مثل GRPO و GSPO و Dr.GRPO و GMPO
  4. التحليل النظري: توفير اشتقاق هدف التدرج التفصيلي، مما يثبت أن أوزان التدرج في SSPO متسقة داخل الجملة الجزئية، مما يلغي التداخل الضوضائي بين الرموز ويقلل تباين تدرج السياسة

شرح الطريقة

تعريف المهمة

بالنظر إلى الاستعلام xx والاستجابة yy، الهدف هو تحسين السياسة πθπ_θ من خلال التعلم المعزز للحصول على مكافآت قابلة للتحقق أعلى r(x,y)r(x, y) في مهام الاستدلال الرياضي. لكل استعلام، يتم توليد GG عينة استجابة، مع تحديث السياسة من خلال تقدير الميزة النسبية داخل المجموعة.

معمارية النموذج

1. نسب الأهمية على مستوى الجملة الجزئية

تقسيم الاستجابة:

  • تقسيم الاستجابة yiy_i بناءً على فواصل الأسطر أو الأسطر المزدوجة إلى Nseg(yi)N_{seg}(y_i) أجزاء دلالية
  • يُشار إلى الجزء jj بـ yi,jy_{i,j}، بطول yi,j|y_{i,j}|

حساب نسب الأهمية: si,j(θ)=(πθ(yi,jx)πθold(yi,jx))1yi,j=exp(1yi,jt=1yi,jlogπθ(yi,j,tx,yi,j,<t)πθold(yi,j,tx,yi,j,<t))s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)

تقدير الميزة (على مستوى الاستجابة): A^i=r(x,yi)mean({r(x,yi)}i=1G)std({r(x,yi)}i=1G)\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}

هدف التحسين (بدون قص): JSSPO(θ)=ExD,{yi}i=1Gπθold(x)[1Gi=1G1yij=1Nseg(yi)yi,jsi,j(θ)A^i]J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]

2. تحليل التدرج

هدف التدرج في SSPO هو: θJSSPO(θ)=E[1Gi=1G1yij=1Nseg(yi)yi,j(πθ(yi,jx)πθold(yi,jx))1yi,jA^i1yi,jt=1yi,jθlogπθ(yi,j,tx,yi,j,<t)]\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]

الخصائص الرئيسية: جميع الرموز داخل نفس الجملة الجزئية لها نفس وزن التدرج، مما يلغي التداخل الضوضائي بين الرموز ويقلل تباين تدرج السياسة.

3. آلية قص الإنتروبيا التكيفية

حساب الإنتروبيا على مستوى الرمز: Ht=vVπθold(vx,o<t)logπθold(vx,o<t)H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})

الإنتروبيا على مستوى الجملة الجزئية: Hi,j=1yi,jt=1yi,jHtH_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t

حدود القص الديناميكية:

  • الحد الأعلى: ϵhigh=1+α+Hi,jϵ_{high} = 1 + α + H_{i,j} (حيث α معامل فائق)
  • الحد الأدنى:
0.3, & H_{i,j} > 1 \\ 1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\ 0.8, & H_{i,j} < 0.5 \end{cases}$$ **هدف التحسين النهائي**: $$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$ ### نقاط الابتكار التقني #### 1. تصميم التوازن في الحبيبية - **مستوى الرمز (GRPO)**: حبيبية دقيقة جداً، تباين عالي - **مستوى الاستجابة (GSPO)**: حبيبية خشنة جداً، معدل استخدام عينات منخفض - **مستوى الجملة الجزئية (SSPO)**: أفضل توازن بين الاستقرار ومعدل استخدام العينات #### 2. معقولية القص التكيفي - **سيناريو الإنتروبيا العالية** ($H_{i,j} > 1$): النموذج غير متأكد من هذه الرموز، توسيع نطاق القص لتشجيع الاستكشاف - **سيناريو الإنتروبيا المتوسطة** ($0.5 \leq H_{i,j} \leq 1$): تعديل خطي لنطاق القص - **سيناريو الإنتروبيا المنخفضة** ($H_{i,j} < 0.5$): النموذج تعلم هذه الرموز بشكل جيد، تضييق نطاق القص لتحديد التحديثات، منع الإفراط في التدريب #### 3. الفرق عن LPO يقترح العمل المتزامن LPO أيضاً أخذ عينات من الأهمية على مستوى الجملة، لكن هناك فرقان رئيسيان: - **تطبيع تقدير الميزة**: يطبع LPO على مستوى الرمز (يتأثر بطول الاستجابة)، بينما يطبع SSPO على مستوى الاستجابة (لا يتأثر بطول الاستجابة) - **آلية القص**: يستخدم LPO PPO-CLIP ثابتاً، بينما يستخدم SSPO قص إنتروبيا تكيفي ## إعداد التجارب ### مجموعات البيانات **بيانات التدريب**: - **MATH Level 3-5**: يحتوي على 8523 مسألة رياضية - أخذ عينات من 8 rollouts لكل مسألة - حد أقصى لطول الاستجابة 3000 رمز - حجم الدفعة المعين إلى 128 **مجموعات بيانات التقييم** (5 معايير للاستدلال الرياضي): 1. **MATH-500**: 500 مسألة من مجموعة بيانات MATH، تغطي الجبر والهندسة ونظرية الأعداد وغيرها 2. **AMC23**: 83 سؤال اختيار من متعدد بمستوى صعوبة متوسط 3. **AIME24**: 30 مسألة من مسابقة الرياضيات الأمريكية للدعوة 2024 على مستوى الأولمبياد 4. **Minerva**: 272 مسألة استدلال متعدد الخطوات على مستوى الدراسات العليا 5. **Olympiad Bench**: 675 مسألة أولمبياد عالية الصعوبة ### مقاييس التقييم - **دقة فك التشفير الجشع (Avg@1)**: تقييم أداء النموذج باستخدام فك التشفير الجشع - **متوسط الدرجة**: متوسط الدقة عبر خمس مجموعات بيانات ### طرق المقارنة 1. **GRPO**: طريقة الأساس مع نسب الأهمية على مستوى الرمز 2. **GSPO**: طريقة نسب الأهمية على مستوى الاستجابة 3. **Dr.GRPO**: نسخة محسنة من GRPO 4. **GMPO**: تحسين السياسة بالمتوسط الهندسي 5. **SSPO (بدون قص الإنتروبيا)**: نسخة استئصالية تستخدم فقط نسب الأهمية على مستوى الجملة الجزئية، بدون قص الإنتروبيا التكيفي ### تفاصيل التنفيذ - **النموذج**: Qwen2.5-Math-1.5B و Qwen2.5-Math-7B - **الإطار**: إطار عمل veRL للتعلم المعزز - **القالب**: استخدام قالب Qwen-Math للتدريب والتقييم - **استراتيجية التقييم**: التقييم على 5 مجموعات بيانات كل 10 خطوات، واختيار أفضل درجة كنتيجة نهائية ## نتائج التجارب ### النتائج الرئيسية #### نموذج Qwen2.5-Math-1.5B | الطريقة | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg | |--------|--------|-------|------|------|------|-----| | GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 | | GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 | | Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 | | GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 | | SSPO (بدون قص الإنتروبيا) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 | | **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** | #### نموذج Qwen2.5-Math-7B | الطريقة | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg | |--------|--------|-------|------|------|------|-----| | GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 | | GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 | | Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 | | GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 | | SSPO (بدون قص الإنتروبيا) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 | | **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** | **الاكتشافات الرئيسية**: 1. **الأداء الإجمالية**: يحقق SSPO أعلى متوسط درجة على حجمي النموذج - نموذج 1.5B: 46.57 مقابل GRPO 43.01 (+3.56) مقابل GSPO 44.42 (+2.15) - نموذج 7B: 54.85 مقابل GRPO 53.15 (+1.70) مقابل GSPO 53.75 (+1.10) 2. **قابلية التوسع**: يحافظ SSPO على ميزته على نماذج أكبر، على الرغم من أن هامش التحسن يقل قليلاً 3. **الأداء الأمثل**: يحقق أداء مثلى على ثلاث مجموعات بيانات (AIME24 و AMC23 و Minerva) لنموذج 1.5B ### التجارب الاستئصالية #### مساهمة نسب الأهمية على مستوى الجملة الجزئية مقارنة SSPO (بدون قص الإنتروبيا) مع GRPO و GSPO: - **نموذج 1.5B**: 45.72 مقابل GRPO 43.01 (+2.71) مقابل GSPO 44.42 (+1.30) - **نموذج 7B**: 53.99 مقابل GRPO 53.15 (+0.84) مقابل GSPO 53.75 (+0.24) **الاستنتاج**: نسب الأهمية على مستوى الجملة الجزئية وحدها تحقق تحسناً ملحوظاً، مما يثبت أهمية اختيار الحبيبية. #### مساهمة قص الإنتروبيا التكيفي مقارنة SSPO مع SSPO (بدون قص الإنتروبيا): - **نموذج 1.5B**: 46.57 مقابل 45.72 (+0.85) - **نموذج 7B**: 54.85 مقابل 53.99 (+0.86) **الاستنتاج**: يحقق قص الإنتروبيا التكيفي تحسناً متسقاً بحوالي 0.85 على حجمي النموذج، مما يثبت فعاليته. ### تحليل الإنتروبيا يعرض الشكل 1 التغيرات في الإنتروبيا أثناء التدريب لـ SSPO و SSPO (بدون قص الإنتروبيا) و GSPO و GRPO: **نتائج الملاحظة**: 1. **GRPO و GSPO**: انخفاض سريع في الإنتروبيا، مما يشير إلى تقارب مبكر للنموذج، مع خطر انهيار الإنتروبيا 2. **SSPO (بدون قص الإنتروبيا)**: سرعة انخفاض الإنتروبيا أبطأ قليلاً من GRPO و GSPO 3. **SSPO**: تحافظ على أعلى مستوى إنتروبيا، مع أبطأ معدل انخفاض، مما يشير إلى أن قص الإنتروبيا التكيفي يخفف بشكل فعال من انهيار الإنتروبيا **الأهمية**: تعني الإنتروبيا الأعلى أن النموذج يحافظ على القدرة على الاستكشاف ولن يقع في الحد الأدنى المحلي مبكراً، وهذا يشرح آلية تحسن أداء SSPO. ### نتائج التجارب 1. **أهمية توازن الحبيبية**: اختيار حبيبية مناسبة (مستوى الجملة الجزئية) بين مستوى الرمز ومستوى الاستجابة حاسم للأداء 2. **ضرورة إدارة الإنتروبيا**: تعديل حدود القص ديناميكياً يمكن أن يمنع بشكل فعال انهيار الإنتروبيا ويحافظ على استقرار التدريب 3. **تحسن معدل استخدام العينات**: نسب الأهمية على مستوى الجملة الجزئية تقلل معدل القص، مما يحسن كفاءة استخدام العينات 4. **تأثير حجم النموذج**: يحافظ SSPO على ميزته على أحجام نماذج مختلفة (1.5B و 7B)، على الرغم من أن هامش التحسن يقل مع زيادة حجم النموذج ## الأعمال ذات الصلة ### 1. خوارزمية التعلم المعزز GRPO - **التطبيق الناجح في DeepSeek-R1**: حقق GRPO قفزة نوعية في مهام الاستدلال - **المشكلة الأساسية**: نسب الأهمية على مستوى الرمز تؤدي إلى مشاكل التباين العالي وعدم الاستقرار في التدريب - **التحسين في هذه الورقة**: إدخال نسب الأهمية على مستوى الجملة الجزئية وقص ديناميكي ### 2. حساب نسب الأهمية - **GRPO**: مستوى الرمز، $w_{i,t}(θ)$، مشكلة التباين العالي - **GSPO**: مستوى الاستجابة، $s_i(θ)$، مشكلة معدل استخدام العينات المنخفض - **LPO** (عمل متزامن): حبيبية الجملة، لكن يستخدم تطبيع على مستوى الرمز وقص ثابت - **SSPO**: مستوى الجملة الجزئية، تطبيع على مستوى الاستجابة + قص إنتروبيا تكيفي ### 3. آليات القص - **PPO-CLIP**: نطاق قص ثابت قياسي - **CISPO**: قص تدرج ناعم - **DCPO**: قص ديناميكي بناءً على احتمالية الرمز - **SSPO**: قص تكيفي بناءً على الإنتروبيا، يعالج بشكل مباشر مشكلة انهيار الإنتروبيا ### 4. مزايا هذه الورقة - **اكتمال نظري**: توفير اشتقاق تدرج تفصيلي وتحليل نظري - **جدة الطريقة**: أول من يجمع بين نسب الأهمية على مستوى الجملة الجزئية وقص الإنتروبيا التكيفي - **كفاية التجارب**: التحقق من الفعالية على أحجام نماذج ومجموعات بيانات متعددة ## الاستنتاج والنقاش ### الاستنتاجات الرئيسية 1. **فعالية SSPO**: من خلال نسب الأهمية على مستوى الجملة الجزئية وقص الإنتروبيا التكيفي، يتفوق SSPO بشكل ملحوظ على الطرق الموجودة في مهام الاستدلال الرياضي 2. **توازن الحبيبية**: مستوى الجملة الجزئية هو أفضل نقطة توازن بين مستوى الرمز ومستوى الاستجابة، مما يضمن استقرار التدريب وتحسين معدل استخدام العينات 3. **إدارة الإنتروبيا**: آلية قص الإنتروبيا التكيفي تخفف بشكل فعال من انهيار الإنتروبيا، مما يحافظ على قدرة النموذج على الاستكشاف 4. **قابلية التوسع**: يظهر SSPO أداء ممتازة على أحجام نماذج مختلفة (1.5B و 7B) ### القيود 1. **الاعتماد على التقسيم الدلالي**: يستخدم التقسيم الحالي فواصل الأسطر كمعيار، وقد لا يكون مناسباً لجميع أنواع المهام (مثل توليد الأكواد بدون بنية جملة واضحة) 2. **حساسية المعاملات الفائقة**: يدخل قص الإنتروبيا التكيفي معاملات فائقة إضافية (مثل α وعتبات الإنتروبيا)، التي تتطلب ضبطاً لمهام مختلفة 3. **نطاق التقييم محدود**: تركز التجارب بشكل أساسي على مهام الاستدلال الرياضي، والتأثير على مجالات أخرى (مثل الحوار وتوليد الأكواد) غير معروف 4. **التكلفة الحسابية**: يتطلب حساب قيمة الإنتروبيا لكل جملة جزئية، مما يزيد من التكلفة الحسابية إلى حد ما 5. **عدم كفاية التحليل النظري**: يفتقد إلى إثبات نظري حول سبب كون مستوى الجملة الجزئية هو الحبيبية المثلى ### الاتجاهات المستقبلية 1. **التوسع إلى مجالات أخرى**: تطبيق SSPO على مهام البرمجة والاستدلال الدلالي وغيرها 2. **التقسيم التكيفي**: البحث عن طرق تقسيم ديناميكية بناءً على الدلالة، بدلاً من الاعتماد البسيط على فواصل الأسطر 3. **التحليل النظري**: توفير ضمانات نظرية حول اختيار الحبيبية وقص الإنتروبيا 4. **التحقق على نطاق أكبر**: التحقق من فعالية SSPO على نماذج أكبر (مثل 100B+ معامل) ## التقييم المتعمق ### المزايا #### 1. جدة الطريقة (★★★★☆) - **وضوح الابتكار الأساسي**: نسب الأهمية على مستوى الجملة الجزئية هي امتداد طبيعي لـ GRPO و GSPO، لكن لم تتم دراستها بشكل منهجي من قبل - **جدة قص الإنتروبيا التكيفي**: استخدام الإنتروبيا كأساس لتعديل حدود القص ديناميكياً، مع تصميم معقول وحدسي - **دعم نظري كافٍ**: توفير اشتقاق تدرج كامل، يشرح سبب قدرة مستوى الجملة الجزئية على تقليل التباين #### 2. كفاية التجارب (★★★★☆) - **التحقق على نماذج متعددة**: التحقق على حجمين (1.5B و 7B) - **مقارنة مع خطوط أساس متعددة**: مقارنة مع GRPO و GSPO و Dr.GRPO و GMPO وغيرها - **تجارب استئصالية كاملة**: التحقق من مساهمة نسب الأهمية على مستوى الجملة الجزئية وقص الإنتروبيا التكيفي بشكل منفصل - **تحليل الإنتروبيا بديهي**: يوضح منحنى الإنتروبيا فعالية الطريقة بشكل مرئي #### 3. قوة الإقناع للنتائج (★★★★☆) - **تحسن متسق**: تحسن على جميع مجموعات البيانات المقيمة - **أهمية إحصائية**: هامش التحسن يصل إلى 2-3 نقاط مئوية، له قيمة عملية - **أداء SOTA**: تحقيق أداء مثلى على مجموعات بيانات متعددة #### 4. وضوح الكتابة (★★★★☆) - **هيكل واضح**: تدفق منطقي من تعريف المشكلة إلى تصميم الطريقة إلى التحقق التجريبي - **دقة التعبير الرياضي**: اشتقاق الصيغ تفصيلي، تعريف الرموز واضح - **فعالية الأشكال والجداول**: الجداول والشكل 1 يدعمان الحجج بشكل فعال ### أوجه القصور #### 1. قيود الطريقة (★★★☆☆) - **استراتيجية التقسيم البسيطة**: استخدام فواصل الأسطر فقط للتقسيم، قد لا تكون مناسبة للمهام بدون بنية جملة واضحة (مثل الأكواد) - **إدخال معاملات فائقة**: يدخل قص الإنتروبيا التكيفي معاملات فائقة إضافية (α وعتبات الإنتروبيا)، تتطلب ضبطاً - **نقص الدليل النظري**: افتقار إلى إثبات نظري حول سبب كون مستوى الجملة الجزئية هو الأمثل، يعتمد بشكل أساسي على الملاحظات التجريبية #### 2. عيوب إعداد التجارب (★★★☆☆) - **مجال واحد**: التجارب تركز بشكل أساسي على مهام الاستدلال الرياضي، تفتقد التجارب على مجالات أخرى (الحوار والأكواد والترجمة) - **حجم نموذج محدود**: التحقق الأقصى فقط على 7B، لم يتم الاختبار على نماذج أكبر (70B+) - **نقص اختبار الدلالة الإحصائية**: لم يتم توفير فترات الثقة أو الانحراف المعياري من عمليات تشغيل متعددة - **عدم الإبلاغ عن التكلفة الحسابية**: لم يتم تحليل التكلفة الحسابية الإضافية لـ SSPO مقابل طرق الأساس #### 3. نقص التحليل (★★★☆☆) - **نقص تحليل معدل القص**: على الرغم من الإشارة إلى تقليل معدل القص، لم يتم توفير بيانات محددة - **نقص تحليل الحالات**: لم يتم عرض عينات توليد محددة، لا يمكن فهم سلوك SSPO بشكل حدسي - **نقص تحليل حالات الفشل**: لم يتم مناقشة الحالات التي قد لا يكون SSPO فيها أداؤه جيداً - **مقارنة ناقصة مع LPO**: على الرغم من الإشارة إلى LPO، لم يتم إجراء مقارنة تجريبية مباشرة #### 4. إمكانية إعادة الإنتاج (★★★☆☆) - **عدم نشر الكود**: لم توفر الورقة رابط نشر الكود - **تفاصيل المعاملات الفائقة غير كاملة**: لم يتم توضيح القيمة المحددة لـ α - **عدم وضوح سبب اختيار عتبات الإنتروبيا**: لم يتم شرح كافٍ لسبب اختيار عتبات مثل 0.5 و 1.0 ### تقييم التأثير #### 1. المساهمة في المجال (★★★★☆) - **مساهمة منهجية**: توفير منظور جديد لاختيار حبيبية نسب الأهمية في خوارزميات RLVR - **قيمة عملية عالية**: يمكن تطبيقها مباشرة على خطوط أنابيب التدريب الموجودة - **قوة الإلهام**: فكرة قص الإنتروبيا التكيفي يمكن تعميمها على خوارزميات RL أخرى #### 2. القيمة العملية (★★★★☆) - **سهولة التنفيذ**: الطريقة بسيطة، لا تتطلب مكونات نموذج إضافية - **التوافقية**: يمكن استبدال GRPO/GSPO الموجودة - **تحسن الأداء واضح**: تحسن 2-3 نقاط مئوية له قيمة كبيرة في مهام الاستدلال الرياضي #### 3. التأثير المحتمل (★★★★☆) - **آفاق التطبيق الصناعي**: من Ping An Technology، قد يتم تطبيقها في المنتجات الفعلية - **اتجاهات البحث المستقبلية**: قد تلهم المزيد من الأبحاث حول اختيار الحبيبية وقص التكيف - **قيود التأثير**: قد يكون النطاق محدوداً بسبب التركيز على مجال واحد ### الحالات المناسبة #### الحالات المناسبة: 1. **مهام الاستدلال الرياضي**: السيناريو الرئيسي للتحقق، الأداء الأفضل 2. **مهام التوليد المنظمة**: المهام التي تحتوي الاستجابات على بنية جملة واضحة (مثل الأسئلة والإجابات وسلاسل الاستدلال) 3. **توليد النصوص الطويلة**: عندما تكون طول الاستجابة أطول، تكون مزايا الحبيبية على مستوى الجملة الجزئية أكثر وضوحاً 4. **السيناريوهات التي تتطلب استقرار التدريب**: التطبيقات التي تتطلب متطلبات عالية لاستقرار التدريب #### الحالات غير المناسبة: 1. **توليد الأكواد**: قد لا يكون للأكواد بنية جملة واضحة، قد لا يكون تقسيم فواصل الأسطر مناسباً 2. **توليد النصوص القصيرة**: عندما تكون الاستجابة قصيرة جداً، الفرق بين حبيبية الجملة الجزئية ومستوى الاستجابة ليس كبيراً 3. **التطبيقات في الوقت الفعلي**: حساب قيمة الإنتروبيا يزيد من التكلفة الحسابية 4. **المهام غير الإنجليزية**: قد تحتاج استراتيجية تقسيم مختلفة للغات المختلفة ### التقييم الشامل: ★★★★☆ (4.2/5) **مؤشر التوصية**: توصية قوية للباحثين والمهندسين العاملين في تدريب التعلم المعزز لـ LLM **القراء المناسبون**: - الباحثون الذين يدرسون خوارزميات RL - المهندسون الذين يطورون أنظمة تدريب LLM - الباحثون المهتمون بتحسين قدرات الاستدلال الرياضي ## المراجع الرئيسية 1. **Shao et al. (2024)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (ورقة GRPO الأصلية) 2. **Zhao et al. (2025)** - Geometric-mean policy optimization (ورقة GSPO) 3. **Schulman et al. (2017)** - Proximal policy optimization algorithms (ورقة PPO-CLIP الأصلية) 4. **Li et al. (2025)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (عمل LPO المتزامن) 5. **Hendrycks et al. (2021)** - Measuring mathematical problem solving with the MATH dataset --- **الملخص**: SSPO هي ورقة بحثية تطبيقية متينة، تقترح حلاً فعالاً للمشاكل المحددة في خوارزميات RLVR الموجودة. تصميم الطريقة معقول، والتحقق التجريبي كافٍ، وتحقق تحسناً ملحوظاً في مهام الاستدلال الرياضي. المساهمة الرئيسية تكمن في إيجاد أفضل نقطة توازن لاختيار حبيبية نسب الأهمية، وتخفيف مشكلة انهيار الإنتروبيا من خلال قص الإنتروبيا التكيفي. على الرغم من وجود مجال للتحسن في العمق النظري وعرض التطبيقات، إلا أن لها قيمة مهمة في دفع التقدم العملي في تدريب التعلم المعزز لـ LLM.