As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- 论文ID: 2511.04256
- 标题: SSPO: Subsentence-level Policy Optimization
- 作者: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
- 分类: cs.CL (Computational Linguistics)
- 发表时间: 2025年11月6日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2511.04256
本文针对大语言模型(LLMs)后训练中的强化学习算法提出了SSPO(子句级策略优化)方法。现有的RLVR(可验证奖励强化学习)算法如GRPO和GSPO分别存在训练不稳定和样本利用率低的问题。GRPO采用token级重要性比率,易受异常值影响导致训练崩溃;GSPO采用响应级重要性比率,虽解决了高方差问题,但会导致整个响应被裁剪机制丢弃。SSPO通过引入句子级重要性比率,在GRPO和GSPO之间取得平衡。此外,SSPO还提出了自适应熵裁剪机制,动态调整裁剪边界,鼓励高熵token探索,限制低熵token的更新范围。实验结果显示,SSPO在五个数学推理数据集上平均得分46.57,超越GRPO(43.01)和GSPO(44.42),在三个数据集上达到最优性能。
本文要解决的核心问题是:如何在大语言模型的强化学习训练中,既保持训练稳定性,又提高样本利用率,同时避免熵崩溃现象。
- 推理能力提升需求:随着LLMs在数学、编程等复杂推理任务中的应用,需要通过强化学习进行有效的后训练优化
- 训练效率与稳定性:大规模RL训练需要平衡计算效率和训练稳定性,避免模型崩溃
- 样本利用率:在有限的计算资源下,最大化利用生成的样本数据至关重要
GRPO的问题:
- 采用token级重要性比率计算:wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
- 每个token的梯度权重不同,导致策略梯度高方差
- 易受异常token影响,随着响应长度增加,训练噪声累积,最终导致模型训练崩溃
GSPO的问题:
- 采用响应级重要性比率:si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
- 整个响应的所有token共享同一个重要性比率
- 当少数token具有极端重要性权重时,会影响整体平均值,导致整个响应被PPO-CLIP机制丢弃
- 样本利用率降低,造成数据浪费
作者认为需要在token级和响应级之间找到一个平衡点,既能保持GSPO的训练稳定性优势,又能提高样本利用率,同时通过动态调整裁剪机制来缓解熵崩溃问题。
- 提出子句级重要性比率:通过将响应分割为多个语义片段(以换行符或双换行符为界),在句子粒度上计算重要性比率,在GRPO的token级和GSPO的响应级之间取得平衡
- 设计自适应熵裁剪机制:根据子句的熵值动态调整PPO-CLIP的裁剪边界,对高熵token扩大裁剪范围以鼓励探索,对低熵token收缩裁剪范围以限制更新
- 实验验证:在Qwen2.5-Math-1.5B和7B模型上,使用5个数学推理基准测试,SSPO平均性能超越GRPO、GSPO、Dr.GRPO和GMPO等基线方法
- 理论分析:提供了详细的梯度目标推导,证明SSPO的梯度权重在片段内保持一致,消除了token间的噪声干扰,降低了策略梯度方差
给定查询x和响应y,目标是通过强化学习优化策略πθ,使其在数学推理任务上获得更高的可验证奖励r(x,y)。对于每个查询,生成G个响应样本,通过组内相对优势估计进行策略更新。
响应分割:
- 将响应yi按换行符或双换行符分割为Nseg(yi)个语义片段
- 第j个片段记为yi,j,长度为∣yi,j∣
重要性比率计算:
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
优势估计(响应级):
A^i=std({r(x,yi)}i=1G)r(x,yi)−mean({r(x,yi)}i=1G)
优化目标(不含裁剪):
JSSPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣si,j(θ)A^i]
SSPO的梯度目标为:
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
关键特性:同一片段内所有token的梯度权重相同,消除了token间的噪声干扰,降低了策略梯度方差。
Token级熵计算:
Ht=−∑v∈Vπθold(v∣x,o<t)logπθold(v∣x,o<t)
片段级熵:
Hi,j=∣yi,j∣1∑t=1∣yi,j∣Ht
动态裁剪边界:
- 上界:ϵhigh=1+α+Hi,j(α为超参数)
- 下界:
0.3, & H_{i,j} > 1 \\
1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\
0.8, & H_{i,j} < 0.5
\end{cases}$$
**最终优化目标**:
$$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$
### 技术创新点
#### 1. 粒度平衡设计
- **Token级(GRPO)**:过于细粒度,高方差
- **响应级(GSPO)**:过于粗粒度,低样本利用率
- **子句级(SSPO)**:在稳定性和样本利用率之间取得最佳平衡
#### 2. 自适应裁剪的合理性
- **高熵场景**($H_{i,j} > 1$):模型对这些token不确定,扩大裁剪范围鼓励探索
- **中等熵场景**($0.5 \leq H_{i,j} \leq 1$):线性调整裁剪范围
- **低熵场景**($H_{i,j} < 0.5$):模型已学好这些token,收缩裁剪范围限制更新,防止过拟合
#### 3. 与LPO的区别
并发工作LPO也提出了句子粒度重要性采样,但存在两点关键差异:
- **优势估计归一化**:LPO在token级归一化(受响应长度影响),SSPO在响应级归一化(与响应长度无关)
- **裁剪机制**:LPO使用固定PPO-CLIP,SSPO使用自适应熵裁剪
## 实验设置
### 数据集
**训练数据**:
- **MATH Level 3-5**:包含8523个数学问题
- 每个问题采样8个rollouts
- 响应长度限制为3000 tokens
- Batch size设置为128
**评估数据集**(5个数学推理基准):
1. **MATH-500**:500个来自MATH数据集的问题,涵盖代数、几何、数论等
2. **AMC23**:83个中等难度的多项选择题
3. **AIME24**:30个来自2024年美国数学邀请赛的奥林匹克级问题
4. **Minerva**:272个研究生级多步推理问题
5. **Olympiad Bench**:675个高难度奥林匹克问题
### 评价指标
- **Greedy Decoding准确率(Avg@1)**:使用贪心解码评估模型性能
- **平均得分**:五个数据集的平均准确率
### 对比方法
1. **GRPO**:token级重要性比率的基线方法
2. **GSPO**:响应级重要性比率方法
3. **Dr.GRPO**:GRPO的改进版本
4. **GMPO**:几何平均策略优化
5. **SSPO (w/o entropy clip)**:仅使用子句级重要性比率,不使用自适应熵裁剪的消融版本
### 实现细节
- **模型**:Qwen2.5-Math-1.5B和Qwen2.5-Math-7B
- **框架**:veRL强化学习框架
- **模板**:使用Qwen-Math模板进行训练和评估
- **评估策略**:每10步在5个数据集上评估,选择最佳得分作为最终结果
## 实验结果
### 主要结果
#### Qwen2.5-Math-1.5B模型
| 方法 | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 |
| GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 |
| Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 |
| GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 |
| SSPO (w/o entropy clip) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 |
| **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** |
#### Qwen2.5-Math-7B模型
| 方法 | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 |
| GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 |
| Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 |
| GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 |
| SSPO (w/o entropy clip) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 |
| **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** |
**关键发现**:
1. **整体性能**:SSPO在两个模型规模上都取得最高平均分
- 1.5B模型:46.57 vs GRPO 43.01(+3.56)vs GSPO 44.42(+2.15)
- 7B模型:54.85 vs GRPO 53.15(+1.70)vs GSPO 53.75(+1.10)
2. **规模扩展性**:SSPO在更大模型上保持优势,虽然提升幅度略有减小
3. **SOTA性能**:在1.5B模型的AIME24、AMC23和Minerva三个数据集上达到最优
### 消融实验
#### 子句级重要性比率的贡献
对比SSPO (w/o entropy clip)与GRPO和GSPO:
- **1.5B模型**:45.72 vs GRPO 43.01(+2.71)vs GSPO 44.42(+1.30)
- **7B模型**:53.99 vs GRPO 53.15(+0.84)vs GSPO 53.75(+0.24)
**结论**:子句级重要性比率本身就带来显著提升,证明了粒度选择的重要性。
#### 自适应熵裁剪的贡献
对比SSPO与SSPO (w/o entropy clip):
- **1.5B模型**:46.57 vs 45.72(+0.85)
- **7B模型**:54.85 vs 53.99(+0.86)
**结论**:自适应熵裁剪在两个模型规模上都带来约0.85的一致性提升,证明其有效性。
### 熵分析
图1展示了SSPO、SSPO (w/o entropy clip)、GSPO和GRPO的训练熵变化:
**观察结果**:
1. **GRPO和GSPO**:熵快速下降,表明模型过早收敛,存在熵崩溃风险
2. **SSPO (w/o entropy clip)**:熵下降速度略慢于GRPO和GSPO
3. **SSPO**:熵保持最高水平,下降最缓慢,说明自适应熵裁剪有效缓解了熵崩溃
**意义**:更高的熵意味着模型保持探索能力,不会过早陷入局部最优,这解释了SSPO性能提升的机制。
### 实验发现
1. **粒度权衡的重要性**:在token级和响应级之间选择合适的粒度(子句级)对性能至关重要
2. **熵管理的必要性**:动态调整裁剪边界可以有效防止熵崩溃,维持训练稳定性
3. **样本利用率提升**:子句级重要性比率降低了裁剪率,提高了样本利用效率
4. **模型规模的影响**:在更大模型(7B)上,基线方法性能差距缩小,但SSPO仍保持领先
## 相关工作
### 1. GRPO强化学习算法
- **DeepSeek-R1的成功应用**:GRPO在推理任务上取得质的飞跃
- **核心问题**:token级重要性比率导致高方差和训练不稳定
- **本文改进**:引入子句级重要性比率和动态裁剪
### 2. 重要性比率计算
- **GRPO**:token级,$w_{i,t}(θ)$,高方差问题
- **GSPO**:响应级,$s_i(θ)$,低样本利用率问题
- **LPO**(并发工作):句子粒度,但使用token级归一化和固定裁剪
- **SSPO**:子句级,响应级归一化+自适应熵裁剪
### 3. 裁剪机制
- **PPO-CLIP**:标准固定裁剪范围
- **CISPO**:软裁剪梯度
- **DCPO**:基于token概率的动态裁剪
- **SSPO**:基于熵的自适应裁剪,针对性解决熵崩溃问题
### 4. 本文优势
- **理论完整性**:提供详细的梯度推导和理论分析
- **方法新颖性**:首次结合子句级重要性比率和自适应熵裁剪
- **实验充分性**:在多个模型规模和数据集上验证有效性
## 结论与讨论
### 主要结论
1. **SSPO有效性**:通过子句级重要性比率和自适应熵裁剪,SSPO在数学推理任务上显著超越现有方法
2. **粒度平衡**:子句级是token级和响应级之间的最佳平衡点,既保证训练稳定性又提高样本利用率
3. **熵管理**:自适应熵裁剪机制有效缓解熵崩溃,保持模型探索能力
4. **可扩展性**:SSPO在不同模型规模(1.5B和7B)上都表现出色
### 局限性
1. **语义分割依赖**:当前使用换行符作为分割标准,可能不适用于所有任务类型(如没有明确句子结构的代码生成)
2. **超参数敏感性**:自适应熵裁剪引入了额外的超参数(如α和熵阈值),需要针对不同任务调优
3. **评估范围有限**:实验主要集中在数学推理任务,对其他领域(如对话、代码生成)的效果未知
4. **计算开销**:需要计算每个片段的熵值,增加了一定的计算成本
5. **理论分析不足**:缺乏关于为什么子句级是最优粒度的理论证明
### 未来方向
1. **扩展到其他领域**:将SSPO应用于编程、语义推理等任务
2. **自适应分割**:研究基于语义的动态分割方法,而非简单依赖换行符
3. **理论分析**:提供关于粒度选择和熵裁剪的理论保证
4. **更大规模验证**:在更大规模模型(如100B+参数)上验证SSPO的有效性
## 深度评价
### 优点
#### 1. 方法创新性(★★★★☆)
- **核心创新清晰**:子句级重要性比率是GRPO和GSPO之间的自然延伸,但之前未被系统研究
- **自适应熵裁剪新颖**:将熵作为动态调整裁剪边界的依据,设计合理且直观
- **理论支撑充分**:提供了完整的梯度推导,说明了为什么子句级能降低方差
#### 2. 实验充分性(★★★★☆)
- **多模型验证**:在1.5B和7B两个规模上验证
- **多基线对比**:与GRPO、GSPO、Dr.GRPO、GMPO等多个方法对比
- **消融实验完整**:分别验证了子句级重要性比率和自适应熵裁剪的贡献
- **熵分析直观**:通过熵曲线可视化展示了方法的有效性
#### 3. 结果说服力(★★★★☆)
- **一致性提升**:在所有评估数据集上都有提升
- **统计显著性**:平均提升幅度达2-3个百分点,具有实际意义
- **SOTA性能**:在多个数据集上达到最优
#### 4. 写作清晰度(★★★★☆)
- **结构清晰**:问题定义→方法设计→实验验证的逻辑流畅
- **数学表述准确**:公式推导详细,符号定义明确
- **图表辅助有效**:表格和图1有效支撑论述
### 不足
#### 1. 方法局限性(★★★☆☆)
- **分割策略简单**:仅使用换行符分割,对于没有明确句子结构的任务(如代码)可能不适用
- **超参数引入**:自适应熵裁剪引入了额外的超参数(α和熵阈值),需要调优
- **粒度选择缺乏理论**:为什么子句级是最优的缺乏理论证明,主要依赖经验观察
#### 2. 实验设置缺陷(★★★☆☆)
- **领域单一**:仅在数学推理任务上验证,缺乏其他领域(对话、代码、翻译)的实验
- **模型规模有限**:最大仅验证到7B,未在更大规模模型(如70B+)上测试
- **缺乏统计显著性检验**:未提供置信区间或多次运行的标准差
- **计算成本未报告**:未分析SSPO相比基线方法的额外计算开销
#### 3. 分析不足(★★★☆☆)
- **裁剪率分析缺失**:虽然提到降低裁剪率,但未提供具体数据
- **案例分析缺失**:未展示具体的生成样例,无法直观理解SSPO的行为
- **失败案例分析**:未讨论SSPO在哪些情况下表现不佳
- **与LPO对比不足**:虽然提到了LPO,但未进行直接实验对比
#### 4. 可复现性(★★★☆☆)
- **代码未开源**:论文未提供代码链接
- **超参数细节不全**:α的具体取值未明确说明
- **熵阈值选择依据**:为什么选择0.5、1.0等阈值未充分解释
### 影响力评估
#### 1. 对领域的贡献(★★★★☆)
- **方法学贡献**:为RLVR算法的粒度选择提供了新思路
- **实用价值高**:可直接应用于现有的RL训练流程
- **启发性强**:自适应熵裁剪的思想可推广到其他RL算法
#### 2. 实用价值(★★★★☆)
- **易于实现**:方法简单,不需要额外的模型组件
- **即插即用**:可以替换现有的GRPO/GSPO
- **性能提升明显**:2-3个百分点的提升在数学推理任务上很有价值
#### 3. 潜在影响(★★★★☆)
- **工业应用前景**:来自平安科技,可能会在实际产品中应用
- **后续研究方向**:可能激发更多关于粒度选择和自适应裁剪的研究
- **局限性**:领域单一可能限制影响范围
### 适用场景
#### 适合的场景:
1. **数学推理任务**:论文主要验证场景,效果最佳
2. **结构化生成任务**:响应具有明确句子结构的任务(如问答、推理链生成)
3. **长文本生成**:响应长度较长时,子句级粒度优势更明显
4. **需要稳定训练的场景**:对训练稳定性要求高的应用
#### 不太适合的场景:
1. **代码生成**:代码可能没有明确的句子结构,换行符分割不合适
2. **短文本生成**:响应很短时,子句级和响应级差异不大
3. **实时应用**:需要计算熵值,增加推理开销
4. **非英语任务**:句子分割策略可能需要针对不同语言调整
### 综合评分:★★★★☆ (4.2/5)
**推荐指数**:强烈推荐给从事LLM强化学习训练的研究者和工程师
**适合读者**:
- 研究RL算法的学者
- 开发LLM训练系统的工程师
- 关注数学推理能力提升的研究者
## 参考文献(关键文献)
1. **Shao et al. (2024)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (GRPO原始论文)
2. **Zhao et al. (2025)** - Geometric-mean policy optimization (GSPO论文)
3. **Schulman et al. (2017)** - Proximal policy optimization algorithms (PPO-CLIP原始论文)
4. **Li et al. (2025)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (LPO并发工作)
5. **Hendrycks et al. (2021)** - Measuring mathematical problem solving with the MATH dataset
---
**总结**:SSPO是一篇扎实的应用研究论文,针对现有RLVR算法的具体问题提出了有效的解决方案。方法设计合理,实验验证充分,在数学推理任务上取得了显著提升。主要贡献在于找到了重要性比率计算粒度的最佳平衡点,并通过自适应熵裁剪缓解了熵崩溃问题。虽然在理论深度和应用广度上有改进空间,但对于推动LLM强化学习训练的实践进展具有重要价值。