2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: Subsentence-level Policy Optimization

基本信息

论文ID: 2511.04256
标题: SSPO: Subsentence-level Policy Optimization
作者: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年11月6日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2511.04256

摘要

本文针对大语言模型（LLMs）后训练中的强化学习算法提出了SSPO（子句级策略优化）方法。现有的RLVR（可验证奖励强化学习）算法如GRPO和GSPO分别存在训练不稳定和样本利用率低的问题。GRPO采用token级重要性比率，易受异常值影响导致训练崩溃；GSPO采用响应级重要性比率，虽解决了高方差问题，但会导致整个响应被裁剪机制丢弃。SSPO通过引入句子级重要性比率，在GRPO和GSPO之间取得平衡。此外，SSPO还提出了自适应熵裁剪机制，动态调整裁剪边界，鼓励高熵token探索，限制低熵token的更新范围。实验结果显示，SSPO在五个数学推理数据集上平均得分46.57，超越GRPO（43.01）和GSPO（44.42），在三个数据集上达到最优性能。

研究背景与动机

1. 研究问题

本文要解决的核心问题是：如何在大语言模型的强化学习训练中，既保持训练稳定性，又提高样本利用率，同时避免熵崩溃现象。

2. 问题重要性

推理能力提升需求：随着LLMs在数学、编程等复杂推理任务中的应用，需要通过强化学习进行有效的后训练优化
训练效率与稳定性：大规模RL训练需要平衡计算效率和训练稳定性，避免模型崩溃
样本利用率：在有限的计算资源下，最大化利用生成的样本数据至关重要

3. 现有方法的局限性

GRPO的问题：

采用token级重要性比率计算： $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
每个token的梯度权重不同，导致策略梯度高方差
易受异常token影响，随着响应长度增加，训练噪声累积，最终导致模型训练崩溃

GSPO的问题：

采用响应级重要性比率： $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
整个响应的所有token共享同一个重要性比率
当少数token具有极端重要性权重时，会影响整体平均值，导致整个响应被PPO-CLIP机制丢弃
样本利用率降低，造成数据浪费

4. 研究动机

作者认为需要在token级和响应级之间找到一个平衡点，既能保持GSPO的训练稳定性优势，又能提高样本利用率，同时通过动态调整裁剪机制来缓解熵崩溃问题。

核心贡献

提出子句级重要性比率：通过将响应分割为多个语义片段（以换行符或双换行符为界），在句子粒度上计算重要性比率，在GRPO的token级和GSPO的响应级之间取得平衡
设计自适应熵裁剪机制：根据子句的熵值动态调整PPO-CLIP的裁剪边界，对高熵token扩大裁剪范围以鼓励探索，对低熵token收缩裁剪范围以限制更新
实验验证：在Qwen2.5-Math-1.5B和7B模型上，使用5个数学推理基准测试，SSPO平均性能超越GRPO、GSPO、Dr.GRPO和GMPO等基线方法
理论分析：提供了详细的梯度目标推导，证明SSPO的梯度权重在片段内保持一致，消除了token间的噪声干扰，降低了策略梯度方差

方法详解

任务定义

给定查询 $x$ 和响应 $y$ ，目标是通过强化学习优化策略 $π_θ$ ，使其在数学推理任务上获得更高的可验证奖励 $r(x, y)$ 。对于每个查询，生成 $G$ 个响应样本，通过组内相对优势估计进行策略更新。

模型架构

1. 子句级重要性比率

响应分割：

将响应 $y_i$ 按换行符或双换行符分割为 $N_{seg}(y_i)$ 个语义片段
第 $j$ 个片段记为 $y_{i,j}$ ，长度为 $|y_{i,j}|$

重要性比率计算： $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

优势估计（响应级）： $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

优化目标（不含裁剪）： $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. 梯度分析

SSPO的梯度目标为： $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

关键特性：同一片段内所有token的梯度权重相同，消除了token间的噪声干扰，降低了策略梯度方差。

3. 自适应熵裁剪机制

Token级熵计算： $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

片段级熵： $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

动态裁剪边界：

上界： $ϵ_{high} = 1 + α + H_{i,j}$ （α为超参数）
下界：