2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: 部分文レベルポリシー最適化

基本情報

論文ID: 2511.04256
タイトル: SSPO: Subsentence-level Policy Optimization
著者: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (平安テクノロジー)
分類: cs.CL (計算言語学)
発表日: 2025年11月6日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2511.04256

要約

本論文は、大規模言語モデル(LLM)の後訓練における強化学習アルゴリズムに対して、SSPO(部分文レベルポリシー最適化)手法を提案している。既存のRLVR(検証可能報酬強化学習)アルゴリズムであるGRPOとGSPOは、それぞれ訓練の不安定性とサンプル利用率の低さという問題を抱えている。GRPOはトークンレベルの重要度比率を採用しており、異常値の影響を受けやすく訓練崩壊を招きやすい。一方、GSPOは応答レベルの重要度比率を採用しており、高分散問題は解決するものの、応答全体がクリッピング機構によって破棄される原因となる。SSPOは部分文レベルの重要度比率を導入することで、GRPOとGSPOの間でバランスを取る。さらに、SSPOは適応的エントロピークリッピング機構を提案し、クリッピング境界を動的に調整して、高エントロピートークンの探索を促進し、低エントロピートークンの更新範囲を制限する。実験結果は、SSPOが5つの数学推論データセットで平均スコア46.57を達成し、GRPO(43.01)とGSPO(44.42)を上回り、3つのデータセットで最適性能を達成したことを示している。

研究背景と動機

1. 研究課題

本論文が解決しようとしている核心的な課題は、大規模言語モデルの強化学習訓練において、訓練の安定性を保ちながらサンプル利用率を向上させ、同時にエントロピー崩壊現象を回避する方法である。

2. 問題の重要性

推論能力向上の必要性: 数学やプログラミングなどの複雑な推論タスクにおけるLLMの応用に伴い、強化学習による効果的な後訓練最適化が必要
訓練効率と安定性: 大規模RL訓練では計算効率と訓練安定性のバランスを取る必要があり、モデル崩壊を回避する必要がある
サンプル利用率: 限定的な計算リソースの下で、生成されたサンプルデータの利用を最大化することが重要

3. 既存手法の限界

GRPOの問題点:

トークンレベルの重要度比率を採用: $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
各トークンの勾配重みが異なり、ポリシー勾配の高分散を招く
異常トークンの影響を受けやすく、応答長の増加に伴い訓練ノイズが累積し、最終的にモデル訓練崩壊を招く

GSPOの問題点:

応答レベルの重要度比率を採用: $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
応答内のすべてのトークンが同一の重要度比率を共有
少数のトークンが極端な重要度重みを持つ場合、全体平均に影響を与え、応答全体がPPO-CLIP機構によって破棄される
サンプル利用率が低下し、データ浪費につながる

4. 研究動機

著者らは、トークンレベルと応答レベルの間に平衡点を見つける必要があると考えており、GSPOの訓練安定性の利点を保ちながらサンプル利用率を向上させ、同時にクリッピング機構を動的に調整してエントロピー崩壊問題を緩和する必要があると主張している。

核心的貢献

部分文レベルの重要度比率の提案: 応答を複数の意味的セグメント(改行または二重改行で区切られた)に分割し、文レベルで重要度比率を計算することで、GRPOのトークンレベルとGSPOの応答レベルの間でバランスを取る
適応的エントロピークリッピング機構の設計: 部分文のエントロピー値に基づいてPPO-CLIPのクリッピング境界を動的に調整し、高エントロピートークンのクリッピング範囲を拡大して探索を促進し、低エントロピートークンのクリッピング範囲を縮小して更新を制限
実験検証: Qwen2.5-Math-1.5Bおよび7Bモデルで、5つの数学推論ベンチマークを使用して、SSPOの平均性能がGRPO、GSPO、Dr.GRPO、GMPOなどのベースライン手法を上回ることを実証
理論分析: 詳細な勾配目標の導出を提供し、SSPOの勾配重みがセグメント内で一貫していることを証明し、トークン間のノイズ干渉を排除し、ポリシー勾配の分散を低減

手法の詳細

タスク定義

クエリ $x$ と応答 $y$ が与えられた場合、強化学習を通じてポリシー $π_θ$ を最適化し、数学推論タスクでより高い検証可能報酬 $r(x, y)$ を得ることが目標である。各クエリに対して $G$ 個の応答サンプルを生成し、グループ内相対優位性推定を通じてポリシーを更新する。

モデルアーキテクチャ

1. 部分文レベルの重要度比率

応答分割:

応答 $y_i$ を改行または二重改行で $N_{seg}(y_i)$ 個の意味的セグメントに分割
第 $j$ 番目のセグメントを $y_{i,j}$ と記し、長さを $|y_{i,j}|$ とする

重要度比率の計算: $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

優位性推定(応答レベル): $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

最適化目標(クリッピングなし): $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. 勾配分析

SSPOの勾配目標は: $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

主要特性: 同一セグメント内のすべてのトークンの勾配重みが同じであり、トークン間のノイズ干渉を排除し、ポリシー勾配の分散を低減する。

3. 適応的エントロピークリッピング機構

トークンレベルのエントロピー計算: $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

セグメントレベルのエントロピー: $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

動的クリッピング境界:

上界: $ϵ_{high} = 1 + α + H_{i,j}$ (αはハイパーパラメータ)
下界: