As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- 論文ID: 2511.04256
- タイトル: SSPO: Subsentence-level Policy Optimization
- 著者: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (平安テクノロジー)
- 分類: cs.CL (計算言語学)
- 発表日: 2025年11月6日 (arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2511.04256
本論文は、大規模言語モデル(LLM)の後訓練における強化学習アルゴリズムに対して、SSPO(部分文レベルポリシー最適化)手法を提案している。既存のRLVR(検証可能報酬強化学習)アルゴリズムであるGRPOとGSPOは、それぞれ訓練の不安定性とサンプル利用率の低さという問題を抱えている。GRPOはトークンレベルの重要度比率を採用しており、異常値の影響を受けやすく訓練崩壊を招きやすい。一方、GSPOは応答レベルの重要度比率を採用しており、高分散問題は解決するものの、応答全体がクリッピング機構によって破棄される原因となる。SSPOは部分文レベルの重要度比率を導入することで、GRPOとGSPOの間でバランスを取る。さらに、SSPOは適応的エントロピークリッピング機構を提案し、クリッピング境界を動的に調整して、高エントロピートークンの探索を促進し、低エントロピートークンの更新範囲を制限する。実験結果は、SSPOが5つの数学推論データセットで平均スコア46.57を達成し、GRPO(43.01)とGSPO(44.42)を上回り、3つのデータセットで最適性能を達成したことを示している。
本論文が解決しようとしている核心的な課題は、大規模言語モデルの強化学習訓練において、訓練の安定性を保ちながらサンプル利用率を向上させ、同時にエントロピー崩壊現象を回避する方法である。
- 推論能力向上の必要性: 数学やプログラミングなどの複雑な推論タスクにおけるLLMの応用に伴い、強化学習による効果的な後訓練最適化が必要
- 訓練効率と安定性: 大規模RL訓練では計算効率と訓練安定性のバランスを取る必要があり、モデル崩壊を回避する必要がある
- サンプル利用率: 限定的な計算リソースの下で、生成されたサンプルデータの利用を最大化することが重要
GRPOの問題点:
- トークンレベルの重要度比率を採用: wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
- 各トークンの勾配重みが異なり、ポリシー勾配の高分散を招く
- 異常トークンの影響を受けやすく、応答長の増加に伴い訓練ノイズが累積し、最終的にモデル訓練崩壊を招く
GSPOの問題点:
- 応答レベルの重要度比率を採用: si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
- 応答内のすべてのトークンが同一の重要度比率を共有
- 少数のトークンが極端な重要度重みを持つ場合、全体平均に影響を与え、応答全体がPPO-CLIP機構によって破棄される
- サンプル利用率が低下し、データ浪費につながる
著者らは、トークンレベルと応答レベルの間に平衡点を見つける必要があると考えており、GSPOの訓練安定性の利点を保ちながらサンプル利用率を向上させ、同時にクリッピング機構を動的に調整してエントロピー崩壊問題を緩和する必要があると主張している。
- 部分文レベルの重要度比率の提案: 応答を複数の意味的セグメント(改行または二重改行で区切られた)に分割し、文レベルで重要度比率を計算することで、GRPOのトークンレベルとGSPOの応答レベルの間でバランスを取る
- 適応的エントロピークリッピング機構の設計: 部分文のエントロピー値に基づいてPPO-CLIPのクリッピング境界を動的に調整し、高エントロピートークンのクリッピング範囲を拡大して探索を促進し、低エントロピートークンのクリッピング範囲を縮小して更新を制限
- 実験検証: Qwen2.5-Math-1.5Bおよび7Bモデルで、5つの数学推論ベンチマークを使用して、SSPOの平均性能がGRPO、GSPO、Dr.GRPO、GMPOなどのベースライン手法を上回ることを実証
- 理論分析: 詳細な勾配目標の導出を提供し、SSPOの勾配重みがセグメント内で一貫していることを証明し、トークン間のノイズ干渉を排除し、ポリシー勾配の分散を低減
クエリxと応答yが与えられた場合、強化学習を通じてポリシーπθを最適化し、数学推論タスクでより高い検証可能報酬r(x,y)を得ることが目標である。各クエリに対してG個の応答サンプルを生成し、グループ内相対優位性推定を通じてポリシーを更新する。
応答分割:
- 応答yiを改行または二重改行でNseg(yi)個の意味的セグメントに分割
- 第j番目のセグメントをyi,jと記し、長さを∣yi,j∣とする
重要度比率の計算:
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
優位性推定(応答レベル):
A^i=std({r(x,yi)}i=1G)r(x,yi)−mean({r(x,yi)}i=1G)
最適化目標(クリッピングなし):
JSSPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣si,j(θ)A^i]
SSPOの勾配目標は:
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
主要特性: 同一セグメント内のすべてのトークンの勾配重みが同じであり、トークン間のノイズ干渉を排除し、ポリシー勾配の分散を低減する。
トークンレベルのエントロピー計算:
Ht=−∑v∈Vπθold(v∣x,o<t)logπθold(v∣x,o<t)
セグメントレベルのエントロピー:
Hi,j=∣yi,j∣1∑t=1∣yi,j∣Ht
動的クリッピング境界:
- 上界: ϵhigh=1+α+Hi,j (αはハイパーパラメータ)
- 下界:
0.3, & H_{i,j} > 1 \\
1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\
0.8, & H_{i,j} < 0.5
\end{cases}$$
**最終的な最適化目標**:
$$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$
### 技術的革新点
#### 1. 粒度バランス設計
- **トークンレベル(GRPO)**: 過度に細粒度で、高分散
- **応答レベル(GSPO)**: 過度に粗粒度で、低サンプル利用率
- **部分文レベル(SSPO)**: 安定性とサンプル利用率の最適なバランス
#### 2. 適応的クリッピングの合理性
- **高エントロピーシナリオ**($H_{i,j} > 1$): モデルがこれらのトークンについて不確実であり、クリッピング範囲を拡大して探索を促進
- **中程度エントロピーシナリオ**($0.5 \leq H_{i,j} \leq 1$): クリッピング範囲を線形に調整
- **低エントロピーシナリオ**($H_{i,j} < 0.5$): モデルがこれらのトークンをよく学習しており、クリッピング範囲を縮小して更新を制限し、過学習を防止
#### 3. LPOとの違い
並行研究LPOも文レベルの重要度サンプリングを提案しているが、2つの主要な違いがある:
- **優位性推定の正規化**: LPOはトークンレベルで正規化(応答長の影響を受ける)、SSPOは応答レベルで正規化(応答長に無関係)
- **クリッピング機構**: LPOは固定PPO-CLIPを使用、SSPOは適応的エントロピークリッピングを使用
## 実験設定
### データセット
**訓練データ**:
- **MATH Level 3-5**: 8523個の数学問題を含む
- 各問題から8個のロールアウトをサンプリング
- 応答長を3000トークンに制限
- バッチサイズを128に設定
**評価データセット**(5つの数学推論ベンチマーク):
1. **MATH-500**: MATHデータセットから500個の問題、代数、幾何学、数論などを網羅
2. **AMC23**: 83個の中程度難度の多肢選択問題
3. **AIME24**: 2024年米国数学招待試験からの30個のオリンピックレベル問題
4. **Minerva**: 272個の大学院レベルの多段階推論問題
5. **Olympiad Bench**: 675個の高難度オリンピック問題
### 評価指標
- **貪欲デコーディング精度(Avg@1)**: 貪欲デコーディングを使用したモデル性能の評価
- **平均スコア**: 5つのデータセットの平均精度
### 比較手法
1. **GRPO**: トークンレベルの重要度比率のベースライン手法
2. **GSPO**: 応答レベルの重要度比率手法
3. **Dr.GRPO**: GRPOの改善版
4. **GMPO**: 幾何平均ポリシー最適化
5. **SSPO (w/o entropy clip)**: 部分文レベルの重要度比率のみを使用し、適応的エントロピークリッピングを使用しないアブレーション版
### 実装詳細
- **モデル**: Qwen2.5-Math-1.5BおよびQwen2.5-Math-7B
- **フレームワーク**: veRL強化学習フレームワーク
- **テンプレート**: Qwen-Mathテンプレートを訓練と評価に使用
- **評価戦略**: 10ステップごとに5つのデータセットで評価し、最高スコアを最終結果として選択
## 実験結果
### 主要結果
#### Qwen2.5-Math-1.5Bモデル
| 手法 | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 |
| GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 |
| Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 |
| GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 |
| SSPO (w/o entropy clip) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 |
| **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** |
#### Qwen2.5-Math-7Bモデル
| 手法 | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 |
| GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 |
| Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 |
| GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 |
| SSPO (w/o entropy clip) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 |
| **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** |
**主要な発見**:
1. **全体的性能**: SSPOは両方のモデルサイズで最高の平均スコアを達成
- 1.5Bモデル: 46.57 vs GRPO 43.01(+3.56) vs GSPO 44.42(+2.15)
- 7Bモデル: 54.85 vs GRPO 53.15(+1.70) vs GSPO 53.75(+1.10)
2. **スケーリング拡張性**: SSPOはより大きなモデルで優位性を保ち、改善幅は若干減少
3. **SOTA性能**: 1.5Bモデルの3つのデータセット(AIME24、AMC23、Minerva)で最適性能を達成
### アブレーション実験
#### 部分文レベルの重要度比率の貢献
SSPO (w/o entropy clip)とGRPO、GSPOの比較:
- **1.5Bモデル**: 45.72 vs GRPO 43.01(+2.71) vs GSPO 44.42(+1.30)
- **7Bモデル**: 53.99 vs GRPO 53.15(+0.84) vs GSPO 53.75(+0.24)
**結論**: 部分文レベルの重要度比率自体が顕著な改善をもたらし、粒度選択の重要性を証明している。
#### 適応的エントロピークリッピングの貢献
SSPOとSSPO (w/o entropy clip)の比較:
- **1.5Bモデル**: 46.57 vs 45.72(+0.85)
- **7Bモデル**: 54.85 vs 53.99(+0.86)
**結論**: 適応的エントロピークリッピングは両方のモデルサイズで約0.85の一貫した改善をもたらし、その有効性を証明している。
### エントロピー分析
図1はSSPO、SSPO (w/o entropy clip)、GSPO、GRPOの訓練エントロピー変化を示している:
**観察結果**:
1. **GRPOとGSPO**: エントロピーが急速に低下し、モデルが過早に収束し、エントロピー崩壊のリスクがあることを示している
2. **SSPO (w/o entropy clip)**: エントロピー低下速度がGRPOとGSPOより若干遅い
3. **SSPO**: エントロピーが最高水準を保ち、低下が最も緩やかで、適応的エントロピークリッピングがエントロピー崩壊を効果的に緩和していることを示している
**意義**: より高いエントロピーはモデルが探索能力を保ち、局所最適値に過早に陥らないことを意味し、これはSSPOの性能向上メカニズムを説明している。
### 実験的発見
1. **粒度バランスの重要性**: トークンレベルと応答レベルの間で適切な粒度(部分文レベル)を選択することが性能に重要
2. **エントロピー管理の必要性**: クリッピング境界を動的に調整することで、エントロピー崩壊を効果的に防ぎ、訓練安定性を維持できる
3. **サンプル利用率の向上**: 部分文レベルの重要度比率はクリッピング率を低下させ、サンプル利用効率を向上させる
4. **モデルサイズの影響**: より大きなモデル(7B)では、ベースライン手法間の性能差が縮小するが、SSPOは依然として領先している
## 関連研究
### 1. GRPO強化学習アルゴリズム
- **DeepSeek-R1での成功応用**: GRPOは推論タスクで質的飛躍を達成
- **核心的問題**: トークンレベルの重要度比率は高分散と訓練不安定性を招く
- **本論文の改善**: 部分文レベルの重要度比率と動的クリッピングを導入
### 2. 重要度比率計算
- **GRPO**: トークンレベル、$w_{i,t}(θ)$、高分散問題
- **GSPO**: 応答レベル、$s_i(θ)$、低サンプル利用率問題
- **LPO**(並行研究): 文レベル粒度だが、トークンレベル正規化と固定クリッピングを使用
- **SSPO**: 部分文レベル、応答レベル正規化+適応的エントロピークリッピング
### 3. クリッピング機構
- **PPO-CLIP**: 標準的な固定クリッピング範囲
- **CISPO**: ソフトクリッピング勾配
- **DCPO**: トークン確率に基づく動的クリッピング
- **SSPO**: エントロピーに基づく適応的クリッピング、エントロピー崩壊問題に対応
### 4. 本論文の利点
- **理論的完全性**: 詳細な勾配導出と理論分析を提供
- **手法の新規性**: 部分文レベルの重要度比率と適応的エントロピークリッピングの初の組み合わせ
- **実験の充分性**: 複数のモデルサイズとデータセットで有効性を検証
## 結論と考察
### 主要な結論
1. **SSPOの有効性**: 部分文レベルの重要度比率と適応的エントロピークリッピングを通じて、SSPOは数学推論タスクで既存手法を大幅に上回る
2. **粒度バランス**: 部分文レベルはトークンレベルと応答レベルの間の最適なバランスポイントであり、訓練安定性を保証しながらサンプル利用率を向上させる
3. **エントロピー管理**: 適応的エントロピークリッピング機構はエントロピー崩壊を効果的に緩和し、モデルの探索能力を保持
4. **スケーラビリティ**: SSPOは異なるモデルサイズ(1.5Bおよび7B)で優れた性能を示す
### 限界
1. **意味的分割への依存**: 現在は改行を分割基準として使用しており、すべてのタスクタイプ(明確な文構造を持たないコード生成など)に適用できない可能性がある
2. **ハイパーパラメータ感度**: 適応的エントロピークリッピングは追加のハイパーパラメータ(αとエントロピー閾値など)を導入し、異なるタスクに対する調整が必要
3. **評価範囲の限定**: 実験は主に数学推論タスクに集中しており、他の領域(対話、コード生成)への効果は不明
4. **計算オーバーヘッド**: 各セグメントのエントロピー値を計算する必要があり、一定の計算コストが増加
5. **理論分析の不足**: 部分文レベルが最適粒度である理由についての理論的証明が欠けている
### 今後の方向性
1. **他の領域への拡張**: SSPOをプログラミング、意味推論などのタスクに応用
2. **適応的分割**: 改行符への単純な依存ではなく、意味ベースの動的分割方法を研究
3. **理論分析**: 粒度選択とエントロピークリッピングに関する理論的保証を提供
4. **より大規模な検証**: より大規模なモデル(100B+パラメータ)でSSPOの有効性を検証
## 深層評価
### 利点
#### 1. 手法の革新性(★★★★☆)
- **核心的革新が明確**: 部分文レベルの重要度比率はGRPOとGSPOの自然な延長だが、以前は体系的に研究されていない
- **適応的エントロピークリッピングが新規**: エントロピーを動的クリッピング境界調整の根拠として使用し、設計が合理的で直感的
- **理論的支援が充分**: 完全な勾配導出を提供し、部分文レベルが分散を低減できる理由を説明
#### 2. 実験の充分性(★★★★☆)
- **複数モデルでの検証**: 1.5Bおよび7Bの2つのサイズで検証
- **複数ベースラインとの比較**: GRPO、GSPO、Dr.GRPO、GMPOなど複数の手法と比較
- **アブレーション実験が完全**: 部分文レベルの重要度比率と適応的エントロピークリッピングの貢献をそれぞれ検証
- **エントロピー分析が直感的**: エントロピー曲線の可視化により手法の有効性を示す
#### 3. 結果の説得力(★★★★☆)
- **一貫した改善**: すべての評価データセットで改善
- **統計的有意性**: 平均改善幅が2-3パーセントポイントで実用的意義がある
- **SOTA性能**: 複数のデータセットで最適性能を達成
#### 4. 執筆の明確性(★★★★☆)
- **構造が明確**: 問題定義→手法設計→実験検証の論理フローが流暢
- **数学表記が正確**: 公式導出が詳細で記号定義が明確
- **図表が有効**: テーブルと図1が論述を効果的に支援
### 不足
#### 1. 手法の限界(★★★☆☆)
- **分割戦略が単純**: 改行符のみで分割し、明確な文構造を持たないタスク(コード)には不適切な可能性
- **ハイパーパラメータ導入**: 適応的エントロピークリッピングは追加のハイパーパラメータ(αとエントロピー閾値)を導入し、調整が必要
- **粒度選択に理論的根拠が不足**: 部分文レベルが最適である理由に理論的証明が欠けており、主に経験的観察に依存
#### 2. 実験設定の欠陥(★★★☆☆)
- **領域が単一**: 数学推論タスクのみで検証され、他の領域(対話、コード、翻訳)の実験が欠けている
- **モデルサイズが限定**: 最大7Bまでの検証で、より大規模なモデル(70B+)での検証がない
- **統計的有意性検定が欠けている**: 信頼区間または複数実行の標準偏差が提供されていない
- **計算コストが未報告**: SSPOのベースライン手法に対する追加計算オーバーヘッドが分析されていない
#### 3. 分析の不足(★★★☆☆)
- **クリッピング率分析が欠けている**: クリッピング率低下について言及されているが、具体的データが提供されていない
- **ケーススタディが欠けている**: 具体的な生成サンプルが示されておらず、SSPOの動作を直感的に理解できない
- **失敗ケース分析が欠けている**: SSPOが性能不良を示す状況についての議論がない
- **LPOとの比較が不足**: LPOについて言及されているが、直接的な実験比較がない
#### 4. 再現性(★★★☆☆)
- **コードが未公開**: 論文はコードリンクを提供していない
- **ハイパーパラメータ詳細が不完全**: αの具体的な値が明確に説明されていない
- **エントロピー閾値選択の根拠が不十分**: 0.5、1.0などの閾値を選択した理由が十分に説明されていない
## 影響力評価
### 1. 領域への貢献(★★★★☆)
- **方法論的貢献**: RLVR アルゴリズムの粒度選択に新しい視点を提供
- **実用的価値が高い**: 既存のRL訓練フローに直接適用可能
- **啓発性が強い**: 適応的エントロピークリッピングの考え方は他のRL アルゴリズムに推広可能
### 2. 実用的価値(★★★★☆)
- **実装が容易**: 手法が単純で追加のモデルコンポーネントが不要
- **プラグアンドプレイ**: 既存のGRPO/GSPOを置き換え可能
- **性能向上が明確**: 数学推論タスクで2-3パーセントポイントの改善は実用的価値がある
### 3. 潜在的影響(★★★★☆)
- **産業応用の見通し**: 平安テクノロジーからの論文で実製品への応用の可能性
- **後続研究の方向性**: 粒度選択と適応的クリッピングに関する研究を刺激する可能性
- **限界**: 領域が単一であることが影響範囲を制限する可能性
### 適用シナリオ
#### 適用に適したシナリオ:
1. **数学推論タスク**: 論文の主要検証シナリオで最適な効果
2. **構造化生成タスク**: 明確な文構造を持つ応答のタスク(質問応答、推論チェーン生成など)
3. **長文本生成**: 応答長が長い場合、部分文レベルの粒度の利点がより明確
4. **安定訓練が必要なシナリオ**: 訓練安定性要件が高いアプリケーション
#### 適用に不適切なシナリオ:
1. **コード生成**: コードは明確な文構造を持たず、改行符分割が不適切
2. **短文本生成**: 応答が短い場合、部分文レベルと応答レベルの差が小さい
3. **リアルタイムアプリケーション**: エントロピー値計算が推論オーバーヘッドを増加させる
4. **非英語タスク**: 文分割戦略が異なる言語に対して調整が必要
### 総合評価: ★★★★☆ (4.2/5)
**推奨指数**: LLM強化学習訓練に従事する研究者とエンジニアに強く推奨
**対象読者**:
- RL アルゴリズムを研究する学者
- LLM訓練システムを開発するエンジニア
- 数学推論能力向上に関心のある研究者
## 参考文献(主要文献)
1. **Shao et al. (2024)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (GRPO原論文)
2. **Zhao et al. (2025)** - Geometric-mean policy optimization (GSPO論文)
3. **Schulman et al. (2017)** - Proximal policy optimization algorithms (PPO-CLIP原論文)
4. **Li et al. (2025)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (LPO並行研究)
5. **Hendrycks et al. (2021)** - Measuring mathematical problem solving with the MATH dataset
---
**総括**: SSPOは堅実な応用研究論文であり、既存のRLVR アルゴリズムの具体的な問題に対して効果的な解決策を提案している。手法設計が合理的で、実験検証が充分で、数学推論タスクで顕著な改善を達成している。主な貢献は重要度比率計算粒度の最適なバランスポイントを見つけ、適応的エントロピークリッピングを通じてエントロピー崩壊問題を緩和したことにある。理論的深さと応用広度に改善の余地があるが、LLM強化学習訓練の実践的進展を推進する上で重要な価値を持つ。