2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: 부문장 수준 정책 최적화

기본 정보

논문 ID: 2511.04256
제목: SSPO: Subsentence-level Policy Optimization
저자: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 11월 6일 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2511.04256

초록

본 논문은 대규모 언어 모델(LLMs)의 사후 훈련에서 강화학습 알고리즘에 대한 SSPO(부문장 수준 정책 최적화) 방법을 제안합니다. 기존의 RLVR(검증 가능한 보상 강화학습) 알고리즘인 GRPO와 GSPO는 각각 훈련 불안정성과 샘플 활용률 저하 문제가 있습니다. GRPO는 토큰 수준의 중요도 비율을 사용하여 이상치에 영향을 받아 훈련 붕괴를 초래하고, GSPO는 응답 수준의 중요도 비율을 사용하여 높은 분산 문제를 해결하지만 전체 응답이 클리핑 메커니즘에 의해 폐기됩니다. SSPO는 문장 수준의 중요도 비율을 도입하여 GRPO와 GSPO 사이의 균형을 달성합니다. 또한 SSPO는 적응형 엔트로피 클리핑 메커니즘을 제안하여 클리핑 경계를 동적으로 조정하고, 높은 엔트로피 토큰의 탐색을 장려하며, 낮은 엔트로피 토큰의 업데이트 범위를 제한합니다. 실험 결과는 SSPO가 5개의 수학 추론 데이터셋에서 평균 46.57점을 달성하여 GRPO(43.01)와 GSPO(44.42)를 초과하며, 3개 데이터셋에서 최적 성능을 달성함을 보여줍니다.

연구 배경 및 동기

1. 연구 문제

본 논문이 해결하는 핵심 문제는 다음과 같습니다: 대규모 언어 모델의 강화학습 훈련에서 훈련 안정성을 유지하면서 샘플 활용률을 높이고 엔트로피 붕괴 현상을 피하는 방법은 무엇인가?

2. 문제의 중요성

추론 능력 향상 필요성: LLMs이 수학, 프로그래밍 등 복잡한 추론 작업에 적용됨에 따라 강화학습을 통한 효과적인 사후 훈련 최적화가 필요합니다
훈련 효율성 및 안정성: 대규모 RL 훈련은 계산 효율성과 훈련 안정성 사이의 균형을 맞춰야 하며 모델 붕괴를 피해야 합니다
샘플 활용률: 제한된 계산 자원 하에서 생성된 샘플 데이터의 활용을 최대화하는 것이 중요합니다

3. 기존 방법의 한계

GRPO의 문제점:

토큰 수준의 중요도 비율 계산 사용: $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
각 토큰의 그래디언트 가중치가 다르여 정책 그래디언트 높은 분산 유발
이상 토큰의 영향을 받기 쉬우며, 응답 길이 증가에 따라 훈련 노이즈가 누적되어 최종적으로 모델 훈련 붕괴 초래

GSPO의 문제점:

응답 수준의 중요도 비율 사용: $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
전체 응답의 모든 토큰이 동일한 중요도 비율 공유
소수 토큰이 극단적 중요도 가중치를 가질 때 전체 평균에 영향을 미쳐 전체 응답이 PPO-CLIP 메커니즘에 의해 폐기됨
샘플 활용률 저하로 인한 데이터 낭비

4. 연구 동기

저자들은 토큰 수준과 응답 수준 사이에서 균형점을 찾아야 한다고 생각합니다. 이는 GSPO의 훈련 안정성 장점을 유지하면서 샘플 활용률을 높이고, 동시에 동적 클리핑 메커니즘 조정을 통해 엔트로피 붕괴 문제를 완화할 수 있습니다.

핵심 기여

부문장 수준 중요도 비율 제안: 응답을 여러 의미 단편(줄바꿈 또는 이중 줄바꿈으로 구분)으로 분할하여 문장 수준에서 중요도 비율을 계산함으로써 GRPO의 토큰 수준과 GSPO의 응답 수준 사이의 균형 달성
적응형 엔트로피 클리핑 메커니즘 설계: 부문장의 엔트로피 값에 따라 PPO-CLIP의 클리핑 경계를 동적으로 조정하여 높은 엔트로피 토큰의 탐색을 장려하고 낮은 엔트로피 토큰의 업데이트를 제한
실험 검증: Qwen2.5-Math-1.5B 및 7B 모델에서 5개의 수학 추론 벤치마크를 사용하여 SSPO의 평균 성능이 GRPO, GSPO, Dr.GRPO, GMPO 등의 기준 방법을 초과함을 입증
이론적 분석: 상세한 그래디언트 목표 도출을 제공하여 SSPO의 그래디언트 가중치가 단편 내에서 일관되게 유지되어 토큰 간 노이즈 간섭을 제거하고 정책 그래디언트 분산을 감소시킴을 증명

방법 상세 설명

작업 정의

쿼리 $x$ 와 응답 $y$ 가 주어졌을 때, 목표는 강화학습을 통해 정책 $π_θ$ 를 최적화하여 수학 추론 작업에서 더 높은 검증 가능한 보상 $r(x, y)$ 을 얻는 것입니다. 각 쿼리에 대해 $G$ 개의 응답 샘플을 생성하고, 그룹 내 상대 이점 추정을 통해 정책을 업데이트합니다.

모델 아키텍처

1. 부문장 수준 중요도 비율

응답 분할:

응답 $y_i$ 를 줄바꿈 또는 이중 줄바꿈으로 $N_{seg}(y_i)$ 개의 의미 단편으로 분할
번째 단편을 $y_{i,j}$ 로 표기하며, 길이는 $|y_{i,j}|$

중요도 비율 계산: $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

이점 추정(응답 수준): $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

최적화 목표(클리핑 없음): $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. 그래디언트 분석

SSPO의 그래디언트 목표는: $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

핵심 특성: 동일 단편 내 모든 토큰의 그래디언트 가중치가 동일하여 토큰 간 노이즈 간섭을 제거하고 정책 그래디언트 분산을 감소시킵니다.

3. 적응형 엔트로피 클리핑 메커니즘

토큰 수준 엔트로피 계산: $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

단편 수준 엔트로피: $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

동적 클리핑 경계:

상한: $ϵ_{high} = 1 + α + H_{i,j}$ (α는 하이퍼파라미터)
하한: