As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- 논문 ID: 2511.04256
- 제목: SSPO: Subsentence-level Policy Optimization
- 저자: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
- 분류: cs.CL (계산 언어학)
- 발표 시간: 2025년 11월 6일 (arXiv 프리프린트)
- 논문 링크: https://arxiv.org/abs/2511.04256
본 논문은 대규모 언어 모델(LLMs)의 사후 훈련에서 강화학습 알고리즘에 대한 SSPO(부문장 수준 정책 최적화) 방법을 제안합니다. 기존의 RLVR(검증 가능한 보상 강화학습) 알고리즘인 GRPO와 GSPO는 각각 훈련 불안정성과 샘플 활용률 저하 문제가 있습니다. GRPO는 토큰 수준의 중요도 비율을 사용하여 이상치에 영향을 받아 훈련 붕괴를 초래하고, GSPO는 응답 수준의 중요도 비율을 사용하여 높은 분산 문제를 해결하지만 전체 응답이 클리핑 메커니즘에 의해 폐기됩니다. SSPO는 문장 수준의 중요도 비율을 도입하여 GRPO와 GSPO 사이의 균형을 달성합니다. 또한 SSPO는 적응형 엔트로피 클리핑 메커니즘을 제안하여 클리핑 경계를 동적으로 조정하고, 높은 엔트로피 토큰의 탐색을 장려하며, 낮은 엔트로피 토큰의 업데이트 범위를 제한합니다. 실험 결과는 SSPO가 5개의 수학 추론 데이터셋에서 평균 46.57점을 달성하여 GRPO(43.01)와 GSPO(44.42)를 초과하며, 3개 데이터셋에서 최적 성능을 달성함을 보여줍니다.
본 논문이 해결하는 핵심 문제는 다음과 같습니다: 대규모 언어 모델의 강화학습 훈련에서 훈련 안정성을 유지하면서 샘플 활용률을 높이고 엔트로피 붕괴 현상을 피하는 방법은 무엇인가?
- 추론 능력 향상 필요성: LLMs이 수학, 프로그래밍 등 복잡한 추론 작업에 적용됨에 따라 강화학습을 통한 효과적인 사후 훈련 최적화가 필요합니다
- 훈련 효율성 및 안정성: 대규모 RL 훈련은 계산 효율성과 훈련 안정성 사이의 균형을 맞춰야 하며 모델 붕괴를 피해야 합니다
- 샘플 활용률: 제한된 계산 자원 하에서 생성된 샘플 데이터의 활용을 최대화하는 것이 중요합니다
GRPO의 문제점:
- 토큰 수준의 중요도 비율 계산 사용: wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
- 각 토큰의 그래디언트 가중치가 다르여 정책 그래디언트 높은 분산 유발
- 이상 토큰의 영향을 받기 쉬우며, 응답 길이 증가에 따라 훈련 노이즈가 누적되어 최종적으로 모델 훈련 붕괴 초래
GSPO의 문제점:
- 응답 수준의 중요도 비율 사용: si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
- 전체 응답의 모든 토큰이 동일한 중요도 비율 공유
- 소수 토큰이 극단적 중요도 가중치를 가질 때 전체 평균에 영향을 미쳐 전체 응답이 PPO-CLIP 메커니즘에 의해 폐기됨
- 샘플 활용률 저하로 인한 데이터 낭비
저자들은 토큰 수준과 응답 수준 사이에서 균형점을 찾아야 한다고 생각합니다. 이는 GSPO의 훈련 안정성 장점을 유지하면서 샘플 활용률을 높이고, 동시에 동적 클리핑 메커니즘 조정을 통해 엔트로피 붕괴 문제를 완화할 수 있습니다.
- 부문장 수준 중요도 비율 제안: 응답을 여러 의미 단편(줄바꿈 또는 이중 줄바꿈으로 구분)으로 분할하여 문장 수준에서 중요도 비율을 계산함으로써 GRPO의 토큰 수준과 GSPO의 응답 수준 사이의 균형 달성
- 적응형 엔트로피 클리핑 메커니즘 설계: 부문장의 엔트로피 값에 따라 PPO-CLIP의 클리핑 경계를 동적으로 조정하여 높은 엔트로피 토큰의 탐색을 장려하고 낮은 엔트로피 토큰의 업데이트를 제한
- 실험 검증: Qwen2.5-Math-1.5B 및 7B 모델에서 5개의 수학 추론 벤치마크를 사용하여 SSPO의 평균 성능이 GRPO, GSPO, Dr.GRPO, GMPO 등의 기준 방법을 초과함을 입증
- 이론적 분석: 상세한 그래디언트 목표 도출을 제공하여 SSPO의 그래디언트 가중치가 단편 내에서 일관되게 유지되어 토큰 간 노이즈 간섭을 제거하고 정책 그래디언트 분산을 감소시킴을 증명
쿼리 x와 응답 y가 주어졌을 때, 목표는 강화학습을 통해 정책 πθ를 최적화하여 수학 추론 작업에서 더 높은 검증 가능한 보상 r(x,y)을 얻는 것입니다. 각 쿼리에 대해 G개의 응답 샘플을 생성하고, 그룹 내 상대 이점 추정을 통해 정책을 업데이트합니다.
응답 분할:
- 응답 yi를 줄바꿈 또는 이중 줄바꿈으로 Nseg(yi)개의 의미 단편으로 분할
- 번째 단편을 yi,j로 표기하며, 길이는 ∣yi,j∣
중요도 비율 계산:
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
이점 추정(응답 수준):
A^i=std({r(x,yi)}i=1G)r(x,yi)−mean({r(x,yi)}i=1G)
최적화 목표(클리핑 없음):
JSSPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣si,j(θ)A^i]
SSPO의 그래디언트 목표는:
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
핵심 특성: 동일 단편 내 모든 토큰의 그래디언트 가중치가 동일하여 토큰 간 노이즈 간섭을 제거하고 정책 그래디언트 분산을 감소시킵니다.
토큰 수준 엔트로피 계산:
Ht=−∑v∈Vπθold(v∣x,o<t)logπθold(v∣x,o<t)
단편 수준 엔트로피:
Hi,j=∣yi,j∣1∑t=1∣yi,j∣Ht
동적 클리핑 경계:
- 상한: ϵhigh=1+α+Hi,j (α는 하이퍼파라미터)
- 하한:
0.3, & H_{i,j} > 1 \\
1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\
0.8, & H_{i,j} < 0.5
\end{cases}$$
**최종 최적화 목표**:
$$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$
### 기술 혁신 포인트
#### 1. 세분화 수준 균형 설계
- **토큰 수준(GRPO)**: 과도하게 세분화되어 높은 분산 유발
- **응답 수준(GSPO)**: 과도하게 조대하여 낮은 샘플 활용률
- **부문장 수준(SSPO)**: 안정성과 샘플 활용률 사이의 최적 균형 달성
#### 2. 적응형 클리핑의 합리성
- **높은 엔트로피 시나리오**($H_{i,j} > 1$): 모델이 이러한 토큰에 대해 불확실하므로 클리핑 범위를 확대하여 탐색 장려
- **중간 엔트로피 시나리오**($0.5 \leq H_{i,j} \leq 1$): 클리핑 범위를 선형으로 조정
- **낮은 엔트로피 시나리오**($H_{i,j} < 0.5$): 모델이 이미 이러한 토큰을 학습했으므로 클리핑 범위를 축소하여 업데이트를 제한하고 과적합 방지
#### 3. LPO와의 차이점
병행 연구인 LPO도 문장 수준의 중요도 샘플링을 제안했지만 두 가지 핵심 차이가 있습니다:
- **이점 추정 정규화**: LPO는 토큰 수준 정규화(응답 길이의 영향을 받음), SSPO는 응답 수준 정규화(응답 길이와 무관)
- **클리핑 메커니즘**: LPO는 고정 PPO-CLIP 사용, SSPO는 적응형 엔트로피 클리핑 사용
## 실험 설정
### 데이터셋
**훈련 데이터**:
- **MATH Level 3-5**: 8523개의 수학 문제 포함
- 각 문제당 8개의 롤아웃 샘플링
- 응답 길이 제한: 3000 토큰
- 배치 크기: 128
**평가 데이터셋**(5개의 수학 추론 벤치마크):
1. **MATH-500**: MATH 데이터셋의 500개 문제, 대수, 기하학, 정수론 등 포함
2. **AMC23**: 83개의 중간 난이도 객관식 문제
3. **AIME24**: 2024년 미국 수학 초대 올림피아드의 30개 문제
4. **Minerva**: 272개의 대학원 수준 다단계 추론 문제
5. **Olympiad Bench**: 675개의 고난이도 올림피아드 문제
### 평가 지표
- **탐욕 디코딩 정확도(Avg@1)**: 탐욕 디코딩을 사용한 모델 성능 평가
- **평균 점수**: 5개 데이터셋의 평균 정확도
### 비교 방법
1. **GRPO**: 토큰 수준 중요도 비율의 기준 방법
2. **GSPO**: 응답 수준 중요도 비율 방법
3. **Dr.GRPO**: GRPO의 개선 버전
4. **GMPO**: 기하 평균 정책 최적화
5. **SSPO (w/o entropy clip)**: 부문장 수준 중요도 비율만 사용하고 적응형 엔트로피 클리핑을 사용하지 않는 제거 버전
### 구현 세부사항
- **모델**: Qwen2.5-Math-1.5B 및 Qwen2.5-Math-7B
- **프레임워크**: veRL 강화학습 프레임워크
- **템플릿**: Qwen-Math 템플릿을 훈련 및 평가에 사용
- **평가 전략**: 10단계마다 5개 데이터셋에서 평가하고 최고 점수를 최종 결과로 선택
## 실험 결과
### 주요 결과
#### Qwen2.5-Math-1.5B 모델
| 방법 | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 |
| GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 |
| Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 |
| GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 |
| SSPO (w/o entropy clip) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 |
| **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** |
#### Qwen2.5-Math-7B 모델
| 방법 | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 |
| GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 |
| Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 |
| GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 |
| SSPO (w/o entropy clip) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 |
| **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** |
**핵심 발견**:
1. **전체 성능**: SSPO가 두 모델 규모 모두에서 최고 평균 점수 달성
- 1.5B 모델: 46.57 vs GRPO 43.01(+3.56) vs GSPO 44.42(+2.15)
- 7B 모델: 54.85 vs GRPO 53.15(+1.70) vs GSPO 53.75(+1.10)
2. **규모 확장성**: SSPO가 더 큰 모델에서 우위 유지, 향상 폭은 약간 감소
3. **최첨단 성능**: 1.5B 모델의 AIME24, AMC23, Minerva 3개 데이터셋에서 최적 달성
### 제거 실험
#### 부문장 수준 중요도 비율의 기여도
SSPO (w/o entropy clip)를 GRPO 및 GSPO와 비교:
- **1.5B 모델**: 45.72 vs GRPO 43.01(+2.71) vs GSPO 44.42(+1.30)
- **7B 모델**: 53.99 vs GRPO 53.15(+0.84) vs GSPO 53.75(+0.24)
**결론**: 부문장 수준 중요도 비율 자체가 상당한 향상을 가져오며, 세분화 수준 선택의 중요성을 증명합니다.
#### 적응형 엔트로피 클리핑의 기여도
SSPO와 SSPO (w/o entropy clip) 비교:
- **1.5B 모델**: 46.57 vs 45.72(+0.85)
- **7B 모델**: 54.85 vs 53.99(+0.86)
**결론**: 적응형 엔트로피 클리핑이 두 모델 규모에서 약 0.85의 일관된 향상을 가져오며, 그 효과를 증명합니다.
### 엔트로피 분석
그림 1은 SSPO, SSPO (w/o entropy clip), GSPO, GRPO의 훈련 엔트로피 변화를 보여줍니다:
**관찰 결과**:
1. **GRPO 및 GSPO**: 엔트로피가 빠르게 감소하여 모델이 조기 수렴하고 엔트로피 붕괴 위험이 있음을 나타냅니다
2. **SSPO (w/o entropy clip)**: 엔트로피 감소 속도가 GRPO 및 GSPO보다 약간 느립니다
3. **SSPO**: 엔트로피가 최고 수준을 유지하며 가장 천천히 감소하여 적응형 엔트로피 클리핑이 엔트로피 붕괴를 효과적으로 완화함을 보여줍니다
**의의**: 더 높은 엔트로피는 모델이 탐색 능력을 유지하여 국소 최적값에 조기에 빠지지 않음을 의미하며, 이는 SSPO 성능 향상의 메커니즘을 설명합니다.
### 실험 발견
1. **세분화 수준 균형의 중요성**: 토큰 수준과 응답 수준 사이에서 적절한 세분화 수준(부문장 수준) 선택이 성능에 매우 중요합니다
2. **엔트로피 관리의 필요성**: 클리핑 경계를 동적으로 조정하면 엔트로피 붕괴를 효과적으로 방지하고 훈련 안정성을 유지할 수 있습니다
3. **샘플 활용률 향상**: 부문장 수준 중요도 비율이 클리핑 비율을 감소시켜 샘플 활용 효율을 향상시킵니다
4. **모델 규모의 영향**: 더 큰 모델(7B)에서 기준 방법 간 성능 차이가 축소되지만 SSPO는 여전히 선도적입니다
## 관련 연구
### 1. GRPO 강화학습 알고리즘
- **DeepSeek-R1의 성공적 적용**: GRPO가 추론 작업에서 질적 도약 달성
- **핵심 문제**: 토큰 수준 중요도 비율로 인한 높은 분산 및 훈련 불안정성
- **본 논문의 개선**: 부문장 수준 중요도 비율 및 동적 클리핑 도입
### 2. 중요도 비율 계산
- **GRPO**: 토큰 수준, $w_{i,t}(θ)$, 높은 분산 문제
- **GSPO**: 응답 수준, $s_i(θ)$, 낮은 샘플 활용률 문제
- **LPO**(병행 연구): 문장 수준이지만 토큰 수준 정규화 및 고정 클리핑 사용
- **SSPO**: 부문장 수준, 응답 수준 정규화 + 적응형 엔트로피 클리핑
### 3. 클리핑 메커니즘
- **PPO-CLIP**: 표준 고정 클리핑 범위
- **CISPO**: 소프트 클리핑 그래디언트
- **DCPO**: 토큰 확률 기반 동적 클리핑
- **SSPO**: 엔트로피 기반 적응형 클리핑, 엔트로피 붕괴 문제 해결에 특화
### 4. 본 논문의 장점
- **이론적 완전성**: 상세한 그래디언트 도출 및 이론적 분석 제공
- **방법의 참신성**: 부문장 수준 중요도 비율과 적응형 엔트로피 클리핑의 최초 결합
- **실험의 충분성**: 여러 모델 규모 및 데이터셋에서 효과성 검증
## 결론 및 논의
### 주요 결론
1. **SSPO의 효과성**: 부문장 수준 중요도 비율과 적응형 엔트로피 클리핑을 통해 SSPO가 수학 추론 작업에서 기존 방법을 크게 초과합니다
2. **세분화 수준 균형**: 부문장 수준이 토큰 수준과 응답 수준 사이의 최적 균형점이며, 훈련 안정성을 보장하면서 샘플 활용률을 높입니다
3. **엔트로피 관리**: 적응형 엔트로피 클리핑 메커니즘이 엔트로피 붕괴를 효과적으로 완화하고 모델의 탐색 능력을 유지합니다
4. **확장성**: SSPO가 다양한 모델 규모(1.5B 및 7B)에서 우수한 성능을 보입니다
### 한계
1. **의미 분할 의존성**: 현재 줄바꿈을 분할 기준으로 사용하며, 명확한 문장 구조가 없는 모든 작업 유형(예: 코드 생성)에 적합하지 않을 수 있습니다
2. **하이퍼파라미터 민감성**: 적응형 엔트로피 클리핑이 추가 하이퍼파라미터(예: α 및 엔트로피 임계값)를 도입하여 다양한 작업에 대해 조정이 필요합니다
3. **평가 범위 제한**: 실험이 주로 수학 추론 작업에 집중되어 있으며, 다른 영역(대화, 코드 생성)에서의 효과는 미지수입니다
4. **계산 오버헤드**: 각 단편의 엔트로피 값을 계산해야 하므로 일정한 계산 비용이 증가합니다
5. **이론적 분석 부족**: 부문장 수준이 최적 세분화 수준인 이유에 대한 이론적 증명이 부족합니다
### 향후 방향
1. **다른 영역으로 확장**: SSPO를 프로그래밍, 의미론적 추론 등의 작업에 적용
2. **적응형 분할**: 줄바꿈에 단순 의존하지 않고 의미론적 기반 동적 분할 방법 연구
3. **이론적 분석**: 세분화 수준 선택 및 엔트로피 클리핑에 대한 이론적 보장 제공
4. **대규모 검증**: 더 큰 규모 모델(100B+ 파라미터)에서 SSPO의 효과성 검증
## 심층 평가
### 장점
#### 1. 방법의 혁신성(★★★★☆)
- **핵심 혁신 명확**: 부문장 수준 중요도 비율은 GRPO와 GSPO의 자연스러운 확장이지만 이전에 체계적으로 연구되지 않았습니다
- **적응형 엔트로피 클리핑 참신**: 엔트로피를 동적 클리핑 경계 조정의 기준으로 사용하는 설계가 합리적이고 직관적입니다
- **이론적 지원 충분**: 완전한 그래디언트 도출을 제공하여 부문장 수준이 분산을 감소시킬 수 있는 이유를 설명합니다
#### 2. 실험의 충분성(★★★★☆)
- **다중 모델 검증**: 1.5B 및 7B 두 가지 규모에서 검증
- **다중 기준 비교**: GRPO, GSPO, Dr.GRPO, GMPO 등 여러 방법과 비교
- **완전한 제거 실험**: 부문장 수준 중요도 비율과 적응형 엔트로피 클리핑의 기여도를 각각 검증
- **직관적 엔트로피 분석**: 엔트로피 곡선을 통해 방법의 효과를 시각적으로 보여줍니다
#### 3. 결과의 설득력(★★★★☆)
- **일관된 향상**: 모든 평가 데이터셋에서 향상
- **통계적 유의성**: 평균 향상 폭이 2-3 백분포인트로 실질적 의미가 있습니다
- **최첨단 성능**: 여러 데이터셋에서 최적 달성
#### 4. 작성의 명확성(★★★★☆)
- **구조 명확**: 문제 정의 → 방법 설계 → 실험 검증의 논리 흐름이 자연스럽습니다
- **수학 표현 정확**: 공식 도출이 상세하고 기호 정의가 명확합니다
- **그래프 보조 효과적**: 표 및 그림 1이 논의를 효과적으로 지원합니다
### 부족한 점
#### 1. 방법의 한계(★★★☆☆)
- **분할 전략 단순**: 줄바꿈만 사용하여 명확한 문장 구조가 없는 작업(예: 코드)에 부적합할 수 있습니다
- **하이퍼파라미터 도입**: 적응형 엔트로피 클리핑이 추가 하이퍼파라미터(α 및 엔트로피 임계값)를 도입하여 조정이 필요합니다
- **세분화 수준 선택 이론 부족**: 부문장 수준이 최적인 이유에 대한 이론적 증명이 부족하며 주로 경험적 관찰에 의존합니다
#### 2. 실험 설정 결함(★★★☆☆)
- **영역 단일**: 수학 추론 작업에만 검증되어 다른 영역(대화, 코드, 번역)의 실험이 부족합니다
- **모델 규모 제한**: 최대 7B까지만 검증되어 더 큰 규모 모델(70B+)에서의 테스트가 없습니다
- **통계적 유의성 검증 부족**: 신뢰 구간이나 여러 번 실행의 표준편차가 제공되지 않습니다
- **계산 비용 미보고**: SSPO의 기준 방법 대비 추가 계산 오버헤드 분석이 없습니다
#### 3. 분석 부족(★★★☆☆)
- **클리핑 비율 분석 누락**: 샘플 활용률 향상을 언급했지만 구체적 데이터가 없습니다
- **사례 분석 누락**: 구체적 생성 샘플을 보여주지 않아 SSPO의 동작을 직관적으로 이해하기 어렵습니다
- **실패 사례 분석 부재**: SSPO가 성능이 좋지 않은 경우에 대한 논의가 없습니다
- **LPO 비교 부족**: LPO를 언급했지만 직접 실험 비교가 없습니다
#### 4. 재현성(★★★☆☆)
- **코드 미공개**: 논문에서 코드 링크를 제공하지 않습니다
- **하이퍼파라미터 세부사항 불완전**: α의 구체적 값이 명확하게 설명되지 않습니다
- **엔트로피 임계값 선택 근거 부족**: 0.5, 1.0 등의 임계값을 선택한 이유가 충분히 설명되지 않습니다
### 영향력 평가
#### 1. 분야에 대한 기여(★★★★☆)
- **방법론적 기여**: RLVR 알고리즘의 세분화 수준 선택에 새로운 관점 제공
- **실용적 가치 높음**: 기존 RL 훈련 흐름에 직접 적용 가능
- **영감 강함**: 적응형 엔트로피 클리핑의 개념을 다른 RL 알고리즘으로 확대할 수 있습니다
#### 2. 실용적 가치(★★★★☆)
- **구현 용이**: 방법이 간단하여 추가 모델 구성 요소가 필요 없습니다
- **플러그 앤 플레이**: 기존 GRPO/GSPO를 대체할 수 있습니다
- **성능 향상 명확**: 수학 추론 작업에서 2-3 백분포인트 향상은 매우 가치 있습니다
#### 3. 잠재적 영향(★★★★☆)
- **산업 응용 전망**: Ping An Technology에서 개발되어 실제 제품에 적용될 가능성이 있습니다
- **후속 연구 방향**: 세분화 수준 선택 및 적응형 클리핑에 대한 더 많은 연구를 자극할 수 있습니다
- **한계**: 영역 단일로 인해 영향 범위가 제한될 수 있습니다
### 적용 가능한 시나리오
#### 적합한 시나리오:
1. **수학 추론 작업**: 논문의 주요 검증 시나리오로 최고의 효과
2. **구조화된 생성 작업**: 응답이 명확한 문장 구조를 가진 작업(예: 질의응답, 추론 체인 생성)
3. **장문 생성**: 응답 길이가 길 때 부문장 수준의 장점이 더 명확합니다
4. **안정적 훈련이 필요한 시나리오**: 훈련 안정성을 높이 요구하는 응용
#### 부적합한 시나리오:
1. **코드 생성**: 코드가 명확한 문장 구조를 가지지 않아 줄바꿈 분할이 부적절할 수 있습니다
2. **단문 생성**: 응답이 짧을 때 부문장 수준과 응답 수준의 차이가 미미합니다
3. **실시간 응용**: 엔트로피 값 계산이 필요하여 추론 오버헤드가 증가합니다
4. **비영어 작업**: 문장 분할 전략이 다양한 언어에 맞게 조정되어야 합니다
### 종합 평가: ★★★★☆ (4.2/5)
**추천 지수**: LLM 강화학습 훈련에 종사하는 연구자 및 엔지니어에게 강력히 추천합니다
**적합한 독자**:
- RL 알고리즘을 연구하는 학자
- LLM 훈련 시스템을 개발하는 엔지니어
- 수학 추론 능력 향상에 관심 있는 연구자
## 참고 문헌(주요 문헌)
1. **Shao et al. (2024)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (GRPO 원본 논문)
2. **Zhao et al. (2025)** - Geometric-mean policy optimization (GSPO 논문)
3. **Schulman et al. (2017)** - Proximal policy optimization algorithms (PPO-CLIP 원본 논문)
4. **Li et al. (2025)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (LPO 병행 연구)
5. **Hendrycks et al. (2021)** - Measuring mathematical problem solving with the MATH dataset
---
**요약**: SSPO는 현존하는 RLVR 알고리즘의 구체적 문제에 대한 효과적인 해결책을 제시하는 견고한 응용 연구 논문입니다. 방법 설계가 합리적이고 실험 검증이 충분하며 수학 추론 작업에서 현저한 향상을 달성했습니다. 주요 기여는 중요도 비율 계산 세분화 수준의 최적 균형점을 찾아내고 적응형 엔트로피 클리핑을 통해 엔트로피 붕괴 문제를 완화한 것입니다. 이론적 깊이와 응용 광범위성에서 개선의 여지가 있지만, LLM 강화학습 훈련의 실제 진전을 추진하는 데 중요한 가치가 있습니다.