2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: Subsentence-level Policy Optimization

Grundinformationen

Papier-ID: 2511.04256
Titel: SSPO: Subsentence-level Policy Optimization
Autoren: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 6. November 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2511.04256

Zusammenfassung

In diesem Artikel wird die SSPO-Methode (Subsentence-level Policy Optimization) für Reinforcement-Learning-Algorithmen in der Nachtrainingsphase großer Sprachmodelle (LLMs) vorgeschlagen. Bestehende RLVR-Algorithmen (Reinforcement Learning with Verifiable Rewards) wie GRPO und GSPO weisen jeweils Probleme mit Trainingsinstabilität und niedriger Stichprobenauslastung auf. GRPO verwendet Token-Level-Wichtigkeitsverhältnisse, die anfällig für Ausreißer sind und zu Trainingszusammenbruch führen; GSPO verwendet Response-Level-Wichtigkeitsverhältnisse, was das Hochvarianzproblem löst, aber dazu führt, dass ganze Responses durch den Clipping-Mechanismus verworfen werden. SSPO führt Subsentence-Level-Wichtigkeitsverhältnisse ein und erreicht ein Gleichgewicht zwischen GRPO und GSPO. Darüber hinaus schlägt SSPO einen adaptiven Entropie-Clipping-Mechanismus vor, der die Clipping-Grenzen dynamisch anpasst, um hochentropische Token-Exploration zu fördern und die Aktualisierungsbereiche niederentropischer Token zu begrenzen. Experimentelle Ergebnisse zeigen, dass SSPO auf fünf mathematischen Reasoning-Datensätzen eine durchschnittliche Punktzahl von 46,57 erreicht, was GRPO (43,01) und GSPO (44,42) übertrifft und auf drei Datensätzen optimale Leistung erreicht.

Forschungshintergrund und Motivation

1. Forschungsproblem

Das Kernproblem, das dieser Artikel löst, ist: Wie kann man beim Reinforcement-Learning-Training großer Sprachmodelle sowohl Trainingsstabilität aufrechterhalten als auch die Stichprobenauslastung verbessern und gleichzeitig das Entropie-Kollaps-Phänomen vermeiden.

2. Bedeutung des Problems

Anforderung zur Verbesserung der Reasoning-Fähigkeiten: Mit der Anwendung von LLMs bei komplexen Reasoning-Aufgaben wie Mathematik und Programmierung ist ein effektives Nachtraining durch Reinforcement Learning erforderlich
Trainingseffizienz und Stabilität: Großflächiges RL-Training erfordert ein Gleichgewicht zwischen Recheneffizienz und Trainingsstabilität, um Modellzusammenbruch zu vermeiden
Stichprobenauslastung: Bei begrenzten Rechenressourcen ist die maximale Nutzung generierter Stichprobendaten entscheidend

3. Einschränkungen bestehender Methoden

Probleme mit GRPO:

Verwendet Token-Level-Wichtigkeitsverhältnis-Berechnung: $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
Unterschiedliche Gradient-Gewichte für jeden Token führen zu hoher Varianz des Policy-Gradienten
Anfällig für Ausreißer-Token; mit zunehmender Response-Länge sammelt sich Trainingslärm an, was letztendlich zu Modelltrainingszusammenbruch führt

Probleme mit GSPO:

Verwendet Response-Level-Wichtigkeitsverhältnis: $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
Alle Token einer gesamten Response teilen sich ein einziges Wichtigkeitsverhältnis
Wenn wenige Token extreme Wichtigkeitsgewichte haben, beeinflussen sie den Gesamtdurchschnitt, was dazu führt, dass die gesamte Response durch den PPO-CLIP-Mechanismus verworfen wird
Stichprobenauslastung sinkt, was zu Datenverschwendung führt

4. Forschungsmotivation

Die Autoren argumentieren, dass ein Gleichgewichtspunkt zwischen Token-Level und Response-Level erforderlich ist, der sowohl die Trainingsstabilitätsvorteile von GSPO bewahrt als auch die Stichprobenauslastung verbessert, während gleichzeitig durch dynamische Anpassung des Clipping-Mechanismus das Entropie-Kollaps-Problem gemildert wird.

Kernbeiträge

Einführung von Subsentence-Level-Wichtigkeitsverhältnissen: Durch Aufteilung der Response in mehrere semantische Segmente (begrenzt durch Zeilenumbrüche oder doppelte Zeilenumbrüche) wird das Wichtigkeitsverhältnis auf Satzebene berechnet, um ein Gleichgewicht zwischen Token-Level von GRPO und Response-Level von GSPO zu erreichen
Entwurf eines adaptiven Entropie-Clipping-Mechanismus: Die PPO-CLIP-Clipping-Grenzen werden basierend auf dem Entropiewert des Subsatzes dynamisch angepasst, wobei der Clipping-Bereich für hochentropische Token erweitert wird, um Exploration zu fördern, und der Clipping-Bereich für niederentropische Token verringert wird, um Aktualisierungen zu begrenzen
Experimentelle Validierung: Auf den Modellen Qwen2.5-Math-1.5B und 7B mit 5 mathematischen Reasoning-Benchmarks übertrifft SSPO die Baseline-Methoden GRPO, GSPO, Dr.GRPO und GMPO
Theoretische Analyse: Bietet detaillierte Gradient-Zielableitungen, die zeigen, dass die Gradient-Gewichte von SSPO innerhalb von Segmenten konsistent sind, Token-übergreifende Lärmstörungen eliminieren und die Varianz des Policy-Gradienten reduzieren

Methodendetails

Aufgabendefinition

Gegeben eine Anfrage $x$ und eine Response $y$ besteht das Ziel darin, die Policy $π_θ$ durch Reinforcement Learning zu optimieren, um höhere verifizierbare Belohnungen $r(x, y)$ bei mathematischen Reasoning-Aufgaben zu erhalten. Für jede Anfrage werden $G$ Response-Samples generiert und die Policy wird durch Schätzung des innergruppenrelativen Vorteils aktualisiert.

Modellarchitektur

1. Subsentence-Level-Wichtigkeitsverhältnis

Response-Aufteilung:

Die Response $y_i$ wird nach Zeilenumbrüchen oder doppelten Zeilenumbrüchen in $N_{seg}(y_i)$ semantische Segmente aufgeteilt
Das $j$ -te Segment wird als $y_{i,j}$ bezeichnet, mit Länge $|y_{i,j}|$

Berechnung des Wichtigkeitsverhältnisses: $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

Vorteilschätzung (Response-Level): $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

Optimierungsziel (ohne Clipping): $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. Gradient-Analyse

Das Gradient-Ziel von SSPO ist: $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

Schlüsseleigenschaften: Alle Token innerhalb eines Segments haben das gleiche Gradient-Gewicht, was Token-übergreifende Lärmstörungen eliminiert und die Varianz des Policy-Gradienten reduziert.

3. Adaptiver Entropie-Clipping-Mechanismus

Token-Level-Entropie-Berechnung: $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

Segment-Level-Entropie: $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

Dynamische Clipping-Grenzen:

Obergrenze: $ϵ_{high} = 1 + α + H_{i,j}$ (α ist ein Hyperparameter)
Untergrenze: