As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- Papier-ID: 2511.04256
- Titel: SSPO: Subsentence-level Policy Optimization
- Autoren: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: 6. November 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2511.04256
In diesem Artikel wird die SSPO-Methode (Subsentence-level Policy Optimization) für Reinforcement-Learning-Algorithmen in der Nachtrainingsphase großer Sprachmodelle (LLMs) vorgeschlagen. Bestehende RLVR-Algorithmen (Reinforcement Learning with Verifiable Rewards) wie GRPO und GSPO weisen jeweils Probleme mit Trainingsinstabilität und niedriger Stichprobenauslastung auf. GRPO verwendet Token-Level-Wichtigkeitsverhältnisse, die anfällig für Ausreißer sind und zu Trainingszusammenbruch führen; GSPO verwendet Response-Level-Wichtigkeitsverhältnisse, was das Hochvarianzproblem löst, aber dazu führt, dass ganze Responses durch den Clipping-Mechanismus verworfen werden. SSPO führt Subsentence-Level-Wichtigkeitsverhältnisse ein und erreicht ein Gleichgewicht zwischen GRPO und GSPO. Darüber hinaus schlägt SSPO einen adaptiven Entropie-Clipping-Mechanismus vor, der die Clipping-Grenzen dynamisch anpasst, um hochentropische Token-Exploration zu fördern und die Aktualisierungsbereiche niederentropischer Token zu begrenzen. Experimentelle Ergebnisse zeigen, dass SSPO auf fünf mathematischen Reasoning-Datensätzen eine durchschnittliche Punktzahl von 46,57 erreicht, was GRPO (43,01) und GSPO (44,42) übertrifft und auf drei Datensätzen optimale Leistung erreicht.
Das Kernproblem, das dieser Artikel löst, ist: Wie kann man beim Reinforcement-Learning-Training großer Sprachmodelle sowohl Trainingsstabilität aufrechterhalten als auch die Stichprobenauslastung verbessern und gleichzeitig das Entropie-Kollaps-Phänomen vermeiden.
- Anforderung zur Verbesserung der Reasoning-Fähigkeiten: Mit der Anwendung von LLMs bei komplexen Reasoning-Aufgaben wie Mathematik und Programmierung ist ein effektives Nachtraining durch Reinforcement Learning erforderlich
- Trainingseffizienz und Stabilität: Großflächiges RL-Training erfordert ein Gleichgewicht zwischen Recheneffizienz und Trainingsstabilität, um Modellzusammenbruch zu vermeiden
- Stichprobenauslastung: Bei begrenzten Rechenressourcen ist die maximale Nutzung generierter Stichprobendaten entscheidend
Probleme mit GRPO:
- Verwendet Token-Level-Wichtigkeitsverhältnis-Berechnung: wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
- Unterschiedliche Gradient-Gewichte für jeden Token führen zu hoher Varianz des Policy-Gradienten
- Anfällig für Ausreißer-Token; mit zunehmender Response-Länge sammelt sich Trainingslärm an, was letztendlich zu Modelltrainingszusammenbruch führt
Probleme mit GSPO:
- Verwendet Response-Level-Wichtigkeitsverhältnis: si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
- Alle Token einer gesamten Response teilen sich ein einziges Wichtigkeitsverhältnis
- Wenn wenige Token extreme Wichtigkeitsgewichte haben, beeinflussen sie den Gesamtdurchschnitt, was dazu führt, dass die gesamte Response durch den PPO-CLIP-Mechanismus verworfen wird
- Stichprobenauslastung sinkt, was zu Datenverschwendung führt
Die Autoren argumentieren, dass ein Gleichgewichtspunkt zwischen Token-Level und Response-Level erforderlich ist, der sowohl die Trainingsstabilitätsvorteile von GSPO bewahrt als auch die Stichprobenauslastung verbessert, während gleichzeitig durch dynamische Anpassung des Clipping-Mechanismus das Entropie-Kollaps-Problem gemildert wird.
- Einführung von Subsentence-Level-Wichtigkeitsverhältnissen: Durch Aufteilung der Response in mehrere semantische Segmente (begrenzt durch Zeilenumbrüche oder doppelte Zeilenumbrüche) wird das Wichtigkeitsverhältnis auf Satzebene berechnet, um ein Gleichgewicht zwischen Token-Level von GRPO und Response-Level von GSPO zu erreichen
- Entwurf eines adaptiven Entropie-Clipping-Mechanismus: Die PPO-CLIP-Clipping-Grenzen werden basierend auf dem Entropiewert des Subsatzes dynamisch angepasst, wobei der Clipping-Bereich für hochentropische Token erweitert wird, um Exploration zu fördern, und der Clipping-Bereich für niederentropische Token verringert wird, um Aktualisierungen zu begrenzen
- Experimentelle Validierung: Auf den Modellen Qwen2.5-Math-1.5B und 7B mit 5 mathematischen Reasoning-Benchmarks übertrifft SSPO die Baseline-Methoden GRPO, GSPO, Dr.GRPO und GMPO
- Theoretische Analyse: Bietet detaillierte Gradient-Zielableitungen, die zeigen, dass die Gradient-Gewichte von SSPO innerhalb von Segmenten konsistent sind, Token-übergreifende Lärmstörungen eliminieren und die Varianz des Policy-Gradienten reduzieren
Gegeben eine Anfrage x und eine Response y besteht das Ziel darin, die Policy πθ durch Reinforcement Learning zu optimieren, um höhere verifizierbare Belohnungen r(x,y) bei mathematischen Reasoning-Aufgaben zu erhalten. Für jede Anfrage werden G Response-Samples generiert und die Policy wird durch Schätzung des innergruppenrelativen Vorteils aktualisiert.
Response-Aufteilung:
- Die Response yi wird nach Zeilenumbrüchen oder doppelten Zeilenumbrüchen in Nseg(yi) semantische Segmente aufgeteilt
- Das j-te Segment wird als yi,j bezeichnet, mit Länge ∣yi,j∣
Berechnung des Wichtigkeitsverhältnisses:
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
Vorteilschätzung (Response-Level):
A^i=std({r(x,yi)}i=1G)r(x,yi)−mean({r(x,yi)}i=1G)
Optimierungsziel (ohne Clipping):
JSSPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣si,j(θ)A^i]
Das Gradient-Ziel von SSPO ist:
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
Schlüsseleigenschaften: Alle Token innerhalb eines Segments haben das gleiche Gradient-Gewicht, was Token-übergreifende Lärmstörungen eliminiert und die Varianz des Policy-Gradienten reduziert.
Token-Level-Entropie-Berechnung:
Ht=−∑v∈Vπθold(v∣x,o<t)logπθold(v∣x,o<t)
Segment-Level-Entropie:
Hi,j=∣yi,j∣1∑t=1∣yi,j∣Ht
Dynamische Clipping-Grenzen:
- Obergrenze: ϵhigh=1+α+Hi,j (α ist ein Hyperparameter)
- Untergrenze:
0.3, & H_{i,j} > 1 \\
1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\
0.8, & H_{i,j} < 0.5
\end{cases}$$
**Finales Optimierungsziel**:
$$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$
### Technische Innovationspunkte
#### 1. Granularitäts-Ausgleich-Design
- **Token-Level (GRPO)**: Zu feinkörnig, hohe Varianz
- **Response-Level (GSPO)**: Zu grob, niedrige Stichprobenauslastung
- **Subsentence-Level (SSPO)**: Optimales Gleichgewicht zwischen Stabilität und Stichprobenauslastung
#### 2. Rationalität der adaptiven Clipping
- **Hochentropie-Szenario** ($H_{i,j} > 1$): Das Modell ist sich dieser Token unsicher, erweitert den Clipping-Bereich, um Exploration zu fördern
- **Mittlere Entropie-Szenario** ($0.5 \leq H_{i,j} \leq 1$): Lineares Anpassen des Clipping-Bereichs
- **Niederentropie-Szenario** ($H_{i,j} < 0.5$): Das Modell hat diese Token bereits gelernt, verringert den Clipping-Bereich, um Aktualisierungen zu begrenzen und Überanpassung zu verhindern
#### 3. Unterschied zu LPO
Gleichzeitige Arbeiten LPO schlagen auch Satz-Granularitäts-Wichtigkeitsstichprobennahme vor, aber es gibt zwei Schlüsseldifferenzen:
- **Vorteilschätzungs-Normalisierung**: LPO normalisiert auf Token-Level (beeinflusst durch Response-Länge), SSPO normalisiert auf Response-Level (unabhängig von Response-Länge)
- **Clipping-Mechanismus**: LPO verwendet festes PPO-CLIP, SSPO verwendet adaptives Entropie-Clipping
## Experimentelle Einrichtung
### Datensätze
**Trainingsdaten**:
- **MATH Level 3-5**: Enthält 8523 mathematische Probleme
- 8 Rollouts pro Problem
- Response-Längenbegrenzung auf 3000 Token
- Batch-Größe auf 128 eingestellt
**Evaluierungsdatensätze** (5 mathematische Reasoning-Benchmarks):
1. **MATH-500**: 500 Probleme aus dem MATH-Datensatz, umfassend Algebra, Geometrie, Zahlentheorie usw.
2. **AMC23**: 83 Multiple-Choice-Fragen mittlerer Schwierigkeit
3. **AIME24**: 30 Probleme aus dem American Mathematics Invitational Exam 2024 auf Olympiade-Niveau
4. **Minerva**: 272 Probleme auf Graduiertenniveau mit mehreren Schritten
5. **Olympiad Bench**: 675 hochschwierige Olympiade-Probleme
### Bewertungsmetriken
- **Greedy Decoding Genauigkeit (Avg@1)**: Modellleistung mit Greedy-Dekodierung bewerten
- **Durchschnittliche Punktzahl**: Durchschnittliche Genauigkeit über fünf Datensätze
### Vergleichsmethoden
1. **GRPO**: Baseline-Methode mit Token-Level-Wichtigkeitsverhältnis
2. **GSPO**: Methode mit Response-Level-Wichtigkeitsverhältnis
3. **Dr.GRPO**: Verbesserte Version von GRPO
4. **GMPO**: Geometric Mean Policy Optimization
5. **SSPO (w/o entropy clip)**: Ablations-Version, die nur Subsentence-Level-Wichtigkeitsverhältnis verwendet, ohne adaptives Entropie-Clipping
### Implementierungsdetails
- **Modelle**: Qwen2.5-Math-1.5B und Qwen2.5-Math-7B
- **Framework**: veRL Reinforcement-Learning-Framework
- **Template**: Qwen-Math-Template für Training und Evaluierung
- **Evaluierungsstrategie**: Evaluierung alle 10 Schritte auf 5 Datensätzen, beste Punktzahl als Endergebnis
## Experimentelle Ergebnisse
### Hauptergebnisse
#### Qwen2.5-Math-1.5B Modell
| Methode | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 |
| GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 |
| Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 |
| GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 |
| SSPO (w/o entropy clip) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 |
| **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** |
#### Qwen2.5-Math-7B Modell
| Methode | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|------|--------|-------|------|------|------|-----|
| GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 |
| GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 |
| Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 |
| GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 |
| SSPO (w/o entropy clip) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 |
| **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** |
**Schlüsselfunde**:
1. **Gesamtleistung**: SSPO erreicht die höchste durchschnittliche Punktzahl auf beiden Modellgrößen
- 1.5B Modell: 46.57 vs GRPO 43.01 (+3.56) vs GSPO 44.42 (+2.15)
- 7B Modell: 54.85 vs GRPO 53.15 (+1.70) vs GSPO 53.75 (+1.10)
2. **Skalierbarkeit**: SSPO behält seinen Vorteil bei größeren Modellen, obwohl die Verbesserung leicht abnimmt
3. **SOTA-Leistung**: Erreicht optimale Leistung auf drei Datensätzen (AIME24, AMC23 und Minerva) des 1.5B-Modells
### Ablationsstudien
#### Beitrag des Subsentence-Level-Wichtigkeitsverhältnisses
Vergleich von SSPO (w/o entropy clip) mit GRPO und GSPO:
- **1.5B Modell**: 45.72 vs GRPO 43.01 (+2.71) vs GSPO 44.42 (+1.30)
- **7B Modell**: 53.99 vs GRPO 53.15 (+0.84) vs GSPO 53.75 (+0.24)
**Schlussfolgerung**: Das Subsentence-Level-Wichtigkeitsverhältnis selbst bringt signifikante Verbesserungen, was die Bedeutung der Granularitätswahl beweist.
#### Beitrag des adaptiven Entropie-Clipping
Vergleich von SSPO mit SSPO (w/o entropy clip):
- **1.5B Modell**: 46.57 vs 45.72 (+0.85)
- **7B Modell**: 54.85 vs 53.99 (+0.86)
**Schlussfolgerung**: Das adaptive Entropie-Clipping bringt auf beiden Modellgrößen eine konsistente Verbesserung von etwa 0.85, was seine Wirksamkeit beweist.
### Entropie-Analyse
Abbildung 1 zeigt die Trainings-Entropie-Veränderungen von SSPO, SSPO (w/o entropy clip), GSPO und GRPO:
**Beobachtungsergebnisse**:
1. **GRPO und GSPO**: Entropie sinkt schnell, was auf vorzeitige Konvergenz hindeutet und Entropie-Kollaps-Risiko birgt
2. **SSPO (w/o entropy clip)**: Entropie sinkt etwas langsamer als GRPO und GSPO
3. **SSPO**: Entropie bleibt auf dem höchsten Niveau, sinkt am langsamsten, was zeigt, dass adaptives Entropie-Clipping Entropie-Kollaps effektiv mildert
**Bedeutung**: Höhere Entropie bedeutet, dass das Modell Explorationsfähigkeit behält und nicht vorzeitig in lokale Optima fällt, was den Mechanismus der Leistungsverbesserung von SSPO erklärt.
### Experimentelle Erkenntnisse
1. **Wichtigkeit der Granularitäts-Ausgleichung**: Die Wahl einer angemessenen Granularität (Subsentence-Level) zwischen Token-Level und Response-Level ist entscheidend für die Leistung
2. **Notwendigkeit der Entropie-Verwaltung**: Dynamische Anpassung der Clipping-Grenzen kann Entropie-Kollaps effektiv verhindern und Trainingsstabilität aufrechterhalten
3. **Verbesserung der Stichprobenauslastung**: Subsentence-Level-Wichtigkeitsverhältnis reduziert die Clipping-Rate und verbessert die Stichprobenauslastungseffizienz
4. **Einfluss der Modellgröße**: Bei größeren Modellen (7B) verringert sich der Leistungsunterschied zwischen Baseline-Methoden, aber SSPO behält seinen Vorsprung
## Verwandte Arbeiten
### 1. GRPO Reinforcement-Learning-Algorithmus
- **Erfolgreiche Anwendung von DeepSeek-R1**: GRPO erreicht einen qualitativen Sprung bei Reasoning-Aufgaben
- **Kernproblem**: Token-Level-Wichtigkeitsverhältnis führt zu hoher Varianz und Trainingsinstabilität
- **Verbesserung in diesem Artikel**: Einführung von Subsentence-Level-Wichtigkeitsverhältnis und dynamischem Clipping
### 2. Berechnung des Wichtigkeitsverhältnisses
- **GRPO**: Token-Level, $w_{i,t}(θ)$, Hochvarianzproblem
- **GSPO**: Response-Level, $s_i(θ)$, Niedrige Stichprobenauslastung
- **LPO** (gleichzeitige Arbeit): Satz-Granularität, aber mit Token-Level-Normalisierung und festem Clipping
- **SSPO**: Subsentence-Level, Response-Level-Normalisierung + adaptives Entropie-Clipping
### 3. Clipping-Mechanismus
- **PPO-CLIP**: Standard feste Clipping-Bereich
- **CISPO**: Soft-Clipping-Gradient
- **DCPO**: Dynamisches Clipping basierend auf Token-Wahrscheinlichkeit
- **SSPO**: Adaptives Clipping basierend auf Entropie, gezielt zur Lösung des Entropie-Kollaps-Problems
### 4. Vorteile dieses Artikels
- **Theoretische Vollständigkeit**: Bietet detaillierte Gradient-Ableitungen und theoretische Analyse
- **Methodische Neuheit**: Erste Kombination von Subsentence-Level-Wichtigkeitsverhältnis und adaptivem Entropie-Clipping
- **Experimentelle Vollständigkeit**: Validierung auf mehreren Modellgrößen und Datensätzen
## Schlussfolgerung und Diskussion
### Hauptschlussfolgerungen
1. **Wirksamkeit von SSPO**: Durch Subsentence-Level-Wichtigkeitsverhältnis und adaptives Entropie-Clipping übertrifft SSPO bestehende Methoden bei mathematischen Reasoning-Aufgaben signifikant
2. **Granularitäts-Ausgleichung**: Subsentence-Level ist der beste Ausgleichspunkt zwischen Token-Level und Response-Level, der sowohl Trainingsstabilität gewährleistet als auch Stichprobenauslastung verbessert
3. **Entropie-Verwaltung**: Der adaptive Entropie-Clipping-Mechanismus mildert Entropie-Kollaps effektiv und erhält die Explorationsfähigkeit des Modells
4. **Skalierbarkeit**: SSPO zeigt auf verschiedenen Modellgrößen (1.5B und 7B) hervorragende Leistung
### Einschränkungen
1. **Abhängigkeit von semantischer Segmentierung**: Die aktuelle Verwendung von Zeilenumbrüchen als Segmentierungsstandard ist möglicherweise nicht auf alle Aufgabentypen anwendbar (z. B. Code-Generierung ohne explizite Satzstruktur)
2. **Hyperparameter-Empfindlichkeit**: Das adaptive Entropie-Clipping führt zusätzliche Hyperparameter ein (wie α und Entropie-Schwellenwerte), die für verschiedene Aufgaben optimiert werden müssen
3. **Begrenzte Evaluierungsreichweite**: Experimente konzentrieren sich hauptsächlich auf mathematische Reasoning-Aufgaben; die Auswirkungen auf andere Bereiche (wie Dialog, Code-Generierung) sind unbekannt
4. **Rechenaufwand**: Erfordert die Berechnung des Entropiewerts für jedes Segment, was zusätzliche Rechenkosten verursacht
5. **Unzureichende theoretische Analyse**: Mangel an theoretischen Beweisen dafür, warum Subsentence-Level die optimale Granularität ist
### Zukünftige Richtungen
1. **Erweiterung auf andere Bereiche**: Anwendung von SSPO auf Programmierung, semantisches Reasoning usw.
2. **Adaptive Segmentierung**: Erforschung semantischer dynamischer Segmentierungsmethoden statt einfacher Abhängigkeit von Zeilenumbrüchen
3. **Theoretische Analyse**: Bereitstellung theoretischer Garantien für Granularitätswahl und Entropie-Clipping
4. **Validierung bei größerer Skala**: Validierung der Wirksamkeit von SSPO auf größeren Modellen (z. B. 100B+ Parameter)
## Tiefgreifende Bewertung
### Stärken
#### 1. Methodische Innovativität (★★★★☆)
- **Klare Kerninnnovation**: Subsentence-Level-Wichtigkeitsverhältnis ist eine natürliche Erweiterung zwischen GRPO und GSPO, wurde aber zuvor nicht systematisch untersucht
- **Neuartiges adaptives Entropie-Clipping**: Verwendung von Entropie als Grundlage für dynamische Anpassung der Clipping-Grenzen, Design ist rational und intuitiv
- **Ausreichende theoretische Unterstützung**: Bietet vollständige Gradient-Ableitungen, erklärt, warum Subsentence-Level die Varianz reduzieren kann
#### 2. Experimentelle Vollständigkeit (★★★★☆)
- **Multi-Modell-Validierung**: Validierung auf zwei Größen (1.5B und 7B)
- **Multi-Baseline-Vergleich**: Vergleich mit GRPO, GSPO, Dr.GRPO, GMPO und anderen Methoden
- **Vollständige Ablationsstudien**: Separate Validierung der Beiträge von Subsentence-Level-Wichtigkeitsverhältnis und adaptivem Entropie-Clipping
- **Intuitive Entropie-Analyse**: Entropie-Kurvenvisualisierung zeigt die Wirksamkeit der Methode
#### 3. Überzeugungskraft der Ergebnisse (★★★★☆)
- **Konsistente Verbesserungen**: Verbesserungen auf allen Evaluierungsdatensätzen
- **Statistische Signifikanz**: Durchschnittliche Verbesserung von 2-3 Prozentpunkten hat praktische Bedeutung
- **SOTA-Leistung**: Erreicht optimale Leistung auf mehreren Datensätzen
#### 4. Schreibklarheit (★★★★☆)
- **Klare Struktur**: Problemdefinition → Methodendesign → Experimentelle Validierung mit flüssiger Logik
- **Genaue mathematische Ausdrücke**: Detaillierte Formelableitungen, klare Symboldefinitionen
- **Effektive Grafiken**: Tabellen und Abbildung 1 unterstützen die Argumentation effektiv
### Mängel
#### 1. Methodische Einschränkungen (★★★☆☆)
- **Einfache Segmentierungsstrategie**: Nur Zeilenumbruch-Segmentierung, möglicherweise nicht für Aufgaben ohne explizite Satzstruktur (wie Code) geeignet
- **Hyperparameter-Einführung**: Adaptives Entropie-Clipping führt zusätzliche Hyperparameter ein (α und Entropie-Schwellenwerte), die optimiert werden müssen
- **Mangel an theoretischer Grundlage für Granularitätswahl**: Warum Subsentence-Level optimal ist, fehlt theoretischer Beweis, hauptsächlich empirische Beobachtung
#### 2. Experimentelle Einrichtungsmängel (★★★☆☆)
- **Einzelner Bereich**: Nur auf mathematischen Reasoning-Aufgaben validiert, fehlende Experimente in anderen Bereichen (Dialog, Code, Übersetzung)
- **Begrenzte Modellgröße**: Nur bis 7B validiert, nicht auf größeren Modellen (70B+) getestet
- **Fehlende statistische Signifikanztests**: Keine Konfidenzintervalle oder Standardabweichungen aus mehreren Durchläufen
- **Rechenkosten nicht berichtet**: Keine Analyse des zusätzlichen Rechenaufwands von SSPO gegenüber Baseline-Methoden
#### 3. Unzureichende Analyse (★★★☆☆)
- **Fehlende Clipping-Rate-Analyse**: Obwohl erwähnt, dass die Clipping-Rate sinkt, fehlen konkrete Daten
- **Fehlende Fallstudien**: Keine konkreten Generierungsbeispiele, keine intuitive Verständigung des SSPO-Verhaltens
- **Fehlende Fehlerfall-Analyse**: Keine Diskussion, in welchen Fällen SSPO schlecht abschneidet
- **Unzureichender LPO-Vergleich**: Obwohl LPO erwähnt wird, fehlt direkter experimenteller Vergleich
#### 4. Reproduzierbarkeit (★★★☆☆)
- **Code nicht open-source**: Papier bietet keinen Code-Link
- **Unvollständige Hyperparameter-Details**: Der spezifische Wert von α ist nicht klar angegeben
- **Unzureichende Begründung für Entropie-Schwellenwerte**: Warum 0.5, 1.0 usw. gewählt wurden, ist nicht ausreichend erklärt
### Einflussschätzung
#### 1. Beitrag zum Bereich (★★★★☆)
- **Methodologischer Beitrag**: Bietet neue Perspektiven auf Granularitätswahl für RLVR-Algorithmen
- **Hoher praktischer Wert**: Kann direkt auf bestehende RL-Trainings-Pipelines angewendet werden
- **Starke Inspirationskraft**: Das Konzept des adaptiven Entropie-Clipping kann auf andere RL-Algorithmen verallgemeinert werden
#### 2. Praktischer Wert (★★★★☆)
- **Einfache Implementierung**: Methode ist einfach, erfordert keine zusätzlichen Modellkomponenten
- **Plug-and-Play**: Kann bestehende GRPO/GSPO ersetzen
- **Deutliche Leistungsverbesserung**: 2-3 Prozentpunkte Verbesserung sind bei mathematischen Reasoning-Aufgaben wertvoll
#### 3. Potenzieller Einfluss (★★★★☆)
- **Industrielle Anwendungsaussichten**: Von Ping An Technology, möglicherweise in tatsächlichen Produkten angewendet
- **Zukünftige Forschungsrichtungen**: Kann mehr Forschung zu Granularitätswahl und adaptivem Clipping inspirieren
- **Einschränkung**: Einzelner Bereich könnte die Reichweite des Einflusses begrenzen
### Anwendbare Szenarien
#### Geeignete Szenarien:
1. **Mathematische Reasoning-Aufgaben**: Hauptverifizierungsszenario des Papiers, beste Ergebnisse
2. **Strukturierte Generierungsaufgaben**: Aufgaben mit expliziter Satzstruktur in Responses (wie Q&A, Reasoning-Chain-Generierung)
3. **Langtext-Generierung**: Vorteile der Subsentence-Level-Granularität sind bei längeren Responses deutlicher
4. **Szenarien mit hohen Anforderungen an Trainingsstabilität**: Anwendungen mit hohen Anforderungen an Trainingsstabilität
#### Weniger geeignete Szenarien:
1. **Code-Generierung**: Code hat möglicherweise keine explizite Satzstruktur, Zeilenumbruch-Segmentierung ist ungeeignet
2. **Kurztext-Generierung**: Bei sehr kurzen Responses ist der Unterschied zwischen Subsentence-Level und Response-Level gering
3. **Echtzeit-Anwendungen**: Erfordert Entropie-Berechnung, erhöht Inferenz-Overhead
4. **Nicht-englische Aufgaben**: Satzaufteilungsstrategie muss möglicherweise für verschiedene Sprachen angepasst werden
### Gesamtbewertung: ★★★★☆ (4.2/5)
**Empfehlungsindex**: Stark empfohlen für Forscher und Ingenieure, die an LLM-Reinforcement-Learning-Training arbeiten
**Geeignete Leser**:
- Forscher, die an RL-Algorithmen arbeiten
- Ingenieure, die LLM-Trainingssysteme entwickeln
- Forscher, die sich auf die Verbesserung mathematischer Reasoning-Fähigkeiten konzentrieren
## Referenzen (Schlüsselliteratur)
1. **Shao et al. (2024)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (Originalpapier zu GRPO)
2. **Zhao et al. (2025)** - Geometric-mean policy optimization (GSPO-Papier)
3. **Schulman et al. (2017)** - Proximal policy optimization algorithms (Originalpapier zu PPO-CLIP)
4. **Li et al. (2025)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (Gleichzeitige Arbeit zu LPO)
5. **Hendrycks et al. (2021)** - Measuring mathematical problem solving with the MATH dataset
---
**Zusammenfassung**: SSPO ist ein solides angewandtes Forschungspapier, das eine effektive Lösung für spezifische Probleme bestehender RLVR-Algorithmen bietet. Das Methodendesign ist rational, die experimentelle Validierung ist vollständig, und es erreicht signifikante Verbesserungen bei mathematischen Reasoning-Aufgaben. Der Hauptbeitrag liegt darin, den optimalen Ausgleichspunkt für die Granularität der Wichtigkeitsverhältnis-Berechnung zu finden und durch adaptives Entropie-Clipping das Entropie-Kollaps-Problem zu mildern. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und Anwendungsbreite gibt, hat es wichtigen Wert für die Förderung praktischer Fortschritte im LLM-Reinforcement-Learning-Training.