2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO : Optimisation de Politique au Niveau des Sous-phrases

Informations Fondamentales

ID de l'article : 2511.04256
Titre : SSPO: Subsentence-level Policy Optimization
Auteurs : Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
Classification : cs.CL (Linguistique Informatique)
Date de publication : 6 novembre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2511.04256

Résumé

Cet article propose la méthode SSPO (Optimisation de Politique au Niveau des Sous-phrases) pour les algorithmes d'apprentissage par renforcement dans l'entraînement post-formation des grands modèles de langage (LLMs). Les algorithmes RLVR (Apprentissage par Renforcement avec Récompenses Vérifiables) existants tels que GRPO et GSPO présentent respectivement des problèmes d'instabilité d'entraînement et de faible utilisation des échantillons. GRPO utilise des ratios d'importance au niveau des tokens, ce qui le rend sensible aux valeurs aberrantes causant l'effondrement de l'entraînement ; GSPO utilise des ratios d'importance au niveau des réponses, ce qui résout le problème de variance élevée mais entraîne le rejet de réponses entières par le mécanisme d'écrêtage. SSPO atteint un équilibre entre GRPO et GSPO en introduisant des ratios d'importance au niveau des phrases. De plus, SSPO propose un mécanisme d'écrêtage d'entropie adaptatif qui ajuste dynamiquement les limites d'écrêtage, encourageant l'exploration des tokens à haute entropie et limitant la plage de mise à jour des tokens à faible entropie. Les résultats expérimentaux montrent que SSPO atteint un score moyen de 46,57 sur cinq ensembles de données de raisonnement mathématique, surpassant GRPO (43,01) et GSPO (44,42), atteignant les performances optimales sur trois ensembles de données.

Contexte et Motivation de la Recherche

1. Problème de Recherche

Le problème fondamental abordé dans cet article est : comment maintenir la stabilité d'entraînement tout en améliorant l'utilisation des échantillons dans l'apprentissage par renforcement des grands modèles de langage, tout en évitant le phénomène d'effondrement d'entropie.

2. Importance du Problème

Besoin d'amélioration des capacités de raisonnement : Avec l'application des LLMs aux tâches de raisonnement complexe en mathématiques et programmation, une optimisation post-formation efficace par apprentissage par renforcement est nécessaire
Efficacité d'entraînement et stabilité : L'entraînement RL à grande échelle nécessite d'équilibrer l'efficacité informatique et la stabilité d'entraînement, en évitant l'effondrement du modèle
Utilisation des échantillons : Avec des ressources informatiques limitées, il est crucial de maximiser l'utilisation des données d'échantillons générées

3. Limitations des Méthodes Existantes

Problèmes de GRPO :

Utilise le calcul du ratio d'importance au niveau des tokens : $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
Les poids de gradient de chaque token diffèrent, entraînant une variance élevée du gradient de politique
Sensible aux tokens aberrants ; à mesure que la longueur de la réponse augmente, le bruit d'entraînement s'accumule, finissant par causer l'effondrement du modèle

Problèmes de GSPO :

Utilise le ratio d'importance au niveau des réponses : $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
Tous les tokens de la réponse partagent le même ratio d'importance
Lorsque quelques tokens ont des poids d'importance extrêmes, cela affecte la moyenne globale, entraînant le rejet de la réponse entière par le mécanisme PPO-CLIP
Réduction de l'utilisation des échantillons, causant un gaspillage de données

4. Motivation de la Recherche

Les auteurs considèrent qu'il est nécessaire de trouver un point d'équilibre entre le niveau des tokens et celui des réponses, maintenant les avantages de stabilité d'entraînement de GSPO tout en améliorant l'utilisation des échantillons, et en atténuant le problème d'effondrement d'entropie par ajustement dynamique du mécanisme d'écrêtage.

Contributions Fondamentales

Proposition de ratios d'importance au niveau des sous-phrases : En divisant la réponse en plusieurs segments sémantiques (délimités par des sauts de ligne ou des sauts de ligne doubles), le calcul des ratios d'importance au niveau des phrases atteint un équilibre entre le niveau des tokens de GRPO et celui des réponses de GSPO
Conception d'un mécanisme d'écrêtage d'entropie adaptatif : Ajuste dynamiquement les limites d'écrêtage PPO-CLIP en fonction de la valeur d'entropie des sous-phrases, élargissant la plage d'écrêtage pour les tokens à haute entropie afin d'encourager l'exploration, et rétrécissant la plage pour les tokens à faible entropie afin de limiter la mise à jour
Vérification expérimentale : Sur les modèles Qwen2.5-Math-1.5B et 7B, utilisant 5 tests de référence en raisonnement mathématique, SSPO surpasse les méthodes de base telles que GRPO, GSPO, Dr.GRPO et GMPO
Analyse théorique : Fournit une dérivation détaillée des objectifs de gradient, prouvant que les poids de gradient de SSPO restent cohérents au sein des segments, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une requête $x$ et une réponse $y$ , l'objectif est d'optimiser la politique $π_θ$ par apprentissage par renforcement pour obtenir une récompense vérifiable plus élevée $r(x, y)$ . Pour chaque requête, $G$ échantillons de réponse sont générés, et la mise à jour de la politique est effectuée par estimation d'avantage relative intra-groupe.

Architecture du Modèle

1. Ratio d'Importance au Niveau des Sous-phrases

Division de la réponse :

Divise la réponse $y_i$ par des sauts de ligne ou des sauts de ligne doubles en $N_{seg}(y_i)$ segments sémantiques
Le $j$ -ème segment est noté $y_{i,j}$ , avec une longueur de $|y_{i,j}|$

Calcul du ratio d'importance : $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

Estimation d'avantage (niveau réponse) : $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

Objectif d'optimisation (sans écrêtage) : $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

2. Analyse du Gradient

L'objectif de gradient de SSPO est : $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

Caractéristiques clés : Tous les tokens au sein d'un même segment ont le même poids de gradient, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique.

3. Mécanisme d'Écrêtage d'Entropie Adaptatif

Calcul d'entropie au niveau des tokens : $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

Entropie au niveau des segments : $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

Limites d'écrêtage dynamiques :

Limite supérieure : $ϵ_{high} = 1 + α + H_{i,j}$ (α est un hyperparamètre)
Limite inférieure : $ϵ_{low} = \begin{cases} 0.3, & H_{i,j} > 1 \\ 1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\ 0.8, & H_{i,j} < 0.5 \end{cases}$

Objectif d'optimisation final : $J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$

Points d'Innovation Technique

1. Conception d'Équilibre de Granularité

Niveau des tokens (GRPO) : Granularité trop fine, variance élevée
Niveau des réponses (GSPO) : Granularité trop grossière, faible utilisation des échantillons
Niveau des sous-phrases (SSPO) : Équilibre optimal entre stabilité et utilisation des échantillons

2. Rationalité de l'Écrêtage Adaptatif

Scénario haute entropie ( $H_{i,j} > 1$ ) : Le modèle est incertain sur ces tokens, élargir la plage d'écrêtage pour encourager l'exploration
Scénario entropie moyenne ( $0.5 \leq H_{i,j} \leq 1$ ) : Ajustement linéaire de la plage d'écrêtage
Scénario basse entropie ( $H_{i,j} < 0.5$ ) : Le modèle a bien appris ces tokens, rétrécir la plage d'écrêtage pour limiter la mise à jour et prévenir le surapprentissage

3. Différences avec LPO

Les travaux concurrents LPO proposent également l'échantillonnage d'importance au niveau des phrases, mais présentent deux différences clés :

Normalisation d'estimation d'avantage : LPO normalise au niveau des tokens (affecté par la longueur de réponse), SSPO normalise au niveau des réponses (indépendant de la longueur de réponse)
Mécanisme d'écrêtage : LPO utilise PPO-CLIP fixe, SSPO utilise l'écrêtage d'entropie adaptatif

Configuration Expérimentale

Ensembles de Données

Données d'entraînement :

MATH Level 3-5 : Contient 8523 problèmes mathématiques
8 rollouts échantillonnés par problème
Limite de longueur de réponse : 3000 tokens
Taille de batch : 128

Ensembles de données d'évaluation (5 tests de référence en raisonnement mathématique) :

MATH-500 : 500 problèmes de l'ensemble de données MATH, couvrant l'algèbre, la géométrie, la théorie des nombres, etc.
AMC23 : 83 questions à choix multiples de difficulté moyenne
AIME24 : 30 problèmes de l'Examen d'Invitation Mathématique Américain 2024 au niveau olympique
Minerva : 272 problèmes de raisonnement multi-étapes au niveau des études supérieures
Olympiad Bench : 675 problèmes olympiques de haute difficulté

Métriques d'Évaluation

Précision du Décodage Glouton (Avg@1) : Évalue les performances du modèle avec décodage glouton
Score Moyen : Précision moyenne sur les cinq ensembles de données

Méthodes de Comparaison

GRPO : Méthode de base avec ratio d'importance au niveau des tokens
GSPO : Méthode avec ratio d'importance au niveau des réponses
Dr.GRPO : Version améliorée de GRPO
GMPO : Optimisation de politique de moyenne géométrique
SSPO (w/o entropy clip) : Version d'ablation utilisant uniquement le ratio d'importance au niveau des sous-phrases, sans écrêtage d'entropie adaptatif

Détails d'Implémentation

Modèles : Qwen2.5-Math-1.5B et Qwen2.5-Math-7B
Framework : Framework d'apprentissage par renforcement veRL
Template : Utilise le template Qwen-Math pour l'entraînement et l'évaluation
Stratégie d'évaluation : Évalue tous les 10 pas sur 5 ensembles de données, sélectionne le meilleur score comme résultat final

Résultats Expérimentaux

Résultats Principaux

Modèle Qwen2.5-Math-1.5B

Méthode	AIME24	AMC23	MATH	MIN.	OLY.	Moy
GRPO	16.67	54.2	72.6	32.35	39.67	43.01
GSPO	20.0	51.49	74.6	34.56	41.16	44.42
Dr.GRPO	20.0	53.0	74.2	25.7	37.6	42.1
GMPO	20.0	53.0	77.6	30.1	38.7	43.9
SSPO (w/o entropy clip)	23.3	56.63	74.2	32.72	39.52	45.72
SSPO	23.3	57.83	75.4	35.29	41.01	46.57

Modèle Qwen2.5-Math-7B

Méthode	AIME24	AMC23	MATH	MIN.	OLY.	Moy
GRPO	33.3	67.47	79.0	40.07	45.91	53.15
GSPO	33.3	65.06	80.8	42.28	47.1	53.75
Dr.GRPO	43.3	62.7	80.0	30.1	41.0	51.4
GMPO	43.3	61.4	82.0	33.5	43.6	52.7
SSPO (w/o entropy clip)	33.3	65.06	81.6	42.28	47.7	53.99
SSPO	36.67	66.27	81.8	42.28	47.25	54.85

Découvertes clés :

Performance globale : SSPO atteint le score moyen le plus élevé sur les deux échelles de modèles
- Modèle 1.5B : 46.57 vs GRPO 43.01 (+3.56) vs GSPO 44.42 (+2.15)
- Modèle 7B : 54.85 vs GRPO 53.15 (+1.70) vs GSPO 53.75 (+1.10)
Extensibilité d'échelle : SSPO maintient son avantage sur les modèles plus grands, bien que l'ampleur de l'amélioration soit légèrement réduite
Performance SOTA : Atteint les performances optimales sur trois ensembles de données (AIME24, AMC23 et Minerva) pour le modèle 1.5B

Études d'Ablation

Contribution du Ratio d'Importance au Niveau des Sous-phrases

Comparaison de SSPO (w/o entropy clip) avec GRPO et GSPO :

Modèle 1.5B : 45.72 vs GRPO 43.01 (+2.71) vs GSPO 44.42 (+1.30)
Modèle 7B : 53.99 vs GRPO 53.15 (+0.84) vs GSPO 53.75 (+0.24)

Conclusion : Le ratio d'importance au niveau des sous-phrases apporte une amélioration significative en lui-même, prouvant l'importance du choix de granularité.

Contribution de l'Écrêtage d'Entropie Adaptatif

Comparaison de SSPO avec SSPO (w/o entropy clip) :

Modèle 1.5B : 46.57 vs 45.72 (+0.85)
Modèle 7B : 54.85 vs 53.99 (+0.86)

Conclusion : L'écrêtage d'entropie adaptatif apporte une amélioration cohérente d'environ 0.85 sur les deux échelles de modèles, prouvant son efficacité.

Analyse d'Entropie

La Figure 1 montre l'évolution de l'entropie d'entraînement pour SSPO, SSPO (w/o entropy clip), GSPO et GRPO :

Observations :

GRPO et GSPO : L'entropie diminue rapidement, indiquant une convergence prématurée du modèle avec risque d'effondrement d'entropie
SSPO (w/o entropy clip) : La vitesse de diminution d'entropie est légèrement plus lente que GRPO et GSPO
SSPO : L'entropie reste au niveau le plus élevé avec la diminution la plus lente, montrant que l'écrêtage d'entropie adaptatif atténue efficacement l'effondrement d'entropie

Signification : Une entropie plus élevée signifie que le modèle maintient sa capacité d'exploration et ne tombe pas prématurément dans un optimum local, ce qui explique le mécanisme d'amélioration des performances de SSPO.

Découvertes Expérimentales

Importance du choix de granularité : Sélectionner une granularité appropriée (niveau des sous-phrases) entre le niveau des tokens et celui des réponses est crucial pour les performances
Nécessité de la gestion d'entropie : L'ajustement dynamique des limites d'écrêtage peut efficacement prévenir l'effondrement d'entropie et maintenir la stabilité d'entraînement
Amélioration de l'utilisation des échantillons : Le ratio d'importance au niveau des sous-phrases réduit le taux d'écrêtage et améliore l'efficacité d'utilisation des échantillons
Impact de l'échelle du modèle : Sur les modèles plus grands (7B), l'écart de performance des méthodes de base se réduit, mais SSPO maintient toujours son avantage

Travaux Connexes

1. Algorithme d'Apprentissage par Renforcement GRPO

Application réussie de DeepSeek-R1 : GRPO a réalisé un saut qualitatif dans les tâches de raisonnement
Problème fondamental : Le ratio d'importance au niveau des tokens entraîne une variance élevée et une instabilité d'entraînement
Amélioration de cet article : Introduction du ratio d'importance au niveau des sous-phrases et de l'écrêtage dynamique

2. Calcul du Ratio d'Importance

GRPO : Niveau des tokens, $w_{i,t}(θ)$ , problème de variance élevée
GSPO : Niveau des réponses, $s_i(θ)$ , problème de faible utilisation des échantillons
LPO (travail concurrent) : Granularité des phrases, mais utilise la normalisation au niveau des tokens et l'écrêtage fixe
SSPO : Niveau des sous-phrases, normalisation au niveau des réponses + écrêtage d'entropie adaptatif

3. Mécanisme d'Écrêtage

PPO-CLIP : Plage d'écrêtage fixe standard
CISPO : Gradient d'écrêtage doux
DCPO : Écrêtage dynamique basé sur la probabilité des tokens
SSPO : Écrêtage adaptatif basé sur l'entropie, résolvant spécifiquement le problème d'effondrement d'entropie

4. Avantages de cet Article

Complétude théorique : Fournit une dérivation détaillée des gradients et une analyse théorique
Nouveauté de la méthode : Première combinaison du ratio d'importance au niveau des sous-phrases et de l'écrêtage d'entropie adaptatif
Suffisance expérimentale : Vérification de l'efficacité sur plusieurs échelles de modèles et ensembles de données

Conclusion et Discussion

Conclusions Principales

Efficacité de SSPO : Par le ratio d'importance au niveau des sous-phrases et l'écrêtage d'entropie adaptatif, SSPO surpasse significativement les méthodes existantes dans les tâches de raisonnement mathématique
Équilibre de granularité : Le niveau des sous-phrases est le point d'équilibre optimal entre le niveau des tokens et celui des réponses, garantissant à la fois la stabilité d'entraînement et l'amélioration de l'utilisation des échantillons
Gestion d'entropie : Le mécanisme d'écrêtage d'entropie adaptatif atténue efficacement l'effondrement d'entropie et maintient la capacité d'exploration du modèle
Extensibilité : SSPO montre d'excellentes performances sur différentes échelles de modèles (1.5B et 7B)

Limitations

Dépendance à la segmentation sémantique : La segmentation actuelle utilise les sauts de ligne comme critères, ce qui peut ne pas convenir à tous les types de tâches (comme la génération de code sans structure de phrase claire)
Sensibilité aux hyperparamètres : L'écrêtage d'entropie adaptatif introduit des hyperparamètres supplémentaires (comme α et les seuils d'entropie) nécessitant un ajustement pour différentes tâches
Portée d'évaluation limitée : Les expériences se concentrent principalement sur les tâches de raisonnement mathématique, l'efficacité sur d'autres domaines (dialogue, génération de code) est inconnue
Surcharge informatique : Nécessite le calcul de la valeur d'entropie pour chaque segment, augmentant certains coûts informatiques
Analyse théorique insuffisante : Manque de preuve théorique sur pourquoi le niveau des sous-phrases est la granularité optimale

Directions Futures

Extension à d'autres domaines : Application de SSPO aux tâches de programmation, raisonnement sémantique, etc.
Segmentation adaptative : Recherche de méthodes de segmentation dynamique basées sur la sémantique, plutôt que de dépendre simplement des sauts de ligne
Analyse théorique : Fournir des garanties théoriques concernant le choix de granularité et l'écrêtage d'entropie
Vérification à plus grande échelle : Vérifier l'efficacité de SSPO sur des modèles à plus grande échelle (comme 100B+ paramètres)

Évaluation Approfondie

Avantages

1. Innovativité de la Méthode (★★★★☆)

Innovation fondamentale claire : Le ratio d'importance au niveau des sous-phrases est une extension naturelle de GRPO et GSPO, mais n'a pas été systématiquement étudié auparavant
Écrêtage d'entropie adaptatif novateur : Utiliser l'entropie comme base pour ajuster dynamiquement les limites d'écrêtage, avec une conception rationnelle et intuitive
Support théorique suffisant : Fournit une dérivation complète des gradients, expliquant pourquoi le niveau des sous-phrases peut réduire la variance

2. Suffisance Expérimentale (★★★★☆)

Vérification multi-modèles : Vérification sur deux échelles (1.5B et 7B)
Comparaison multi-baselines : Comparaison avec GRPO, GSPO, Dr.GRPO, GMPO et autres méthodes
Études d'ablation complètes : Vérification séparée des contributions du ratio d'importance au niveau des sous-phrases et de l'écrêtage d'entropie adaptatif
Analyse d'entropie intuitive : La visualisation des courbes d'entropie démontre efficacement l'efficacité de la méthode

3. Pouvoir Convaincant des Résultats (★★★★☆)

Amélioration cohérente : Amélioration sur tous les ensembles de données d'évaluation
Signification statistique : L'ampleur de l'amélioration moyenne atteint 2-3 points de pourcentage, ayant une valeur pratique
Performance SOTA : Atteint les performances optimales sur plusieurs ensembles de données

4. Clarté de la Rédaction (★★★★☆)

Structure claire : Flux logique fluide de la définition du problème à la conception de la méthode à la vérification expérimentale
Expression mathématique précise : Dérivation détaillée des formules, définition claire des symboles
Support efficace des graphiques : Les tableaux et la Figure 1 soutiennent efficacement les arguments

Insuffisances

1. Limitations de la Méthode (★★★☆☆)

Stratégie de segmentation simple : Utilise uniquement les sauts de ligne pour la segmentation, peut ne pas convenir aux tâches sans structure de phrase claire (comme le code)
Introduction d'hyperparamètres : L'écrêtage d'entropie adaptatif introduit des hyperparamètres supplémentaires (α et seuils d'entropie) nécessitant un ajustement
Manque de justification théorique : Pourquoi le niveau des sous-phrases est optimal manque de preuve théorique, reposant principalement sur l'observation empirique

2. Défauts de Configuration Expérimentale (★★★☆☆)

Domaine unique : Vérification uniquement sur les tâches de raisonnement mathématique, manque d'expériences sur d'autres domaines (dialogue, code, traduction)
Échelle de modèle limitée : Vérification maximale jusqu'à 7B, pas de test sur des modèles à plus grande échelle (70B+)
Manque de test de signification statistique : Pas de fourniture d'intervalles de confiance ou d'écarts-types de plusieurs exécutions
Coût informatique non rapporté : Pas d'analyse du surcoût informatique de SSPO par rapport aux méthodes de base

3. Analyse Insuffisante (★★★☆☆)

Analyse du taux d'écrêtage manquante : Bien que mentionnant la réduction du taux d'écrêtage, pas de données concrètes fournies
Analyse de cas manquante : Pas de présentation d'exemples de génération spécifiques, impossible de comprendre intuitivement le comportement de SSPO
Analyse des cas d'échec : Pas de discussion sur les situations où SSPO fonctionne mal
Comparaison insuffisante avec LPO : Bien que LPO soit mentionné, pas de comparaison expérimentale directe

4. Reproductibilité (★★★☆☆)

Code non open-source : L'article ne fournit pas de lien vers le code
Détails d'hyperparamètres incomplets : La valeur spécifique de α n'est pas clairement indiquée
Justification du choix des seuils d'entropie : Pourquoi les seuils 0.5, 1.0 etc. sont choisis n'est pas suffisamment expliqué

Évaluation de l'Impact

1. Contribution au Domaine (★★★★☆)

Contribution méthodologique : Fournit une nouvelle perspective sur le choix de granularité pour les algorithmes RLVR
Valeur pratique élevée : Peut être directement appliqué aux flux d'entraînement RL existants
Force inspiratrice : L'idée d'écrêtage d'entropie adaptatif peut être généralisée à d'autres algorithmes RL

2. Valeur Pratique (★★★★☆)

Facile à implémenter : La méthode est simple, ne nécessitant pas de composants de modèle supplémentaires
Plug-and-play : Peut remplacer les GRPO/GSPO existants
Amélioration de performance significative : L'amélioration de 2-3 points de pourcentage est très précieuse pour les tâches de raisonnement mathématique

3. Impact Potentiel (★★★★☆)

Perspectives d'application industrielle : Provenant de Ping An Technology, peut être appliqué dans les produits réels
Direction de recherche future : Peut inspirer plus de recherches sur le choix de granularité et l'écrêtage adaptatif
Limitation : Le domaine unique peut limiter la portée de l'impact

Scénarios Applicables

Scénarios Appropriés :

Tâches de raisonnement mathématique : Scénario principal de vérification, meilleur effet
Tâches de génération structurée : Tâches où les réponses ont une structure de phrase claire (questions-réponses, génération de chaînes de raisonnement)
Génération de texte long : Avantage plus évident du niveau des sous-phrases quand la longueur de réponse est plus longue
Scénarios nécessitant une stabilité d'entraînement : Applications avec exigences élevées de stabilité d'entraînement

Scénarios Moins Appropriés :

Génération de code : Le code peut ne pas avoir de structure de phrase claire, la segmentation par sauts de ligne n'est pas appropriée
Génération de texte court : Quand la réponse est très courte, la différence entre le niveau des sous-phrases et celui des réponses est mineure
Applications en temps réel : Nécessite le calcul de la valeur d'entropie, augmentant la surcharge d'inférence
Tâches non-anglaises : La stratégie de segmentation des phrases peut nécessiter un ajustement pour différentes langues

Score Composite : ★★★★☆ (4.2/5)

Indice de Recommandation : Fortement recommandé aux chercheurs et ingénieurs travaillant sur l'entraînement RL des LLMs

Lecteurs Appropriés :

Chercheurs travaillant sur les algorithmes RL
Ingénieurs développant des systèmes d'entraînement LLM
Chercheurs intéressés par l'amélioration des capacités de raisonnement mathématique

Références (Références Clés)

Shao et al. (2024) - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (Article original GRPO)
Zhao et al. (2025) - Geometric-mean policy optimization (Article GSPO)
Schulman et al. (2017) - Proximal policy optimization algorithms (Article original PPO-CLIP)
Li et al. (2025) - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (Travail concurrent LPO)
Hendrycks et al. (2021) - Measuring mathematical problem solving with the MATH dataset

Résumé : SSPO est un article de recherche appliquée solide qui propose une solution efficace aux problèmes spécifiques des algorithmes RLVR existants. La conception de la méthode est rationnelle, la vérification expérimentale est suffisante, et elle atteint une amélioration significative dans les tâches de raisonnement mathématique. La contribution principale réside dans la découverte du point d'équilibre optimal pour le calcul du ratio d'importance et l'atténuation du problème d'effondrement d'entropie par écrêtage adaptatif. Bien qu'il y ait de la place pour l'amélioration en profondeur théorique et en largeur d'application, il a une valeur importante pour faire progresser la pratique de l'entraînement RL des LLMs.