2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.
As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
academic

SSPO : Optimisation de Politique au Niveau des Sous-phrases

Informations Fondamentales

  • ID de l'article : 2511.04256
  • Titre : SSPO: Subsentence-level Policy Optimization
  • Auteurs : Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
  • Classification : cs.CL (Linguistique Informatique)
  • Date de publication : 6 novembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2511.04256

Résumé

Cet article propose la méthode SSPO (Optimisation de Politique au Niveau des Sous-phrases) pour les algorithmes d'apprentissage par renforcement dans l'entraînement post-formation des grands modèles de langage (LLMs). Les algorithmes RLVR (Apprentissage par Renforcement avec Récompenses Vérifiables) existants tels que GRPO et GSPO présentent respectivement des problèmes d'instabilité d'entraînement et de faible utilisation des échantillons. GRPO utilise des ratios d'importance au niveau des tokens, ce qui le rend sensible aux valeurs aberrantes causant l'effondrement de l'entraînement ; GSPO utilise des ratios d'importance au niveau des réponses, ce qui résout le problème de variance élevée mais entraîne le rejet de réponses entières par le mécanisme d'écrêtage. SSPO atteint un équilibre entre GRPO et GSPO en introduisant des ratios d'importance au niveau des phrases. De plus, SSPO propose un mécanisme d'écrêtage d'entropie adaptatif qui ajuste dynamiquement les limites d'écrêtage, encourageant l'exploration des tokens à haute entropie et limitant la plage de mise à jour des tokens à faible entropie. Les résultats expérimentaux montrent que SSPO atteint un score moyen de 46,57 sur cinq ensembles de données de raisonnement mathématique, surpassant GRPO (43,01) et GSPO (44,42), atteignant les performances optimales sur trois ensembles de données.

Contexte et Motivation de la Recherche

1. Problème de Recherche

Le problème fondamental abordé dans cet article est : comment maintenir la stabilité d'entraînement tout en améliorant l'utilisation des échantillons dans l'apprentissage par renforcement des grands modèles de langage, tout en évitant le phénomène d'effondrement d'entropie.

2. Importance du Problème

  • Besoin d'amélioration des capacités de raisonnement : Avec l'application des LLMs aux tâches de raisonnement complexe en mathématiques et programmation, une optimisation post-formation efficace par apprentissage par renforcement est nécessaire
  • Efficacité d'entraînement et stabilité : L'entraînement RL à grande échelle nécessite d'équilibrer l'efficacité informatique et la stabilité d'entraînement, en évitant l'effondrement du modèle
  • Utilisation des échantillons : Avec des ressources informatiques limitées, il est crucial de maximiser l'utilisation des données d'échantillons générées

3. Limitations des Méthodes Existantes

Problèmes de GRPO :

  • Utilise le calcul du ratio d'importance au niveau des tokens : wi,t(θ)=πθ(yi,tx,yi,<t)πθold(yi,tx,yi,<t)w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}
  • Les poids de gradient de chaque token diffèrent, entraînant une variance élevée du gradient de politique
  • Sensible aux tokens aberrants ; à mesure que la longueur de la réponse augmente, le bruit d'entraînement s'accumule, finissant par causer l'effondrement du modèle

Problèmes de GSPO :

  • Utilise le ratio d'importance au niveau des réponses : si(θ)=(πθ(yix)πθold(yix))1yis_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}
  • Tous les tokens de la réponse partagent le même ratio d'importance
  • Lorsque quelques tokens ont des poids d'importance extrêmes, cela affecte la moyenne globale, entraînant le rejet de la réponse entière par le mécanisme PPO-CLIP
  • Réduction de l'utilisation des échantillons, causant un gaspillage de données

4. Motivation de la Recherche

Les auteurs considèrent qu'il est nécessaire de trouver un point d'équilibre entre le niveau des tokens et celui des réponses, maintenant les avantages de stabilité d'entraînement de GSPO tout en améliorant l'utilisation des échantillons, et en atténuant le problème d'effondrement d'entropie par ajustement dynamique du mécanisme d'écrêtage.

Contributions Fondamentales

  1. Proposition de ratios d'importance au niveau des sous-phrases : En divisant la réponse en plusieurs segments sémantiques (délimités par des sauts de ligne ou des sauts de ligne doubles), le calcul des ratios d'importance au niveau des phrases atteint un équilibre entre le niveau des tokens de GRPO et celui des réponses de GSPO
  2. Conception d'un mécanisme d'écrêtage d'entropie adaptatif : Ajuste dynamiquement les limites d'écrêtage PPO-CLIP en fonction de la valeur d'entropie des sous-phrases, élargissant la plage d'écrêtage pour les tokens à haute entropie afin d'encourager l'exploration, et rétrécissant la plage pour les tokens à faible entropie afin de limiter la mise à jour
  3. Vérification expérimentale : Sur les modèles Qwen2.5-Math-1.5B et 7B, utilisant 5 tests de référence en raisonnement mathématique, SSPO surpasse les méthodes de base telles que GRPO, GSPO, Dr.GRPO et GMPO
  4. Analyse théorique : Fournit une dérivation détaillée des objectifs de gradient, prouvant que les poids de gradient de SSPO restent cohérents au sein des segments, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une requête xx et une réponse yy, l'objectif est d'optimiser la politique πθπ_θ par apprentissage par renforcement pour obtenir une récompense vérifiable plus élevée r(x,y)r(x, y). Pour chaque requête, GG échantillons de réponse sont générés, et la mise à jour de la politique est effectuée par estimation d'avantage relative intra-groupe.

Architecture du Modèle

1. Ratio d'Importance au Niveau des Sous-phrases

Division de la réponse :

  • Divise la réponse yiy_i par des sauts de ligne ou des sauts de ligne doubles en Nseg(yi)N_{seg}(y_i) segments sémantiques
  • Le jj-ème segment est noté yi,jy_{i,j}, avec une longueur de yi,j|y_{i,j}|

Calcul du ratio d'importance : si,j(θ)=(πθ(yi,jx)πθold(yi,jx))1yi,j=exp(1yi,jt=1yi,jlogπθ(yi,j,tx,yi,j,<t)πθold(yi,j,tx,yi,j,<t))s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)

Estimation d'avantage (niveau réponse) : A^i=r(x,yi)mean({r(x,yi)}i=1G)std({r(x,yi)}i=1G)\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}

Objectif d'optimisation (sans écrêtage) : JSSPO(θ)=ExD,{yi}i=1Gπθold(x)[1Gi=1G1yij=1Nseg(yi)yi,jsi,j(θ)A^i]J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]

2. Analyse du Gradient

L'objectif de gradient de SSPO est : θJSSPO(θ)=E[1Gi=1G1yij=1Nseg(yi)yi,j(πθ(yi,jx)πθold(yi,jx))1yi,jA^i1yi,jt=1yi,jθlogπθ(yi,j,tx,yi,j,<t)]\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]

Caractéristiques clés : Tous les tokens au sein d'un même segment ont le même poids de gradient, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique.

3. Mécanisme d'Écrêtage d'Entropie Adaptatif

Calcul d'entropie au niveau des tokens : Ht=vVπθold(vx,o<t)logπθold(vx,o<t)H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})

Entropie au niveau des segments : Hi,j=1yi,jt=1yi,jHtH_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t

Limites d'écrêtage dynamiques :

  • Limite supérieure : ϵhigh=1+α+Hi,jϵ_{high} = 1 + α + H_{i,j} (α est un hyperparamètre)
  • Limite inférieure :
undefined