As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
academic
SSPO : Optimisation de Politique au Niveau des Sous-phrases
Cet article propose la méthode SSPO (Optimisation de Politique au Niveau des Sous-phrases) pour les algorithmes d'apprentissage par renforcement dans l'entraînement post-formation des grands modèles de langage (LLMs). Les algorithmes RLVR (Apprentissage par Renforcement avec Récompenses Vérifiables) existants tels que GRPO et GSPO présentent respectivement des problèmes d'instabilité d'entraînement et de faible utilisation des échantillons. GRPO utilise des ratios d'importance au niveau des tokens, ce qui le rend sensible aux valeurs aberrantes causant l'effondrement de l'entraînement ; GSPO utilise des ratios d'importance au niveau des réponses, ce qui résout le problème de variance élevée mais entraîne le rejet de réponses entières par le mécanisme d'écrêtage. SSPO atteint un équilibre entre GRPO et GSPO en introduisant des ratios d'importance au niveau des phrases. De plus, SSPO propose un mécanisme d'écrêtage d'entropie adaptatif qui ajuste dynamiquement les limites d'écrêtage, encourageant l'exploration des tokens à haute entropie et limitant la plage de mise à jour des tokens à faible entropie. Les résultats expérimentaux montrent que SSPO atteint un score moyen de 46,57 sur cinq ensembles de données de raisonnement mathématique, surpassant GRPO (43,01) et GSPO (44,42), atteignant les performances optimales sur trois ensembles de données.
Le problème fondamental abordé dans cet article est : comment maintenir la stabilité d'entraînement tout en améliorant l'utilisation des échantillons dans l'apprentissage par renforcement des grands modèles de langage, tout en évitant le phénomène d'effondrement d'entropie.
Besoin d'amélioration des capacités de raisonnement : Avec l'application des LLMs aux tâches de raisonnement complexe en mathématiques et programmation, une optimisation post-formation efficace par apprentissage par renforcement est nécessaire
Efficacité d'entraînement et stabilité : L'entraînement RL à grande échelle nécessite d'équilibrer l'efficacité informatique et la stabilité d'entraînement, en évitant l'effondrement du modèle
Utilisation des échantillons : Avec des ressources informatiques limitées, il est crucial de maximiser l'utilisation des données d'échantillons générées
Utilise le calcul du ratio d'importance au niveau des tokens : wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
Les poids de gradient de chaque token diffèrent, entraînant une variance élevée du gradient de politique
Sensible aux tokens aberrants ; à mesure que la longueur de la réponse augmente, le bruit d'entraînement s'accumule, finissant par causer l'effondrement du modèle
Problèmes de GSPO :
Utilise le ratio d'importance au niveau des réponses : si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
Tous les tokens de la réponse partagent le même ratio d'importance
Lorsque quelques tokens ont des poids d'importance extrêmes, cela affecte la moyenne globale, entraînant le rejet de la réponse entière par le mécanisme PPO-CLIP
Réduction de l'utilisation des échantillons, causant un gaspillage de données
Les auteurs considèrent qu'il est nécessaire de trouver un point d'équilibre entre le niveau des tokens et celui des réponses, maintenant les avantages de stabilité d'entraînement de GSPO tout en améliorant l'utilisation des échantillons, et en atténuant le problème d'effondrement d'entropie par ajustement dynamique du mécanisme d'écrêtage.
Proposition de ratios d'importance au niveau des sous-phrases : En divisant la réponse en plusieurs segments sémantiques (délimités par des sauts de ligne ou des sauts de ligne doubles), le calcul des ratios d'importance au niveau des phrases atteint un équilibre entre le niveau des tokens de GRPO et celui des réponses de GSPO
Conception d'un mécanisme d'écrêtage d'entropie adaptatif : Ajuste dynamiquement les limites d'écrêtage PPO-CLIP en fonction de la valeur d'entropie des sous-phrases, élargissant la plage d'écrêtage pour les tokens à haute entropie afin d'encourager l'exploration, et rétrécissant la plage pour les tokens à faible entropie afin de limiter la mise à jour
Vérification expérimentale : Sur les modèles Qwen2.5-Math-1.5B et 7B, utilisant 5 tests de référence en raisonnement mathématique, SSPO surpasse les méthodes de base telles que GRPO, GSPO, Dr.GRPO et GMPO
Analyse théorique : Fournit une dérivation détaillée des objectifs de gradient, prouvant que les poids de gradient de SSPO restent cohérents au sein des segments, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique
Étant donné une requête x et une réponse y, l'objectif est d'optimiser la politique πθ par apprentissage par renforcement pour obtenir une récompense vérifiable plus élevée r(x,y). Pour chaque requête, G échantillons de réponse sont générés, et la mise à jour de la politique est effectuée par estimation d'avantage relative intra-groupe.
Divise la réponse yi par des sauts de ligne ou des sauts de ligne doubles en Nseg(yi) segments sémantiques
Le j-ème segment est noté yi,j, avec une longueur de ∣yi,j∣
Calcul du ratio d'importance :
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
L'objectif de gradient de SSPO est :
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
Caractéristiques clés : Tous les tokens au sein d'un même segment ont le même poids de gradient, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique.
Scénario haute entropie (Hi,j>1) : Le modèle est incertain sur ces tokens, élargir la plage d'écrêtage pour encourager l'exploration
Scénario entropie moyenne (0.5≤Hi,j≤1) : Ajustement linéaire de la plage d'écrêtage
Scénario basse entropie (Hi,j<0.5) : Le modèle a bien appris ces tokens, rétrécir la plage d'écrêtage pour limiter la mise à jour et prévenir le surapprentissage
Les travaux concurrents LPO proposent également l'échantillonnage d'importance au niveau des phrases, mais présentent deux différences clés :
Normalisation d'estimation d'avantage : LPO normalise au niveau des tokens (affecté par la longueur de réponse), SSPO normalise au niveau des réponses (indépendant de la longueur de réponse)
Comparaison de SSPO (w/o entropy clip) avec GRPO et GSPO :
Modèle 1.5B : 45.72 vs GRPO 43.01 (+2.71) vs GSPO 44.42 (+1.30)
Modèle 7B : 53.99 vs GRPO 53.15 (+0.84) vs GSPO 53.75 (+0.24)
Conclusion : Le ratio d'importance au niveau des sous-phrases apporte une amélioration significative en lui-même, prouvant l'importance du choix de granularité.
Comparaison de SSPO avec SSPO (w/o entropy clip) :
Modèle 1.5B : 46.57 vs 45.72 (+0.85)
Modèle 7B : 54.85 vs 53.99 (+0.86)
Conclusion : L'écrêtage d'entropie adaptatif apporte une amélioration cohérente d'environ 0.85 sur les deux échelles de modèles, prouvant son efficacité.
La Figure 1 montre l'évolution de l'entropie d'entraînement pour SSPO, SSPO (w/o entropy clip), GSPO et GRPO :
Observations :
GRPO et GSPO : L'entropie diminue rapidement, indiquant une convergence prématurée du modèle avec risque d'effondrement d'entropie
SSPO (w/o entropy clip) : La vitesse de diminution d'entropie est légèrement plus lente que GRPO et GSPO
SSPO : L'entropie reste au niveau le plus élevé avec la diminution la plus lente, montrant que l'écrêtage d'entropie adaptatif atténue efficacement l'effondrement d'entropie
Signification : Une entropie plus élevée signifie que le modèle maintient sa capacité d'exploration et ne tombe pas prématurément dans un optimum local, ce qui explique le mécanisme d'amélioration des performances de SSPO.
Importance du choix de granularité : Sélectionner une granularité appropriée (niveau des sous-phrases) entre le niveau des tokens et celui des réponses est crucial pour les performances
Nécessité de la gestion d'entropie : L'ajustement dynamique des limites d'écrêtage peut efficacement prévenir l'effondrement d'entropie et maintenir la stabilité d'entraînement
Amélioration de l'utilisation des échantillons : Le ratio d'importance au niveau des sous-phrases réduit le taux d'écrêtage et améliore l'efficacité d'utilisation des échantillons
Impact de l'échelle du modèle : Sur les modèles plus grands (7B), l'écart de performance des méthodes de base se réduit, mais SSPO maintient toujours son avantage
Efficacité de SSPO : Par le ratio d'importance au niveau des sous-phrases et l'écrêtage d'entropie adaptatif, SSPO surpasse significativement les méthodes existantes dans les tâches de raisonnement mathématique
Équilibre de granularité : Le niveau des sous-phrases est le point d'équilibre optimal entre le niveau des tokens et celui des réponses, garantissant à la fois la stabilité d'entraînement et l'amélioration de l'utilisation des échantillons
Gestion d'entropie : Le mécanisme d'écrêtage d'entropie adaptatif atténue efficacement l'effondrement d'entropie et maintient la capacité d'exploration du modèle
Extensibilité : SSPO montre d'excellentes performances sur différentes échelles de modèles (1.5B et 7B)
Dépendance à la segmentation sémantique : La segmentation actuelle utilise les sauts de ligne comme critères, ce qui peut ne pas convenir à tous les types de tâches (comme la génération de code sans structure de phrase claire)
Sensibilité aux hyperparamètres : L'écrêtage d'entropie adaptatif introduit des hyperparamètres supplémentaires (comme α et les seuils d'entropie) nécessitant un ajustement pour différentes tâches
Portée d'évaluation limitée : Les expériences se concentrent principalement sur les tâches de raisonnement mathématique, l'efficacité sur d'autres domaines (dialogue, génération de code) est inconnue
Surcharge informatique : Nécessite le calcul de la valeur d'entropie pour chaque segment, augmentant certains coûts informatiques
Analyse théorique insuffisante : Manque de preuve théorique sur pourquoi le niveau des sous-phrases est la granularité optimale
Extension à d'autres domaines : Application de SSPO aux tâches de programmation, raisonnement sémantique, etc.
Segmentation adaptative : Recherche de méthodes de segmentation dynamique basées sur la sémantique, plutôt que de dépendre simplement des sauts de ligne
Analyse théorique : Fournir des garanties théoriques concernant le choix de granularité et l'écrêtage d'entropie
Vérification à plus grande échelle : Vérifier l'efficacité de SSPO sur des modèles à plus grande échelle (comme 100B+ paramètres)
Innovation fondamentale claire : Le ratio d'importance au niveau des sous-phrases est une extension naturelle de GRPO et GSPO, mais n'a pas été systématiquement étudié auparavant
Écrêtage d'entropie adaptatif novateur : Utiliser l'entropie comme base pour ajuster dynamiquement les limites d'écrêtage, avec une conception rationnelle et intuitive
Support théorique suffisant : Fournit une dérivation complète des gradients, expliquant pourquoi le niveau des sous-phrases peut réduire la variance
Vérification multi-modèles : Vérification sur deux échelles (1.5B et 7B)
Comparaison multi-baselines : Comparaison avec GRPO, GSPO, Dr.GRPO, GMPO et autres méthodes
Études d'ablation complètes : Vérification séparée des contributions du ratio d'importance au niveau des sous-phrases et de l'écrêtage d'entropie adaptatif
Analyse d'entropie intuitive : La visualisation des courbes d'entropie démontre efficacement l'efficacité de la méthode
Stratégie de segmentation simple : Utilise uniquement les sauts de ligne pour la segmentation, peut ne pas convenir aux tâches sans structure de phrase claire (comme le code)
Introduction d'hyperparamètres : L'écrêtage d'entropie adaptatif introduit des hyperparamètres supplémentaires (α et seuils d'entropie) nécessitant un ajustement
Manque de justification théorique : Pourquoi le niveau des sous-phrases est optimal manque de preuve théorique, reposant principalement sur l'observation empirique
Domaine unique : Vérification uniquement sur les tâches de raisonnement mathématique, manque d'expériences sur d'autres domaines (dialogue, code, traduction)
Échelle de modèle limitée : Vérification maximale jusqu'à 7B, pas de test sur des modèles à plus grande échelle (70B+)
Manque de test de signification statistique : Pas de fourniture d'intervalles de confiance ou d'écarts-types de plusieurs exécutions
Coût informatique non rapporté : Pas d'analyse du surcoût informatique de SSPO par rapport aux méthodes de base
Facile à implémenter : La méthode est simple, ne nécessitant pas de composants de modèle supplémentaires
Plug-and-play : Peut remplacer les GRPO/GSPO existants
Amélioration de performance significative : L'amélioration de 2-3 points de pourcentage est très précieuse pour les tâches de raisonnement mathématique
Tâches de raisonnement mathématique : Scénario principal de vérification, meilleur effet
Tâches de génération structurée : Tâches où les réponses ont une structure de phrase claire (questions-réponses, génération de chaînes de raisonnement)
Génération de texte long : Avantage plus évident du niveau des sous-phrases quand la longueur de réponse est plus longue
Scénarios nécessitant une stabilité d'entraînement : Applications avec exigences élevées de stabilité d'entraînement
Shao et al. (2024) - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (Article original GRPO)
Zhao et al. (2025) - Geometric-mean policy optimization (Article GSPO)
Schulman et al. (2017) - Proximal policy optimization algorithms (Article original PPO-CLIP)
Li et al. (2025) - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (Travail concurrent LPO)
Hendrycks et al. (2021) - Measuring mathematical problem solving with the MATH dataset
Résumé : SSPO est un article de recherche appliquée solide qui propose une solution efficace aux problèmes spécifiques des algorithmes RLVR existants. La conception de la méthode est rationnelle, la vérification expérimentale est suffisante, et elle atteint une amélioration significative dans les tâches de raisonnement mathématique. La contribution principale réside dans la découverte du point d'équilibre optimal pour le calcul du ratio d'importance et l'atténuation du problème d'effondrement d'entropie par écrêtage adaptatif. Bien qu'il y ait de la place pour l'amélioration en profondeur théorique et en largeur d'application, il a une valeur importante pour faire progresser la pratique de l'entraînement RL des LLMs.