2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.
As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
academic

SSPO : Optimisation de Politique au Niveau des Sous-phrases

Informations Fondamentales

  • ID de l'article : 2511.04256
  • Titre : SSPO: Subsentence-level Policy Optimization
  • Auteurs : Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
  • Classification : cs.CL (Linguistique Informatique)
  • Date de publication : 6 novembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2511.04256

Résumé

Cet article propose la méthode SSPO (Optimisation de Politique au Niveau des Sous-phrases) pour les algorithmes d'apprentissage par renforcement dans l'entraînement post-formation des grands modèles de langage (LLMs). Les algorithmes RLVR (Apprentissage par Renforcement avec Récompenses Vérifiables) existants tels que GRPO et GSPO présentent respectivement des problèmes d'instabilité d'entraînement et de faible utilisation des échantillons. GRPO utilise des ratios d'importance au niveau des tokens, ce qui le rend sensible aux valeurs aberrantes causant l'effondrement de l'entraînement ; GSPO utilise des ratios d'importance au niveau des réponses, ce qui résout le problème de variance élevée mais entraîne le rejet de réponses entières par le mécanisme d'écrêtage. SSPO atteint un équilibre entre GRPO et GSPO en introduisant des ratios d'importance au niveau des phrases. De plus, SSPO propose un mécanisme d'écrêtage d'entropie adaptatif qui ajuste dynamiquement les limites d'écrêtage, encourageant l'exploration des tokens à haute entropie et limitant la plage de mise à jour des tokens à faible entropie. Les résultats expérimentaux montrent que SSPO atteint un score moyen de 46,57 sur cinq ensembles de données de raisonnement mathématique, surpassant GRPO (43,01) et GSPO (44,42), atteignant les performances optimales sur trois ensembles de données.

Contexte et Motivation de la Recherche

1. Problème de Recherche

Le problème fondamental abordé dans cet article est : comment maintenir la stabilité d'entraînement tout en améliorant l'utilisation des échantillons dans l'apprentissage par renforcement des grands modèles de langage, tout en évitant le phénomène d'effondrement d'entropie.

2. Importance du Problème

  • Besoin d'amélioration des capacités de raisonnement : Avec l'application des LLMs aux tâches de raisonnement complexe en mathématiques et programmation, une optimisation post-formation efficace par apprentissage par renforcement est nécessaire
  • Efficacité d'entraînement et stabilité : L'entraînement RL à grande échelle nécessite d'équilibrer l'efficacité informatique et la stabilité d'entraînement, en évitant l'effondrement du modèle
  • Utilisation des échantillons : Avec des ressources informatiques limitées, il est crucial de maximiser l'utilisation des données d'échantillons générées

3. Limitations des Méthodes Existantes

Problèmes de GRPO :

  • Utilise le calcul du ratio d'importance au niveau des tokens : wi,t(θ)=πθ(yi,tx,yi,<t)πθold(yi,tx,yi,<t)w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}
  • Les poids de gradient de chaque token diffèrent, entraînant une variance élevée du gradient de politique
  • Sensible aux tokens aberrants ; à mesure que la longueur de la réponse augmente, le bruit d'entraînement s'accumule, finissant par causer l'effondrement du modèle

Problèmes de GSPO :

  • Utilise le ratio d'importance au niveau des réponses : si(θ)=(πθ(yix)πθold(yix))1yis_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}
  • Tous les tokens de la réponse partagent le même ratio d'importance
  • Lorsque quelques tokens ont des poids d'importance extrêmes, cela affecte la moyenne globale, entraînant le rejet de la réponse entière par le mécanisme PPO-CLIP
  • Réduction de l'utilisation des échantillons, causant un gaspillage de données

4. Motivation de la Recherche

Les auteurs considèrent qu'il est nécessaire de trouver un point d'équilibre entre le niveau des tokens et celui des réponses, maintenant les avantages de stabilité d'entraînement de GSPO tout en améliorant l'utilisation des échantillons, et en atténuant le problème d'effondrement d'entropie par ajustement dynamique du mécanisme d'écrêtage.

Contributions Fondamentales

  1. Proposition de ratios d'importance au niveau des sous-phrases : En divisant la réponse en plusieurs segments sémantiques (délimités par des sauts de ligne ou des sauts de ligne doubles), le calcul des ratios d'importance au niveau des phrases atteint un équilibre entre le niveau des tokens de GRPO et celui des réponses de GSPO
  2. Conception d'un mécanisme d'écrêtage d'entropie adaptatif : Ajuste dynamiquement les limites d'écrêtage PPO-CLIP en fonction de la valeur d'entropie des sous-phrases, élargissant la plage d'écrêtage pour les tokens à haute entropie afin d'encourager l'exploration, et rétrécissant la plage pour les tokens à faible entropie afin de limiter la mise à jour
  3. Vérification expérimentale : Sur les modèles Qwen2.5-Math-1.5B et 7B, utilisant 5 tests de référence en raisonnement mathématique, SSPO surpasse les méthodes de base telles que GRPO, GSPO, Dr.GRPO et GMPO
  4. Analyse théorique : Fournit une dérivation détaillée des objectifs de gradient, prouvant que les poids de gradient de SSPO restent cohérents au sein des segments, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une requête xx et une réponse yy, l'objectif est d'optimiser la politique πθπ_θ par apprentissage par renforcement pour obtenir une récompense vérifiable plus élevée r(x,y)r(x, y). Pour chaque requête, GG échantillons de réponse sont générés, et la mise à jour de la politique est effectuée par estimation d'avantage relative intra-groupe.

Architecture du Modèle

1. Ratio d'Importance au Niveau des Sous-phrases

Division de la réponse :

  • Divise la réponse yiy_i par des sauts de ligne ou des sauts de ligne doubles en Nseg(yi)N_{seg}(y_i) segments sémantiques
  • Le jj-ème segment est noté yi,jy_{i,j}, avec une longueur de yi,j|y_{i,j}|

Calcul du ratio d'importance : si,j(θ)=(πθ(yi,jx)πθold(yi,jx))1yi,j=exp(1yi,jt=1yi,jlogπθ(yi,j,tx,yi,j,<t)πθold(yi,j,tx,yi,j,<t))s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)

Estimation d'avantage (niveau réponse) : A^i=r(x,yi)mean({r(x,yi)}i=1G)std({r(x,yi)}i=1G)\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}

Objectif d'optimisation (sans écrêtage) : JSSPO(θ)=ExD,{yi}i=1Gπθold(x)[1Gi=1G1yij=1Nseg(yi)yi,jsi,j(θ)A^i]J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]

2. Analyse du Gradient

L'objectif de gradient de SSPO est : θJSSPO(θ)=E[1Gi=1G1yij=1Nseg(yi)yi,j(πθ(yi,jx)πθold(yi,jx))1yi,jA^i1yi,jt=1yi,jθlogπθ(yi,j,tx,yi,j,<t)]\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]

Caractéristiques clés : Tous les tokens au sein d'un même segment ont le même poids de gradient, éliminant les interférences de bruit entre les tokens et réduisant la variance du gradient de politique.

3. Mécanisme d'Écrêtage d'Entropie Adaptatif

Calcul d'entropie au niveau des tokens : Ht=vVπθold(vx,o<t)logπθold(vx,o<t)H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})

Entropie au niveau des segments : Hi,j=1yi,jt=1yi,jHtH_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t

Limites d'écrêtage dynamiques :

  • Limite supérieure : ϵhigh=1+α+Hi,jϵ_{high} = 1 + α + H_{i,j} (α est un hyperparamètre)
  • Limite inférieure : ϵlow={0.3,Hi,j>11.3Hi,j,0.5Hi,j10.8,Hi,j<0.5ϵ_{low} = \begin{cases} 0.3, & H_{i,j} > 1 \\ 1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\ 0.8, & H_{i,j} < 0.5 \end{cases}

Objectif d'optimisation final : JSSPO(θ)=E[1Gi=1G1yij=1Nseg(yi)yi,jmin(si,j(θ)A^i,clip(si,j(θ),ϵlow,ϵhigh)A^i)]J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]

Points d'Innovation Technique

1. Conception d'Équilibre de Granularité

  • Niveau des tokens (GRPO) : Granularité trop fine, variance élevée
  • Niveau des réponses (GSPO) : Granularité trop grossière, faible utilisation des échantillons
  • Niveau des sous-phrases (SSPO) : Équilibre optimal entre stabilité et utilisation des échantillons

2. Rationalité de l'Écrêtage Adaptatif

  • Scénario haute entropie (Hi,j>1H_{i,j} > 1) : Le modèle est incertain sur ces tokens, élargir la plage d'écrêtage pour encourager l'exploration
  • Scénario entropie moyenne (0.5Hi,j10.5 \leq H_{i,j} \leq 1) : Ajustement linéaire de la plage d'écrêtage
  • Scénario basse entropie (Hi,j<0.5H_{i,j} < 0.5) : Le modèle a bien appris ces tokens, rétrécir la plage d'écrêtage pour limiter la mise à jour et prévenir le surapprentissage

3. Différences avec LPO

Les travaux concurrents LPO proposent également l'échantillonnage d'importance au niveau des phrases, mais présentent deux différences clés :

  • Normalisation d'estimation d'avantage : LPO normalise au niveau des tokens (affecté par la longueur de réponse), SSPO normalise au niveau des réponses (indépendant de la longueur de réponse)
  • Mécanisme d'écrêtage : LPO utilise PPO-CLIP fixe, SSPO utilise l'écrêtage d'entropie adaptatif

Configuration Expérimentale

Ensembles de Données

Données d'entraînement :

  • MATH Level 3-5 : Contient 8523 problèmes mathématiques
  • 8 rollouts échantillonnés par problème
  • Limite de longueur de réponse : 3000 tokens
  • Taille de batch : 128

Ensembles de données d'évaluation (5 tests de référence en raisonnement mathématique) :

  1. MATH-500 : 500 problèmes de l'ensemble de données MATH, couvrant l'algèbre, la géométrie, la théorie des nombres, etc.
  2. AMC23 : 83 questions à choix multiples de difficulté moyenne
  3. AIME24 : 30 problèmes de l'Examen d'Invitation Mathématique Américain 2024 au niveau olympique
  4. Minerva : 272 problèmes de raisonnement multi-étapes au niveau des études supérieures
  5. Olympiad Bench : 675 problèmes olympiques de haute difficulté

Métriques d'Évaluation

  • Précision du Décodage Glouton (Avg@1) : Évalue les performances du modèle avec décodage glouton
  • Score Moyen : Précision moyenne sur les cinq ensembles de données

Méthodes de Comparaison

  1. GRPO : Méthode de base avec ratio d'importance au niveau des tokens
  2. GSPO : Méthode avec ratio d'importance au niveau des réponses
  3. Dr.GRPO : Version améliorée de GRPO
  4. GMPO : Optimisation de politique de moyenne géométrique
  5. SSPO (w/o entropy clip) : Version d'ablation utilisant uniquement le ratio d'importance au niveau des sous-phrases, sans écrêtage d'entropie adaptatif

Détails d'Implémentation

  • Modèles : Qwen2.5-Math-1.5B et Qwen2.5-Math-7B
  • Framework : Framework d'apprentissage par renforcement veRL
  • Template : Utilise le template Qwen-Math pour l'entraînement et l'évaluation
  • Stratégie d'évaluation : Évalue tous les 10 pas sur 5 ensembles de données, sélectionne le meilleur score comme résultat final

Résultats Expérimentaux

Résultats Principaux

Modèle Qwen2.5-Math-1.5B

MéthodeAIME24AMC23MATHMIN.OLY.Moy
GRPO16.6754.272.632.3539.6743.01
GSPO20.051.4974.634.5641.1644.42
Dr.GRPO20.053.074.225.737.642.1
GMPO20.053.077.630.138.743.9
SSPO (w/o entropy clip)23.356.6374.232.7239.5245.72
SSPO23.357.8375.435.2941.0146.57

Modèle Qwen2.5-Math-7B

MéthodeAIME24AMC23MATHMIN.OLY.Moy
GRPO33.367.4779.040.0745.9153.15
GSPO33.365.0680.842.2847.153.75
Dr.GRPO43.362.780.030.141.051.4
GMPO43.361.482.033.543.652.7
SSPO (w/o entropy clip)33.365.0681.642.2847.753.99
SSPO36.6766.2781.842.2847.2554.85

Découvertes clés :

  1. Performance globale : SSPO atteint le score moyen le plus élevé sur les deux échelles de modèles
    • Modèle 1.5B : 46.57 vs GRPO 43.01 (+3.56) vs GSPO 44.42 (+2.15)
    • Modèle 7B : 54.85 vs GRPO 53.15 (+1.70) vs GSPO 53.75 (+1.10)
  2. Extensibilité d'échelle : SSPO maintient son avantage sur les modèles plus grands, bien que l'ampleur de l'amélioration soit légèrement réduite
  3. Performance SOTA : Atteint les performances optimales sur trois ensembles de données (AIME24, AMC23 et Minerva) pour le modèle 1.5B

Études d'Ablation

Contribution du Ratio d'Importance au Niveau des Sous-phrases

Comparaison de SSPO (w/o entropy clip) avec GRPO et GSPO :

  • Modèle 1.5B : 45.72 vs GRPO 43.01 (+2.71) vs GSPO 44.42 (+1.30)
  • Modèle 7B : 53.99 vs GRPO 53.15 (+0.84) vs GSPO 53.75 (+0.24)

Conclusion : Le ratio d'importance au niveau des sous-phrases apporte une amélioration significative en lui-même, prouvant l'importance du choix de granularité.

Contribution de l'Écrêtage d'Entropie Adaptatif

Comparaison de SSPO avec SSPO (w/o entropy clip) :

  • Modèle 1.5B : 46.57 vs 45.72 (+0.85)
  • Modèle 7B : 54.85 vs 53.99 (+0.86)

Conclusion : L'écrêtage d'entropie adaptatif apporte une amélioration cohérente d'environ 0.85 sur les deux échelles de modèles, prouvant son efficacité.

Analyse d'Entropie

La Figure 1 montre l'évolution de l'entropie d'entraînement pour SSPO, SSPO (w/o entropy clip), GSPO et GRPO :

Observations :

  1. GRPO et GSPO : L'entropie diminue rapidement, indiquant une convergence prématurée du modèle avec risque d'effondrement d'entropie
  2. SSPO (w/o entropy clip) : La vitesse de diminution d'entropie est légèrement plus lente que GRPO et GSPO
  3. SSPO : L'entropie reste au niveau le plus élevé avec la diminution la plus lente, montrant que l'écrêtage d'entropie adaptatif atténue efficacement l'effondrement d'entropie

Signification : Une entropie plus élevée signifie que le modèle maintient sa capacité d'exploration et ne tombe pas prématurément dans un optimum local, ce qui explique le mécanisme d'amélioration des performances de SSPO.

Découvertes Expérimentales

  1. Importance du choix de granularité : Sélectionner une granularité appropriée (niveau des sous-phrases) entre le niveau des tokens et celui des réponses est crucial pour les performances
  2. Nécessité de la gestion d'entropie : L'ajustement dynamique des limites d'écrêtage peut efficacement prévenir l'effondrement d'entropie et maintenir la stabilité d'entraînement
  3. Amélioration de l'utilisation des échantillons : Le ratio d'importance au niveau des sous-phrases réduit le taux d'écrêtage et améliore l'efficacité d'utilisation des échantillons
  4. Impact de l'échelle du modèle : Sur les modèles plus grands (7B), l'écart de performance des méthodes de base se réduit, mais SSPO maintient toujours son avantage

Travaux Connexes

1. Algorithme d'Apprentissage par Renforcement GRPO

  • Application réussie de DeepSeek-R1 : GRPO a réalisé un saut qualitatif dans les tâches de raisonnement
  • Problème fondamental : Le ratio d'importance au niveau des tokens entraîne une variance élevée et une instabilité d'entraînement
  • Amélioration de cet article : Introduction du ratio d'importance au niveau des sous-phrases et de l'écrêtage dynamique

2. Calcul du Ratio d'Importance

  • GRPO : Niveau des tokens, wi,t(θ)w_{i,t}(θ), problème de variance élevée
  • GSPO : Niveau des réponses, si(θ)s_i(θ), problème de faible utilisation des échantillons
  • LPO (travail concurrent) : Granularité des phrases, mais utilise la normalisation au niveau des tokens et l'écrêtage fixe
  • SSPO : Niveau des sous-phrases, normalisation au niveau des réponses + écrêtage d'entropie adaptatif

3. Mécanisme d'Écrêtage

  • PPO-CLIP : Plage d'écrêtage fixe standard
  • CISPO : Gradient d'écrêtage doux
  • DCPO : Écrêtage dynamique basé sur la probabilité des tokens
  • SSPO : Écrêtage adaptatif basé sur l'entropie, résolvant spécifiquement le problème d'effondrement d'entropie

4. Avantages de cet Article

  • Complétude théorique : Fournit une dérivation détaillée des gradients et une analyse théorique
  • Nouveauté de la méthode : Première combinaison du ratio d'importance au niveau des sous-phrases et de l'écrêtage d'entropie adaptatif
  • Suffisance expérimentale : Vérification de l'efficacité sur plusieurs échelles de modèles et ensembles de données

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de SSPO : Par le ratio d'importance au niveau des sous-phrases et l'écrêtage d'entropie adaptatif, SSPO surpasse significativement les méthodes existantes dans les tâches de raisonnement mathématique
  2. Équilibre de granularité : Le niveau des sous-phrases est le point d'équilibre optimal entre le niveau des tokens et celui des réponses, garantissant à la fois la stabilité d'entraînement et l'amélioration de l'utilisation des échantillons
  3. Gestion d'entropie : Le mécanisme d'écrêtage d'entropie adaptatif atténue efficacement l'effondrement d'entropie et maintient la capacité d'exploration du modèle
  4. Extensibilité : SSPO montre d'excellentes performances sur différentes échelles de modèles (1.5B et 7B)

Limitations

  1. Dépendance à la segmentation sémantique : La segmentation actuelle utilise les sauts de ligne comme critères, ce qui peut ne pas convenir à tous les types de tâches (comme la génération de code sans structure de phrase claire)
  2. Sensibilité aux hyperparamètres : L'écrêtage d'entropie adaptatif introduit des hyperparamètres supplémentaires (comme α et les seuils d'entropie) nécessitant un ajustement pour différentes tâches
  3. Portée d'évaluation limitée : Les expériences se concentrent principalement sur les tâches de raisonnement mathématique, l'efficacité sur d'autres domaines (dialogue, génération de code) est inconnue
  4. Surcharge informatique : Nécessite le calcul de la valeur d'entropie pour chaque segment, augmentant certains coûts informatiques
  5. Analyse théorique insuffisante : Manque de preuve théorique sur pourquoi le niveau des sous-phrases est la granularité optimale

Directions Futures

  1. Extension à d'autres domaines : Application de SSPO aux tâches de programmation, raisonnement sémantique, etc.
  2. Segmentation adaptative : Recherche de méthodes de segmentation dynamique basées sur la sémantique, plutôt que de dépendre simplement des sauts de ligne
  3. Analyse théorique : Fournir des garanties théoriques concernant le choix de granularité et l'écrêtage d'entropie
  4. Vérification à plus grande échelle : Vérifier l'efficacité de SSPO sur des modèles à plus grande échelle (comme 100B+ paramètres)

Évaluation Approfondie

Avantages

1. Innovativité de la Méthode (★★★★☆)

  • Innovation fondamentale claire : Le ratio d'importance au niveau des sous-phrases est une extension naturelle de GRPO et GSPO, mais n'a pas été systématiquement étudié auparavant
  • Écrêtage d'entropie adaptatif novateur : Utiliser l'entropie comme base pour ajuster dynamiquement les limites d'écrêtage, avec une conception rationnelle et intuitive
  • Support théorique suffisant : Fournit une dérivation complète des gradients, expliquant pourquoi le niveau des sous-phrases peut réduire la variance

2. Suffisance Expérimentale (★★★★☆)

  • Vérification multi-modèles : Vérification sur deux échelles (1.5B et 7B)
  • Comparaison multi-baselines : Comparaison avec GRPO, GSPO, Dr.GRPO, GMPO et autres méthodes
  • Études d'ablation complètes : Vérification séparée des contributions du ratio d'importance au niveau des sous-phrases et de l'écrêtage d'entropie adaptatif
  • Analyse d'entropie intuitive : La visualisation des courbes d'entropie démontre efficacement l'efficacité de la méthode

3. Pouvoir Convaincant des Résultats (★★★★☆)

  • Amélioration cohérente : Amélioration sur tous les ensembles de données d'évaluation
  • Signification statistique : L'ampleur de l'amélioration moyenne atteint 2-3 points de pourcentage, ayant une valeur pratique
  • Performance SOTA : Atteint les performances optimales sur plusieurs ensembles de données

4. Clarté de la Rédaction (★★★★☆)

  • Structure claire : Flux logique fluide de la définition du problème à la conception de la méthode à la vérification expérimentale
  • Expression mathématique précise : Dérivation détaillée des formules, définition claire des symboles
  • Support efficace des graphiques : Les tableaux et la Figure 1 soutiennent efficacement les arguments

Insuffisances

1. Limitations de la Méthode (★★★☆☆)

  • Stratégie de segmentation simple : Utilise uniquement les sauts de ligne pour la segmentation, peut ne pas convenir aux tâches sans structure de phrase claire (comme le code)
  • Introduction d'hyperparamètres : L'écrêtage d'entropie adaptatif introduit des hyperparamètres supplémentaires (α et seuils d'entropie) nécessitant un ajustement
  • Manque de justification théorique : Pourquoi le niveau des sous-phrases est optimal manque de preuve théorique, reposant principalement sur l'observation empirique

2. Défauts de Configuration Expérimentale (★★★☆☆)

  • Domaine unique : Vérification uniquement sur les tâches de raisonnement mathématique, manque d'expériences sur d'autres domaines (dialogue, code, traduction)
  • Échelle de modèle limitée : Vérification maximale jusqu'à 7B, pas de test sur des modèles à plus grande échelle (70B+)
  • Manque de test de signification statistique : Pas de fourniture d'intervalles de confiance ou d'écarts-types de plusieurs exécutions
  • Coût informatique non rapporté : Pas d'analyse du surcoût informatique de SSPO par rapport aux méthodes de base

3. Analyse Insuffisante (★★★☆☆)

  • Analyse du taux d'écrêtage manquante : Bien que mentionnant la réduction du taux d'écrêtage, pas de données concrètes fournies
  • Analyse de cas manquante : Pas de présentation d'exemples de génération spécifiques, impossible de comprendre intuitivement le comportement de SSPO
  • Analyse des cas d'échec : Pas de discussion sur les situations où SSPO fonctionne mal
  • Comparaison insuffisante avec LPO : Bien que LPO soit mentionné, pas de comparaison expérimentale directe

4. Reproductibilité (★★★☆☆)

  • Code non open-source : L'article ne fournit pas de lien vers le code
  • Détails d'hyperparamètres incomplets : La valeur spécifique de α n'est pas clairement indiquée
  • Justification du choix des seuils d'entropie : Pourquoi les seuils 0.5, 1.0 etc. sont choisis n'est pas suffisamment expliqué

Évaluation de l'Impact

1. Contribution au Domaine (★★★★☆)

  • Contribution méthodologique : Fournit une nouvelle perspective sur le choix de granularité pour les algorithmes RLVR
  • Valeur pratique élevée : Peut être directement appliqué aux flux d'entraînement RL existants
  • Force inspiratrice : L'idée d'écrêtage d'entropie adaptatif peut être généralisée à d'autres algorithmes RL

2. Valeur Pratique (★★★★☆)

  • Facile à implémenter : La méthode est simple, ne nécessitant pas de composants de modèle supplémentaires
  • Plug-and-play : Peut remplacer les GRPO/GSPO existants
  • Amélioration de performance significative : L'amélioration de 2-3 points de pourcentage est très précieuse pour les tâches de raisonnement mathématique

3. Impact Potentiel (★★★★☆)

  • Perspectives d'application industrielle : Provenant de Ping An Technology, peut être appliqué dans les produits réels
  • Direction de recherche future : Peut inspirer plus de recherches sur le choix de granularité et l'écrêtage adaptatif
  • Limitation : Le domaine unique peut limiter la portée de l'impact

Scénarios Applicables

Scénarios Appropriés :

  1. Tâches de raisonnement mathématique : Scénario principal de vérification, meilleur effet
  2. Tâches de génération structurée : Tâches où les réponses ont une structure de phrase claire (questions-réponses, génération de chaînes de raisonnement)
  3. Génération de texte long : Avantage plus évident du niveau des sous-phrases quand la longueur de réponse est plus longue
  4. Scénarios nécessitant une stabilité d'entraînement : Applications avec exigences élevées de stabilité d'entraînement

Scénarios Moins Appropriés :

  1. Génération de code : Le code peut ne pas avoir de structure de phrase claire, la segmentation par sauts de ligne n'est pas appropriée
  2. Génération de texte court : Quand la réponse est très courte, la différence entre le niveau des sous-phrases et celui des réponses est mineure
  3. Applications en temps réel : Nécessite le calcul de la valeur d'entropie, augmentant la surcharge d'inférence
  4. Tâches non-anglaises : La stratégie de segmentation des phrases peut nécessiter un ajustement pour différentes langues

Score Composite : ★★★★☆ (4.2/5)

Indice de Recommandation : Fortement recommandé aux chercheurs et ingénieurs travaillant sur l'entraînement RL des LLMs

Lecteurs Appropriés :

  • Chercheurs travaillant sur les algorithmes RL
  • Ingénieurs développant des systèmes d'entraînement LLM
  • Chercheurs intéressés par l'amélioration des capacités de raisonnement mathématique

Références (Références Clés)

  1. Shao et al. (2024) - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (Article original GRPO)
  2. Zhao et al. (2025) - Geometric-mean policy optimization (Article GSPO)
  3. Schulman et al. (2017) - Proximal policy optimization algorithms (Article original PPO-CLIP)
  4. Li et al. (2025) - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (Travail concurrent LPO)
  5. Hendrycks et al. (2021) - Measuring mathematical problem solving with the MATH dataset

Résumé : SSPO est un article de recherche appliquée solide qui propose une solution efficace aux problèmes spécifiques des algorithmes RLVR existants. La conception de la méthode est rationnelle, la vérification expérimentale est suffisante, et elle atteint une amélioration significative dans les tâches de raisonnement mathématique. La contribution principale réside dans la découverte du point d'équilibre optimal pour le calcul du ratio d'importance et l'atténuation du problème d'effondrement d'entropie par écrêtage adaptatif. Bien qu'il y ait de la place pour l'amélioration en profondeur théorique et en largeur d'application, il a une valeur importante pour faire progresser la pratique de l'entraînement RL des LLMs.