2025-11-20T12:43:15.388727

SSPO: Subsentence-level Policy Optimization

Yang, chen, Wang et al.

As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.

academic

SSPO: সাব-সেন্টেন্স-লেভেল পলিসি অপটিমাইজেশন

মৌলিক তথ্য

পেপার আইডি: 2511.04256
শিরোনাম: SSPO: Subsentence-level Policy Optimization
লেখক: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
প্রকাশনার সময়: ২০২৫ সালের নভেম্বর ৬ (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2511.04256

সারসংক্ষেপ

এই পেপারটি বৃহৎ ভাষা মডেল (LLMs) এর পোস্ট-ট্রেনিং-এ শক্তিশালী শিক্ষার অ্যালগরিদমের জন্য SSPO (সাব-সেন্টেন্স-লেভেল পলিসি অপটিমাইজেশন) পদ্ধতি প্রস্তাব করে। বিদ্যমান RLVR (যাচাইযোগ্য পুরস্কার শক্তিশালী শিক্ষা) অ্যালগরিদম যেমন GRPO এবং GSPO যথাক্রমে প্রশিক্ষণ অস্থিরতা এবং নমুনা ব্যবহারের হার কম থাকার সমস্যা রয়েছে। GRPO টোকেন-স্তরের গুরুত্ব অনুপাত ব্যবহার করে, যা বিপর্যয়ের প্রতি সংবেদনশীল এবং প্রশিক্ষণ ব্যর্থতার দিকে পরিচালিত করে; GSPO প্রতিক্রিয়া-স্তরের গুরুত্ব অনুপাত ব্যবহার করে, যা উচ্চ বৈচিত্র্যের সমস্যা সমাধান করে কিন্তু সম্পূর্ণ প্রতিক্রিয়া ক্লিপিং মেকানিজম দ্বারা বাতিল হওয়ার দিকে পরিচালিত করে। SSPO সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত প্রবর্তন করে GRPO এবং GSPO এর মধ্যে ভারসাম্য অর্জন করে। অতিরিক্তভাবে, SSPO একটি অভিযোজনশীল এন্ট্রপি ক্লিপিং মেকানিজম প্রস্তাব করে যা ক্লিপিং সীমানা গতিশীলভাবে সামঞ্জস্য করে, উচ্চ-এন্ট্রপি টোকেন অন্বেষণকে উৎসাহিত করে এবং নিম্ন-এন্ট্রপি টোকেনের আপডেট পরিসীমা সীমাবদ্ধ করে। পরীক্ষার ফলাফল দেখায় যে SSPO পাঁচটি গাণিতিক যুক্তি ডেটাসেটে গড় স্কোর ৪৬.৫৭ অর্জন করে, যা GRPO (৪৩.০১) এবং GSPO (৪৪.৪২) কে অতিক্রম করে এবং তিনটি ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

১. গবেষণা সমস্যা

এই পেপারটি যে মূল সমস্যা সমাধান করতে চায় তা হল: বৃহৎ ভাষা মডেলের শক্তিশালী শিক্ষা প্রশিক্ষণে কীভাবে প্রশিক্ষণ স্থিতিশীলতা বজায় রেখে নমুনা ব্যবহারের হার বৃদ্ধি করা যায় এবং একই সাথে এন্ট্রপি ধসের ঘটনা এড়ানো যায়।

২. সমস্যার গুরুত্ব

যুক্তিযুক্ত ক্ষমতা উন্নয়নের প্রয়োজনীয়তা: গণিত, প্রোগ্রামিং এবং অন্যান্য জটিল যুক্তিযুক্ত কাজে LLMs এর প্রয়োগের সাথে, শক্তিশালী শিক্ষার মাধ্যমে কার্যকর পোস্ট-ট্রেনিং অপটিমাইজেশনের প্রয়োজন
প্রশিক্ষণ দক্ষতা এবং স্থিতিশীলতা: বৃহৎ-স্কেল RL প্রশিক্ষণের জন্য গণনা দক্ষতা এবং প্রশিক্ষণ স্থিতিশীলতার মধ্যে ভারসাম্য প্রয়োজন, মডেল ব্যর্থতা এড়াতে
নমুনা ব্যবহারের হার: সীমিত গণনা সম্পদের অধীনে, উৎপন্ন নমুনা ডেটা সর্বাধিক করা অত্যন্ত গুরুত্বপূর্ণ

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

GRPO এর সমস্যা:

টোকেন-স্তরের গুরুত্ব অনুপাত ব্যবহার করে: $w_{i,t}(θ) = \frac{π_θ(y_{i,t}|x, y_{i,<t})}{π_{θ_{old}}(y_{i,t}|x, y_{i,<t})}$
প্রতিটি টোকেনের গ্রেডিয়েন্ট ওজন ভিন্ন, যা নীতি গ্রেডিয়েন্ট উচ্চ বৈচিত্র্যের দিকে পরিচালিত করে
অস্বাভাবিক টোকেনের প্রতি সংবেদনশীল, প্রতিক্রিয়া দৈর্ঘ্যের সাথে বৃদ্ধি পায় প্রশিক্ষণ শব্দ জমা হয়, চূড়ান্তভাবে মডেল প্রশিক্ষণ ব্যর্থতার দিকে পরিচালিত করে

GSPO এর সমস্যা:

প্রতিক্রিয়া-স্তরের গুরুত্ব অনুপাত ব্যবহার করে: $s_i(θ) = (\frac{π_θ(y_i|x)}{π_{θ_{old}}(y_i|x)})^{\frac{1}{|y_i|}}$
সম্পূর্ণ প্রতিক্রিয়ার সমস্ত টোকেন একটি একক গুরুত্ব অনুপাত ভাগ করে
যখন কয়েকটি টোকেনের চরম গুরুত্ব ওজন থাকে, এটি সামগ্রিক গড়কে প্রভাবিত করে, সম্পূর্ণ প্রতিক্রিয়া PPO-CLIP মেকানিজম দ্বারা বাতিল হওয়ার দিকে পরিচালিত করে
নমুনা ব্যবহারের হার হ্রাস পায়, ডেটা অপচয় সৃষ্টি করে

৪. গবেষণা প্রেরণা

লেখক বিশ্বাস করেন যে টোকেন-স্তর এবং প্রতিক্রিয়া-স্তরের মধ্যে একটি ভারসাম্য বিন্দু খুঁজে পাওয়া প্রয়োজন, যা GSPO এর প্রশিক্ষণ স্থিতিশীলতার সুবিধা বজায় রাখে এবং নমুনা ব্যবহারের হার বৃদ্ধি করে, একই সাথে গতিশীল ক্লিপিং মেকানিজম সমন্বয়ের মাধ্যমে এন্ট্রপি ধসের সমস্যা প্রশমিত করে।

মূল অবদান

১. সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত প্রস্তাব: প্রতিক্রিয়াকে একাধিক শব্দার্থিক খণ্ডে বিভক্ত করে (লাইন ব্রেক বা দ্বিগুণ লাইন ব্রেক দ্বারা সীমাবদ্ধ), সাব-সেন্টেন্স স্তরে গুরুত্ব অনুপাত গণনা করে, GRPO এর টোকেন-স্তর এবং GSPO এর প্রতিক্রিয়া-স্তরের মধ্যে ভারসাম্য অর্জন করে

२. অভিযোজনশীল এন্ট্রপি ক্লিপিং মেকানিজম ডিজাইন: সাব-সেন্টেন্সের এন্ট্রপি মূল্যের উপর ভিত্তি করে PPO-CLIP এর ক্লিপিং সীমানা গতিশীলভাবে সামঞ্জস্য করে, উচ্চ-এন্ট্রপি টোকেনের জন্য ক্লিপিং পরিসীমা প্রসারিত করে অন্বেষণকে উৎসাহিত করে, নিম্ন-এন্ট্রপি টোকেনের জন্য ক্লিপিং পরিসীমা সংকুচিত করে আপডেট সীমাবদ্ধ করে

३. পরীক্ষামূলক যাচাইকরণ: Qwen2.5-Math-1.5B এবং 7B মডেলে, ৫টি গাণিতিক যুক্তি বেঞ্চমার্ক ব্যবহার করে, SSPO গড় কর্মক্ষমতা GRPO, GSPO, Dr.GRPO এবং GMPO এর মতো বেসলাইন পদ্ধতিগুলিকে অতিক্রম করে

४. তাত্ত্বিক বিশ্লেষণ: বিস্তারিত গ্রেডিয়েন্ট উদ্দেশ্য ডেরিভেশন প্রদান করে, প্রমাণ করে যে SSPO এর গ্রেডিয়েন্ট ওজন খণ্ডের মধ্যে সামঞ্জস্যপূর্ণ, টোকেনের মধ্যে শব্দ হস্তক্ষেপ দূর করে, নীতি গ্রেডিয়েন্ট বৈচিত্র্য হ্রাস করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রশ্ন $x$ এবং প্রতিক্রিয়া $y$ দেওয়া, লক্ষ্য হল নীতি $π_θ$ অপটিমাইজ করা শক্তিশালী শিক্ষার মাধ্যমে যাতে এটি গাণিতিক যুক্তি কাজে উচ্চতর যাচাইযোগ্য পুরস্কার $r(x, y)$ অর্জন করে। প্রতিটি প্রশ্নের জন্য, $G$ টি প্রতিক্রিয়া নমুনা উৎপন্ন করা হয়, গ্রুপ-মধ্যস্থ আপেক্ষিক সুবিধা অনুমান ব্যবহার করে নীতি আপডেট করা হয়।

মডেল আর্কিটেকচার

১. সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত

প্রতিক্রিয়া বিভাজন:

প্রতিক্রিয়া $y_i$ কে লাইন ব্রেক বা দ্বিগুণ লাইন ব্রেক দ্বারা $N_{seg}(y_i)$ টি শব্দার্থিক খণ্ডে বিভক্ত করা হয়
$j$ তম খণ্ড $y_{i,j}$ হিসাবে চিহ্নিত, দৈর্ঘ্য $|y_{i,j}|$

গুরুত্ব অনুপাত গণনা: $s_{i,j}(θ) = \left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}} = \exp\left(\frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\log\frac{π_θ(y_{i,j,t}|x, y_{i,j,<t})}{π_{θ_{old}}(y_{i,j,t}|x, y_{i,j,<t})}\right)$

সুবিধা অনুমান (প্রতিক্রিয়া-স্তর): $\hat{A}_i = \frac{r(x, y_i) - \text{mean}(\{r(x, y_i)\}_{i=1}^G)}{\text{std}(\{r(x, y_i)\}_{i=1}^G)}$

অপটিমাইজেশন উদ্দেশ্য (ক্লিপিং ছাড়া): $J_{SSPO}(θ) = \mathbb{E}_{x\sim D, \{y_i\}_{i=1}^G\sim π_{θ_{old}}(·|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|s_{i,j}(θ)\hat{A}_i\right]$

२. গ্রেডিয়েন্ট বিশ্লেষণ

SSPO এর গ্রেডিয়েন্ট উদ্দেশ্য: $\nabla_θJ_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\left(\frac{π_θ(y_{i,j}|x)}{π_{θ_{old}}(y_{i,j}|x)}\right)^{\frac{1}{|y_{i,j}|}}\hat{A}_i \cdot \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}\nabla_θ\log π_θ(y_{i,j,t}|x, y_{i,j,<t})\right]$

মূল বৈশিষ্ট্য: একই খণ্ডের মধ্যে সমস্ত টোকেনের গ্রেডিয়েন্ট ওজন অভিন্ন, টোকেনের মধ্যে শব্দ হস্তক্ষেপ দূর করে, নীতি গ্রেডিয়েন্ট বৈচিত্র্য হ্রাস করে।

३. অভিযোজনশীল এন্ট্রপি ক্লিপিং মেকানিজম

টোকেন-স্তরের এন্ট্রপি গণনা: $H_t = -\sum_{v\in V}π_{θ_{old}}(v|x, o_{<t})\log π_{θ_{old}}(v|x, o_{<t})$

খণ্ড-স্তরের এন্ট্রপি: $H_{i,j} = \frac{1}{|y_{i,j}|}\sum_{t=1}^{|y_{i,j}|}H_t$

গতিশীল ক্লিপিং সীমানা:

উপরের সীমা: $ϵ_{high} = 1 + α + H_{i,j}$ (α হল হাইপারপ্যারামিটার)
নিম্ন সীমা: