As a significant part of post-training of the Large Language Models (LLMs), Reinforcement Learning from Verifiable Reward (RLVR) has greatly improved LLMs' reasoning skills. However, some RLVR algorithms, such as GRPO (Group Relative Policy Optimization) and GSPO (Group Sequence Policy Optimization), are observed to suffer from unstable policy updates and low usage of sampling data, respectively. The importance ratio of GRPO is calculated at the token level, which focuses more on optimizing a single token. This will be easily affected by outliers, leading to model training collapse. GSPO proposed the calculation of the response level importance ratio, which solves the problem of high variance and training noise accumulation in the calculation of the GRPO importance ratio. However, since all the response tokens share a common importance ratio, extreme values can easily raise or lower the overall mean, leading to the entire response being mistakenly discarded, resulting in a decrease in the utilization of sampled data. This paper introduces SSPO, which applies sentence-level importance ratio, taking the balance between GRPO and GSPO. SSPO not only avoids training collapse and high variance, but also prevents the whole response tokens from being abandoned by the clipping mechanism. Furthermore, we apply sentence entropy to PPO-CLIP to steadily adjust the clipping bounds, encouraging high-entropy tokens to explore and narrow the clipping range of low-entropy tokens. In particular, SSPO achieves an average score of 46.57 across five datasets, surpassing GRPO (43.01) and GSPO (44.42), and wins state-of-the-art performance on three datasets. These results highlight SSPO's effectiveness in leveraging generated data by taking the essence of GSPO but rejecting its shortcomings.
- পেপার আইডি: 2511.04256
- শিরোনাম: SSPO: Subsentence-level Policy Optimization
- লেখক: Kun Yang, Zikang chen, Yanmeng Wang, Zhigen Li (Ping An Technology)
- শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
- প্রকাশনার সময়: ২০২৫ সালের নভেম্বর ৬ (arXiv প্রি-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2511.04256
এই পেপারটি বৃহৎ ভাষা মডেল (LLMs) এর পোস্ট-ট্রেনিং-এ শক্তিশালী শিক্ষার অ্যালগরিদমের জন্য SSPO (সাব-সেন্টেন্স-লেভেল পলিসি অপটিমাইজেশন) পদ্ধতি প্রস্তাব করে। বিদ্যমান RLVR (যাচাইযোগ্য পুরস্কার শক্তিশালী শিক্ষা) অ্যালগরিদম যেমন GRPO এবং GSPO যথাক্রমে প্রশিক্ষণ অস্থিরতা এবং নমুনা ব্যবহারের হার কম থাকার সমস্যা রয়েছে। GRPO টোকেন-স্তরের গুরুত্ব অনুপাত ব্যবহার করে, যা বিপর্যয়ের প্রতি সংবেদনশীল এবং প্রশিক্ষণ ব্যর্থতার দিকে পরিচালিত করে; GSPO প্রতিক্রিয়া-স্তরের গুরুত্ব অনুপাত ব্যবহার করে, যা উচ্চ বৈচিত্র্যের সমস্যা সমাধান করে কিন্তু সম্পূর্ণ প্রতিক্রিয়া ক্লিপিং মেকানিজম দ্বারা বাতিল হওয়ার দিকে পরিচালিত করে। SSPO সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত প্রবর্তন করে GRPO এবং GSPO এর মধ্যে ভারসাম্য অর্জন করে। অতিরিক্তভাবে, SSPO একটি অভিযোজনশীল এন্ট্রপি ক্লিপিং মেকানিজম প্রস্তাব করে যা ক্লিপিং সীমানা গতিশীলভাবে সামঞ্জস্য করে, উচ্চ-এন্ট্রপি টোকেন অন্বেষণকে উৎসাহিত করে এবং নিম্ন-এন্ট্রপি টোকেনের আপডেট পরিসীমা সীমাবদ্ধ করে। পরীক্ষার ফলাফল দেখায় যে SSPO পাঁচটি গাণিতিক যুক্তি ডেটাসেটে গড় স্কোর ৪৬.৫৭ অর্জন করে, যা GRPO (৪৩.০১) এবং GSPO (৪৪.৪২) কে অতিক্রম করে এবং তিনটি ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করে।
এই পেপারটি যে মূল সমস্যা সমাধান করতে চায় তা হল: বৃহৎ ভাষা মডেলের শক্তিশালী শিক্ষা প্রশিক্ষণে কীভাবে প্রশিক্ষণ স্থিতিশীলতা বজায় রেখে নমুনা ব্যবহারের হার বৃদ্ধি করা যায় এবং একই সাথে এন্ট্রপি ধসের ঘটনা এড়ানো যায়।
- যুক্তিযুক্ত ক্ষমতা উন্নয়নের প্রয়োজনীয়তা: গণিত, প্রোগ্রামিং এবং অন্যান্য জটিল যুক্তিযুক্ত কাজে LLMs এর প্রয়োগের সাথে, শক্তিশালী শিক্ষার মাধ্যমে কার্যকর পোস্ট-ট্রেনিং অপটিমাইজেশনের প্রয়োজন
- প্রশিক্ষণ দক্ষতা এবং স্থিতিশীলতা: বৃহৎ-স্কেল RL প্রশিক্ষণের জন্য গণনা দক্ষতা এবং প্রশিক্ষণ স্থিতিশীলতার মধ্যে ভারসাম্য প্রয়োজন, মডেল ব্যর্থতা এড়াতে
- নমুনা ব্যবহারের হার: সীমিত গণনা সম্পদের অধীনে, উৎপন্ন নমুনা ডেটা সর্বাধিক করা অত্যন্ত গুরুত্বপূর্ণ
GRPO এর সমস্যা:
- টোকেন-স্তরের গুরুত্ব অনুপাত ব্যবহার করে: wi,t(θ)=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
- প্রতিটি টোকেনের গ্রেডিয়েন্ট ওজন ভিন্ন, যা নীতি গ্রেডিয়েন্ট উচ্চ বৈচিত্র্যের দিকে পরিচালিত করে
- অস্বাভাবিক টোকেনের প্রতি সংবেদনশীল, প্রতিক্রিয়া দৈর্ঘ্যের সাথে বৃদ্ধি পায় প্রশিক্ষণ শব্দ জমা হয়, চূড়ান্তভাবে মডেল প্রশিক্ষণ ব্যর্থতার দিকে পরিচালিত করে
GSPO এর সমস্যা:
- প্রতিক্রিয়া-স্তরের গুরুত্ব অনুপাত ব্যবহার করে: si(θ)=(πθold(yi∣x)πθ(yi∣x))∣yi∣1
- সম্পূর্ণ প্রতিক্রিয়ার সমস্ত টোকেন একটি একক গুরুত্ব অনুপাত ভাগ করে
- যখন কয়েকটি টোকেনের চরম গুরুত্ব ওজন থাকে, এটি সামগ্রিক গড়কে প্রভাবিত করে, সম্পূর্ণ প্রতিক্রিয়া PPO-CLIP মেকানিজম দ্বারা বাতিল হওয়ার দিকে পরিচালিত করে
- নমুনা ব্যবহারের হার হ্রাস পায়, ডেটা অপচয় সৃষ্টি করে
লেখক বিশ্বাস করেন যে টোকেন-স্তর এবং প্রতিক্রিয়া-স্তরের মধ্যে একটি ভারসাম্য বিন্দু খুঁজে পাওয়া প্রয়োজন, যা GSPO এর প্রশিক্ষণ স্থিতিশীলতার সুবিধা বজায় রাখে এবং নমুনা ব্যবহারের হার বৃদ্ধি করে, একই সাথে গতিশীল ক্লিপিং মেকানিজম সমন্বয়ের মাধ্যমে এন্ট্রপি ধসের সমস্যা প্রশমিত করে।
১. সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত প্রস্তাব: প্রতিক্রিয়াকে একাধিক শব্দার্থিক খণ্ডে বিভক্ত করে (লাইন ব্রেক বা দ্বিগুণ লাইন ব্রেক দ্বারা সীমাবদ্ধ), সাব-সেন্টেন্স স্তরে গুরুত্ব অনুপাত গণনা করে, GRPO এর টোকেন-স্তর এবং GSPO এর প্রতিক্রিয়া-স্তরের মধ্যে ভারসাম্য অর্জন করে
२. অভিযোজনশীল এন্ট্রপি ক্লিপিং মেকানিজম ডিজাইন: সাব-সেন্টেন্সের এন্ট্রপি মূল্যের উপর ভিত্তি করে PPO-CLIP এর ক্লিপিং সীমানা গতিশীলভাবে সামঞ্জস্য করে, উচ্চ-এন্ট্রপি টোকেনের জন্য ক্লিপিং পরিসীমা প্রসারিত করে অন্বেষণকে উৎসাহিত করে, নিম্ন-এন্ট্রপি টোকেনের জন্য ক্লিপিং পরিসীমা সংকুচিত করে আপডেট সীমাবদ্ধ করে
३. পরীক্ষামূলক যাচাইকরণ: Qwen2.5-Math-1.5B এবং 7B মডেলে, ৫টি গাণিতিক যুক্তি বেঞ্চমার্ক ব্যবহার করে, SSPO গড় কর্মক্ষমতা GRPO, GSPO, Dr.GRPO এবং GMPO এর মতো বেসলাইন পদ্ধতিগুলিকে অতিক্রম করে
४. তাত্ত্বিক বিশ্লেষণ: বিস্তারিত গ্রেডিয়েন্ট উদ্দেশ্য ডেরিভেশন প্রদান করে, প্রমাণ করে যে SSPO এর গ্রেডিয়েন্ট ওজন খণ্ডের মধ্যে সামঞ্জস্যপূর্ণ, টোকেনের মধ্যে শব্দ হস্তক্ষেপ দূর করে, নীতি গ্রেডিয়েন্ট বৈচিত্র্য হ্রাস করে
প্রশ্ন x এবং প্রতিক্রিয়া y দেওয়া, লক্ষ্য হল নীতি πθ অপটিমাইজ করা শক্তিশালী শিক্ষার মাধ্যমে যাতে এটি গাণিতিক যুক্তি কাজে উচ্চতর যাচাইযোগ্য পুরস্কার r(x,y) অর্জন করে। প্রতিটি প্রশ্নের জন্য, G টি প্রতিক্রিয়া নমুনা উৎপন্ন করা হয়, গ্রুপ-মধ্যস্থ আপেক্ষিক সুবিধা অনুমান ব্যবহার করে নীতি আপডেট করা হয়।
প্রতিক্রিয়া বিভাজন:
- প্রতিক্রিয়া yi কে লাইন ব্রেক বা দ্বিগুণ লাইন ব্রেক দ্বারা Nseg(yi) টি শব্দার্থিক খণ্ডে বিভক্ত করা হয়
- j তম খণ্ড yi,j হিসাবে চিহ্নিত, দৈর্ঘ্য ∣yi,j∣
গুরুত্ব অনুপাত গণনা:
si,j(θ)=(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1=exp(∣yi,j∣1∑t=1∣yi,j∣logπθold(yi,j,t∣x,yi,j,<t)πθ(yi,j,t∣x,yi,j,<t))
সুবিধা অনুমান (প্রতিক্রিয়া-স্তর):
A^i=std({r(x,yi)}i=1G)r(x,yi)−mean({r(x,yi)}i=1G)
অপটিমাইজেশন উদ্দেশ্য (ক্লিপিং ছাড়া):
JSSPO(θ)=Ex∼D,{yi}i=1G∼πθold(⋅∣x)[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣si,j(θ)A^i]
SSPO এর গ্রেডিয়েন্ট উদ্দেশ্য:
∇θJSSPO(θ)=E[G1∑i=1G∣yi∣1∑j=1Nseg(yi)∣yi,j∣(πθold(yi,j∣x)πθ(yi,j∣x))∣yi,j∣1A^i⋅∣yi,j∣1∑t=1∣yi,j∣∇θlogπθ(yi,j,t∣x,yi,j,<t)]
মূল বৈশিষ্ট্য: একই খণ্ডের মধ্যে সমস্ত টোকেনের গ্রেডিয়েন্ট ওজন অভিন্ন, টোকেনের মধ্যে শব্দ হস্তক্ষেপ দূর করে, নীতি গ্রেডিয়েন্ট বৈচিত্র্য হ্রাস করে।
টোকেন-স্তরের এন্ট্রপি গণনা:
Ht=−∑v∈Vπθold(v∣x,o<t)logπθold(v∣x,o<t)
খণ্ড-স্তরের এন্ট্রপি:
Hi,j=∣yi,j∣1∑t=1∣yi,j∣Ht
গতিশীল ক্লিপিং সীমানা:
- উপরের সীমা: ϵhigh=1+α+Hi,j (α হল হাইপারপ্যারামিটার)
- নিম্ন সীমা:
0.3, & H_{i,j} > 1 \\
1.3 - H_{i,j}, & 0.5 \leq H_{i,j} \leq 1 \\
0.8, & H_{i,j} < 0.5
\end{cases}$$
**চূড়ান্ত অপটিমাইজেশন উদ্দেশ্য**:
$$J_{SSPO}(θ) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{j=1}^{N_{seg}(y_i)}|y_{i,j}|\min(s_{i,j}(θ)\hat{A}_i, \text{clip}(s_{i,j}(θ), ϵ_{low}, ϵ_{high})\hat{A}_i)\right]$$
### প্রযুক্তিগত উদ্ভাবন পয়েন্ট
#### १. স্তরের ভারসাম্য ডিজাইন
- **টোকেন-স্তর (GRPO)**: অত্যধিক সূক্ষ্ম-দানাদার, উচ্চ বৈচিত্র্য
- **প্রতিক্রিয়া-স্তর (GSPO)**: অত্যধিক মোটা-দানাদার, নিম্ন নমুনা ব্যবহারের হার
- **সাব-সেন্টেন্স-স্তর (SSPO)**: স্থিতিশীলতা এবং নমুনা ব্যবহারের হারের মধ্যে সর্বোত্তম ভারসাম্য
#### २. অভিযোজনশীল ক্লিপিং এর যুক্তিসঙ্গততা
- **উচ্চ-এন্ট্রপি পরিস্থিতি** ($H_{i,j} > 1$): মডেল এই টোকেনগুলির বিষয়ে অনিশ্চিত, অন্বেষণকে উৎসাহিত করতে ক্লিপিং পরিসীমা প্রসারিত করা হয়
- **মধ্যম-এন্ট্রপি পরিস্থিতি** ($0.5 \leq H_{i,j} \leq 1$): রৈখিক ক্লিপিং পরিসীমা সমন্বয়
- **নিম্ন-এন্ট্রপি পরিস্থিতি** ($H_{i,j} < 0.5$): মডেল এই টোকেনগুলি ভালভাবে শিখেছে, ওভারফিটিং প্রতিরোধ করতে ক্লিপিং পরিসীমা সংকুচিত করা হয়, আপডেট সীমাবদ্ধ করা হয়
#### ३. LPO এর সাথে পার্থক্য
সমসাময়িক কাজ LPO ও সাব-সেন্টেন্স স্তরের গুরুত্ব নমুনা প্রস্তাব করে, কিন্তু দুটি মূল পার্থক্য রয়েছে:
- **সুবিধা অনুমান স্বাভাবিকীকরণ**: LPO টোকেন-স্তরে স্বাভাবিকীকরণ করে (প্রতিক্রিয়া দৈর্ঘ্য দ্বারা প্রভাবিত), SSPO প্রতিক্রিয়া-স্তরে স্বাভাবিকীকরণ করে (প্রতিক্রিয়া দৈর্ঘ্য থেকে স্বাধীন)
- **ক্লিপিং মেকানিজম**: LPO স্থির PPO-CLIP ব্যবহার করে, SSPO অভিযোজনশীল এন্ট্রপি ক্লিপিং ব্যবহার করে
## পরীক্ষামূলক সেটআপ
### ডেটাসেট
**প্রশিক্ষণ ডেটা**:
- **MATH Level 3-5**: ৮,৫२३টি গাণিতিক সমস্যা সমন্বিত
- প্রতিটি সমস্যার জন্য ৮টি রোলআউট নমুনা
- প্রতিক্রিয়া দৈর্ঘ্য সীমা ३,০००টি টোকেন
- ব্যাচ সাইজ १२८ এ সেট করা
**মূল্যায়ন ডেটাসেট** (৫টি গাণিতিক যুক্তি বেঞ্চমার্ক):
१. **MATH-५००**: MATH ডেটাসেট থেকে ५००টি সমস্যা, বীজগণিত, জ্যামিতি, সংখ্যা তত্ত্ব ইত্যাদি অন্তর্ভুক্ত
२. **AMC२३**: ८३টি মধ্যম কঠিনতার বহুনির্বাচনী প্রশ্ন
३. **AIME२४**: २०२४ সালের আমেরিকান গণিত আমন্ত্রণ পরীক্ষা থেকে ३०টি অলিম্পিক-স্তরের সমস্যা
४. **Minerva**: २७२টি স্নাতক-স্তরের বহু-পদক্ষেপ যুক্তি সমস্যা
५. **Olympiad Bench**: ६७५টি উচ্চ-কঠিনতার অলিম্পিক সমস্যা
### মূল্যায়ন মেট্রিক্স
- **লোভী ডিকোডিং নির্ভুলতা (Avg@१)**: লোভী ডিকোডিং ব্যবহার করে মডেল কর্মক্ষমতা মূল্যায়ন
- **গড় স্কোর**: পাঁচটি ডেটাসেটের গড় নির্ভুলতা
### তুলনা পদ্ধতি
१. **GRPO**: টোকেন-স্তরের গুরুত্ব অনুপাতের বেসলাইন পদ্ধতি
२. **GSPO**: প্রতিক্রিয়া-স্তরের গুরুত্ব অনুপাত পদ্ধতি
३. **Dr.GRPO**: GRPO এর উন্নত সংস্করণ
४. **GMPO**: জ্যামিতিক গড় নীতি অপটিমাইজেশন
५. **SSPO (w/o entropy clip)**: শুধুমাত্র সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত ব্যবহার করে, অভিযোজনশীল এন্ট্রপি ক্লিপিং ছাড়া বিলোপ সংস্করণ
### বাস্তবায়ন বিবরণ
- **মডেল**: Qwen2.5-Math-1.5B এবং Qwen2.5-Math-7B
- **ফ্রেমওয়ার্ক**: veRL শক্তিশালী শিক্ষা ফ্রেমওয়ার্ক
- **টেমপ্লেট**: প্রশিক্ষণ এবং মূল্যায়নের জন্য Qwen-Math টেমপ্লেট ব্যবহার
- **মূল্যায়ন কৌশল**: প্রতি ১০ ধাপে ৫টি ডেটাসেটে মূল্যায়ন, সর্বোচ্চ স্কোর চূড়ান্ত ফলাফল হিসাবে নির্বাচন
## পরীক্ষামূলক ফলাফল
### প্রধান ফলাফল
#### Qwen2.5-Math-1.5B মডেল
| পদ্ধতি | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|--------|--------|-------|------|------|------|-----|
| GRPO | 16.67 | 54.2 | 72.6 | 32.35 | 39.67 | 43.01 |
| GSPO | 20.0 | 51.49 | 74.6 | 34.56 | 41.16 | 44.42 |
| Dr.GRPO | 20.0 | 53.0 | 74.2 | 25.7 | 37.6 | 42.1 |
| GMPO | 20.0 | 53.0 | 77.6 | 30.1 | 38.7 | 43.9 |
| SSPO (w/o entropy clip) | 23.3 | 56.63 | 74.2 | 32.72 | 39.52 | 45.72 |
| **SSPO** | **23.3** | **57.83** | **75.4** | **35.29** | **41.01** | **46.57** |
#### Qwen2.5-Math-7B মডেল
| পদ্ধতি | AIME24 | AMC23 | MATH | MIN. | OLY. | Avg |
|--------|--------|-------|------|------|------|-----|
| GRPO | 33.3 | 67.47 | 79.0 | 40.07 | 45.91 | 53.15 |
| GSPO | 33.3 | 65.06 | 80.8 | 42.28 | 47.1 | 53.75 |
| Dr.GRPO | 43.3 | 62.7 | 80.0 | 30.1 | 41.0 | 51.4 |
| GMPO | 43.3 | 61.4 | 82.0 | 33.5 | 43.6 | 52.7 |
| SSPO (w/o entropy clip) | 33.3 | 65.06 | 81.6 | 42.28 | 47.7 | 53.99 |
| **SSPO** | **36.67** | **66.27** | **81.8** | **42.28** | **47.25** | **54.85** |
**মূল আবিষ্কার**:
१. **সামগ্রিক কর্মক্ষমতা**: SSPO উভয় মডেল আকারে সর্বোচ্চ গড় স্কোর অর্জন করে
- 1.5B মডেল: 46.57 বনাম GRPO 43.01 (+3.56) বনাম GSPO 44.42 (+2.15)
- 7B মডেল: 54.85 বনাম GRPO 53.15 (+1.70) বনাম GSPO 53.75 (+1.10)
२. **স্কেল সম্প্রসারণযোগ্যতা**: SSPO বৃহত্তর মডেলে সুবিধা বজায় রাখে, যদিও উন্নতির মাত্রা সামান্য হ্রাস পায়
३. **SOTA কর্মক্ষমতা**: 1.5B মডেলের AIME24, AMC23 এবং Minerva তিনটি ডেটাসেটে সর্বোত্তম অর্জন করে
### বিলোপ পরীক্ষা
#### সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাতের অবদান
SSPO (w/o entropy clip) এর সাথে GRPO এবং GSPO তুলনা:
- **1.5B মডেল**: 45.72 বনাম GRPO 43.01 (+2.71) বনাম GSPO 44.42 (+1.30)
- **7B মডেল**: 53.99 বনাম GRPO 53.15 (+0.84) বনাম GSPO 53.75 (+0.24)
**উপসংহার**: সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত নিজেই উল্লেখযোগ্য উন্নতি নিয়ে আসে, স্তরের পছন্দের গুরুত্ব প্রমাণ করে।
#### অভিযোজনশীল এন্ট্রপি ক্লিপিং এর অবদান
SSPO এর সাথে SSPO (w/o entropy clip) তুলনা:
- **1.5B মডেল**: 46.57 বনাম 45.72 (+0.85)
- **7B মডেল**: 54.85 বনাম 53.99 (+0.86)
**উপসংহার**: অভিযোজনশীল এন্ট্রপি ক্লিপিং উভয় মডেল আকারে প্রায় ০.८५ এর সামঞ্জস্যপূর্ণ উন্নতি নিয়ে আসে, এর কার্যকারিতা প্রমাণ করে।
### এন্ট্রপি বিশ্লেষণ
চিত্র १ SSPO, SSPO (w/o entropy clip), GSPO এবং GRPO এর প্রশিক্ষণ এন্ট্রপি পরিবর্তন প্রদর্শন করে:
**পর্যবেক্ষণ ফলাফল**:
१. **GRPO এবং GSPO**: এন্ট্রপি দ্রুত হ্রাস পায়, মডেল অকাল সংগ্রহ নির্দেশ করে, এন্ট্রপি ধস ঝুঁকি বিদ্যমান
२. **SSPO (w/o entropy clip)**: এন্ট্রপি হ্রাসের গতি GRPO এবং GSPO এর চেয়ে সামান্য ধীর
३. **SSPO**: এন্ট্রপি সর্বোচ্চ স্তর বজায় রাখে, সবচেয়ে ধীর হ্রাস, অভিযোজনশীল এন্ট্রপি ক্লিপিং কার্যকরভাবে এন্ট্রপি ধস প্রশমিত করে
**তাৎপর্য**: উচ্চতর এন্ট্রপি মডেল অন্বেষণ ক্ষমতা বজায় রাখে, স্থানীয় সর্বোত্তমে প্রাথমিক ফাঁসি এড়ায়, এটি SSPO কর্মক্ষমতা উন্নতির প্রক্রিয়া ব্যাখ্যা করে।
### পরীক্ষামূলক আবিষ্কার
१. **স্তরের পছন্দের গুরুত্ব**: টোকেন-স্তর এবং প্রতিক্রিয়া-স্তরের মধ্যে উপযুক্ত স্তর (সাব-সেন্টেন্স-স্তর) নির্বাচন কর্মক্ষমতার জন্য অত্যন্ত গুরুত্বপূর্ণ
२. **এন্ট্রপি ব্যবস্থাপনার প্রয়োজনীয়তা**: ক্লিপিং সীমানা গতিশীল সমন্বয় কার্যকরভাবে এন্ট্রপি ধস প্রতিরোধ করে, প্রশিক্ষণ স্থিতিশীলতা বজায় রাখে
३. **নমুনা ব্যবহারের হার উন্নতি**: সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত ক্লিপিং হার হ্রাস করে, নমুনা ব্যবহার দক্ষতা বৃদ্ধি করে
४. **মডেল স্কেলের প্রভাব**: বৃহত্তর মডেলে (7B), বেসলাইন পদ্ধতির কর্মক্ষমতা ব্যবধান সংকুচিত হয়, কিন্তু SSPO নেতৃত্ব বজায় রাখে
## সম্পর্কিত কাজ
### १. GRPO শক্তিশালী শিক্ষা অ্যালগরিদম
- **DeepSeek-R1 এর সফল প্রয়োগ**: GRPO যুক্তি কাজে গুণগত লাফ অর্জন করে
- **মূল সমস্যা**: টোকেন-স্তরের গুরুত্ব অনুপাত উচ্চ বৈচিত্র্য এবং প্রশিক্ষণ অস্থিরতা সৃষ্টি করে
- **এই পেপারের উন্নতি**: সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত এবং গতিশীল ক্লিপিং প্রবর্তন
### २. গুরুত্ব অনুপাত গণনা
- **GRPO**: টোকেন-স্তর, $w_{i,t}(θ)$, উচ্চ বৈচিত্র্য সমস্যা
- **GSPO**: প্রতিক্রিয়া-স্তর, $s_i(θ)$, নিম্ন নমুনা ব্যবহারের হার সমস্যা
- **LPO** (সমসাময়িক কাজ): সাব-সেন্টেন্স স্তর, কিন্তু টোকেন-স্তরের স্বাভাবিকীকরণ এবং স্থির ক্লিপিং ব্যবহার করে
- **SSPO**: সাব-সেন্টেন্স-স্তর, প্রতিক্রিয়া-স্তরের স্বাভাবিকীকরণ + অভিযোজনশীল এন্ট্রপি ক্লিপিং
### ३. ক্লিপিং মেকানিজম
- **PPO-CLIP**: মান স্থির ক্লিপিং পরিসীমা
- **CISPO**: নরম ক্লিপিং গ্রেডিয়েন্ট
- **DCPO**: টোকেন সম্ভাবনার উপর ভিত্তি করে গতিশীল ক্লিপিং
- **SSPO**: এন্ট্রপির উপর ভিত্তি করে অভিযোজনশীল ক্লিপিং, এন্ট্রপি ধস সমস্যা লক্ষ্যবস্তু সমাধান
### ४. এই পেপারের সুবিধা
- **তাত্ত্বিক সম্পূর্ণতা**: বিস্তারিত গ্রেডিয়েন্ট ডেরিভেশন এবং তাত্ত্বিক বিশ্লেষণ প্রদান করে
- **পদ্ধতি নতুনত্ব**: প্রথমবারের মতো সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত এবং অভিযোজনশীল এন্ট্রপি ক্লিপিং সংমিশ্রণ করে
- **পরীক্ষামূলক পর্যাপ্ততা**: একাধিক মডেল আকার এবং ডেটাসেটে কার্যকারিতা যাচাই করে
## উপসংহার এবং আলোচনা
### প্রধান উপসংহার
१. **SSPO কার্যকারিতা**: সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত এবং অভিযোজনশীল এন্ট্রপি ক্লিপিং এর মাধ্যমে, SSPO গাণিতিক যুক্তি কাজে বিদ্যমান পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করে
२. **স্তরের ভারসাম্য**: সাব-সেন্টেন্স-স্তর টোকেন-স্তর এবং প্রতিক্রিয়া-স্তরের মধ্যে সর্বোত্তম ভারসাম্য বিন্দু, প্রশিক্ষণ স্থিতিশীলতা এবং নমুনা ব্যবহারের হার উভয়ই নিশ্চিত করে
३. **এন্ট্রপি ব্যবস্থাপনা**: অভিযোজনশীল এন্ট্রপি ক্লিপিং মেকানিজম কার্যকরভাবে এন্ট্রপি ধস প্রশমিত করে, মডেল অন্বেষণ ক্ষমতা বজায় রাখে
४. **সম্প্রসারণযোগ্যতা**: SSPO বিভিন্ন মডেল আকারে (1.5B এবং 7B) চমৎকার কর্মক্ষমতা প্রদর্শন করে
### সীমাবদ্ধতা
१. **শব্দার্থিক বিভাজন নির্ভরতা**: বর্তমানে লাইন ব্রেক বিভাজন মান হিসাবে ব্যবহার করে, সমস্ত কাজের ধরনের জন্য উপযুক্ত নাও হতে পারে (যেমন স্পষ্ট বাক্য কাঠামো ছাড়া কোড প্রজন্ম)
२. **হাইপারপ্যারামিটার সংবেদনশীলতা**: অভিযোজনশীল এন্ট্রপি ক্লিপিং অতিরিক্ত হাইপারপ্যারামিটার প্রবর্তন করে (যেমন α এবং এন্ট্রপি থ্রেশহোল্ড), বিভিন্ন কাজের জন্য সূক্ষ্ম-সুর প্রয়োজন
३. **মূল্যায়ন পরিসীমা সীমিত**: পরীক্ষা প্রধানত গাণিতিক যুক্তি কাজে কেন্দ্রীভূত, অন্যান্য ক্ষেত্রে (সংলাপ, কোড প্রজন্ম) প্রভাব অজানা
४. **গণনা ওভারহেড**: প্রতিটি খণ্ডের এন্ট্রপি মূল্য গণনা করা প্রয়োজন, নির্দিষ্ট গণনা খরচ বৃদ্ধি করে
५. **তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত**: সাব-সেন্টেন্স-স্তর কেন সর্বোত্তম স্তর তার সম্পর্কে তাত্ত্বিক প্রমাণ অভাব
### ভবিষ্যত দিকনির্দেশনা
१. **অন্যান্য ক্ষেত্রে সম্প্রসারণ**: SSPO প্রোগ্রামিং, শব্দার্থিক যুক্তি ইত্যাদি কাজে প্রয়োগ করা
२. **অভিযোজনশীল বিভাজন**: লাইন ব্রেকের পরিবর্তে শব্দার্থিক-ভিত্তিক গতিশীল বিভাজন পদ্ধতি গবেষণা করা
३. **তাত্ত্বিক বিশ্লেষণ**: স্তরের পছন্দ এবং এন্ট্রপি ক্লিপিং সম্পর্কে তাত্ত্বিক গ্যারান্টি প্রদান করা
४. **বৃহত্তর স্কেল যাচাইকরণ**: বৃহত্তর স্কেল মডেলে (যেমন 100B+ প্যারামিটার) SSPO কার্যকারিতা যাচাই করা
## গভীর মূল্যায়ন
### সুবিধা
#### १. পদ্ধতি উদ্ভাবনী (★★★★☆)
- **মূল উদ্ভাবন স্পষ্ট**: সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত GRPO এবং GSPO এর মধ্যে প্রাকৃতিক সম্প্রসারণ, কিন্তু আগে সিস্টেমেটিকভাবে গবেষণা করা হয়নি
- **অভিযোজনশীল এন্ট্রপি ক্লিপিং নতুন**: এন্ট্রপি গতিশীল ক্লিপিং সীমানা সমন্বয়ের ভিত্তি হিসাবে ব্যবহার করা, ডিজাইন যুক্তিসঙ্গত এবং স্বজ্ঞাত
- **তাত্ত্বিক সমর্থন পর্যাপ্ত**: সম্পূর্ণ গ্রেডিয়েন্ট ডেরিভেশন প্রদান করে, ব্যাখ্যা করে কেন সাব-সেন্টেন্স-স্তর বৈচিত্র্য হ্রাস করতে পারে
#### २. পরীক্ষামূলক পর্যাপ্ততা (★★★★☆)
- **মাল্টি-মডেল যাচাইকরণ**: 1.5B এবং 7B দুটি স্কেলে যাচাই করা
- **মাল্টি-বেসলাইন তুলনা**: GRPO, GSPO, Dr.GRPO, GMPO ইত্যাদি একাধিক পদ্ধতির সাথে তুলনা
- **সম্পূর্ণ বিলোপ পরীক্ষা**: সাব-সেন্টেন্স-স্তরের গুরুত্ব অনুপাত এবং অভিযোজনশীল এন্ট্রপি ক্লিপিং এর অবদান আলাদাভাবে যাচাই করা
- **স্বজ্ঞাত এন্ট্রপি বিশ্লেষণ**: এন্ট্রপি বক্ররেখা ভিজ্যুয়ালাইজেশন পদ্ধতির কার্যকারিতা প্রদর্শন করে
#### ३. ফলাফল প্ররোচনা শক্তি (★★★★☆)
- **সামঞ্জস্যপূর্ণ উন্নতি**: সমস্ত মূল্যায়ন ডেটাসেটে উন্নতি
- **পরিসংখ্যানগত তাৎপর্য**: গড় উন্নতি মাত্রা 2-3 শতাংশ পয়েন্ট, ব্যবহারিক অর্থ রয়েছে
- **SOTA কর্মক্ষমতা**: একাধিক ডেটাসেটে সর্বোত্তম অর্জন করে
#### ४. লেখার স্পষ্টতা (★★★★☆)
- **কাঠামো স্পষ্ট**: সমস্যা সংজ্ঞা → পদ্ধতি ডিজাইন → পরীক্ষামূলক যাচাইকরণের যুক্তিসঙ্গত প্রবাহ
- **গাণিতিক অভিব্যক্তি নির্ভুল**: সূত্র ডেরিভেশন বিস্তারিত, প্রতীক সংজ্ঞা স্পষ্ট
- **গ্রাফ সহায়তা কার্যকর**: টেবিল এবং চিত্র १ কার্যকরভাবে যুক্তি সমর্থন করে
### অপূর্ণতা
#### १. পদ্ধতি সীমাবদ্ধতা (★★★☆☆)
- **সরল বিভাজন কৌশল**: শুধুমাত্র লাইন ব্রেক বিভাজন ব্যবহার করে, স্পষ্ট বাক্য কাঠামো ছাড়া কাজের জন্য অনুপযুক্ত হতে পারে (যেমন কোড)
- **হাইপারপ্যারামিটার প্রবর্তন**: অভিযোজনশীল এন্ট্রপি ক্লিপিং অতিরিক্ত হাইপারপ্যারামিটার (α এবং এন্ট্রপি থ্রেশহোল্ড) প্রবর্তন করে, সূক্ষ্ম-সুর প্রয়োজন
- **স্তরের পছন্দ তাত্ত্বিক ভিত্তি অভাব**: সাব-সেন্টেন্স-স্তর কেন সর্বোত্তম তার তাত্ত্বিক প্রমাণ অভাব, প্রধানত অভিজ্ঞতামূলক পর্যবেক্ষণের উপর নির্ভর করে
#### २. পরীক্ষামূলক সেটআপ ত্রুটি (★★★☆☆)
- **একক ক্ষেত্র**: শুধুমাত্র গাণিতিক যুক্তি কাজে যাচাই করা, অন্যান্য ক্ষেত্রের পরীক্ষা অভাব (সংলাপ, কোড, অনুবাদ)
- **সীমিত মডেল স্কেল**: সর্বাধিক 7B পর্যন্ত যাচাই করা, বৃহত্তর স্কেল মডেলে (70B+) পরীক্ষা করা হয়নি
- **পরিসংখ্যানগত তাৎপর্য পরীক্ষা অভাব**: আত্মবিশ্বাস ব্যবধান বা একাধিক রান এর মান বিচ্যুতি প্রদান করা হয়নি
- **গণনা খরচ রিপোর্ট অভাব**: SSPO এর বেসলাইন পদ্ধতির তুলনায় অতিরিক্ত গণনা ওভারহেড বিশ্লেষণ করা হয়নি
#### ३. বিশ্লেষণ অপর্যাপ্ত (★★★☆☆)
- **ক্লিপিং হার বিশ্লেষণ অভাব**: যদিও ক্লিপিং হার হ্রাসের কথা উল্লেখ করা হয়েছে, নির্দিষ্ট ডেটা প্রদান করা হয়নি
- **কেস বিশ্লেষণ অভাব**: নির্দিষ্ট প্রজন্ম উদাহরণ প্রদর্শন করা হয়নি, SSPO আচরণ সরাসরি বোঝা যায় না
- **ব্যর্থতার কেস বিশ্লেষণ**: SSPO কোন পরিস্থিতিতে খারাপ কর্মক্ষমতা দেখায় তা আলোচনা করা হয়নি
- **LPO তুলনা অপর্যাপ্ত**: যদিও LPO উল্লেখ করা হয়েছে, সরাসরি পরীক্ষামূলক তুলনা করা হয়নি
#### ४. পুনরুৎপাদনযোগ্যতা (★★★☆☆)
- **কোড ওপেন সোর্স নয়**: পেপারে কোড লিঙ্ক প্রদান করা হয়নি
- **হাইপারপ্যারামিটার বিবরণ অসম্পূর্ণ**: α এর নির্দিষ্ট মূল্য স্পষ্টভাবে উল্লেখ করা হয়নি
- **এন্ট্রপি থ্রেশহোল্ড নির্বাচন ভিত্তি**: কেন 0.5, 1.0 ইত্যাদি থ্রেশহোল্ড নির্বাচন করা হয়েছে তা পর্যাপ্তভাবে ব্যাখ্যা করা হয়নি
### প্রভাব মূল্যায়ন
#### १. ক্ষেত্রে অবদান (★★★★☆)
- **পদ্ধতিগত অবদান**: RLVR অ্যালগরিদমের স্তরের পছন্দের জন্য নতুন চিন্তাভাবনা প্রদান করে
- **ব্যবহারিক মূল্য উচ্চ**: বিদ্যমান RL প্রশিক্ষণ প্রবাহে সরাসরি প্রয়োগ করা যায়
- **অনুপ্রেরণা শক্তিশালী**: অভিযোজনশীল এন্ট্রপি ক্লিপিং ধারণা অন্যান্য RL অ্যালগরিদমে সাধারণীকরণ করা যায়
#### २. ব্যবহারিক মূল্য (★★★★☆)
- **বাস্তবায়ন সহজ**: পদ্ধতি সরল, অতিরিক্ত মডেল উপাদান প্রয়োজন নেই
- **প্লাগ-এন্ড-প্লে**: বিদ্যমান GRPO/GSPO প্রতিস্থাপন করতে পারে
- **কর্মক্ষমতা উন্নতি স্পষ্ট**: গাণিতিক যুক্তি কাজে 2-3 শতাংশ পয়েন্ট উন্নতি অত্যন্ত মূল্যবান
#### ३. সম্ভাব্য প্রভাব (★★★★☆)
- **শিল্প প্রয়োগ সম্ভাবনা**: Ping An Technology থেকে আসা, বাস্তব পণ্যে প্রয়োগ করা যেতে পারে
- **পরবর্তী গবেষণা দিকনির্দেশনা**: স্তরের পছন্দ এবং অভিযোজনশীল ক্লিপিং সম্পর্কে আরও গবেষণা অনুপ্রাণিত করতে পারে
- **সীমাবদ্ধতা**: একক ক্ষেত্র প্রভাব পরিসীমা সীমাবদ্ধ করতে পারে
### প্রযোজ্য পরিস্থিতি
#### উপযুক্ত পরিস্থিতি:
१. **গাণিতিক যুক্তি কাজ**: পেপারের প্রধান যাচাইকরণ পরিস্থিতি, সর্বোত্তম প্রভাব
२. **কাঠামোগত প্রজন্ম কাজ**: প্রতিক্রিয়া স্পষ্ট বাক্য কাঠামো সহ কাজ (যেমন প্রশ্নোত্তর, যুক্তি শৃঙ্খল প্রজন্ম)
३. **দীর্ঘ পাঠ্য প্রজন্ম**: প্রতিক্রিয়া দৈর্ঘ্য দীর্ঘ হলে, সাব-সেন্টেন্স-স্তরের সুবিধা আরও স্পষ্ট
४. **স্থিতিশীল প্রশিক্ষণ প্রয়োজনীয় পরিস্থিতি**: প্রশিক্ষণ স্থিতিশীলতার উচ্চ প্রয়োজনীয়তা সহ প্রয়োগ
#### অনুপযুক্ত পরিস্থিতি:
१. **কোড প্রজন্ম**: কোডের স্পষ্ট বাক্য কাঠামো নাও থাকতে পারে, লাইন ব্রেক বিভাজন অনুপযুক্ত
२. **সংক্ষিপ্ত পাঠ্য প্রজন্ম**: প্রতিক্রিয়া খুব ছোট হলে, সাব-সেন্টেন্স-স্তর এবং প্রতিক্রিয়া-স্তরের পার্থক্য বড় নয়
३. **রিয়েল-টাইম প্রয়োগ**: এন্ট্রপি মূল্য গণনা প্রয়োজন, অনুমান ওভারহেড বৃদ্ধি করে
४. **অ-ইংরেজি কাজ**: বাক্য বিভাজন কৌশল বিভিন্ন ভাষার জন্য সমন্বয় প্রয়োজন হতে পারে
### সামগ্রিক স্কোর: ★★★★☆ (4.2/5)
**সুপারিশ সূচক**: LLM শক্তিশালী শিক্ষা প্রশিক্ষণে নিয়োজিত গবেষকদের এবং প্রকৌশলীদের জন্য দৃঢ়ভাবে সুপারিশ করা হয়
**উপযুক্ত পাঠক**:
- RL অ্যালগরিদম গবেষণা করা পণ্ডিত
- LLM প্রশিক্ষণ সিস্টেম উন্নয়ন করা প্রকৌশলী
- গাণিতিক যুক্তি ক্ষমতা উন্নয়নে আগ্রহী গবেষক
## রেফারেন্স (মূল সাহিত্য)
१. **Shao et al. (२०२४)** - DeepSeekMath: Pushing the limits of mathematical reasoning in open language models (GRPO মূল পেপার)
२. **Zhao et al. (२०२५)** - Geometric-mean policy optimization (GSPO পেপার)
३. **Schulman et al. (२०१७)** - Proximal policy optimization algorithms (PPO-CLIP মূল পেপার)
४. **Li et al. (२०२५)** - Every activation boosted: Scaling general reasoner to 1 trillion open language foundation (LPO সমসাময়িক কাজ)
५. **Hendrycks et al. (२०२१)** - Measuring mathematical problem solving with the MATH dataset
---
**সারসংক্ষেপ**: SSPO একটি দৃঢ় প্রয়োগ গবেষণা পেপার, বিদ্যমান RLVR অ্যালগরিদমের নির্দিষ্ট সমস্যার জন্য কার্যকর সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, গাণিতিক যুক্তি কাজে উল্লেখযোগ্য উন্নতি অর্জন করে। প্রধান অবদান গুরুত্ব অনুপাত গণনা স্তরের জন্য সর্বোত্তম ভারসাম্য বিন্দু খুঁজে পাওয়া এবং অভিযোজনশীল এন্ট্রপি ক্লিপিং এর মাধ্যমে এন্ট্রপি ধস সমস্যা প্রশমিত করা। যদিও তাত্ত্বিক গভীরতা এবং প্রয়োগ ব্যাপকতায় উন্নতির অবকাশ রয়েছে, তবে LLM শক্তিশালী শিক্ষা প্রশিক্ষণ অনুশীলন অগ্রগতি চালনায় গুরুত্বপূর্ণ মূল্য রয়েছে।