2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.

Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.

academic

একই নদীতে দুবার প্রবেশ করবেন না: ট্রায়াল এবং ত্রুটি থেকে শিখুন

মৌলিক তথ্য

পেপার আইডি: 2510.26109
শিরোনাম: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
লেখক: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (পিকিং বিশ্ববিদ্যালয় এবং টেনসেন্ট)
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: ২০২৫ সালের ৩০ অক্টোবর (arXiv প্রিপ্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.26109v1

সারসংক্ষেপ

এই পেপারটি LTE (Learning to reason from Trial and Error) পদ্ধতি প্রস্তাব করে, যা যাচাইযোগ্য পুরস্কার শক্তিশালীকরণ শিক্ষা (RLVR) এ বড় ভাষা মডেল (LLMs) এর অন্বেষণ স্থবিরতার সমস্যা সমাধানের লক্ষ্য রাখে। বিদ্যমান RLVR পদ্ধতিগুলি শুধুমাত্র মডেল দ্বারা নিজে তৈরি প্রতিক্রিয়ার উপর ভিত্তি করে প্রশিক্ষণ দেয়, যা প্রাথমিক ক্ষমতা দ্বারা সীমাবদ্ধ এবং ক্ষমতার উপরের সীমানা অতিক্রম করে এমন সমস্যাগুলি সমাধান করা কঠিন। LTE মডেলের পূর্ববর্তীতে তৈরি ভুল উত্তরগুলিকে ইঙ্গিত হিসাবে ব্যবহার করে, বাহ্যিক বিশেষজ্ঞ নির্দেশনা ছাড়াই ক্ষমতার বাধা অতিক্রম করতে পারে। Qwen3-4B-Base এ পরীক্ষা-নিরীক্ষা দেখায় যে LTE ছয়টি গণিত মানদণ্ডে গড়ে মান GRPO পদ্ধতিকে 6.38 (Pass@1) এবং 9.00 (Pass@k) দ্বারা অতিক্রম করে।

গবেষণা পটভূমি এবং প্রেরণা

সমাধান করার মূল সমস্যা

এই পেপারটি বড় ভাষা মডেল শক্তিশালীকরণ শিক্ষা প্রশিক্ষণে অন্বেষণ স্থবিরতা (exploration stagnation) সমস্যার সমাধান করে। নির্দিষ্টভাবে এটি প্রকাশ পায় যখন প্রশিক্ষণ নমুনার কঠিনতা মডেলের বর্তমান ক্ষমতার উপরের সীমানা অতিক্রম করে, সমস্ত নমুনা করা প্রতিক্রিয়া যাচাইকরণে ব্যর্থ হয় (অর্থাৎ none-pass নমুনা), যার ফলে সমস্ত সুবিধা ফাংশন শূন্য হয় এবং মডেল এই নমুনাগুলি থেকে শিখতে পারে না।

সমস্যার গুরুত্ব

ক্ষমতার বাধা: বিদ্যমান RLVR পদ্ধতিগুলি মডেলকে প্রাথমিক ক্ষমতার পরিসরে আটকে রাখে, নিজের সীমানা অতিক্রম করতে পারে না
প্রশিক্ষণ দক্ষতা: অনেক প্রশিক্ষণ নমুনা অন্বেষণ স্থবিরতার কারণে কার্যকর শিক্ষা সংকেত প্রদান করতে পারে না
যুক্তি ক্ষমতা: গণিত যুক্তির মতো গভীর চিন্তাভাবনার প্রয়োজন এমন কাজে কর্মক্ষমতা উন্নতি সীমাবদ্ধ করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান সমাধানগুলি প্রধানত বাহ্যিক নির্দেশনার উপর নির্ভর করে:

মানব-মন্তব্যকৃত মান উত্তর: উচ্চ খরচ, দুর্বল স্কেলেবিলিটি
শক্তিশালী মডেল দ্বারা তৈরি যুক্তি শৃঙ্খল: ফ্ল্যাগশিপ মডেল প্রশিক্ষণে অনুপলব্ধ
সহজ নমুনা সংখ্যা বৃদ্ধি: ইতিমধ্যে rollout তথ্য ব্যবহার করে না, দক্ষতা কম

গবেষণা প্রেরণা

একটি স্বায়ত্তশাসিত শিক্ষা পদ্ধতি প্রস্তাব করা, যা শুধুমাত্র মডেলের নিজস্ব ট্রায়াল-এবং-ত্রুটি অভিজ্ঞতা ব্যবহার করে, কোনো বাহ্যিক বিশেষজ্ঞ নির্দেশনা ছাড়াই অন্বেষণ বাধা অতিক্রম করতে পারে।

মূল অবদান

LTE পদ্ধতি প্রস্তাব: প্রথম পদ্ধতি যা LLM এর নিজস্ব ট্রায়াল-এবং-ত্রুটি অভিজ্ঞতা (ভুল উত্তর) কে অন্বেষণ স্থবিরতা সমাধানের জন্য ইঙ্গিত হিসাবে ব্যবহার করে, বাহ্যিক বিশেষজ্ঞ নির্দেশনা ছাড়াই
মিশ্র নীতি অপ্টিমাইজেশন প্রক্রিয়া: অন-নীতি এবং অফ-নীতি নমুনা একত্রিত করে একটি প্রশিক্ষণ কাঠামো ডিজাইন করা, নিয়মিতকৃত গুরুত্ব নমুনা ব্যবহার করে ইঙ্গিত-উত্পাদিত সঠিক সমাধান পরিচালনা করা
ব্যাপক পরীক্ষা যাচাইকরণ: দুটি LLM (4B এবং 8B) এবং ছয়টি গণিত মানদণ্ডে কার্যকারিতা যাচাই করা, Pass@1 এবং Pass@k কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করা
গভীর প্রক্রিয়া বিশ্লেষণ:
- LTE সঠিক উত্তরে পৌঁছানোর সম্ভাবনা বৃদ্ধি করে তা তাত্ত্বিকভাবে প্রমাণ করা
- অভিজ্ঞতামূলক বিশ্লেষণ নিশ্চিত করে যে LTE সফলভাবে অন্বেষণ স্থবিরতা হ্রাস করে
- LTE একযোগে শোষণ এবং অন্বেষণ ক্ষমতা বৃদ্ধি করে তা প্রকাশ করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: গণিত সমস্যা প্রশ্ন $q \sim D$
আউটপুট: যুক্তি শৃঙ্খল এবং চূড়ান্ত উত্তর $o$
লক্ষ্য: RLVR এর মাধ্যমে সঠিক উত্তর উৎপাদনের সম্ভাবনা সর্বাধিক করা, একই সাথে মডেলের প্রাথমিক ক্ষমতার উপরের সীমানা অতিক্রম করা

সামগ্রিক কাঠামো

LTE এর মূল প্রক্রিয়া তিনটি পর্যায় অন্তর্ভুক্ত করে:

1. প্রাথমিক Rollouts

প্রতিটি প্রশিক্ষণ প্রশ্নের জন্য $q$ , $G$ টি প্রতিক্রিয়া নমুনা করা $\{o_1, o_2, ..., o_G\}$ , এবং সঠিকতা যাচাই করা।

2. Hinted Extra Rollouts (মূল উদ্ভাবন)

none-pass নমুনা এর জন্য (সমস্ত প্রাথমিক rollout ব্যর্থ), ছাঁটাই পরিস্থিতির উপর ভিত্তি করে ইঙ্গিত কৌশল নির্বাচন করা:

a) All-truncated (সমস্ত প্রতিক্রিয়া ছাঁটাই করা হয়েছে)

ইঙ্গিত টেমপ্লেট: "Let's think concisely and output the final answer within \boxed{}."

প্রতিক্রিয়া খুব দীর্ঘ হওয়ার জন্য দায়ী, মডেলকে সংক্ষিপ্ত চিন্তাভাবনা করতে অনুপ্রাণিত করা।

b) Some-truncated (কিছু প্রতিক্রিয়া ছাঁটাই করা হয়েছে)

ইঙ্গিত টেমপ্লেট: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

ছাঁটাই করা হয়নি এমন প্রতিক্রিয়াগুলির ভুল উত্তর সংগ্রহ করা ইঙ্গিত হিসাবে, একই সাথে সংক্ষিপ্ততা প্রয়োজন করা।

c) None-truncated (কোনো প্রতিক্রিয়া ছাঁটাই করা হয়নি)

ইঙ্গিত টেমপ্লেট: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

শুধুমাত্র ভুল উত্তর ইঙ্গিত প্রদান করা, সাধারণ দৈর্ঘ্যের যুক্তি অনুমতি দেওয়া।

নির্বাচিত ইঙ্গিত টেমপ্লেটের উপর ভিত্তি করে, আরও $G$ টি rollouts নমুনা করা $\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\}$ ।

3. মিশ্র-নীতি অপ্টিমাইজেশন

যদি অতিরিক্ত rollouts এ $G'$ টি সঠিক সমাধান থাকে $\{o'_1, ..., o'_{G'}\}$ , প্রাথমিক rollouts এ $G'$ টি প্রতিক্রিয়া র্যান্ডমলি প্রতিস্থাপন করা।

মূল প্রযুক্তি: অফ-নীতি নমুনা পরিচালনার জন্য নিয়মিতকৃত গুরুত্ব নমুনা ব্যবহার করা:

$\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}$

$f(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}$

যেখানে $\gamma = 0.1$ , $H_q$ হল ইঙ্গিত তথ্য।

মিশ্র-নীতি উদ্দেশ্য ফাংশন:

$J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

স্বায়ত্তশাসিত শিক্ষা প্রক্রিয়া: বাহ্যিক তত্ত্বাবধানের উপর নির্ভর করে না, শুধুমাত্র মডেলের নিজস্ব ভুল প্রচেষ্টা ব্যবহার করা
- ভুল উত্তার "নেতিবাচক উদাহরণ" হিসাবে কাজ করা, সমাধান স্থান সংকুচিত করা
- মডেলকে একই ত্রুটি পুনরাবৃত্তি এড়াতে নির্দেশনা দেওয়া
অবস্থা স্থান ছাঁটাই: তাত্ত্বিক বিশ্লেষণ দেখায় যে ইঙ্গিত অবস্থা স্থান $S_q$ থেকে $S'_q = S_q \backslash S^f_q$ (ব্যর্থতা উপ-স্থান বাদ দেওয়া) ছাঁটাই করে, সঠিক উত্তরে পৌঁছানোর সম্ভাবনা বৃদ্ধি করে
অভিযোজিত ইঙ্গিত কৌশল: ছাঁটাই পরিস্থিতির উপর ভিত্তি করে ইঙ্গিত বিষয়বস্তু গতিশীলভাবে সামঞ্জস্য করা
- দীর্ঘ প্রতিক্রিয়া সমস্যা পরিচালনা করা
- অন্বেষণ গভীরতা এবং দক্ষতার ভারসাম্য রাখা
মিশ্র-নীতি প্রশিক্ষণ: অন-নীতি এবং অফ-নীতি ডেটা মার্জিতভাবে পরিচালনা করা
- প্রশিক্ষণ স্থিতিশীলতা বজায় রাখা
- অতিরিক্ত rollouts এর তথ্য সম্পূর্ণভাবে ব্যবহার করা

পরীক্ষা সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটা: Skywork-OR1-RL-Data

Qwen3-4B-Base: স্তর 1 উপসেট, 9,189 নমুনা
Qwen3-8B-Base: স্তর 3 উপসেট, 3,236 নমুনা
নির্বাচন মানদণ্ড: মধ্যম কঠিনতা, সর্বোত্তম শিক্ষাযোগ্যতা নিশ্চিত করা

মূল্যায়ন সূচক

ছয়টি গণিত মানদণ্ড পরীক্ষা:

MATH-500: 4 বার নমুনা, Mean@4 এবং Pass@4 রিপোর্ট করা
Minerva: 4 বার নমুনা, Mean@4 এবং Pass@4 রিপোর্ট করা
OlympiadBench: 4 বার নমুনা, Mean@4 এবং Pass@4 রিপোর্ট করা
AMC'23: 16 বার নমুনা, Mean@16 এবং Pass@16 রিপোর্ট করা
AIME'24: 16 বার নমুনা, Mean@16 এবং Pass@16 রিপোর্ট করা
AIME'25: 16 বার নমুনা, Mean@16 এবং Pass@16 রিপোর্ট করা

মূল সূচক:

Pass@1: একক নমুনা নির্ভুলতা (শোষণ ক্ষমতা)
Pass@k: k বার নমুনায় কমপক্ষে একবার সঠিক হওয়ার সম্ভাবনা (অন্বেষণ উপরের সীমানা)

তুলনা পদ্ধতি

Base: ভিত্তি মডেল কর্মক্ষমতা
GRPO: মান Group Relative Policy Optimization
GRPO + Extra Rollouts: none-pass নমুনার জন্য সহজ rollouts বৃদ্ধি (কোনো ইঙ্গিত নেই)
LTE: এই পেপারের পদ্ধতি

প্রতিটি পদ্ধতি দুটি সংস্করণ পরীক্ষা করা হয়:

এন্ট্রপি লস ছাড়া: এন্ট্রপি লস ব্যবহার করা হয় না
এন্ট্রপি লস সহ: 0.003 সহগ সহ এন্ট্রপি লস যোগ করা

বাস্তবায়ন বিবরণ

প্রশিক্ষণ কাঠামো: verl
মূল হাইপারপ্যারামিটার:

শেখার হার: 1e-6
প্রশিক্ষণ পদক্ষেপ: 300
ব্যাচ আকার: 128
প্রতিটি প্রম্পটের জন্য নমুনা সংখ্যা: 8
তাপমাত্রা: 1.0 (প্রশিক্ষণ), 0.6 (মূল্যায়ন)
সর্বাধিক প্রতিক্রিয়া দৈর্ঘ্য: 16,384 (প্রশিক্ষণ), 32,768 (মূল্যায়ন)
KL সহগ: 0.001
ক্লিপ অনুপাত: 0.2

মূল্যায়ন সেটআপ: মান প্রোটোকল কঠোরভাবে অনুসরণ করা, প্রশিক্ষণ সময়ের ইঙ্গিত শুধুমাত্র প্রশিক্ষণ পর্যায়ে ব্যবহৃত হয়, মূল্যায়নে ব্যবহার করা হয় না।

পরীক্ষার ফলাফল

প্রধান ফলাফল

Pass@1 কর্মক্ষমতা (টেবিল 1)

Qwen3-4B-Base:

পদ্ধতি	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	গড়।
ভিত্তি	45.40	19.49	22.81	35.31	8.75	3.75	22.59
GRPO (এন্ট্রপি ছাড়া)	69.65	32.17	34.33	50.62	12.08	4.38	33.87
অতিরিক্ত Rollouts (এন্ট্রপি ছাড়া)	69.30	31.99	35.59	55.78	11.88	6.46	35.17
LTE (এন্ট্রপি ছাড়া)	71.95	33.82	38.44	58.91	16.88	12.29	38.72
LTE (এন্ট্রপি সহ)	76.00	34.01	40.63	65.16	24.17	18.96	43.16

মূল আবিষ্কার:

LTE (এন্ট্রপি সহ) GRPO + অতিরিক্ত Rollouts এর তুলনায় +6.38 গড় স্কোর উন্নতি
AIME'24 এবং AIME'25 এর মতো উচ্চ কঠিনতা কাজে উন্নতি বিশেষভাবে উল্লেখযোগ্য (+5.00 এবং +10.00)

Qwen3-8B-Base:

LTE (এন্ট্রপি সহ) গড় স্কোর 42.40, GRPO এর তুলনায় +1.78 উন্নতি
কর্মক্ষমতা তুলনামূলকভাবে অস্থির, প্রশিক্ষণ ডেটা আকার খুব ছোট (3,236 নমুনা) এর জন্য দায়ী

Pass@k কর্মক্ষমতা (টেবিল 3)

Qwen3-4B-Base:

পদ্ধতি	MATH-500	Minerva	Olympiad	AMC'23	AIME'24	AIME'25	গড়।
ভিত্তি	69.80	37.87	39.70	82.50	33.33	26.67	48.31
GRPO (এন্ট্রপি ছাড়া)	77.20	37.50	42.07	75.00	26.67	26.67	47.52
LTE (এন্ট্রপি সহ)	82.40	42.28	51.11	90.00	60.00	40.00	60.97

গুরুত্বপূর্ণ আবিষ্কার:

মান GRPO Pass@k হ্রাস করেছে (47.52 বনাম 48.31 ভিত্তি), অন্বেষণ ক্ষমতা ক্ষতিগ্রস্ত হয়েছে তা নির্দেশ করে
LTE (এন্ট্রপি সহ) Pass@k কে উল্লেখযোগ্যভাবে 60.97 এ বৃদ্ধি করে, ভিত্তির তুলনায় +12.66
প্রমাণ করে যে LTE শুধুমাত্র অন্বেষণ উপরের সীমানা ক্ষতি করে না, বরং উল্লেখযোগ্যভাবে অন্বেষণ ক্ষমতা বৃদ্ধি করে

প্রশিক্ষণ ডেটা বিশ্লেষণ

None-pass নমুনা পরিবর্তন (চিত্র 3a):

GRPO 200 পদক্ষেপের পরে স্থবির হয়ে যায়, none-pass নমুনা আরও সমাধান করতে পারে না
অতিরিক্ত Rollouts শুধুমাত্র সীমান্ত উন্নতি নিয়ে আসে
LTE ক্রমাগত none-pass নমুনা হ্রাস করে, প্রশিক্ষণের পরবর্তী পর্যায়ে এখনও হ্রাসের প্রবণতা বজায় রাখে
LTE (এন্ট্রপি সহ) none-pass নমুনা প্রাথমিক 80+ থেকে প্রায় 45 এ হ্রাস করে

Some-pass নমুনা পরিবর্তন (চিত্র 3b):

LTE প্রশিক্ষণের পরবর্তী পর্যায়ে উচ্চতর some-pass নমুনা সংখ্যা বজায় রাখে (~60 বনাম ~50)
Some-pass নমুনা অ-শূন্য গ্রেডিয়েন্ট প্রদান করে, প্রধান শিক্ষা সংকেত উৎস

All-pass নমুনা পরিবর্তন (চিত্র 3c):

LTE কম all-pass নমুনা সংখ্যা বজায় রাখে (~5 বনাম ~15-20)
অত্যধিক নিশ্চিত সংগ্রহ এড়ায়, অন্বেষণ ক্ষমতা বজায় রাখে

প্রশিক্ষণ গতিশীলতা বিশ্লেষণ

যাচাইকরণ সেট কর্মক্ষমতা (চিত্র 4a-b):

Pass@1: ভিত্তি পদ্ধতি 100 পদক্ষেপের পরে স্থবির হয়, LTE ক্রমাগত 75%+ এ উন্নত হয়
Pass@4: ভিত্তি পদ্ধতি 100 পদক্ষেপের পরে হ্রাস পায়, LTE ক্রমাগত 82%+ এ উন্নত হয়

নীতি এন্ট্রপি (চিত্র 4c):

সমস্ত পদ্ধতি এন্ট্রপি হ্রাস অনুভব করে
LTE প্রশিক্ষণের পরবর্তী পর্যায়ে তুলনামূলকভাবে উচ্চ এন্ট্রপি বজায় রাখে (~0.2 বনাম ~0.05)
নির্দেশ করে যে LTE নির্দিষ্ট অনিশ্চয়তা এবং অন্বেষণ ক্ষমতা বজায় রাখে

প্রতিক্রিয়া দৈর্ঘ্য (চিত্র 4d):

ভিত্তি পদ্ধতি প্রতিক্রিয়া দৈর্ঘ্য ধীরে ধীরে বৃদ্ধি পায়, 250 পদক্ষেপের পরে স্থবির হয় (~2500 টোকেন)
LTE প্রশিক্ষণের পরবর্তী পর্যায়ে প্রতিক্রিয়া দৈর্ঘ্য উল্লেখযোগ্যভাবে 3500+ টোকেনে বৃদ্ধি করে
প্রমাণ করে যে LTE পরীক্ষার সময় গভীর চিন্তাভাবনা (test-time deep thinking) অন্তর্নিহিতভাবে উৎসাহিত করে

বিলোপন পরীক্ষা আবিষ্কার

এন্ট্রপি লস এর ভূমিকা:

সমস্ত পদ্ধতিতে কর্মক্ষমতা উন্নতি নিয়ে আসে
LTE এর সাথে সংমিশ্রণে সর্বোত্তম প্রভাব, এন্ট্রপি নিয়ন্ত্রণ এবং স্বায়ত্তশাসিত অন্বেষণের সহযোগিতা নির্দেশ করে

অতিরিক্ত Rollouts এর সীমাবদ্ধতা:

সহজ rollouts বৃদ্ধি ইতিমধ্যে তথ্য সম্পূর্ণভাবে ব্যবহার করে না
কখনও কখনও নেতিবাচক প্রভাব নিয়ে আসে (যেমন 8B মডেলের কিছু সূচক)

তাত্ত্বিক বিশ্লেষণ

অবস্থা স্থান ছাঁটাই প্রমাণ

ব্যর্থতা উপ-স্থান সংজ্ঞা: $S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}$ , যেখানে $A_q$ হল ইতিমধ্যে উৎপাদিত ভুল উত্তরের সেট

ছাঁটাই উপ-স্থান সংজ্ঞা: $S'_q = S_q \backslash S^f_q$

মূল উপপাদ্য: ইঙ্গিত $H_q$ (ভুল উত্তর সহ) দেওয়া, সঠিক উত্তরে পৌঁছানোর সম্ভাবনা বৃদ্ধি পায়:

$\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)$

যেখানে:

$M_q$ : সঠিক উত্তর অবস্থা সেট
$\delta > 0$ : ইঙ্গিত দ্বারা সৃষ্ট ব্যর্থতা উপ-স্থান সম্ভাবনা হ্রাস
$\tau$ : n বার ক্রমাগত ব্যর্থতা পর্যবেক্ষণের আস্থা স্তর
$\alpha \sim \Omega(1)$ : ইঙ্গিত ছাঁটাই উপ-স্থানে যুক্তি ক্ষমতার উপর প্রভাব ফ্যাক্টর

উপসংহার: যেহেতু $\alpha$ 1 থেকে অনেক ছোট হওয়া উচিত নয়, এই অনুপাত 1 এর চেয়ে বড়, প্রমাণ করে যে ইঙ্গিত সঠিক উত্তরে পৌঁছানোর সম্ভাবনা বৃদ্ধি করে।

তথ্য লাভ বিশ্লেষণ

তথ্য তত্ত্বের দৃষ্টিকোণ থেকে:

$I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0$

প্রমাণ করে যে LTE ইঙ্গিত সেট $H$ থেকে অতিরিক্ত পারস্পরিক তথ্য অর্জন করে, তাত্ত্বিকভাবে GRPO এর চেয়ে উন্নত।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

কার্যকারিতা যাচাইকরণ: LTE দুটি LLM এবং ছয়টি মানদণ্ডে GRPO এবং সহজ অতিরিক্ত rollouts এর চেয়ে উল্লেখযোগ্যভাবে উন্নত
অন্বেষণ স্থবিরতা হ্রাস: সফলভাবে none-pass নমুনা হ্রাস করে, প্রশিক্ষণ ডেটা থেকে ক্রমাগত শিখতে থাকে
দ্বৈত ক্ষমতা উন্নতি: একযোগে শোষণ (Pass@1) এবং অন্বেষণ (Pass@k) বৃদ্ধি করে
স্বায়ত্তশাসিত শিক্ষা: বাহ্যিক বিশেষজ্ঞ নির্দেশনা ছাড়াই ক্ষমতার বাধা অতিক্রম করে

সীমাবদ্ধতা

কাজের সীমাবদ্ধতা: বর্তমানে শুধুমাত্র গণিত যুক্তিতে প্রযোজ্য, উত্তর ফর্ম্যাট সংক্ষিপ্ত
- কোড উৎপাদন ইত্যাদি কাজ সমর্থন করতে পরিবর্তন প্রয়োজন
এন্ট্রপি নিয়ন্ত্রণ: স্পষ্ট অভিযোজিত এন্ট্রপি নিয়ন্ত্রণ একীভূত করা হয়নি, সম্ভবত এখনও সর্বোত্তম নয়
স্কেল সীমাবদ্ধতা: গণনা সম্পদ দ্বারা সীমাবদ্ধ, বড় স্কেল মডেল (>10B) এ যাচাই করা হয়নি
8B মডেল অস্থিরতা: প্রশিক্ষণ ডেটা খুব ছোট (3,236 নমুনা) অতিফিটিং সৃষ্টি করে

ভবিষ্যত দিকনির্দেশনা

লেখক স্পষ্টভাবে চারটি গবেষণা দিকনির্দেশনা প্রস্তাব করেন:

অভিযোজিত এন্ট্রপি নিয়ন্ত্রণ: LTE কে গতিশীল এন্ট্রপি সমন্বয় প্রক্রিয়ার সাথে একত্রিত করা
উন্নত ইঙ্গিত তথ্য: পুরস্কার হ্যাকিং এড়ানোর প্রাক্কালে ground truth তথ্য একীভূত করা
সূক্ষ্ম-দানাদার ইঙ্গিত: একক rollout স্তরে সংগৃহীত ভুল উত্তর ইঙ্গিত প্রয়োগ করা
কাজ সম্প্রসারণ: কোড উৎপাদন, উপপাদ্য প্রমাণ ইত্যাদি ক্ষেত্রে সাধারণীকরণ করা

গভীর মূল্যায়ন

সুবিধা

1. পদ্ধতি উদ্ভাবনশীলতা ⭐⭐⭐⭐⭐

মূল উদ্ভাবন: প্রথমবার সিস্টেমেটিকভাবে LLM এর নিজস্ব ভুল উত্তর অন্বেষণ নির্দেশনা হিসাবে ব্যবহার করা
তাত্ত্বিক সমর্থন: অবস্থা স্থান ছাঁটাই এবং তথ্য লাভের তাত্ত্বিক প্রমাণ প্রদান করা
ব্যবহারিক মূল্য: বাহ্যিক সম্পদের প্রয়োজন নেই, কম খরচ, শক্তিশালী স্কেলেবিলিটি

2. পরীক্ষা সম্পূর্ণতা ⭐⭐⭐⭐

বহুমাত্রিক মূল্যায়ন: 6টি মানদণ্ড, 2টি মডেল, 2টি সূচক মাত্রা অন্তর্ভুক্ত করা
গভীর বিশ্লেষণ:
- প্রশিক্ষণ ডেটা গতিশীলতা (none/some/all-pass)
- প্রশিক্ষণ প্রক্রিয়া গতিশীলতা (এন্ট্রপি, প্রতিক্রিয়া দৈর্ঘ্য)
- বিলোপন পরীক্ষা (এন্ট্রপি লস প্রভাব)
ব্যাপক তুলনা: একাধিক baseline এবং ভেরিয়েন্ট অন্তর্ভুক্ত করা

3. প্রযুক্তিগত বিবরণ ⭐⭐⭐⭐⭐

অভিযোজিত ইঙ্গিত কৌশল: ছাঁটাই পরিস্থিতির উপর ভিত্তি করে গতিশীল সমন্বয়, চিন্তাশীল বিবেচনা
মিশ্র নীতি অপ্টিমাইজেশন: নিয়মিতকৃত গুরুত্ব নমুনা অফ-নীতি ডেটা পরিচালনা করে, প্রযুক্তি পরিপক্ক
বাস্তবায়ন সম্পূর্ণ: বিস্তারিত হাইপারপ্যারামিটার এবং অ্যালগরিদম সিউডোকোড প্রদান করা

4. লেখার স্পষ্টতা ⭐⭐⭐⭐

শিরোনাম দর্শনসম্মত ("একই নদীতে দুবার প্রবেশ করবেন না")
সমৃদ্ধ চিত্র (কাঠামো চিত্র, প্রম্পট টেমপ্লেট, প্রশিক্ষণ বক্ররেখা)
স্পষ্ট যুক্তি, সমস্যা → পদ্ধতি → পরীক্ষা → বিশ্লেষণ স্তরে স্তরে অগ্রসর

অপূর্ণতা

1. পদ্ধতি সীমাবদ্ধতা

কাজ বিশেষত্ব: নিষ্কাশনযোগ্য উত্তর ফর্ম্যাটের উপর নির্ভর করে, খোলা-শেষ উৎপাদন কাজে স্থানান্তর করা কঠিন
ছাঁটাই পরিচালনা সরলীকরণ: সমস্ত ছাঁটাই প্রতিক্রিয়া অকার্যকর হিসাবে বিবেচনা করা, সম্ভবত কিছু দরকারী তথ্য হারানো
ইঙ্গিত ডিজাইন: নির্দিষ্ট ইঙ্গিত টেমপ্লেট সর্বোত্তম নাও হতে পারে, স্বয়ংক্রিয় অপ্টিমাইজেশন প্রক্রিয়া অনুপস্থিত

2. পরীক্ষা সেটআপ ত্রুটি

প্রশিক্ষণ ডেটা ভারসাম্যহীনতা: 8B মডেল শুধুমাত্র 3,236 নমুনা, অস্থির ফলাফল সৃষ্টি করে
মডেল স্কেল সীমাবদ্ধতা: 10B+ স্কেলে যাচাই করা হয়নি, সাধারণীকরণ প্রশ্নবিদ্ধ
মানব মূল্যায়ন অনুপস্থিত: উৎপাদিত যুক্তি শৃঙ্খলের গুণমান সম্পর্কে মানব বিশ্লেষণ অনুপস্থিত

3. বিশ্লেষণ গভীরতা

ভুল উত্তর গুণমান: কোন ধরনের ভুল উত্তর আরও কার্যকর তা বিশ্লেষণ করা হয়নি
ইঙ্গিত সংবেদনশীলতা: ইঙ্গিত ফর্ম্যাট, ভুল উত্তর সংখ্যার প্রভাব সিস্টেমেটিকভাবে গবেষণা করা হয়নি
গণনা খরচ: অতিরিক্ত rollouts এর প্রশিক্ষণ সময় এবং গণনা ওভারহেড রিপোর্ট করা হয়নি

4. তত্ত্ব এবং অনুশীলন ব্যবধান

তাত্ত্বিক অনুমান: অবস্থা স্থান ছাঁটাই বিশ্লেষণে $\alpha \sim \Omega(1)$ অনুমান অভিজ্ঞতামূলক যাচাইকরণ অনুপস্থিত
সরলীকৃত পরিচালনা: গুরুত্ব নমুনায় $\pi_{\theta_{old}}$ কে 1 হিসাবে বিবেচনা করা, তাত্ত্বিক সঠিকতা আরও যাচাইকরণ প্রয়োজন

প্রভাব মূল্যায়ন

একাডেমিক মূল্য ⭐⭐⭐⭐

প্যারাডাইম পরিবর্তন: বাহ্যিক নির্দেশনা নির্ভরতা থেকে স্বায়ত্তশাসিত শিক্ষায় স্থানান্তর, অনুপ্রেরণামূলক শক্তিশালী
তাত্ত্বিক অবদান: শক্তিশালীকরণ শিক্ষা অন্বেষণ এবং LLM যুক্তি সংযোগ করা, ক্রস-ডোমেইন তাৎপর্য
পরবর্তী গবেষণা: "ব্যর্থতা থেকে শিখুন" প্যারাডাইমে ব্যাপক মনোযোগ উদ্দীপিত করেছে

ব্যবহারিক মূল্য ⭐⭐⭐⭐

সহজ বাস্তবায়ন: শুধুমাত্র প্রম্পট এবং নমুনা কৌশল পরিবর্তন প্রয়োজন, প্রকৌশল বান্ধব
খরচ বান্ধব: অতিরিক্ত ডেটা মন্তব্য বা শক্তিশালী মডেলের প্রয়োজন নেই
তাৎক্ষণিক লাভ: পরীক্ষা উল্লেখযোগ্য এবং সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি দেখায়

পুনরুৎপাদনযোগ্যতা ⭐⭐⭐⭐

বিবরণ সম্পূর্ণ: সম্পূর্ণ হাইপারপ্যারামিটার এবং প্রশিক্ষণ কনফিগারেশন প্রদান করা
ওপেন সোর্স বান্ধব: verl কাঠামোর উপর ভিত্তি করে, কোড বাস্তবায়ন তুলনামূলকভাবে সহজ
ডেটা জনসাধারণ: জনসাধারণ ডেটাসেট Skywork-OR1-RL-Data ব্যবহার করা

প্রযোজ্য দৃশ্যকল্প

উচ্চ প্রযোজ্যতা ✅

গণিত যুক্তি: উত্তর যাচাইযোগ্য, ফর্ম্যাট নিয়ম
কোড উৎপাদন: পরীক্ষা কেস দ্বারা যাচাই করা যায় (অভিযোজন প্রয়োজন)
যুক্তি যুক্তি: স্পষ্ট সঠিক/ভুল বিচার সহ কাজ
সম্পদ সীমাবদ্ধ দৃশ্যকল্প: শক্তিশালী মডেল বা মানব মন্তব্য অ্যাক্সেস করতে পারে না

মধ্যম প্রযোজ্যতা ⚠️

খোলা-শেষ QA: উত্তর নিষ্কাশন এবং যাচাইকরণ প্রক্রিয়া ডিজাইন প্রয়োজন
মাল্টিমোডাল যুক্তি: অ-পাঠ্য মোডে সম্প্রসারণ প্রয়োজন
দীর্ঘ পাঠ্য উৎপাদন: ছাঁটাই পরিচালনা আরও সূক্ষ্ম কৌশল প্রয়োজন

অপ্রযোজ্য ❌

সৃজনশীল লেখা: কোনো উদ্দেশ্যমূলক সঠিক/ভুল মান নেই
বিষয়গত কাজ: যেমন অনুভূতি বিশ্লেষণ, শৈলী স্থানান্তর
যাচাইকরণ ছাড়া কাজ: স্বয়ংক্রিয় যাচাইকরণ প্রক্রিয়া অনুপস্থিত

মূল অন্তর্দৃষ্টি

"ব্যর্থতা তথ্য": ভুল উত্তর শব্দ নয়, বরং সমাধান স্থান সংকুচিত করার মূল্যবান সংকেত
অন্বেষণ-শোষণ ভারসাম্য: LTE স্বায়ত্তশাসিত শিক্ষার মাধ্যমে উভয় বৃদ্ধি করে, ঐতিহ্যবাহী ট্রেড-অফ ভাঙে
গভীর চিন্তাভাবনা উদ্ভব: প্রতিক্রিয়া দৈর্ঘ্য বৃদ্ধি প্রমাণ করে মডেল আরও গণনা সম্পদ বিনিয়োগ করতে শিখেছে
সংক্ষিপ্ততা প্যারাডক্স: "সংক্ষিপ্ত চিন্তা" ইঙ্গিত জটিল সমস্যা সমাধানে সাহায্য করে, গুণমান পরিমাণের চেয়ে উন্নত তা প্রতিফলিত করে

সংদর্ভ (নির্বাচিত)

DeepSeek-AI (2025): DeepSeek-R1 - শক্তিশালীকরণ শিক্ষা যুক্তি ক্ষমতা অনুপ্রাণিত করার অগ্রগামী কাজ
Shao et al. (2024): GRPO অ্যালগরিদম - এই পেপারের ভিত্তি পদ্ধতি
Yan et al. (2025): অফ-নীতি নির্দেশনা শিক্ষা - মিশ্র নীতি অপ্টিমাইজেশনের অনুপ্রেরণা উৎস
Cui et al. (2025): এন্ট্রপি প্রক্রিয়া বিশ্লেষণ - অন্বেষণ ক্ষমতার তাত্ত্বিক ভিত্তি

সামগ্রিক রেটিং: ⭐⭐⭐⭐ (4.5/5)

পড়ার সুপারিশ: LLM যুক্তি, শক্তিশালীকরণ শিক্ষা এবং গণিত সমস্যা সমাধানে কাজ করা গবেষকদের জন্য দৃঢ়ভাবে সুপারিশ করা হয়। পদ্ধতি সংক্ষিপ্ত এবং কার্যকর, তত্ত্ব এবং অনুশীলন ঘনিষ্ঠভাবে একীভূত, RLVR ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগতি।