2025-11-30T00:01:19.060859

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic

एक ही नदी में दोबारा न उतरें: परीक्षण और त्रुटि से सीखना

बुनियादी जानकारी

  • पेपर ID: 2510.26109
  • शीर्षक: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
  • लेखक: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (बीजिंग विश्वविद्यालय & टेनसेंट)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 30 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.26109v1

सारांश

यह पेपर LTE (Learning to reason from Trial and Error) विधि प्रस्तावित करता है, जिसका उद्देश्य बड़े भाषा मॉडल (LLMs) में सत्यापन योग्य पुरस्कार सुदृढीकरण सीखने (RLVR) में अन्वेषण स्थिरता की समस्या को हल करना है। मौजूदा RLVR विधियां केवल मॉडल द्वारा स्वयं उत्पन्न प्रतिक्रियाओं पर प्रशिक्षण देती हैं, जो प्रारंभिक क्षमता से सीमित हैं और क्षमता की ऊपरी सीमा से परे समस्याओं को हल करने में कठिनाई होती है। LTE मॉडल द्वारा पहले उत्पन्न गलत उत्तरों को संकेत के रूप में उपयोग करके, बाहरी विशेषज्ञ मार्गदर्शन के बिना क्षमता की बाधा को तोड़ता है। Qwen3-4B-Base पर प्रयोगों से पता चलता है कि LTE छह गणितीय बेंचमार्क पर मानक GRPO विधि को औसतन 6.38 (Pass@1) और 9.00 (Pass@k) से अधिक करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समाधान की जाने वाली मूल समस्या

यह पेपर बड़े भाषा मॉडल सुदृढीकरण सीखने प्रशिक्षण में अन्वेषण स्थिरता (exploration stagnation) समस्या को संबोधित करता है। विशेष रूप से यह इस प्रकार प्रकट होता है: जब प्रशिक्षण नमूने की कठिनाई मॉडल की वर्तमान क्षमता की ऊपरी सीमा से अधिक हो, तो सभी नमूने की प्रतिक्रियाएं सत्यापन में विफल हो जाती हैं (अर्थात none-pass नमूने), जिससे सभी लाभ फलन शून्य हो जाते हैं और मॉडल इन नमूनों से सीख नहीं सकता।

समस्या का महत्व

  1. क्षमता की बाधा: मौजूदा RLVR विधियां मॉडल को प्रारंभिक क्षमता सीमा में फंसाती हैं, अपनी सीमा को तोड़ नहीं सकते
  2. प्रशिक्षण दक्षता: बड़ी संख्या में प्रशिक्षण नमूने अन्वेषण स्थिरता के कारण प्रभावी सीखने का संकेत प्रदान नहीं कर सकते
  3. तर्क क्षमता: गणितीय तर्क जैसे गहन विचार की आवश्यकता वाले कार्यों पर प्रदर्शन में सुधार को सीमित करता है

मौजूदा विधियों की सीमाएं

मौजूदा समाधान मुख्य रूप से बाहरी मार्गदर्शन पर निर्भर हैं:

  • मानव-टिप्पणीकृत मानक उत्तर: उच्च लागत, कम स्केलेबिलिटी
  • मजबूत मॉडल द्वारा उत्पन्न तर्क श्रृंखला: फ्लैगशिप मॉडल प्रशिक्षण के समय उपलब्ध नहीं
  • सरल नमूना वृद्धि: पहले से मौजूद rollout जानकारी का उपयोग नहीं करता, कम दक्षता

अनुसंधान प्रेरणा

एक स्वायत्त सीखने की विधि प्रस्तावित करना, जो केवल मॉडल के अपने परीक्षण-त्रुटि अनुभव का उपयोग करके, किसी भी बाहरी विशेषज्ञ मार्गदर्शन के बिना अन्वेषण बाधा को तोड़ सकता है।

मुख्य योगदान

  1. LTE विधि प्रस्तावित करना: पहली विधि जो LLM के अपने परीक्षण-त्रुटि अनुभव (गलत उत्तर) को अन्वेषण मार्गदर्शन के रूप में उपयोग करती है, बाहरी विशेषज्ञ मार्गदर्शन की आवश्यकता नहीं
  2. मिश्रित नीति अनुकूलन तंत्र: on-policy और off-policy नमूनों को जोड़ने वाली प्रशिक्षण रूपरेखा डिजाइन करना, संकेत-उत्पन्न सही समाधानों को संभालने के लिए नियमित महत्व नमूनाकरण का उपयोग
  3. व्यापक प्रयोग सत्यापन: दो LLM (4B और 8B) और छह गणितीय बेंचमार्क पर प्रभावशीलता सत्यापित करना, Pass@1 और Pass@k प्रदर्शन में महत्वपूर्ण सुधार
  4. गहन तंत्र विश्लेषण:
    • LTE सही उत्तर तक पहुंचने की संभावना बढ़ाता है, इसका सैद्धांतिक प्रमाण
    • LTE सफलतापूर्वक अन्वेषण स्थिरता को कम करता है, इसका अनुभवजन्य विश्लेषण
    • LTE शोषण और अन्वेषण दोनों क्षमताओं को बढ़ाता है, यह प्रकट करना

विधि विवरण

कार्य परिभाषा

इनपुट: गणितीय समस्या प्रश्न qDq \sim D
आउटपुट: तर्क श्रृंखला और अंतिम उत्तर oo
उद्देश्य: RLVR के माध्यम से सही उत्तर उत्पन्न करने की संभावना को अधिकतम करना, साथ ही मॉडल की प्रारंभिक क्षमता की ऊपरी सीमा को तोड़ना

समग्र ढांचा

LTE की मुख्य प्रक्रिया में तीन चरण शामिल हैं:

1. प्रारंभिक Rollouts

प्रत्येक प्रशिक्षण समस्या qq के लिए, GG प्रतिक्रियाएं {o1,o2,...,oG}\{o_1, o_2, ..., o_G\} नमूना करें और सही होने की जांच करें।

2. संकेत अतिरिक्त Rollouts (मुख्य नवाचार)

none-pass नमूनों के लिए (सभी प्रारंभिक rollout विफल), ट्रंकेशन स्थिति के आधार पर संकेत रणनीति चुनें:

a) All-truncated (सभी प्रतिक्रियाएं ट्रंकेट हैं)

संकेत टेम्पलेट: "Let's think concisely and output the final answer within \boxed{}."

प्रतिक्रिया की लंबाई के लिए जिम्मेदार, मॉडल को संक्षिप्त सोच के लिए संकेत दें।

b) Some-truncated (कुछ प्रतिक्रियाएं ट्रंकेट हैं)

संकेत टेम्पलेट: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."

ट्रंकेट न की गई प्रतिक्रियाओं से गलत उत्तर एकत्र करें संकेत के रूप में, साथ ही संक्षिप्तता की मांग करें।

c) None-truncated (कोई ट्रंकेशन नहीं)

संकेत टेम्पलेट: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."

केवल गलत उत्तर संकेत प्रदान करें, सामान्य लंबाई तर्क की अनुमति दें।

चयनित संकेत टेम्पलेट के आधार पर, GG अतिरिक्त rollouts {o1hinted,o2hinted,...,oGhinted}\{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\} को फिर से नमूना करें।

3. मिश्रित-नीति अनुकूलन

यदि अतिरिक्त rollouts में GG' सही समाधान {o1,...,oG}\{o'_1, ..., o'_{G'}\} हैं, तो प्रारंभिक rollouts में GG' प्रतिक्रियाओं को यादृच्छिक रूप से प्रतिस्थापित करें।

मुख्य तकनीक: off-policy नमूनों को संभालने के लिए नियमित महत्व नमूनाकरण का उपयोग करें:

r^i,t(θ)=πθ(oi,tq,oi,<t)πθold(oi,tHq,q,oi,<t)\hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})}

f(r^i,t(θ))=r^i,t(θ)r^i,t(θ)+γf(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma}

जहां γ=0.1\gamma = 0.1, HqH_q संकेत जानकारी है।

मिश्रित-नीति उद्देश्य फलन:

JMixed(θ)=Eq,{oi,osi}[1Zi=1Gt=1oi(f(r^i,t(θ))A^i,t)+1Zi=1GGt=1osiCLIP(rsi,t(θ),A^si,t,ϵ)]J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right]

तकनीकी नवाचार बिंदु

  1. स्वायत्त सीखने की तंत्र: बाहरी निरीक्षण पर निर्भर नहीं, केवल मॉडल के अपने त्रुटि प्रयासों का उपयोग
    • गलत उत्तर "नकारात्मक उदाहरण" के रूप में, समाधान स्थान को कम करें
    • मॉडल को समान त्रुटियों को दोहराने से बचाएं
  2. स्थिति स्थान छंटाई: सैद्धांतिक विश्लेषण से पता चलता है कि संकेत स्थिति स्थान को SqS_q से Sq=Sq\SqfS'_q = S_q \backslash S^f_q (विफल उप-स्थान को बाहर करते हुए) में छंटाई करता है, सही उत्तर तक पहुंचने की संभावना बढ़ाता है
  3. अनुकूली संकेत रणनीति: ट्रंकेशन स्थिति के आधार पर गतिशील रूप से संकेत सामग्री समायोजित करें
    • लंबी प्रतिक्रिया समस्या को संभालें
    • अन्वेषण गहराई और दक्षता को संतुलित करें
  4. मिश्रित-नीति प्रशिक्षण: on-policy और off-policy डेटा को सुंदरता से संभालें
    • प्रशिक्षण स्थिरता बनाए रखें
    • अतिरिक्त rollouts की जानकारी का पूरी तरह से उपयोग करें

प्रयोग सेटअप

डेटासेट

प्रशिक्षण डेटा: Skywork-OR1-RL-Data

  • Qwen3-4B-Base: Level 1 उप-समूह, 9,189 नमूने
  • Qwen3-8B-Base: Level 3 उप-समूह, 3,236 नमूने
  • चयन मानदंड: मध्यम कठिनाई, सर्वोत्तम सीखने योग्यता सुनिश्चित करें

मूल्यांकन संकेतक

छह गणितीय बेंचमार्क परीक्षण:

  1. MATH-500: 4 बार नमूना, Mean@4 और Pass@4 रिपोर्ट करें
  2. Minerva: 4 बार नमूना, Mean@4 और Pass@4 रिपोर्ट करें
  3. OlympiadBench: 4 बार नमूना, Mean@4 और Pass@4 रिपोर्ट करें
  4. AMC'23: 16 बार नमूना, Mean@16 और Pass@16 रिपोर्ट करें
  5. AIME'24: 16 बार नमूना, Mean@16 और Pass@16 रिपोर्ट करें
  6. AIME'25: 16 बार नमूना, Mean@16 और Pass@16 रिपोर्ट करें

मुख्य संकेतक:

  • Pass@1: एकल नमूना सटीकता (शोषण क्षमता)
  • Pass@k: k बार नमूने में कम से कम एक बार सही होने की संभावना (अन्वेषण ऊपरी सीमा)

तुलना विधियां

  1. Base: आधार मॉडल प्रदर्शन
  2. GRPO: मानक Group Relative Policy Optimization
  3. GRPO + Extra Rollouts: none-pass नमूनों के लिए सरल rollout वृद्धि (कोई संकेत नहीं)
  4. LTE: यह पेपर विधि

प्रत्येक विधि दो संस्करणों में परीक्षण की जाती है:

  • w/o Entropy Loss: एंट्रॉपी हानि का उपयोग नहीं करते हुए
  • w/ Entropy Loss: 0.003 गुणांक के साथ एंट्रॉपी हानि जोड़ें

कार्यान्वयन विवरण

प्रशिक्षण ढांचा: verl
मुख्य हाइपरपैरामीटर:

  • सीखने की दर: 1e-6
  • प्रशिक्षण चरण: 300
  • बैच आकार: 128
  • प्रत्येक prompt के लिए नमूना संख्या: 8
  • तापमान: 1.0 (प्रशिक्षण), 0.6 (मूल्यांकन)
  • अधिकतम प्रतिक्रिया लंबाई: 16,384 (प्रशिक्षण), 32,768 (मूल्यांकन)
  • KL गुणांक: 0.001
  • Clip अनुपात: 0.2

मूल्यांकन सेटिंग: मानक प्रोटोकॉल का कड़ाई से पालन करें, प्रशिक्षण के समय संकेत केवल प्रशिक्षण चरण के लिए उपयोग किए जाते हैं, मूल्यांकन के समय उपयोग नहीं किए जाते।

प्रयोग परिणाम

मुख्य परिणाम

Pass@1 प्रदर्शन (तालिका 1)

Qwen3-4B-Base:

विधिMATH-500MinervaOlympiadAMC'23AIME'24AIME'25Avg.
Base45.4019.4922.8135.318.753.7522.59
GRPO (w/o entropy)69.6532.1734.3350.6212.084.3833.87
Extra Rollouts (w/o entropy)69.3031.9935.5955.7811.886.4635.17
LTE (w/o entropy)71.9533.8238.4458.9116.8812.2938.72
LTE (w/ entropy)76.0034.0140.6365.1624.1718.9643.16

मुख्य निष्कर्ष:

  • LTE (w/ entropy) GRPO + Extra Rollouts की तुलना में +6.38 औसत अंक सुधार
  • AIME'24 और AIME'25 जैसे उच्च कठिनाई कार्यों पर सुधार विशेष रूप से महत्वपूर्ण है (+5.00 और +10.00)

Qwen3-8B-Base:

  • LTE (w/ entropy) औसत स्कोर 42.40, GRPO की तुलना में +1.78 सुधार
  • प्रदर्शन अपेक्षाकृत अस्थिर है, प्रशिक्षण डेटा आकार बहुत छोटा (3,236 नमूने) के कारण

Pass@k प्रदर्शन (तालिका 3)

Qwen3-4B-Base:

विधिMATH-500MinervaOlympiadAMC'23AIME'24AIME'25Avg.
Base69.8037.8739.7082.5033.3326.6748.31
GRPO (w/o entropy)77.2037.5042.0775.0026.6726.6747.52
LTE (w/ entropy)82.4042.2851.1190.0060.0040.0060.97

महत्वपूर्ण निष्कर्ष:

  • मानक GRPO Pass@k को कम करता है (47.52 vs 48.31 आधार), अन्वेषण क्षमता को नुकसान दर्शाता है
  • LTE (w/ entropy) Pass@k को 60.97 तक बड़े पैमाने पर बढ़ाता है, आधार की तुलना में +12.66
  • साबित करता है कि LTE न केवल अन्वेषण ऊपरी सीमा को नुकसान नहीं पहुंचाता, बल्कि अन्वेषण क्षमता को महत्वपूर्ण रूप से बढ़ाता है

प्रशिक्षण डेटा विश्लेषण

None-pass नमूना परिवर्तन (चित्र 3a):

  • GRPO 200 चरणों के बाद स्थिर हो जाता है, none-pass नमूनों को आगे हल नहीं कर सकता
  • Extra Rollouts केवल सीमांत सुधार लाता है
  • LTE none-pass नमूनों को लगातार कम करता है, प्रशिक्षण के बाद के चरण में भी गिरावट की प्रवृत्ति बनाए रखता है
  • LTE (w/ entropy) none-pass नमूनों को प्रारंभिक 80+ से लगभग 45 तक कम करता है

Some-pass नमूना परिवर्तन (चित्र 3b):

  • LTE प्रशिक्षण के बाद के चरण में अधिक some-pass नमूना संख्या बनाए रखता है (~60 vs ~50)
  • Some-pass नमूने गैर-शून्य ढाल प्रदान करते हैं, मुख्य सीखने का संकेत स्रोत हैं

All-pass नमूना परिवर्तन (चित्र 3c):

  • LTE कम all-pass नमूना संख्या बनाए रखता है (~5 vs ~15-20)
  • अत्यधिक निश्चितता अभिसरण से बचें, अन्वेषण क्षमता बनाए रखें

प्रशिक्षण गतिविधि विश्लेषण

सत्यापन सेट प्रदर्शन (चित्र 4a-b):

  • Pass@1: आधार विधि 100 चरणों के बाद स्थिर हो जाती है, LTE 75%+ तक लगातार सुधार करता है
  • Pass@4: आधार विधि 100 चरणों के बाद घटता है, LTE 82%+ तक लगातार सुधार करता है

नीति एंट्रॉपी (चित्र 4c):

  • सभी विधियां एंट्रॉपी क्षय का अनुभव करती हैं
  • LTE प्रशिक्षण के बाद के चरण में अपेक्षाकृत उच्च एंट्रॉपी बनाए रखता है (~0.2 vs ~0.05)
  • दर्शाता है कि LTE एक निश्चित स्तर की अनिश्चितता और अन्वेषण क्षमता बनाए रखता है

प्रतिक्रिया लंबाई (चित्र 4d):

  • आधार विधि प्रतिक्रिया लंबाई धीरे-धीरे बढ़ाती है, 250 चरणों के बाद स्थिर हो जाती है (~2500 tokens)
  • LTE प्रशिक्षण के बाद के चरण में प्रतिक्रिया लंबाई को 3500+ tokens तक बड़े पैमाने पर बढ़ाता है
  • साबित करता है कि LTE परीक्षण-समय गहन विचार (test-time deep thinking) को निहित रूप से प्रोत्साहित करता है

विलोपन प्रयोग निष्कर्ष

एंट्रॉपी हानि की भूमिका:

  • सभी विधियों के लिए प्रदर्शन सुधार लाता है
  • LTE के साथ संयोजन में सर्वोत्तम प्रभाव, एंट्रॉपी नियंत्रण और स्वायत्त अन्वेषण के सहक्रिया कार्य को दर्शाता है

Extra Rollouts की सीमा:

  • सरल rollout वृद्धि पहले से मौजूद जानकारी का पूरी तरह से उपयोग नहीं करती है
  • कभी-कभी नकारात्मक प्रभाव भी लाती है (जैसे 8B मॉडल के कुछ संकेतक)

सैद्धांतिक विश्लेषण

स्थिति स्थान छंटाई प्रमाण

विफल उप-स्थान परिभाषा: Sqf={sSq:Extract(s)Aq}S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\}, जहां AqA_q पहले से उत्पन्न गलत उत्तरों का समूह है

छंटाई उप-स्थान परिभाषा: Sq=Sq\SqfS'_q = S_q \backslash S^f_q

मुख्य प्रमेय: संकेत HqH_q (गलत उत्तर युक्त) दिया गया, सही उत्तर तक पहुंचने की संभावना बढ़ाता है:

P(sMqq,Hq,πθ)P(sMqq,πθ)α(1+δ1τ1/n)\frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right)

जहां:

  • MqM_q: सही उत्तर स्थिति समूह
  • δ>0\delta > 0: संकेत द्वारा विफल उप-स्थान संभावना में कमी
  • τ\tau: n बार लगातार विफलता देखने का आत्मविश्वास स्तर
  • αΩ(1)\alpha \sim \Omega(1): संकेत का छंटाई उप-स्थान में तर्क क्षमता पर प्रभाव कारक

निष्कर्ष: चूंकि α\alpha 1 से बहुत छोटा नहीं होना चाहिए, यह अनुपात 1 से अधिक है, साबित करता है कि संकेत सही उत्तर तक पहुंचने की संभावना बढ़ाता है।

सूचना लाभ विश्लेषण

सूचना सिद्धांत के दृष्टिकोण से:

ILTEIGRPO=I(πθ;HD)0I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0

साबित करता है कि LTE संकेत समूह HH से अतिरिक्त पारस्परिक जानकारी प्राप्त करता है, सैद्धांतिक रूप से GRPO से बेहतर है।

संबंधित कार्य

अन्वेषण क्षमता वृद्धि

  1. एंट्रॉपी नियंत्रण विधियां:
    • Clip-Cov और KL-Cov (Cui et al., 2025)
    • Clip-Higher (Yu et al., 2025)
    • अनुकूली एंट्रॉपी हानि (He et al., 2025)
  2. एंट्रॉपी नियंत्रण के बिना विधियां:
    • ऐतिहासिक पुनरावृत्ति (Dou et al., 2025)
    • Pass@k पुरस्कार (Chen et al., 2025)
    • विविधता प्रचार (Song et al., 2025)

बाहरी मार्गदर्शन सीखना

  • मिश्रित प्रशिक्षण (Yan et al., 2025; Ma et al., 2025)
  • संकेत विधियां (Zhang et al., 2025a)
  • सीमा: मानव टिप्पणी या मजबूत मॉडल पर निर्भर, उच्च लागत और सीमित उपलब्धता

इस पेपर का अंतर

  • EvoCoT (Liu et al., 2025a): ground truth उत्तर को संकेत के रूप में उपयोग करता है
  • LTE: अपने गलत उत्तर का उपयोग करता है, अधिक पूरी तरह से गणना जानकारी का उपयोग करता है, पुरस्कार हैकिंग से बचता है

Rollouts विस्तार

  • चरम Rollouts विस्तार (Hu et al., 2025)
  • अनुकूली rollout रणनीति (Li et al., 2025; Zhang et al., 2025c)
  • LTE लाभ: परीक्षण-त्रुटि जानकारी का उपयोग करता है, केवल नमूना वृद्धि नहीं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रभावशीलता सत्यापन: LTE दो LLM और छह बेंचमार्क पर GRPO और सरल extra rollouts से महत्वपूर्ण रूप से बेहतर है
  2. अन्वेषण स्थिरता कमी: none-pass नमूनों को सफलतापूर्वक कम करता है, प्रशिक्षण डेटा से लगातार सीखता है
  3. दोहरी क्षमता वृद्धि: शोषण (Pass@1) और अन्वेषण (Pass@k) दोनों को बढ़ाता है
  4. स्वायत्त सीखना: बाहरी विशेषज्ञ मार्गदर्शन के बिना क्षमता बाधा को तोड़ता है

सीमाएं

  1. कार्य सीमा: वर्तमान में केवल गणितीय तर्क पर लागू, उत्तर प्रारूप सरल
    • कोड जनरेशन जैसे कार्यों का समर्थन करने के लिए संशोधन की आवश्यकता
  2. एंट्रॉपी नियंत्रण: स्पष्ट अनुकूली एंट्रॉपी नियंत्रण एकीकृत नहीं, अभी भी इष्टतम तक नहीं पहुंच सकता
  3. पैमाना सीमा: कम्प्यूटेशनल संसाधनों द्वारा सीमित, बड़े पैमाने के मॉडल (>10B) पर सत्यापित नहीं
  4. 8B मॉडल अस्थिरता: प्रशिक्षण डेटा बहुत छोटा (3,236 नमूने) के कारण ओवरफिटिंग

भविष्य की दिशाएं

लेखक स्पष्ट रूप से चार अनुसंधान दिशाएं प्रस्तावित करते हैं:

  1. अनुकूली एंट्रॉपी नियंत्रण: LTE को गतिशील एंट्रॉपी समायोजन तंत्र के साथ संयोजित करें
  2. संकेत जानकारी बढ़ाएं: पुरस्कार हैकिंग से बचते हुए ground truth जानकारी को एकीकृत करें
  3. सूक्ष्म-दानेदार संकेत: एकल rollout स्तर पर संचयी गलत उत्तर संकेत लागू करें
  4. कार्य विस्तार: कोड जनरेशन, प्रमेय प्रमाण आदि क्षेत्रों में सामान्यीकरण करें

गहन मूल्यांकन

लाभ

1. विधि नवाचार ⭐⭐⭐⭐⭐

  • मुख्य नवाचार: पहली बार LLM के अपने गलत उत्तरों को अन्वेषण मार्गदर्शन के रूप में व्यवस्थित रूप से उपयोग करना
  • सैद्धांतिक समर्थन: स्थिति स्थान छंटाई और सूचना लाभ के सैद्धांतिक प्रमाण प्रदान करना
  • व्यावहारिक मूल्य: बाहरी संसाधन की आवश्यकता नहीं, कम लागत, मजबूत स्केलेबिलिटी

2. प्रयोग पूर्णता ⭐⭐⭐⭐

  • बहु-आयामी मूल्यांकन: 6 बेंचमार्क, 2 मॉडल, 2 संकेतक आयाम शामिल
  • गहन विश्लेषण:
    • प्रशिक्षण डेटा गतिविधि (none/some/all-pass)
    • प्रशिक्षण प्रक्रिया गतिविधि (एंट्रॉपी, प्रतिक्रिया लंबाई)
    • विलोपन प्रयोग (एंट्रॉपी हानि प्रभाव)
  • व्यापक तुलना: कई baseline और वेरिएंट शामिल

3. तकनीकी विवरण ⭐⭐⭐⭐⭐

  • अनुकूली संकेत रणनीति: ट्रंकेशन स्थिति के आधार पर गतिशील समायोजन, विचारशील डिजाइन
  • मिश्रित-नीति अनुकूलन: नियमित महत्व नमूनाकरण off-policy डेटा को संभालता है, परिपक्व तकनीक
  • कार्यान्वयन पूर्ण: विस्तृत हाइपरपैरामीटर और एल्गोरिदम छद्मकोड प्रदान करता है

4. लेखन स्पष्टता ⭐⭐⭐⭐

  • शीर्षक दार्शनिक है ("एक ही नदी में दोबारा न उतरें")
  • समृद्ध चित्र (ढांचा आरेख, संकेत टेम्पलेट, प्रशिक्षण वक्र)
  • तार्किक स्पष्ट, समस्या→विधि→प्रयोग→विश्लेषण में स्तरीय प्रगति

कमियां

1. विधि सीमाएं

  • कार्य विशिष्टता: निकालने योग्य उत्तर प्रारूप पर निर्भर, खुले-अंत उत्पादन कार्यों में स्थानांतरण कठिन
  • ट्रंकेशन हैंडलिंग सरलीकरण: सभी ट्रंकेट प्रतिक्रियाओं को अमान्य माना जाता है, कुछ उपयोगी जानकारी खो सकती है
  • संकेत डिजाइन: निश्चित संकेत टेम्पलेट इष्टतम नहीं हो सकता, स्वचालित अनुकूलन तंत्र की कमी

2. प्रयोग सेटअप दोष

  • प्रशिक्षण डेटा असंतुलन: 8B मॉडल केवल 3,236 नमूने, परिणाम अस्थिर
  • मॉडल पैमाना सीमित: 10B+ पैमाने पर सत्यापित नहीं, सामान्यीकरण संदिग्ध
  • मानव मूल्यांकन की कमी: उत्पन्न तर्क श्रृंखला की गुणवत्ता के लिए मानव विश्लेषण की कमी

3. विश्लेषण गहराई

  • गलत उत्तर गुणवत्ता: कौन से प्रकार के गलत उत्तर अधिक प्रभावी हैं, विश्लेषण नहीं
  • संकेत संवेदनशीलता: संकेत प्रारूप, गलत उत्तर संख्या के प्रभाव का व्यवस्थित अध्ययन नहीं
  • गणना लागत: अतिरिक्त rollouts द्वारा लाई गई प्रशिक्षण समय और गणना ओवरहेड की रिपोर्ट नहीं

4. सिद्धांत और व्यवहार अंतराल

  • सैद्धांतिक धारणा: स्थिति स्थान छंटाई विश्लेषण में αΩ(1)\alpha \sim \Omega(1) धारणा अनुभवजन्य सत्यापन की कमी
  • सरलीकृत हैंडलिंग: महत्व नमूनाकरण में πθold\pi_{\theta_{old}} को 1 माना जाता है, सैद्धांतिक सही होने पर संदेह

प्रभाव मूल्यांकन

शैक्षणिक मूल्य ⭐⭐⭐⭐

  • प्रतिमान परिवर्तन: बाहरी मार्गदर्शन पर निर्भरता से स्वायत्त सीखने की ओर, प्रेरणादायक
  • सैद्धांतिक योगदान: सुदृढीकरण सीखने अन्वेषण को LLM तर्क से जोड़ता है, क्रॉस-डोमेन महत्व
  • अनुवर्ती अनुसंधान: "विफलता से सीखने" प्रतिमान पर व्यापक ध्यान आकर्षित किया है

व्यावहारिक मूल्य ⭐⭐⭐⭐

  • आसान कार्यान्वयन: केवल संकेत और नमूनाकरण रणनीति संशोधन, इंजीनियरिंग अनुकूल
  • लागत अनुकूल: कोई अतिरिक्त डेटा टिप्पणी या मजबूत मॉडल की आवश्यकता नहीं
  • तत्काल लाभ: प्रयोग महत्वपूर्ण और सुसंगत प्रदर्शन सुधार दिखाता है

पुनरुत्पादनीयता ⭐⭐⭐⭐

  • विवरण पूर्ण: संपूर्ण हाइपरपैरामीटर और प्रशिक्षण कॉन्फ़िगरेशन प्रदान करता है
  • ओपन सोर्स अनुकूल: verl ढांचे पर आधारित, कोड कार्यान्वयन अपेक्षाकृत सरल
  • डेटा सार्वजनिक: सार्वजनिक डेटासेट Skywork-OR1-RL-Data का उपयोग करता है

लागू परिदृश्य

उच्च अनुप्रयोगीयता ✅

  1. गणितीय तर्क: उत्तर सत्यापन योग्य, प्रारूप मानक
  2. कोड जनरेशन: परीक्षण मामलों के माध्यम से सत्यापन संभव (अनुकूलन की आवश्यकता)
  3. तार्किक तर्क: स्पष्ट सही-गलत निर्णय वाले कार्य
  4. संसाधन-सीमित परिदृश्य: मजबूत मॉडल या मानव टिप्पणी प्राप्त नहीं कर सकते

मध्यम अनुप्रयोगीयता ⚠️

  1. खुले-अंत QA: उत्तर निष्कर्षण और सत्यापन तंत्र डिजाइन की आवश्यकता
  2. बहु-मोडल तर्क: गैर-पाठ मोडल तक विस्तार की आवश्यकता
  3. लंबा पाठ जनरेशन: ट्रंकेशन हैंडलिंग के लिए अधिक सूक्ष्म रणनीति की आवश्यकता

अनुप्रयोगीय नहीं ❌

  1. रचनात्मक लेखन: कोई उद्देश्य सही-गलत मानदंड नहीं
  2. व्यक्तिपरक कार्य: भावना विश्लेषण, शैली स्थानांतरण जैसे
  3. सत्यापन-रहित कार्य: स्वचालित सत्यापन तंत्र की कमी

मुख्य अंतर्दृष्टि

  1. "विफलता सूचना है": गलत उत्तर शोर नहीं, बल्कि समाधान स्थान को कम करने का मूल्यवान संकेत
  2. अन्वेषण-शोषण संतुलन: LTE स्वायत्त सीखने के माध्यम से दोनों को बढ़ाता है, पारंपरिक trade-off को तोड़ता है
  3. गहन विचार उद्भव: प्रतिक्रिया लंबाई वृद्धि साबित करती है कि मॉडल अधिक गणना संसाधन निवेश करना सीखता है
  4. सरलता विरोधाभास: "सरल विचार" संकेत वास्तव में जटिल समस्याओं को हल करने में मदद करता है, गुणवत्ता मात्रा से बेहतर है

संदर्भ (चयनित)

  1. DeepSeek-AI (2025): DeepSeek-R1 - सुदृढीकरण सीखने द्वारा तर्क क्षमता को प्रेरित करने का अग्रणी कार्य
  2. Shao et al. (2024): GRPO एल्गोरिदम - इस पेपर की आधार विधि
  3. Yan et al. (2025): ऑफ-नीति मार्गदर्शन सीखना - मिश्रित-नीति अनुकूलन की प्रेरणा स्रोत
  4. Cui et al. (2025): एंट्रॉपी तंत्र विश्लेषण - अन्वेषण क्षमता का सैद्धांतिक आधार

कुल मूल्यांकन: ⭐⭐⭐⭐ (4.5/5)

पढ़ने की सिफारिश: LLM तर्क, सुदृढीकरण सीखना और गणितीय समस्या समाधान में काम करने वाले शोधकर्ताओं के लिए दृढ़ता से अनुशंसित। विधि सरल और प्रभावी है, सिद्धांत और व्यवहार घनिष्ठ रूप से एकीकृत हैं, RLVR क्षेत्र में महत्वपूर्ण प्रगति है।