Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
معرّف الورقة : 2510.26109العنوان : Do Not Step Into the Same River Twice: Learning to Reason from Trial and Errorالمؤلفون : Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu (جامعة بكين وتينسنت)التصنيف : cs.LG (التعلم الآلي)تاريخ النشر : 30 أكتوبر 2025 (نسخة أولية على arXiv)رابط الورقة : https://arxiv.org/abs/2510.26109v1 تقترح هذه الورقة طريقة LTE (التعلم من التجربة والخطأ)، بهدف حل مشكلة الركود الاستكشافي في نماذج اللغة الكبيرة (LLMs) في التعلم المعزز بالمكافآت القابلة للتحقق (RLVR). تقتصر الطرق الحالية على التدريب بناءً على الاستجابات التي ينتجها النموذج نفسه، مما يحد من قدرتها على حل المشاكل التي تتجاوز حد القدرة الأولي. يتغلب LTE على هذا الاختناق من خلال الاستفادة من الإجابات الخاطئة التي أنتجها النموذج سابقاً كتلميحات، دون الحاجة إلى إرشادات خارجية من الخبراء. تظهر التجارب على Qwen3-4B-Base أن LTE يتفوق على طريقة GRPO القياسية بمتوسط 6.38 (Pass@1) و9.00 (Pass@k) عبر ستة معايير رياضية.
تتناول هذه الورقة مشكلة الركود الاستكشافي (exploration stagnation) في تدريب التعلم المعزز لنماذج اللغة الكبيرة. يتجلى هذا بشكل محدد في:
عندما تتجاوز صعوبة عينات التدريب حد القدرة الحالي للنموذج، تفشل جميع الاستجابات المأخوذة في الاجتياز (عينات none-pass)، مما يؤدي إلى دوال مزايا صفرية، وبالتالي لا يمكن للنموذج التعلم من هذه العينات.
اختناق القدرة : تحبس الطرق الحالية النموذج ضمن نطاق القدرة الأولي، مما يمنع تجاوز حده الذاتيكفاءة التدريب : عدد كبير من عينات التدريب لا توفر إشارات تعلم فعالة بسبب الركود الاستكشافيقدرة الاستدلال : يحد من تحسن الأداء في المهام التي تتطلب تفكيراً عميقاً مثل الاستدلال الرياضيتعتمد الحلول الموجودة بشكل أساسي على الإرشادات الخارجية:
الإجابات القياسية المعلمة يدوياً : تكاليف عالية، قابلية توسع ضعيفةسلاسل الاستدلال التي ينتجها نموذج أقوى : غير متاحة عند تدريب النماذج الرائدةزيادة عدد العينات المأخوذة ببساطة : لا تستفيد من معلومات rollout الموجودة، كفاءة منخفضةاقتراح طريقة التعلم المستقل ، تستفيد فقط من تجربة النموذج الخاصة به من التجربة والخطأ، دون الحاجة إلى أي إرشادات خارجية من الخبراء للتغلب على اختناق الاستكشاف.
اقتراح طريقة LTE : أول طريقة تستفيد من تجربة النموذج الخاصة به من التجربة والخطأ (الإجابات الخاطئة) كتلميحات لحل الركود الاستكشافي، دون إرشادات خارجية من الخبراءآلية تحسين السياسة المختلطة : تصميم إطار عمل يجمع بين عينات on-policy و off-policy، مع معالجة أخذ العينات الأهمية المنتظمة للحلول الصحيحة الناتجة عن التلميحاتالتحقق التجريبي الشامل : التحقق من الفعالية على نموذجين LLM (4B و8B) وستة معايير رياضية، مع تحسن كبير في أداء Pass@1 و Pass@kتحليل الآليات العميقة :إثبات نظري أن LTE يزيد احتمالية الوصول إلى الإجابة الصحيحة تحليل تجريبي يؤكد أن LTE يخفف بنجاح الركود الاستكشافي الكشف عن أن LTE يعزز قدرات الاستغلال والاستكشاف معاً الإدخال : استعلام مشكلة رياضية q ∼ D q \sim D q ∼ D الإخراج : سلسلة استدلال وإجابة نهائية o o o الهدف : تعظيم احتمالية توليد إجابة صحيحة من خلال RLVR، مع تجاوز حد القدرة الأولي للنموذج
يتضمن اللب الأساسي لـ LTE ثلاث مراحل:
لكل مشكلة تدريب q q q ، أخذ عينة من G G G استجابة { o 1 , o 2 , . . . , o G } \{o_1, o_2, ..., o_G\} { o 1 , o 2 , ... , o G } ، والتحقق من صحتها.
بالنسبة لـ عينات none-pass (فشل جميع rollouts الأولية)، اختر استراتيجية التلميح بناءً على حالة القطع:
أ) All-truncated (جميع الاستجابات مقطوعة)
قالب التلميح: "Let's think concisely and output the final answer within \boxed{}."
يُعزى إلى استجابات طويلة جداً، يلمح النموذج للتفكير بإيجاز.
ب) Some-truncated (بعض الاستجابات مقطوعة)
قالب التلميح: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."
جمع الإجابات الخاطئة من الاستجابات غير المقطوعة كتلميح، مع طلب الإيجاز.
ج) None-truncated (لا توجد استجابات مقطوعة)
قالب التلميح: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."
توفير تلميحات الإجابات الخاطئة فقط، السماح بطول استدلال عادي.
بناءً على قالب التلميح المختار، أخذ عينة من G G G rollouts إضافية { o 1 h i n t e d , o 2 h i n t e d , . . . , o G h i n t e d } \{o_1^{hinted}, o_2^{hinted}, ..., o_G^{hinted}\} { o 1 hin t e d , o 2 hin t e d , ... , o G hin t e d } .
إذا كان هناك G ′ G' G ′ حل صحيح { o 1 ′ , . . . , o G ′ ′ } \{o'_1, ..., o'_{G'}\} { o 1 ′ , ... , o G ′ ′ } في rollouts الإضافية، استبدل عشوائياً G ′ G' G ′ استجابة من rollouts الأولية.
التقنية الرئيسية : استخدام أخذ العينات الأهمية المنتظمة لمعالجة العينات off-policy:
r ^ i , t ′ ( θ ) = π θ ( o i , t ′ ∣ q , o i , < t ) π θ o l d ( o i , t ′ ∣ H q , q , o i , < t ) \hat{r}'_{i,t}(\theta) = \frac{\pi_\theta(o'_{i,t} | q, o_{i,<t})}{\pi_{\theta_{old}}(o'_{i,t} | H_q, q, o_{i,<t})} r ^ i , t ′ ( θ ) = π θ o l d ( o i , t ′ ∣ H q , q , o i , < t ) π θ ( o i , t ′ ∣ q , o i , < t )
f ( r ^ i , t ′ ( θ ) ) = r ^ i , t ′ ( θ ) r ^ i , t ′ ( θ ) + γ f(\hat{r}'_{i,t}(\theta)) = \frac{\hat{r}'_{i,t}(\theta)}{\hat{r}'_{i,t}(\theta) + \gamma} f ( r ^ i , t ′ ( θ )) = r ^ i , t ′ ( θ ) + γ r ^ i , t ′ ( θ )
حيث γ = 0.1 \gamma = 0.1 γ = 0.1 ، و H q H_q H q هي معلومات التلميح.
دالة الهدف للسياسة المختلطة :
J M i x e d ( θ ) = E q , { o i ′ , o s i } [ 1 Z ′ ∑ i = 1 G ′ ∑ t = 1 ∣ o i ′ ∣ ( f ( r ^ i , t ′ ( θ ) ) ⋅ A ^ i , t ′ ) + 1 Z ∑ i = 1 G − G ′ ∑ t = 1 ∣ o s i ∣ CLIP ( r s i , t ( θ ) , A ^ s i , t , ϵ ) ] J_{Mixed}(\theta) = \mathbb{E}_{q,\{o'_i, o_{s_i}\}} \left[ \frac{1}{Z'} \sum_{i=1}^{G'} \sum_{t=1}^{|o'_i|} (f(\hat{r}'_{i,t}(\theta)) \cdot \hat{A}'_{i,t}) + \frac{1}{Z} \sum_{i=1}^{G-G'} \sum_{t=1}^{|o_{s_i}|} \text{CLIP}(r_{s_i,t}(\theta), \hat{A}_{s_i,t}, \epsilon) \right] J M i x e d ( θ ) = E q , { o i ′ , o s i } [ Z ′ 1 ∑ i = 1 G ′ ∑ t = 1 ∣ o i ′ ∣ ( f ( r ^ i , t ′ ( θ )) ⋅ A ^ i , t ′ ) + Z 1 ∑ i = 1 G − G ′ ∑ t = 1 ∣ o s i ∣ CLIP ( r s i , t ( θ ) , A ^ s i , t , ϵ ) ]
آلية التعلم المستقل : لا تعتمد على الإشراف الخارجي، تستفيد فقط من الأخطاء التي ينتجها النموذج نفسهالإجابات الخاطئة كـ "دروس معاكسة"، تقلل مساحة الحل تشير للنموذج لتجنب تكرار نفس الأخطاء قص مساحة الحالة : يظهر التحليل النظري أن التلميح يقص مساحة الحالة من S q S_q S q إلى S q ′ = S q \ S q f S'_q = S_q \backslash S^f_q S q ′ = S q \ S q f (استبعاد مساحة الفشل)، مما يزيد احتمالية الوصول للإجابة الصحيحةاستراتيجية تلميح تكيفية : ضبط محتوى التلميح ديناميكياً بناءً على حالة القطعمعالجة مشكلة الاستجابات الطويلة جداً موازنة عمق الاستكشاف والكفاءة تدريب السياسة المختلطة : معالجة أنيقة لبيانات on-policy و off-policyالحفاظ على استقرار التدريب الاستفادة الكاملة من معلومات rollouts الإضافية بيانات التدريب : Skywork-OR1-RL-Data
Qwen3-4B-Base: مجموعة المستوى 1، 9,189 عينة Qwen3-8B-Base: مجموعة المستوى 3، 3,236 عينة معيار الاختيار: صعوبة متوسطة، ضمان أفضل قابلية للتعلم ستة معايير اختبار رياضية :
MATH-500 : أخذ عينة 4 مرات، الإبلاغ عن Mean@4 و Pass@4Minerva : أخذ عينة 4 مرات، الإبلاغ عن Mean@4 و Pass@4OlympiadBench : أخذ عينة 4 مرات، الإبلاغ عن Mean@4 و Pass@4AMC'23 : أخذ عينة 16 مرة، الإبلاغ عن Mean@16 و Pass@16AIME'24 : أخذ عينة 16 مرة، الإبلاغ عن Mean@16 و Pass@16AIME'25 : أخذ عينة 16 مرة، الإبلاغ عن Mean@16 و Pass@16المقاييس الأساسية :
Pass@1 : دقة أخذ العينة الفردية (قدرة الاستغلال)Pass@k : احتمالية الحصول على إجابة صحيحة واحدة على الأقل من k عينة (حد الاستكشاف)Base : أداء النموذج الأساسيGRPO : Group Relative Policy Optimization القياسيGRPO + Extra Rollouts : زيادة بسيطة من rollouts لعينات none-pass (بدون تلميح)LTE : طريقة هذه الورقةيتم اختبار كل طريقة في نسختين:
بدون خسارة الإنتروبيا : عدم استخدام خسارة الإنتروبيامع خسارة الإنتروبيا : إضافة خسارة إنتروبيا بمعامل 0.003إطار العمل : verlالمعاملات الفائقة الرئيسية :
معدل التعلم: 1e-6 خطوات التدريب: 300 حجم الدفعة: 128 عدد العينات لكل موجه: 8 درجة الحرارة: 1.0 (التدريب)، 0.6 (التقييم) أقصى طول استجابة: 16,384 (التدريب)، 32,768 (التقييم) معامل KL: 0.001 نسبة القص: 0.2 إعدادات التقييم : الامتثال الصارم للبروتوكول القياسي، التلميحات المستخدمة في التدريب فقط أثناء مرحلة التدريب، وليس أثناء التقييم.
Qwen3-4B-Base :
الطريقة MATH-500 Minerva Olympiad AMC'23 AIME'24 AIME'25 المتوسط Base 45.40 19.49 22.81 35.31 8.75 3.75 22.59 GRPO (بدون إنتروبيا) 69.65 32.17 34.33 50.62 12.08 4.38 33.87 Extra Rollouts (بدون إنتروبيا) 69.30 31.99 35.59 55.78 11.88 6.46 35.17 LTE (بدون إنتروبيا) 71.95 33.82 38.44 58.91 16.88 12.29 38.72 LTE (مع إنتروبيا) 76.00 34.01 40.63 65.16 24.17 18.96 43.16
النتائج الرئيسية :
LTE (مع إنتروبيا) يتفوق على GRPO + Extra Rollouts بـ +6.38 نقطة متوسطة التحسن خاص بشكل خاص في المهام عالية الصعوبة مثل AIME'24 و AIME'25 (+5.00 و +10.00) Qwen3-8B-Base :
متوسط درجة LTE (مع إنتروبيا) 42.40، تحسن +1.78 مقارنة بـ GRPO الأداء غير مستقرة نسبياً، يُعزى إلى صغر حجم بيانات التدريب (3,236 عينة) Qwen3-4B-Base :
الطريقة MATH-500 Minerva Olympiad AMC'23 AIME'24 AIME'25 المتوسط Base 69.80 37.87 39.70 82.50 33.33 26.67 48.31 GRPO (بدون إنتروبيا) 77.20 37.50 42.07 75.00 26.67 26.67 47.52 LTE (مع إنتروبيا) 82.40 42.28 51.11 90.00 60.00 40.00 60.97
النتائج المهمة :
GRPO القياسي يقلل Pass@k (47.52 مقابل 48.31 الخط الأساسي)، مما يشير إلى ضعف قدرة الاستكشاف LTE (مع إنتروبيا) يزيد Pass@k بشكل كبير إلى 60.97، +12.66 مقارنة بالخط الأساسي يثبت أن LTE لا يضر حد الاستكشاف فحسب، بل يعزز قدرة الاستكشاف بشكل كبير تغيير عينات None-pass (الشكل 3a):
GRPO يتوقف بعد 200 خطوة، غير قادر على حل المزيد من عينات none-pass Extra Rollouts يجلب فقط تحسناً هامشياً LTE يستمر في تقليل عينات none-pass ، مع الحفاظ على اتجاه هبوطي في المراحل المتأخرة من التدريبLTE (مع إنتروبيا) يقلل عينات none-pass من 80+ أولياً إلى حوالي 45 تغيير عينات Some-pass (الشكل 3b):
LTE يحافظ على عدد أعلى من عينات some-pass في المراحل المتأخرة من التدريب (~60 مقابل ~50) عينات some-pass توفر تدرجات غير صفرية، وهي مصدر إشارة التعلم الرئيسي تغيير عينات All-pass (الشكل 3c):
LTE يحافظ على عدد أقل من عينات all-pass (~5 مقابل ~15-20) يتجنب التقارب الحتمي المفرط، مما يحافظ على قدرة الاستكشاف أداء مجموعة التحقق (الشكل 4a-b):
Pass@1: الطرق الأساسية تتوقف بعد 100 خطوة، LTE يستمر في التحسن إلى 75%+ Pass@4: الطرق الأساسية تنخفض بعد 100 خطوة، LTE يستمر في التحسن إلى 82%+ إنتروبيا السياسة (الشكل 4c):
جميع الطرق تشهد تراجع الإنتروبيا LTE يحافظ على إنتروبيا نسبياً أعلى في المراحل المتأخرة من التدريب (~0.2 مقابل ~0.05) يشير إلى أن LTE يحافظ على درجة معينة من عدم اليقين وقدرة الاستكشاف طول الاستجابة (الشكل 4d):
طول استجابة الطرق الأساسية ينمو ببطء، يتوقف بعد 250 خطوة (~2500 رمز) LTE يزيد طول الاستجابة بشكل كبير في المراحل المتأخرة من التدريب إلى 3500+ رمز يثبت أن LTE يشجع بشكل ضمني على التفكير العميق في وقت الاختبار دور خسارة الإنتروبيا :
يجلب تحسناً في الأداء لجميع الطرق التأثير الأفضل عند دمجه مع LTE، مما يشير إلى التآزر بين التحكم بالإنتروبيا والاستكشاف المستقل قيود Extra Rollouts :
زيادة بسيطة من rollouts لم تستفد بشكل كامل من المعلومات الموجودة أحياناً تجلب تأثيراً سلبياً (مثل بعض المقاييس في نموذج 8B) تعريف مساحة الفشل : S q f = { s ∈ S q : Extract ( s ) ∈ A q } S^f_q = \{s \in S_q : \text{Extract}(s) \in A_q\} S q f = { s ∈ S q : Extract ( s ) ∈ A q } ، حيث A q A_q A q هي مجموعة الإجابات الخاطئة المولدة
تعريف مساحة القص : S q ′ = S q \ S q f S'_q = S_q \backslash S^f_q S q ′ = S q \ S q f
النظرية الأساسية : بالنظر إلى التلميح H q H_q H q (يحتوي على إجابات خاطئة)، يزداد احتمال الوصول إلى الإجابة الصحيحة:
P ( s ∈ M q ∣ q , H q , π θ ) P ( s ∈ M q ∣ q , π θ ) ≥ α ⋅ ( 1 + δ 1 − τ 1 / n ) \frac{P(s \in M_q | q, H_q, \pi_\theta)}{P(s \in M_q | q, \pi_\theta)} \geq \alpha \cdot \left(1 + \frac{\delta}{1-\tau^{1/n}}\right) P ( s ∈ M q ∣ q , π θ ) P ( s ∈ M q ∣ q , H q , π θ ) ≥ α ⋅ ( 1 + 1 − τ 1/ n δ )
حيث:
M q M_q M q : مجموعة حالات الإجابة الصحيحةδ > 0 \delta > 0 δ > 0 : كمية تقليل احتمال مساحة الفشل الناجمة عن التلميحτ \tau τ : مستوى الثقة لملاحظة n فشل متتاليα ∼ Ω ( 1 ) \alpha \sim \Omega(1) α ∼ Ω ( 1 ) : عامل تأثير التلميح على قدرة الاستدلال داخل مساحة القصالخلاصة : نظراً لأن α \alpha α لا يجب أن تكون أقل بكثير من 1، فإن هذه النسبة أكبر من 1، مما يثبت أن التلميح يزيد احتمالية الوصول إلى الإجابة الصحيحة.
من منظور نظرية المعلومات:
I L T E − I G R P O = I ( π θ ; H ∣ D ) ≥ 0 I_{LTE} - I_{GRPO} = I(\pi_\theta; H | D) \geq 0 I L TE − I GRPO = I ( π θ ; H ∣ D ) ≥ 0
يثبت أن LTE يحصل على معلومات متبادلة إضافية من مجموعة التلميحات H H H ، وهو نظرياً أفضل من GRPO.
طرق التحكم بالإنتروبيا :Clip-Cov و KL-Cov (Cui et al., 2025) Clip-Higher (Yu et al., 2025) خسارة الإنتروبيا التكيفية (He et al., 2025) طرق بدون التحكم بالإنتروبيا :إعادة تشغيل السجل (Dou et al., 2025) مكافآت Pass@k (Chen et al., 2025) تعزيز التنوع (Song et al., 2025) التدريب المختلط (Yan et al., 2025; Ma et al., 2025) طرق التلميح (Zhang et al., 2025a) القيود : تعتمد على التعليقات اليدوية أو نماذج أقوى، تكاليف عالية وتوفر محدودEvoCoT (Liu et al., 2025a): استخدام إجابات ground truth كتلميحاتLTE : استخدام الإجابات الخاطئة الخاصة بها، استفادة أكثر اكتمالاً من المعلومات الحسابية، تجنب قرصنة المكافآتتوسيع rollouts الشديد (Hu et al., 2025) استراتيجية rollout التكيفية (Li et al., 2025; Zhang et al., 2025c) مزايا LTE : الاستفادة من معلومات التجربة والخطأ، بدلاً من زيادة العينات البسيطةالتحقق من الفعالية : يتفوق LTE بشكل كبير على GRPO و extra rollouts البسيطة على نموذجين LLM وستة معاييرتخفيف الركود الاستكشافي : ينجح في تقليل عينات none-pass، مع الاستمرار في التعلم من بيانات التدريبتحسن القدرات المزدوجة : يعزز الاستغلال (Pass@1) والاستكشاف (Pass@k) معاًالتعلم المستقل : يتغلب على اختناق القدرة دون إرشادات خارجية من الخبراءقيود المهام : حالياً ينطبق فقط على الاستدلال الرياضي، بتنسيق إجابة مختصريتطلب تعديلات لدعم مهام مثل توليد الأكواد التحكم بالإنتروبيا : لم يتم دمج التحكم بالإنتروبيا التكيفي الصريح، قد لا يزال بعيداً عن الأمثلقيود الحجم : محدود بموارد الحوسبة، لم يتم التحقق على نماذج كبيرة (>10B)عدم استقرار نموذج 8B : بيانات التدريب صغيرة جداً (3,236 عينة) تؤدي إلى الإفراط في التدريبيحدد المؤلفون بوضوح أربعة اتجاهات بحثية:
التحكم بالإنتروبيا التكيفي : دمج LTE مع آليات ضبط الإنتروبيا الديناميكيةتعزيز معلومات التلميح : دمج معلومات ground truth مع تجنب قرصنة المكافآتتلميحات دقيقة الحبيبات : تطبيق تلميحات الإجابات الخاطئة المتراكمة على مستوى rollout الفرديتوسيع المهام : التعميم على مجالات مثل توليد الأكواد وإثبات النظرياتالابتكار الأساسي : أول استفادة منهجية من إجابات LLM الخاطئة كإرشادات استكشافيةالدعم النظري : توفير إثبات نظري لقص مساحة الحالة والكسب المعلوماتيالقيمة العملية : بدون موارد خارجية، تكاليف منخفضة، قابلية توسع قويةالتقييم متعدد الأبعاد : يغطي 6 معايير، نموذجين، بعدي مقياسالتحليل العميق :
ديناميات بيانات التدريب (none/some/all-pass) ديناميات عملية التدريب (الإنتروبيا، طول الاستجابة) دراسات استئصالية (تأثير خسارة الإنتروبيا) المقارنة الشاملة : تتضمن عدة baselines ومتغيراتاستراتيجية تلميح تكيفية : ضبط ديناميكي بناءً على حالة القطع، اعتبار شاملتحسين السياسة المختلطة : معالجة أخذ العينات الأهمية المنتظمة لبيانات off-policy، تقنية ناضجةالتنفيذ الكامل : توفير معاملات فائقة مفصلة وأكواد خوارزميةعنوان غني بالفلسفة ("عدم الدخول إلى نفس النهر مرتين") رسوم بيانية غنية (رسوم توضيحية للإطار، قوالب التلميح، منحنيات التدريب) منطق واضح، تقدم من المشكلة → الطريقة → التجارب → التحليل خصوصية المهام : تعتمد على تنسيق إجابة قابل للاستخراج، يصعب نقله مباشرة إلى مهام الإنشاء المفتوحةمعالجة القطع مبسطة : معاملة جميع الاستجابات المقطوعة كغير صحيحة، قد تفقد معلومات مفيدة جزئيةتصميم التلميح : قوالب تلميح ثابتة قد لا تكون مثالية، تفتقد آلية التحسين التلقائيعدم توازن بيانات التدريب : نموذج 8B يحتوي على 3,236 عينة فقط، مما يؤدي إلى نتائج غير مستقرةقيود حجم النموذج : لم يتم التحقق على نماذج بحجم 10B+، قابلية التعميم موضع شكغياب التقييم البشري : نقص التحليل اليدوي لجودة سلاسل الاستدلال المولدةجودة الإجابات الخاطئة : لم يتم تحليل أنواع الأخطاء الأكثر فعاليةحساسية التلميح : لم يتم البحث المنهجي عن تأثير تنسيق التلميح وعدد الإجابات الخاطئةالتكاليف الحسابية : لم يتم الإبلاغ عن وقت التدريب الإضافي والنفقات الحسابية من rollouts الإضافيةافتراضات نظرية : افتراض α ∼ Ω ( 1 ) \alpha \sim \Omega(1) α ∼ Ω ( 1 ) في تحليل قص مساحة الحالة يفتقد التحقق التجريبيمعالجة مبسطة : معاملة π θ o l d \pi_{\theta_{old}} π θ o l d كـ 1 في أخذ العينات الأهمية، الصحة النظرية تتطلب مزيد من الحججتحول النموذج : من الاعتماد على الإرشادات الخارجية إلى التعلم المستقل، قوة إلهام عاليةالمساهمة النظرية : ربط التعلم المعزز والاستكشاف مع استدلال LLM، معنى عابر للمجالاتالبحث اللاحق : أثار بالفعل اهتماماً واسعاً بنموذج "التعلم من الفشل"سهولة التنفيذ : تعديل بسيط للموجهات واستراتيجية العينات، صديقة للهندسةكفاءة التكاليف : بدون تعليقات بيانات إضافية أو نماذج أقوىالفوائد الفورية : التجارب تظهر تحسناً كبيراً ومتسقاً في الأداءاكتمال التفاصيل : توفير معاملات فائقة كاملة وإعدادات التدريبودية المصدر المفتوح : بناءً على إطار verl، التنفيذ نسبياً بسيطالبيانات العامة : استخدام مجموعة بيانات عامة Skywork-OR1-RL-Dataالاستدلال الرياضي : الإجابات قابلة للتحقق، التنسيق منتظمتوليد الأكواد : يمكن التحقق من خلال حالات الاختبار (يتطلب التكيف)الاستدلال المنطقي : مهام بحكم صحيح/خطأ واضحسيناريوهات الموارد المحدودة : عدم القدرة على الوصول إلى نماذج أقوى أو تعليقات يدويةالإجابة على الأسئلة المفتوحة : يتطلب تصميم آليات استخراج الإجابات والتحققالاستدلال متعدد الأنماط : يتطلب توسيع إلى أنماط غير نصيةتوليد النصوص الطويلة : استراتيجيات معالجة القطع تتطلب دقة أكثرالكتابة الإبداعية : لا توجد معايير صحة/خطأ موضوعيةالمهام الذاتية : مثل تحليل المشاعر، نقل الأسلوبمهام بدون محقق : نقص آلية التحقق التلقائي"الفشل كمعلومات" : الإجابات الخاطئة ليست ضوضاء، بل إشارات قيمة لتقليل مساحة الحلتوازن الاستكشاف-الاستغلال : يحقق LTE تعزيز كلاهما معاً من خلال التعلم المستقل، كسر المقايضة التقليديةظهور التفكير العميق : زيادة طول الاستجابة تثبت أن النموذج تعلم استثمار موارد حسابية أكثرمفارقة الإيجاز : طلب "التفكير بإيجاز" يساعد في حل المشاكل المعقدة، يجسد جودة تفوق الكميةDeepSeek-AI (2025) : DeepSeek-R1 - عمل رائد في تحفيز قدرات الاستدلال من خلال التعلم المعززShao et al. (2024) : خوارزمية GRPO - الطريقة الأساسية لهذه الورقةYan et al. (2025) : التعلم بالإرشادات خارج السياسة - مصدر إلهام لتحسين السياسة المختلطةCui et al. (2025) : تحليل آليات الإنتروبيا - الأساس النظري لقدرات الاستكشافالتقييم الإجمالي : ⭐⭐⭐⭐ (4.5/5)
التوصية بالقراءة : يُنصح بشدة للباحثين العاملين في استدلال LLM والتعلم المعزز وحل المشاكل الرياضية. الطريقة بسيطة وفعالة، والربط بين النظرية والممارسة وثيق، وهي تمثل تقدماً مهماً في مجال RLVR.