Recent advances in large language models have demonstrated the promise of unsupervised reinforcement learning (RL) methods for enhancing reasoning capabilities without external supervision. However, the generalizability of these label-free RL approaches to smaller base models with limited reasoning capabilities remains unexplored. In this work, we systematically investigate the performance of label-free RL methods across different model sizes and reasoning strengths, from 0.5B to 7B parameters. Our empirical analysis reveals critical limitations: label-free RL is highly dependent on the base model's pre-existing reasoning capability, with performance often degrading below baseline levels for weaker models. We find that smaller models fail to generate sufficiently long or diverse chain-of-thought reasoning to enable effective self-reflection, and that training data difficulty plays a crucial role in determining success. To address these challenges, we propose a simple yet effective method for label-free RL that utilizes curriculum learning to progressively introduce harder problems during training and mask no-majority rollouts during training. Additionally, we introduce a data curation pipeline to generate samples with predefined difficulty. Our approach demonstrates consistent improvements across all model sizes and reasoning capabilities, providing a path toward more robust unsupervised RL that can bootstrap reasoning abilities in resource-constrained models. We make our code available at https://github.com/BorealisAI/CuMa
- معرّف الورقة: 2511.04902
- العنوان: You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models
- المؤلفون: Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei (RBC Borealis)
- التصنيف: cs.LG, cs.AI
- المؤتمر المنشور: NeurIPS 2025 Workshop: MATH-AI
- رابط الورقة: https://arxiv.org/abs/2511.04902
- رابط الكود: https://github.com/BorealisAI/CuMa
تدرس هذه الورقة بشكل منهجي أداء طرق التعلم المعزز الخالي من التسميات (Label-Free RL) على نماذج لغوية بأحجام مختلفة (من 0.5B إلى 7B معامل) وقدرات استدلالية متفاوتة. تكشف الدراسة عن حد أساسي حرج: يعتمد التعلم المعزز الخالي من التسميات بشكل كبير على القدرات الاستدلالية المسبقة للنموذج الأساسي، وبالنسبة للنماذج الأضعف، غالباً ما تنخفض الأداء إلى ما دون مستوى الأساس. تكتشف الدراسة أن النماذج الصغيرة غير قادرة على توليد سلاسل تفكير (CoT) طويلة أو متنوعة كافية لتحقيق التأمل الذاتي الفعال، وأن صعوبة بيانات التدريب تلعب دوراً حاسماً في تحديد النجاح أو الفشل. لمعالجة هذه التحديات، يقترح المؤلفون طريقة CuMa التي تستخدم التعلم المنهجي لإدخال المشاكل الأصعب تدريجياً، وتقنع العينات التي تفتقر إلى نتائج التصويت بالأغلبية أثناء التدريب. تُظهر الطريقة تحسناً متسقاً عبر جميع أحجام النماذج.
في الآونة الأخيرة، يعتمد تحسين قدرات التفكير في نماذج اللغة الكبيرة بشكل أساسي على تقنيات التعلم المعزز، لكن الطرق التقليدية (مثل RLHF و RLVR) تعتمد بشكل كبير على الإشارات الإشرافية الخارجية (التسميات اليدوية أو تسميات الحقيقة الأساسية الخاصة بالمجال). لحل هذا الاختناق القابلية للتوسع، اقترح الباحثون طرق التعلم المعزز الخالي من التسميات (مثل TTRL و Intuitor)، لكن تم التحقق من هذه الطرق بشكل أساسي على نماذج كبيرة وقوية الاستدلال (مثل Qwen2.5-Math-7B). المشكلة الأساسية التي تعالجها هذه الورقة هي: هل يمكن لطرق التعلم المعزز الخالي من التسميات أن تعمم على نماذج أساسية صغيرة بقدرات استدلالية محدودة؟
- السيناريوهات محدودة الموارد: في الأجهزة الطرفية أو البيئات ذات الموارد الحسابية المحدودة، تتمتع النماذج الصغيرة بقيمة عملية أكبر
- القابلية للتوسع: فهم آليات التعلم للنماذج الصغيرة أمر حاسم لبناء أنظمة استدلالية قابلة للتوسع
- الأهمية النظرية: الكشف عن الشروط الدنيا الأساسية لتعزيز قدرات التفكير (bootstrap)
- TTRL: تقدر المكافآت من خلال التصويت بالأغلبية على بيانات الاختبار غير المسماة، لكن النماذج الصغيرة في التدريب المبكر تنتج عدداً قليلاً جداً من المخرجات الصحيحة، مما يؤدي إلى أخطاء في التسميات الزائفة
- Intuitor: يستخدم ثقة النموذج الذاتية (self-certainty) كمكافأة جوهرية، لكن النماذج الصغيرة لديها معايرة ثقة أسوأ
- نقص البحث الموجه نحو النماذج الضعيفة: لم تأخذ الطرق الموجودة في الاعتبار أنماط الفشل عندما تكون القدرات الاستدلالية الأساسية غير كافية
الكشف المنهجي من خلال التجارب عن الأسباب الجذرية لفشل طرق التعلم المعزز الخالي من التسميات على النماذج الضعيفة، واقتراح حلول موجهة، بحيث يمكن للنماذج محدودة الموارد أيضاً الاستفادة من التعلم المعزز غير الخاضع للإشراف.
- أول تحليل منهجي: يكشف عن الاختلافات في أداء طرق التعلم المعزز الخالي من التسميات عبر أحجام نماذج مختلفة (0.5B-7B)، ويكتشف ظواهر تدهور الأداء بل وانهيار كبير في النماذج الضعيفة
- النتائج الرئيسية:
- يعتمد التعلم المعزز الخالي من التسميات بشكل كبير على القدرات الاستدلالية المسبقة للنموذج الأساسي
- النماذج الصغيرة غير قادرة على توليد سلاسل تفكير طويلة أو متنوعة كافية للتأمل الذاتي
- صعوبة بيانات التدريب هي العامل الحاسم في تحديد النجاح
- طول CoT ليس انعكاساً مباشراً لقدرات التفكير القوية
- اقتراح طريقة CuMa: إطار عمل شامل يجمع بين التعلم المنهجي وإخفاء المكافآت وتوليد البيانات
- استراتيجية تدريب تدريجية من البسيط إلى المعقد
- إخفاء إشارات المكافآت للعينات التي تفتقر إلى إجماع الأغلبية
- خط أنابيب توليد بيانات يمكن التحكم في صعوبته بناءً على LLM
- التحقق التجريبي: التحقق على معايير استدلالية متعددة مثل Math 500 و GPQA و AIME24 و GSM8K و LCB، مما يثبت فعالية الطريقة عبر جميع أحجام النماذج، خاصة مع تحسن كبير للنماذج الضعيفة
الإدخال: مجموعة بيانات مشاكل استدلالية غير مسماة D={x1,...,xM} (مثل المسائل الرياضية)
الإخراج: نموذج سياسة محسّن πθ قادر على توليد سلاسل استدلالية وإجابات صحيحة
القيود: لا يمكن الوصول إلى تسميات الحقيقة الأساسية أثناء التدريب، ويمكن فقط التعلم من خلال حلول مرشحة متعددة يتم توليدها بواسطة النموذج نفسه
تقسيم مجموعة البيانات إلى K=5 مستويات صعوبة:
D=D1∪D2∪...∪DK
حيث يحتوي D1 على أبسط المشاكل و DK يحتوي على أصعب المشاكل. يتم التدريب بالترتيب D1→DK.
لكل موجه xi، يتم توليد N حل مرشح {yi(1),...,yi(N)}، وتُعرّف دالة المكافآت كما يلي:
r(xi,yi(j))=I[yi(j)=majority_vote({yi(1),...,yi(N)})]
عندما تفتقر العينة إلى إجماع الأغلبية (أي أن الحد الأقصى لعدد الظهور < 2)، يتم إخفاء إشارة التعلم الخاصة بها:
mask(xi)=I[maxj∣{k:yi(k)=yi(j)}∣≥2]
هذا يمنع النموذج من التعلم من ملاحظات الضوضاء من التنبؤات غير المؤكدة.
استخدام LLM لتوليد بيانات اصطناعية بصعوبة محددة مسبقاً:
- استراتيجية موجهة منظمة، تحدد مستوى الصعوبة بوضوح (1-5)
- توفير مشاكل نموذجية لكل مستوى كمرجع
- تحديث ديناميكي للأمثلة لزيادة التنوع
- توليد 25 عينة في كل مرة، تغطي موضوعات رياضية مختلفة
الفرق عن الأساس:
- TTRL/Intuitor: التدريب على بيانات بصعوبة ثابتة
- CuMa: البدء بمشاكل بسيطة، وزيادة الصعوبة تدريجياً
المنطق التصميمي:
- النماذج الصغيرة تقريباً غير قادرة على توليد حلول صحيحة للمشاكل الصعبة (كما هو موضح في الشكل 2، معدل الدقة المبكر لنموذج 0.5B قريب من 0)
- بناء قدرات استدلالية أساسية من المشاكل البسيطة، ثم نقلها إلى المشاكل المعقدة
- يتوافق مع القوانين المعرفية لتعلم الإنسان
نقطة الابتكار: تحديث النموذج فقط عندما يكون هناك إجماع واضح بالأغلبية
المشكلة التي يتم حلها:
- في التدريب المبكر، تكون الحلول المرشحة التي يولدها النموذج الصغير متفرقة جداً
- عدم وجود إجماع بالأغلبية يعني أن النموذج غير متأكد من هذه المشكلة
- فرض التعلم سيؤدي إلى إدخال ضوضاء، مما يسبب تدهور الأداء
الإثبات التجريبي: يُظهر جدول 2 التجارب الاستئصالية أنه بدون إخفاء المكافآت، تنخفض الأداء من 32.8 إلى 30.7
التفاصيل التقنية:
- استخدام هندسة الموجهات المنظمة لتوليد مسائل رياضية بصعوبات مختلفة
- تغطية مجالات متعددة مثل الجبر والهندسة والاحتمالات
- أخذ عينات ديناميكية من مشاكل الأمثلة لتجنب الإفراط في التدريب على أنماط معينة
الدور: توفير عينات كافية بمستويات صعوبة مختلفة لدعم التعلم المنهجي
- Math 500: 500 مسألة رياضية عالية الجودة
- GPQA: أسئلة وأجوبة فيزيائية على مستوى الدراسات العليا
- AIME24: مسائل بطولة الرياضيات الأمريكية 2024
- GSM8K: مسائل الرياضيات الابتدائية (أكثر من 8,000 مسألة)
- LCB: معيار الاستدلال المنطقي
- الدقة (Accuracy): نسبة الإجابات المولدة التي تطابق تماماً الإجابة المعيارية
- تقدم جميع التجارب دقة النسبة المئوية
- النموذج الأساسي: النموذج الأساسي بدون تدريب RL
- GRPO: التعلم المعزز الخاضع للإشراف باستخدام تسميات الحقيقة الأساسية (مرجع الحد الأعلى)
- Intuitor: التعلم المعزز الخالي من التسميات بناءً على الثقة الذاتية
- TTRL: التعلم المعزز بالتصويت بالأغلبية في وقت الاختبار
- المُحسّن: AdamW
- معدل التعلم: ذروة 3×10⁻⁶، تحلل جيبي
- استراتيجية الأخذ: توليد 8 مرشحين لكل موجه، درجة حرارة 0.6
- الحد الأقصى لطول التوليد: 3,072 رمز
- عدد الحقب: 1 حقبة
- الأجهزة: 4×NVIDIA H100 80GB GPU
- عائلة النماذج: Qwen2.5 (0.5B و 1.5B و 3B و 7B)
نموذج 0.5B:
- Base: Math 500=23.4, GSM8K=26.38
- TTRL: انهيار كامل (Math 500=0.0)
- Intuitor: انخفاض الأداء (GSM8K=0.68)
- CuMa: Math 500=32.8 (+40%)، GSM8K=32.9 (+25%)
نموذج 7B:
- Base: Math 500=58.2, GSM8K=81.5
- GRPO: 73.8, 85.67 (حد أعلى مع تسميات)
- TTRL/Intuitor: 73.6/72.2, 84.39/78.19
- CuMa: 74.0, 84.49 (قريب من الطرق المسماة)
النتائج الرئيسية:
- جميع طرق التعلم المعزز الخالي من التسميات فعالة على النماذج الكبيرة
- على النماذج الصغيرة، فقط CuMa يحقق تحسناً مستقراً، بينما تتدهور الطرق الأخرى أو تنهار
- تتجنب CuMa الانهيار على نموذج 0.5B، وتحقق تحسناً كبيراً
تُظهر CuMa تحسناً على 5 معايير استدلالية مختلفة:
- Math 500: تحسن على جميع أحجام النماذج
- GPQA: نموذج 7B من 27.77→32.32
- AIME24: نموذج 7B من 6.67→13.33 (مضاعفة)
- LCB: نموذج 3B من 5.20→8.04
يُظهر الجدول 2 مساهمة كل مكون من مكونات CuMa (نموذج 0.5B، Math 500):
| التكوين | الأداء | مقدار الانخفاض |
|---|
| CuMa الكامل | 32.8 | - |
| بدون إخفاء المكافآت | 30.7 | -6.4% |
| بدون توليد البيانات | 24.5 | -25.3% |
| بدون التعلم المنهجي | 20.1 | -38.7% |
الرؤى الرئيسية:
- التعلم المنهجي الأكثر حرجاً: بدونه، تنخفض الأداء بالقرب من الانهيار (20.1 مقابل base 23.4)
- توليد البيانات مهم: يوفر عينات كافية بمستويات صعوبة مختلفة لدعم التعلم المنهجي
- إخفاء المكافآت فعال: يمنع التعلم من إشارات الضوضاء، ويستقر التدريب
- نموذج 0.5B: في أول 50 خطوة، لا توجد تقريباً مخرجات صحيحة
- النتيجة: تصويت TTRL بالأغلبية ينتج تسميات زائفة خاطئة → انهيار النموذج
- حل CuMa: البدء بمشاكل بسيطة، يمكن توليد بعض الإجابات الصحيحة في التدريب المبكر
- نموذج 7B: الطول من 500→1400 رمز، يتضمن التأمل الذاتي
- نماذج 0.5B/1.5B: الطول يبقى 500-700، بدون نمو ملحوظ
- الاكتشاف: نمو الطول ليس مؤشراً موثوقاً للنماذج الصغيرة
اختبار مستويات صعوبة مختلفة (المستوى 1-2 إلى 1-5) على نموذج 0.5B:
- Math 500: من 0.35 عند L1-2 إلى قريب من 0 عند L1-4 (انهيار)
- GSM8K: من 0.28 تنخفض تدريجياً إلى 0.15
- الخلاصة: البيانات الصعبة جداً تؤدي إلى انهيار النموذج الصغير
- عتبة القدرات الاستدلالية: يتطلب التعلم المعزز الخالي من التسميات الحد الأدنى من القدرات الاستدلالية كشرط أساسي
- توافق البيانات والقدرات: يجب أن تتطابق صعوبة بيانات التدريب مع قدرات النموذج
- موثوقية التصويت بالأغلبية: تعتمد على قدرة النموذج الأساسي على توليد بعض الحلول الصحيحة
- عمومية التعلم المنهجي: مفيد لجميع أحجام النماذج، لكنه أكثر حرجاً للنماذج الضعيفة
- طول CoT مضلل: لا يمكن استخدامه كمؤشر وحيد لتحسن التفكير في النماذج الصغيرة
- RLHF: محاذاة النموذج من خلال ملاحظات الإنسان
- GRPO: طريقة مكافآت قائمة على القواعد للاستدلال الرياضي
- DeepSeek-R1: نموذج استدلالي واسع النطاق
- القيود: يعتمد على بيانات مسماة، القابلية للتوسع محدودة
- Self-rewarding LMs: تقييم النموذج الذاتي
- Self-play fine-tuning: تحسين المنافسة الذاتية
- DPO: تحسين التفضيل المباشر
- تمايز هذه الورقة: التركيز على قابلية تطبيق طرق RL على النماذج الضعيفة
- TTRL: التعلم المعزز بالتصويت بالأغلبية في وقت الاختبار
- Intuitor: بناءً على الثقة الذاتية
- مساهمة هذه الورقة: الكشف عن أنماط الفشل لهذه الطرق على النماذج الضعيفة واقتراح حلول
- يُستخدم التعلم المنهجي التقليدي بشكل أساسي في التعلم الخاضع للإشراف
- ابتكار هذه الورقة: أول تطبيق منهجي للتعلم المنهجي على مهام الاستدلال RL
- الاكتشاف الأساسي: التعلم المعزز الخالي من التسميات ليس "غداءً مجانياً"، يتطلب قدرات استدلالية أساسية كشرط أساسي
- آليات الفشل:
- النماذج الضعيفة غير قادرة على توليد حلول صحيحة كافية → فشل التصويت بالأغلبية
- نقص CoT متنوعة → آلية التأمل الذاتي غير فعالة
- البيانات صعبة جداً → إشارات التعلم نادرة
- فعالية الحل: تحسن CuMa الأداء عبر جميع الأحجام من 0.5B إلى 7B، خاصة مع تحسن كبير للنماذج الضعيفة
- الأهمية النظرية: الكشف عن الشروط الدنيا والمسار لتعزيز قدرات التفكير
- نطاق النموذج: التحقق فقط على نماذج Qwen، عمومية الهندسات الأخرى (مثل LLaMA و Mistral) غير معروفة
- تقييد المجال: التركيز الأساسي على الاستدلال الرياضي، ينبغي التحقق من قابلية التطبيق على أنواع استدلالية أخرى (مثل الاستدلال بالحس السليم والاستدلال المنطقي)
- تصميم المنهج: يعتمد تقسيم الصعوبة على التعريف اليدوي أو توليد LLM، يفتقد آلية تقييم الصعوبة الآلية
- التكلفة الحسابية: يتطلب توليد عدد كبير من الحلول المرشحة (8 لكل مسألة)، تكلفة الاستدلال أعلى
- عتبة القدرات الدنيا: لم يتم تحديد معيار كمي واضح لـ "القدرات الاستدلالية الكافية"
- جودة توليد البيانات: تعتمد تنوع وجودة البيانات الاصطناعية على نموذج التوليد
- المنهج التكيفي: تعديل الصعوبة ديناميكياً بناءً على أداء النموذج في الوقت الفعلي
- المكافآت الهجينة: دمج إشارات متعددة من التصويت بالأغلبية والثقة
- التحقق عبر المجالات: التوسع إلى توليد الأكواد والاستدلال العلمي وغيرها
- التحليل النظري: بناء علاقة رسمية بين قدرات الاستدلال وفعالية RL
- تحسين الكفاءة: تقليل عدد الحلول المرشحة المولدة، خفض التكاليس الحسابية
- أول كشف منهجي لظواهر فشل التعلم المعزز الخالي من التسميات على النماذج الضعيفة
- تحليل متعدد الأبعاد للأسباب الجذرية (حجم النموذج، صعوبة البيانات، طول CoT)
- الشكل 2 يوضح بصرياً آلية الانهيار في التدريب المبكر
- بسيط وفعال: ثلاثة مكونات (التعلم المنهجي، إخفاء المكافآت، توليد البيانات) لكل منها دافع واضح
- دعم نظري: التعلم المنهجي يتوافق مع نظرية العلوم المعرفية وتعلم الآلة
- قابلية التنفيذ الهندسية: سهل التنفيذ، لا يدخل مكونات جديدة معقدة
- الشمول الواسع: تغطي أربعة أحجام نماذج من 0.5B إلى 7B
- تنوع المعايير: 5 مهام استدلالية من أنواع مختلفة
- المقارنة الكاملة: تشمل الحد الأعلى المسمى (GRPO) وعدة baselines خالية من التسميات
- التجارب الاستئصالية الدقيقة: التحقق من مساهمة كل مكون على حدة
- توفير حل قابل للتطبيق للسيناريوهات محدودة الموارد (الأجهزة الطرفية، النشر منخفض التكلفة)
- الكود مفتوح المصدر، قابلية عالية للتكرار
- الطريقة عامة، قابلة للتوسع إلى نماذج RL أخرى
- البنية المنطقية صارمة: المشكلة → التحليل → الطريقة → التحقق
- تأثير بصري جيد (الأشكال 1-4 توضح الاكتشافات الرئيسية بشكل حدسي)
- ملخص المساهمات الأساسية دقيق
- نقص التحليل الرسمي: لم يتم بناء علاقة نظرية بين قدرات الاستدلال وتقارب RL
- تعريف الصعوبة غامض: يعتمد تقسيم المستويات 1-5 على الحكم الذاتي
- عتبة غير محددة كمياً: ما درجة القدرات الاستدلالية الكافية لدعم التعلم المعزز الخالي من التسميات؟
- عائلة نموذج واحدة: فقط نماذج Qwen، لم يتم استبعاد انحيازات الهندسة المعمارية
- اعتماد توليد البيانات: تعتمد جودة البيانات الاصطناعية على Qwen-72B، قد تدخل انحيازات
- نقص الدلالة الإحصائية: لم يتم الإبلاغ عن التباين والفترات الثقة من عمليات تشغيل متعددة
- عدم الإبلاغ عن التكاليف الحسابية: لم يتم الإفصاح عن وقت التدريب وساعات GPU وغيرها
- المنهج ثابت: 5 مستويات صعوبة والترتيب هي معاملات فائقة، تفتقد آلية التكيف
- التصويت بالأغلبية هش: لا يزال يعتمد على قدرة النموذج الأساسي على توليد بعض الحلول الصحيحة
- إخفاء المكافآت محافظ: قد يفوت عينات لها قيمة تعليمية في المشاكل الصعبة
- نقص حالات الفشل: لم يتم عرض الحالات التي تفشل فيها CuMa
- مقارنة التعلم البشري ناقصة: لم يتم استكشاف التشابه بين التعلم المنهجي بعمق
- الآثار طويلة الأجل غير معروفة: التدريب لحقبة واحدة فقط، استقرار التدريب المستمر غير معروف
- مهمة واحدة: الاستدلال الرياضي بشكل أساسي، أنواع استدلالية أخرى لم يتم التحقق منها بشكل كافٍ
- قيود اللغة: بيانات إنجليزية فقط، السيناريوهات متعددة اللغات لم تُؤخذ في الاعتبار
- المعرفة المتخصصة: قابلية التطبيق على المهام التي تتطلب معرفة متخصصة (مثل الطب والقانون) غير معروفة
- ملء فجوة البحث: أول دراسة منهجية لسلوك التعلم المعزز الخالي من التسميات على النماذج الضعيفة
- الإلهام المنهجي: إثبات فعالية التعلم المنهجي في مهام استدلالية RL
- التوجيه العملي: توفير مسار قابل للتطبيق لتحسين قدرات الاستدلال للنماذج الصغيرة
- الأساس النظري: وضع أساس للبحث اللاحق في آليات تعزيز قدرات الاستدلال
- النشر الطرفي: تمكين النماذج الصغيرة من التحسن من خلال RL، خفض تكاليس النشر
- تطبيقات التعليم: يمكن تطبيق استراتيجية التعلم التدريجي على أنظمة التعليم الشخصي
- أدوات البحث: يمكن للمجتمع استخدام الكود المفتوح وخط أنابيب توليد البيانات
- ✅ الكود مفتوح المصدر (GitHub)
- ✅ المعاملات الفائقة مفصلة (معدل التعلم، درجة الحرارة، طول التوليد، إلخ)
- ✅ موجهات توليد البيانات عامة (الملحق B)
- ⚠️ متطلبات الموارد الحسابية عالية (4×H100)
- ⚠️ البيانات الاصطناعية لم يتم نشرها مباشرة
- البيئات محدودة الموارد: الحاجة إلى تحسين قدرات الاستدلال على النماذج الصغيرة
- البيانات غير المسماة: وجود عدد كبير من مشاكل الاستدلالية لكن نقص الإجابات المعيارية
- التعلم التدريجي: المهام لها مستويات صعوبة واضحة (مثل التعليم والتدريب على المسابقات)
- الاستدلالات الرياضية والبرمجية: المهام ذات الإجابات الموضوعية الواضحة في المجالات المغلقة
- التوليد في المجالات المفتوحة: مثل الكتابة الإبداعية وأنظمة الحوار (لا توجد إجابات صحيحة واضحة)
- النماذج الضعيفة جداً: <0.5B أو قدرات استدلالية أساسية قريبة من العشوائية
- الأنظمة الفورية: تتطلب استجابة سريعة، لا يمكن تحمل تكاليس الأخذ المتعدد
- المهام الذاتية: مثل تحليل المشاعر والتحويل الأسلوبي (التصويت بالأغلبية بلا معنى)
- DeepSeekMath 1: معيار النماذج المفتوحة للاستدلال الرياضي
- DeepSeek-R1 2: نموذج استدلالي واسع النطاق وتدريب RL
- TTRL 3: إطار التعلم المعزز في وقت الاختبار
- Intuitor 4: التعلم المعزز غير الخاضع للإشراف بناءً على الثقة الجوهرية
- RLHF 6: الطريقة الكلاسيكية للتعلم من ملاحظات الإنسان
- PPO 7: خوارزمية تحسين السياسة القريبة
- Chain-of-Thought 8: تقنية موجهات سلسلة التفكير
- أساسيات التعلم المعزز 5: كتاب Sutton & Barto الكلاسيكي
- DPO 17: تحسين التفضيل المباشر
- Self-rewarding LMs 14-16: المكافآت الذاتية والتحسن الذاتي
تتناول هذه الورقة مشكلة فشل التعلم المعزز الخالي من التسميات على نماذج الاستدلال الضعيفة، وتجري دراسة تجريبية متعمقة وابتكار منهجي. تكمن القيمة الأساسية في الكشف عن الشروط الأساسية لتعزيز قدرات التفكير: يجب أن يمتلك النموذج الأساسي الحد الأدنى من قدرات الاستدلال ليستفيد من التعلم المعزز غير الخاضع للإشراف. تحقق طريقة CuMا من خلال التصميم التعاوني للتعلم المنهجي وإخفاء المكافآت وتوليد البيانات، بنجاح تحسين النماذج الضعيفة مثل 0.5B بشكل مستقر.
المميزات: تحديد المشكلة دقيق، الطريقة بسيطة وفعالة، التجارب شاملة، القيمة العملية عالية.
أوجه القصور: التحليل النظري ناقص، التحقق من القابلية للتعميم محدود، الدلالة الإحصائية غير موجودة.
مؤشر التوصية: ⭐⭐⭐⭐ (4/5)
موصى به للباحثين المهتمين بالاستدلالات على النماذج الصغيرة والتعلم غير الخاضع للإشراف والتعلم المنهجي. كما له قيمة مرجعية مهمة للصناعة في نشر نماذج الاستدلالية في السيناريوهات محدودة الموارد.