Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic
Reinforce-Ada: إطار عمل أخذ عينات تكيفي لتدريب نماذج اللغة الكبيرة بأسلوب التعزيز
عند تطبيق التعلم المعزز على مهام الاستدلال في نماذج اللغة الكبيرة (LLMs)، غالباً ما تؤدي استراتيجيات أخذ العينات الثابتة والموحدة إلى عدم استقرار تقدير التدرجات. تقترح هذه الورقة Reinforce-Ada، وهو إطار عمل أخذ عينات تكيفي لتدريب التعلم المعزز عبر الإنترنت لنماذج اللغة الكبيرة، يعيد تخصيص جهود أخذ العينات بشكل مستمر للمحفزات ذات أقصى عدم يقين أو إمكانية تعلم. على عكس طرق التخصيص ثنائية المرحلة التقليدية، يتشابك Reinforce-Ada بين التقدير وأخذ العينات في عملية استبعاد متسلسلة عبر الإنترنت، ويتوقف تلقائياً عن أخذ عينات من المحفزات بعد جمع إشارات كافية. لتحقيق الاستقرار في التحديثات، تشكل الطريقة مجموعات بحجم ثابت وتفرض تنوع المكافآت، مستخدمة المعلومات الإحصائية العامة المجمعة من مراحل أخذ العينات التكيفية لحساب خط الأساس للميزة.
عدم استقرار تقدير التدرج: تستخدم طرق التعلم المعزز التقليدية عدداً صغيراً ثابتاً من العينات (n) عند تدريب نماذج اللغة الكبيرة، مما يؤدي إلى تباين كبير في تقدير التدرج وعدم استقرار التدريب.
مشكلة انهيار الإشارة: عندما تحصل جميع n استجابات لمحفز معين على نفس المكافأة (كلها صحيحة أو كلها خاطئة)، يؤدي حساب الميزة في GRPO إلى تدرج صفري، مما يسبب فقدان إشارة التدريب.
انخفاض كفاءة أخذ العينات: لا تستطيع استراتيجيات أخذ العينات الموحدة تخصيص موارد حسابية ديناميكياً بناءً على صعوبة المحفز وقيمة التعلم.
اقتراح إطار عمل Reinforce-Ada للأخذ العينات التكيفي: يوحد التقدير وأخذ العينات في عملية استبعاد متسلسلة عبر الإنترنت، مع تخصيص ديناميكي لميزانية الاستدلال
تصميم شرطي خروج:
Reinforce-Ada-pos: يركز على جمع العينات الموجبة
Reinforce-Ada-balance: يوازن بين العينات الموجبة والسالبة، مع الحفاظ على الاستكشاف
إدخال التطبيع الإحصائي العام: استخدام المعلومات الإحصائية من عملية أخذ العينات بأكملها لحساب الميزة، مما يحسن استقرار التقدير
تحقيق الاستبدال الفوري: يمكن استبدال خطوة التوليد مباشرة في خطوط أنابيب التعلم المعزز الموجودة دون تعديل الهندسة المعمارية
التحقق من الفعالية على نماذج ومعايير متعددة: تحسين مستمر في سرعة التقارب والأداء النهائية في مهام الاستدلال الرياضي
تدفق الخوارزمية:
1. التهيئة: تحديد جميع المحفزات كنشطة
2. جولات أخذ عينات متعددة:
- أخذ عينات من M استجابة لكل محفز نشط
- تقييم شروط الخروج
- تحديد المحفزات التي تستوفي الشروط كغير نشطة
3. التكرار حتى خروج جميع المحفزات أو الوصول إلى الحد الأقصى للجولات N
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
الملخص: يقترح Reinforce-Ada إطار عمل أخذ عينات تكيفي مبتكر يحل بفعالية مشكلة انهيار الإشارة في التعلم المعزز لنماذج اللغة الكبيرة. على الرغم من زيادة التكاليف الحسابية، إلا أنه يحقق تحسناً ملحوظاً في كفاءة التدريب والأداء النهائي، مما يوفر منظوراً جديداً قيماً لتدريب التعلم المعزز في نماذج اللغة الكبيرة.