2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.

Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.

academic

Reinforce-Ada: إطار عمل أخذ عينات تكيفي لتدريب نماذج اللغة الكبيرة بأسلوب التعزيز

المعلومات الأساسية

معرّف الورقة: 2510.04996
العنوان: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
المؤلفون: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
التصنيف: cs.LG cs.AI cs.CL stat.ML
تاريخ النشر: أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2510.04996
رابط الكود: https://github.com/RLHFlow/Reinforce-Ada

الملخص

عند تطبيق التعلم المعزز على مهام الاستدلال في نماذج اللغة الكبيرة (LLMs)، غالباً ما تؤدي استراتيجيات أخذ العينات الثابتة والموحدة إلى عدم استقرار تقدير التدرجات. تقترح هذه الورقة Reinforce-Ada، وهو إطار عمل أخذ عينات تكيفي لتدريب التعلم المعزز عبر الإنترنت لنماذج اللغة الكبيرة، يعيد تخصيص جهود أخذ العينات بشكل مستمر للمحفزات ذات أقصى عدم يقين أو إمكانية تعلم. على عكس طرق التخصيص ثنائية المرحلة التقليدية، يتشابك Reinforce-Ada بين التقدير وأخذ العينات في عملية استبعاد متسلسلة عبر الإنترنت، ويتوقف تلقائياً عن أخذ عينات من المحفزات بعد جمع إشارات كافية. لتحقيق الاستقرار في التحديثات، تشكل الطريقة مجموعات بحجم ثابت وتفرض تنوع المكافآت، مستخدمة المعلومات الإحصائية العامة المجمعة من مراحل أخذ العينات التكيفية لحساب خط الأساس للميزة.

خلفية البحث والدافع

المشاكل الأساسية

عدم استقرار تقدير التدرج: تستخدم طرق التعلم المعزز التقليدية عدداً صغيراً ثابتاً من العينات (n) عند تدريب نماذج اللغة الكبيرة، مما يؤدي إلى تباين كبير في تقدير التدرج وعدم استقرار التدريب.
مشكلة انهيار الإشارة: عندما تحصل جميع n استجابات لمحفز معين على نفس المكافأة (كلها صحيحة أو كلها خاطئة)، يؤدي حساب الميزة في GRPO إلى تدرج صفري، مما يسبب فقدان إشارة التدريب.
انخفاض كفاءة أخذ العينات: لا تستطيع استراتيجيات أخذ العينات الموحدة تخصيص موارد حسابية ديناميكياً بناءً على صعوبة المحفز وقيمة التعلم.

أهمية المشكلة

في مهام الاستدلال الرياضي، يقع أكثر من 50% من المحفزات في حالة "تدرج صفري"
زيادة عدد العينات ببساطة، على الرغم من أنها تخفف المشكلة، إلا أن التكلفة الحسابية مرتفعة جداً (مثل زيادة التكاليف عند n=512)
تؤدي طرق التصفية السلبية الموجودة إلى فقدان عدد كبير من الاستجابات المولدة بالفعل، مما يسبب هدراً للموارد

قيود الطرق الموجودة

أخذ العينات الثابت في GRPO: لا يمكن التكيف مع الاختلافات في صعوبة المحفزات المختلفة
طرق التصفية السلبية: تنتج عدداً كبيراً من الاستجابات غير المفيدة ثم تتخلص منها، مما يقلل الكفاءة
تخصيص الميزانية ثنائي المرحلة: تفصل طرق مثل GVM-RAFT بين التقدير وأخذ العينات، مما يقلل الكفاءة ويصعب التنفيذ عبر الإنترنت

المساهمات الأساسية

اقتراح إطار عمل Reinforce-Ada للأخذ العينات التكيفي: يوحد التقدير وأخذ العينات في عملية استبعاد متسلسلة عبر الإنترنت، مع تخصيص ديناميكي لميزانية الاستدلال
تصميم شرطي خروج:
- Reinforce-Ada-pos: يركز على جمع العينات الموجبة
- Reinforce-Ada-balance: يوازن بين العينات الموجبة والسالبة، مع الحفاظ على الاستكشاف
إدخال التطبيع الإحصائي العام: استخدام المعلومات الإحصائية من عملية أخذ العينات بأكملها لحساب الميزة، مما يحسن استقرار التقدير
تحقيق الاستبدال الفوري: يمكن استبدال خطوة التوليد مباشرة في خطوط أنابيب التعلم المعزز الموجودة دون تعديل الهندسة المعمارية
التحقق من الفعالية على نماذج ومعايير متعددة: تحسين مستمر في سرعة التقارب والأداء النهائية في مهام الاستدلال الرياضي

شرح الطريقة

تعريف المهمة

بالنظر إلى توزيع المحفزات d₀، تولد السياسة πθ استجابات a～πθ(·|x)، ويعطي المدقق مكافأة r⋆(x,a)∈{0,1}. الهدف هو تعظيم المكافأة المتوقعة:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

بنية الخوارزمية الأساسية

1. عملية أخذ العينات التكيفية

تدفق الخوارزمية:
1. التهيئة: تحديد جميع المحفزات كنشطة
2. جولات أخذ عينات متعددة:
   - أخذ عينات من M استجابة لكل محفز نشط
   - تقييم شروط الخروج
   - تحديد المحفزات التي تستوفي الشروط كغير نشطة
3. التكرار حتى خروج جميع المحفزات أو الوصول إلى الحد الأقصى للجولات N

2. تصميم شروط الخروج

Reinforce-Ada-pos: الخروج بعد جمع استجابة صحيحة واحدة على الأقل
Reinforce-Ada-balance: الخروج بعد جمع n/2 استجابة صحيحة و n/2 استجابة خاطئة على الأقل

3. بناء دفعات التدريب

أخذ عينات فرعية من مجموعة الاستجابات لكل محفز إلى حجم ثابت n
إعطاء الأولوية للحفاظ على التوازن بين العينات الموجبة والسالبة (n/2 لكل منهما)
استخدام الإحصائيات العامة لحساب الميزة: A(x,aᵢ) = rᵢ - r̄

4. دالة الهدف

استخدام تصحيح أهمية العينات وقص التدرج بأسلوب PPO:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

نقاط الابتكار التقني

العملية الموحدة عبر الإنترنت: دمج التقدير والقرار من الطرق ثنائية المرحلة التقليدية في عملية موحدة عبر الإنترنت
آلية الاستبعاد المتسلسل: الاستفادة من أفكار آلات الجرب متعددة الأذرع، مع التوقف الديناميكي عن المحفزات التي لا تحتاج إلى مزيد من أخذ العينات
استراتيجية التطبيع العام: استخدام المعلومات الإحصائية من مجموعة أخذ العينات الكاملة بدلاً من المجموعة الفرعية النهائية، مما يحسن قوة التقدير
ضمان أخذ العينات المتوازن: ضمان أن تحتوي كل مجموعة تدريب على تباين غير صفري، مما يتجنب اختفاء التدرج

إعداد التجارب

مجموعات البيانات

بيانات التدريب: مجموعة فرعية افتراضية من مجموعة بيانات OpenR1-Math-220k
المعالجة المسبقة: إزالة التكرار، تصفية التحقق، تصفية الصعوبة المتوسطة (صحيح واحد على الأقل من 16 عينة)

النماذج

Qwen2.5-Math-7B/1.5B
Qwen3-4B-it
Llama-3.2-3B-it

مقاييس التقييم

مقاييس التدريب: منحنيات المكافآت، تغييرات الإنتروبيا
معايير الاختبار: MATH500, Minerva Math, OlympiadBench, AIME-like
طريقة التقييم: Ave@32 (درجة حرارة 1.0، الحد الأقصى 4096 رمز)

تفاصيل التنفيذ

حجم الدفعة: 512 محفز
حجم المجموعة الفعال: n=4
الحد الأقصى لعدد العينات: 32 استجابة/محفز
معدل التعلم: 1×10⁻⁶ (AdamW)
تنظيم الإنتروبيا: 1×10⁻⁴
خطوات التدريب: 600 خطوة

نتائج التجارب

النتائج الرئيسية

تحسن كفاءة التدريب

سرعة التقارب: يظهر Reinforce-Ada ميزة واضحة في الخطوات 50-150 الأولى
الأداء النهائي: يحقق حد أقصى أعلى للمكافآت على جميع نماذج الاختبار
الاستقرار: يظهر Reinforce-Ada-balance أفضل استقرار

أداء معايير الاختبار

النموذج	الطريقة	Math500	Minerva	Olympiad	AIME-like	المتوسط المرجح
Qwen2.5-Math-1.5B	GRPO	74.2	34.4	38.4	16.2	45.3
	Reinforce-Ada-balance	77.4	36.5	40.5	17.5	47.6 (+2.3)
Qwen2.5-Math-7B	GRPO	82.2	44.7	45.6	23.2	53.3
	Reinforce-Ada-balance	84.0	45.2	47.1	23.7	54.6 (+1.3)

تجارب الاستئصال

أهمية أخذ العينات المتوازن

يتفوق Reinforce-Ada-balance بشكل مستمر على Reinforce-Ada-pos
في المراحل اللاحقة من التدريب، يحافظ أخذ العينات المتوازن على الاستكشاف، مما يتجنب انهيار الإنتروبيا

تحليل التكلفة الحسابية

النموذج	الطريقة	متوسط وقت الخطوة (ثانية)	التكلفة النسبية
Qwen2.5-Math-1.5B	GRPO	102	1.0×
	Reinforce-Ada-balance	290	2.8×
Qwen2.5-Math-7B	GRPO	236	1.0×
	Reinforce-Ada-balance	375	1.59×

تأثير صعوبة المحفز

على مجموعات المحفزات الصعبة، تكون ميزة Reinforce-Ada أكثر وضوحاً
على مجموعات المحفزات البسيطة، تكون الفوائد نسبية أصغر، لأن معظم المحفزات تستوفي شروط الخروج في الجولتين الأوليين

تحليل ديناميكيات أخذ العينات

التدريب المبكر: الاختناق الرئيسي هو نقص العينات الموجبة، وكلا الإصدارين من Reinforce-Ada-pos و balance فعالة
التدريب المتأخر: يتحول الاختناق إلى نقص العينات السالبة، حيث تبرز ميزة نسخة balance
التخصيص التكيفي: تحصل المحفزات الصعبة على ميزانية أخذ عينات أكبر، والمحفزات البسيطة تخرج مبكراً

الأعمال ذات الصلة

تصفية البيانات والاختيار

طرق التصفية السلبية: Yu et al. (2025), Xiong et al. (2025) تتخلص مباشرة من المجموعات ذات المكافآت الموحدة
طرق تخصيص الميزانية: GVM-RAFT (Yao et al., 2025) تستخدم نموذج الاستكشاف-الاستغلال ثنائي المرحلة
التعلم المنهجي: Shi et al. (2025), Zhang et al. (2025) تركز على اختيار مستوى المحفز

تصاميم متغيرات GRPO

تحسينات تقدير الميزة: Hu (2025), Zhu et al. (2025) وغيرهم يعدلون قاعدة التحديث الأساسية
حل فقدان الإشارة: Nan et al. (2025) تضيف ثابتاً لتجنب التباين الصفري، Le et al. (2025) تستخدم معلومات الإنتروبيا

نظرية آلات الجرب متعددة الأذرع

الاستفادة من أفكار خوارزميات الاستبعاد المتسلسل (Slivkins et al., 2019) في اتخاذ القرارات عبر الإنترنت
معاملة المحفزات كأذرع، مع تخصيص ديناميكي لميزانية أخذ العينات

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية أخذ العينات التكيفي: مقارنة باستراتيجيات أخذ العينات الثابتة، يحسن بشكل كبير كفاءة التدريب والأداء النهائي
أهمية أخذ العينات المتوازن: الحفاظ على التوازن بين العينات الموجبة والسالبة أمر حاسم للحفاظ على الاستكشاف وتجنب الإفراط في التدريب
الفائدة العملية الفورية: يمكن دمجها مباشرة في أطر عمل التعلم المعزز الموجودة

القيود

التكلفة الحسابية: زيادة التكلفة الحسابية بمقدار 1.5-2.8 مرة مقارنة بـ GRPO
قيود المجال: تركز التجارب بشكل أساسي على مجال الاستدلال الرياضي
الاعتماد على صعوبة المحفز: الفوائد محدودة في مجموعات البيانات التي تهيمن عليها المحفزات البسيطة
حساسية المعاملات الفائقة: تتطلب تعيين معقول للحد الأقصى للجولات N وعدد العينات لكل جولة M

الاتجاهات المستقبلية

إدارة البيانات الشاملة: الجمع مع استراتيجيات الماكرو مثل التعلم المنهجي
التحقق متعدد المجالات: التوسع إلى مهام أخرى مثل توليد الأكواد والحوار
التحليل النظري: توفير ضمانات نظرية للتقارب وتعقيد العينات
تحسين الكفاءة: البحث عن شروط خروج واستراتيجيات أخذ عينات أكثر كفاءة

التقييم المتعمق

المزايا

تحديد المشكلة دقيق: تحديد واضح للسبب الجذري لانهيار الإشارة في GRPO
تصميم الطريقة ذكي: تطبيق مبتكر لأفكار آلات الجرب متعددة الأذرع على تدريب نماذج اللغة الكبيرة
تجارب شاملة: التحقق الشامل على نماذج ومعايير متعددة
سهولة الهندسة: توفير تنفيذ فوري يسهل التطبيق العملي
تحليل عميق: تحليل ديناميكي مفصل وتجارب استئصال

أوجه القصور

ضعف الأساس النظري: افتقار إلى التحليل النظري مثل التقارب
موازنة التكلفة والفائدة: ما إذا كانت الزيادة في التكلفة الحسابية تستحق الفائدة تحتاج إلى مزيد من التحليل
نطاق التطبيق محدود: التحقق بشكل أساسي على الاستدلال الرياضي، والقابلية للتعميم قيد الاختبار
تعقيد ضبط المعاملات: إدخال معاملات فائقة إضافية تتطلب تعديلاً

القيمة التأثيرية

القيمة الأكاديمية: توفير منظور جديد لأخذ العينات من البيانات في التعلم المعزز لنماذج اللغة الكبيرة
القيمة العملية: يمكن تطبيقها مباشرة على عمليات التدريب الموجودة
القيمة الإلهامية: تعزيز تطبيق إدارة البيانات التكيفية في التعلم المعزز

السيناريوهات المناسبة

متطلبات الجودة العالية: التطبيقات التي تتطلب أداء نموذج عالي
الموارد الحسابية الكافية: السيناريوهات التي يمكنها تحمل التكاليف الحسابية الإضافية
مهام الاستدلال: مناسبة بشكل خاص للمهام التي تتطلب استدلالاً متعدد الخطوات مثل الاستدلال الرياضي وتوليد الأكواد
التدريب عبر الإنترنت: السيناريوهات التي تتطلب تعديل استراتيجية التدريب بشكل ديناميكي

المراجع

Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

الملخص: يقترح Reinforce-Ada إطار عمل أخذ عينات تكيفي مبتكر يحل بفعالية مشكلة انهيار الإشارة في التعلم المعزز لنماذج اللغة الكبيرة. على الرغم من زيادة التكاليف الحسابية، إلا أنه يحقق تحسناً ملحوظاً في كفاءة التدريب والأداء النهائي، مما يوفر منظوراً جديداً قيماً لتدريب التعلم المعزز في نماذج اللغة الكبيرة.