Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
강화학습을 대규모 언어모델(LLMs)의 추론 작업에 적용할 때, 고정되고 균등한 응답 샘플링 전략으로 인해 그래디언트 추정이 불안정해지는 문제가 발생합니다. 본 논문은 Reinforce-Ada를 제안하며, 이는 LLMs의 온라인 강화학습 사후 훈련을 위한 적응형 샘플링 프레임워크입니다. 이는 샘플링 노력을 최대 불확실성 또는 학습 잠재력을 가진 프롬프트로 지속적으로 재할당할 수 있습니다. 기존의 2단계 할당 방법과 달리, Reinforce-Ada는 추정과 샘플링을 온라인 순차 제거 프로세스에 통합하며, 충분한 신호 수집 후 프롬프트에 대한 샘플링을 자동으로 중지합니다. 업데이트 안정성을 위해, 이 방법은 고정 크기의 그룹을 형성하고 보상 다양성을 강제하며, 적응형 샘플링 단계에서 수집한 전역 통계 정보를 사용하여 이점 기준선을 계산합니다.
알고리즘 흐름:
1. 초기화: 모든 프롬프트를 활성 상태로 표시
2. 다중 라운드 샘플링:
- 각 활성 프롬프트에서 M개 응답 샘플링
- 종료 조건 평가
- 조건을 만족하는 프롬프트를 비활성으로 표시
3. 모든 프롬프트가 종료되거나 최대 라운드 수 N에 도달할 때까지 반복
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
요약: Reinforce-Ada는 LLM 강화학습의 신호 붕괴 문제를 효과적으로 해결하는 혁신적인 적응형 샘플링 프레임워크를 제안합니다. 계산 비용이 증가하지만, 훈련 효율과 최종 성능 모두에서 현저한 개선을 보여주며, LLM의 강화학습 훈련에 가치 있는 새로운 관점을 제공합니다.