Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic
Reinforce-Ada : Un Cadre d'Échantillonnage Adaptatif pour l'Entraînement LLM de Style Reinforce
L'application de l'apprentissage par renforcement aux tâches de raisonnement des grands modèles de langage (LLMs) souffre souvent d'une instabilité dans l'estimation des gradients en raison de stratégies d'échantillonnage de réponses fixes et uniformes. Cet article propose Reinforce-Ada, un cadre d'échantillonnage adaptatif pour l'entraînement post-RL en ligne des LLMs, capable de réallouer continuellement les efforts d'échantillonnage vers les invites présentant la plus grande incertitude ou potentiel d'apprentissage. Contrairement aux méthodes traditionnelles d'allocation en deux étapes, Reinforce-Ada entrelace l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, et arrête automatiquement l'échantillonnage des invites une fois qu'un signal suffisant a été collecté. Pour stabiliser les mises à jour, la méthode forme des groupes de taille fixe et impose une diversité des récompenses, en utilisant les statistiques globales agrégées par la phase d'échantillonnage adaptatif pour calculer une ligne de base d'avantage.
Instabilité de l'estimation des gradients : Les méthodes traditionnelles d'apprentissage par renforcement utilisent un nombre d'échantillons fixe et réduit (n) lors de l'entraînement des LLMs, ce qui entraîne une variance excessive dans l'estimation des gradients et une instabilité de l'entraînement.
Problème d'effondrement du signal : Lorsque les n réponses d'une invite reçoivent toutes la même récompense (entièrement correctes ou entièrement incorrectes), le calcul de l'avantage dans GRPO produit un gradient nul, causant une perte du signal d'entraînement.
Inefficacité de l'échantillonnage : La stratégie d'échantillonnage uniforme ne peut pas allouer dynamiquement les ressources de calcul en fonction de la difficulté et de la valeur d'apprentissage de l'invite.
Dans les tâches de raisonnement mathématique, plus de 50 % des invites se retrouvent dans un état de « gradient zéro »
L'augmentation simple du nombre d'échantillons, bien qu'elle atténue le problème, entraîne un coût de calcul excessif (par exemple, augmentation drastique des coûts avec n=512)
Les méthodes de filtrage passif existantes rejettent une grande quantité de réponses déjà générées, causant un gaspillage de ressources
Échantillonnage fixe de GRPO : Incapable de s'adapter aux différences de difficulté entre les invites
Méthodes de filtrage passif : Génèrent de nombreuses réponses inutiles avant de les rejeter, inefficace
Allocation budgétaire en deux étapes : Les méthodes comme GVM-RAFT séparent l'estimation et l'échantillonnage, avec une efficacité réduite et une implémentation en ligne difficile
Proposition du cadre d'échantillonnage adaptatif Reinforce-Ada : Unifie l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, allouant dynamiquement le budget d'inférence
Conception de deux conditions de sortie :
Reinforce-Ada-pos : Concentré sur la collecte d'échantillons positifs
Reinforce-Ada-balance : Équilibre les échantillons positifs et négatifs, maintenant l'exploration
Introduction de la normalisation statistique globale : Utilise les informations statistiques de l'ensemble du processus d'échantillonnage pour calculer l'avantage, améliorant la stabilité de l'estimation
Implémentation de remplacement plug-and-play : Peut remplacer directement l'étape de génération dans les pipelines RL existants sans modification architecturale
Validation de l'efficacité sur plusieurs modèles et repères : Amélioration continue de la vitesse de convergence et des performances finales sur les tâches de raisonnement mathématique
Étant donné une distribution d'invites d₀, la politique πθ génère des réponses a~πθ(·|x), et un vérificateur fournit une récompense r⋆(x,a)∈{0,1}. L'objectif est de maximiser la récompense attendue :
Flux d'algorithme :
1. Initialisation : Toutes les invites marquées comme actives
2. Échantillonnage multi-tours :
- Échantillonner M réponses pour chaque invite active
- Évaluer les conditions de sortie
- Marquer les invites satisfaisant les conditions comme inactives
3. Répéter jusqu'à ce que toutes les invites se terminent ou que le nombre maximum de tours N soit atteint
Processus Unifié en Ligne : Fusion des étapes d'estimation et de décision des méthodes traditionnelles en deux étapes en un seul processus en ligne
Mécanisme d'Élimination Successive : S'inspire de l'algorithme des bandits manchots multi-bras, arrêtant dynamiquement les invites ne nécessitant pas d'échantillonnage supplémentaire
Stratégie de Normalisation Globale : Utilise les informations statistiques du pool d'échantillonnage complet plutôt que du sous-ensemble final sélectionné, améliorant la robustesse de l'estimation
Garantie d'Échantillonnage Équilibré : Assure que chaque lot d'entraînement possède une variance non nulle, évitant la disparition des gradients
Sur l'ensemble des invites difficiles, l'avantage de Reinforce-Ada est plus prononcé
Sur l'ensemble des invites simples, les gains sont relativement mineurs, car la plupart des invites satisfont les conditions de sortie dans les deux premiers tours
Entraînement précoce : Le goulot d'étranglement principal est le manque d'échantillons positifs, les deux versions Reinforce-Ada-pos et balance sont efficaces
Entraînement tardif : Le goulot d'étranglement se déplace vers le manque d'échantillons négatifs, l'avantage de la version balance devient apparent
Allocation adaptative : Les invites difficiles reçoivent un budget d'échantillonnage plus important, les invites simples se terminent plus tôt
Améliorations de l'estimation d'avantage : Hu (2025), Zhu et al. (2025) et autres modifient les règles de mise à jour fondamentales
Résolution de la perte de signal : Nan et al. (2025) ajoute une constante pour éviter la variance zéro, Le et al. (2025) utilise les informations d'entropie
Efficacité de l'échantillonnage adaptatif : Comparé aux stratégies d'échantillonnage fixe, amélioration significative de l'efficacité d'entraînement et des performances finales
Importance de l'échantillonnage équilibré : Maintenir l'équilibre entre les échantillons positifs et négatifs est crucial pour préserver l'exploration et éviter le surapprentissage
Praticité du remplacement plug-and-play : Peut être directement intégré aux cadres d'entraînement RL existants
Exigences de haute qualité : Applications nécessitant des performances élevées du modèle
Ressources de calcul suffisantes : Scénarios pouvant supporter les frais de calcul supplémentaires
Tâches de raisonnement : Particulièrement adapté aux tâches nécessitant un raisonnement multi-étapes telles que le raisonnement mathématique et la génération de code
Entraînement en ligne : Scénarios nécessitant un ajustement dynamique de la stratégie d'entraînement
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
Résumé : Reinforce-Ada propose un cadre d'échantillonnage adaptatif innovant qui résout efficacement le problème d'effondrement du signal dans l'apprentissage par renforcement des LLMs. Bien qu'il augmente les frais de calcul, il offre des améliorations significatives en termes d'efficacité d'entraînement et de performances finales, fournissant une nouvelle approche précieuse pour l'entraînement par renforcement des LLMs.