2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.

Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.

academic

Reinforce-Ada : Un Cadre d'Échantillonnage Adaptatif pour l'Entraînement LLM de Style Reinforce

Informations Fondamentales

ID de l'article : 2510.04996
Titre : Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Auteurs : Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
Classification : cs.LG cs.AI cs.CL stat.ML
Date de publication : Octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2510.04996
Lien du code : https://github.com/RLHFlow/Reinforce-Ada

Résumé

L'application de l'apprentissage par renforcement aux tâches de raisonnement des grands modèles de langage (LLMs) souffre souvent d'une instabilité dans l'estimation des gradients en raison de stratégies d'échantillonnage de réponses fixes et uniformes. Cet article propose Reinforce-Ada, un cadre d'échantillonnage adaptatif pour l'entraînement post-RL en ligne des LLMs, capable de réallouer continuellement les efforts d'échantillonnage vers les invites présentant la plus grande incertitude ou potentiel d'apprentissage. Contrairement aux méthodes traditionnelles d'allocation en deux étapes, Reinforce-Ada entrelace l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, et arrête automatiquement l'échantillonnage des invites une fois qu'un signal suffisant a été collecté. Pour stabiliser les mises à jour, la méthode forme des groupes de taille fixe et impose une diversité des récompenses, en utilisant les statistiques globales agrégées par la phase d'échantillonnage adaptatif pour calculer une ligne de base d'avantage.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Instabilité de l'estimation des gradients : Les méthodes traditionnelles d'apprentissage par renforcement utilisent un nombre d'échantillons fixe et réduit (n) lors de l'entraînement des LLMs, ce qui entraîne une variance excessive dans l'estimation des gradients et une instabilité de l'entraînement.
Problème d'effondrement du signal : Lorsque les n réponses d'une invite reçoivent toutes la même récompense (entièrement correctes ou entièrement incorrectes), le calcul de l'avantage dans GRPO produit un gradient nul, causant une perte du signal d'entraînement.
Inefficacité de l'échantillonnage : La stratégie d'échantillonnage uniforme ne peut pas allouer dynamiquement les ressources de calcul en fonction de la difficulté et de la valeur d'apprentissage de l'invite.

Importance du Problème

Dans les tâches de raisonnement mathématique, plus de 50 % des invites se retrouvent dans un état de « gradient zéro »
L'augmentation simple du nombre d'échantillons, bien qu'elle atténue le problème, entraîne un coût de calcul excessif (par exemple, augmentation drastique des coûts avec n=512)
Les méthodes de filtrage passif existantes rejettent une grande quantité de réponses déjà générées, causant un gaspillage de ressources

Limitations des Approches Existantes

Échantillonnage fixe de GRPO : Incapable de s'adapter aux différences de difficulté entre les invites
Méthodes de filtrage passif : Génèrent de nombreuses réponses inutiles avant de les rejeter, inefficace
Allocation budgétaire en deux étapes : Les méthodes comme GVM-RAFT séparent l'estimation et l'échantillonnage, avec une efficacité réduite et une implémentation en ligne difficile

Contributions Fondamentales

Proposition du cadre d'échantillonnage adaptatif Reinforce-Ada : Unifie l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, allouant dynamiquement le budget d'inférence
Conception de deux conditions de sortie :
- Reinforce-Ada-pos : Concentré sur la collecte d'échantillons positifs
- Reinforce-Ada-balance : Équilibre les échantillons positifs et négatifs, maintenant l'exploration
Introduction de la normalisation statistique globale : Utilise les informations statistiques de l'ensemble du processus d'échantillonnage pour calculer l'avantage, améliorant la stabilité de l'estimation
Implémentation de remplacement plug-and-play : Peut remplacer directement l'étape de génération dans les pipelines RL existants sans modification architecturale
Validation de l'efficacité sur plusieurs modèles et repères : Amélioration continue de la vitesse de convergence et des performances finales sur les tâches de raisonnement mathématique

Détails de la Méthode

Définition de la Tâche

Étant donné une distribution d'invites d₀, la politique πθ génère des réponses a～πθ(·|x), et un vérificateur fournit une récompense r⋆(x,a)∈{0,1}. L'objectif est de maximiser la récompense attendue :

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Architecture de l'Algorithme Principal

1. Processus d'Échantillonnage Adaptatif

Flux d'algorithme :
1. Initialisation : Toutes les invites marquées comme actives
2. Échantillonnage multi-tours :
   - Échantillonner M réponses pour chaque invite active
   - Évaluer les conditions de sortie
   - Marquer les invites satisfaisant les conditions comme inactives
3. Répéter jusqu'à ce que toutes les invites se terminent ou que le nombre maximum de tours N soit atteint

2. Conception des Conditions de Sortie

Reinforce-Ada-pos : Sortie après collecte d'au moins une réponse correcte
Reinforce-Ada-balance : Sortie après collecte d'au moins n/2 réponses correctes et n/2 réponses incorrectes

3. Construction des Lots d'Entraînement

Sous-échantillonnage à partir du pool de réponses de chaque invite jusqu'à une taille fixe n
Priorité au maintien de l'équilibre positif-négatif (n/2 chacun)
Utilisation des statistiques globales pour calculer l'avantage : A(x,aᵢ) = rᵢ - r̄

4. Fonction Objectif

Utilisation de la correction par importance et de l'écrêtage de gradient de style PPO :

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Points d'Innovation Technique

Processus Unifié en Ligne : Fusion des étapes d'estimation et de décision des méthodes traditionnelles en deux étapes en un seul processus en ligne
Mécanisme d'Élimination Successive : S'inspire de l'algorithme des bandits manchots multi-bras, arrêtant dynamiquement les invites ne nécessitant pas d'échantillonnage supplémentaire
Stratégie de Normalisation Globale : Utilise les informations statistiques du pool d'échantillonnage complet plutôt que du sous-ensemble final sélectionné, améliorant la robustesse de l'estimation
Garantie d'Échantillonnage Équilibré : Assure que chaque lot d'entraînement possède une variance non nulle, évitant la disparition des gradients

Configuration Expérimentale

Ensembles de Données

Données d'entraînement : Sous-ensemble par défaut de l'ensemble de données OpenR1-Math-220k
Prétraitement : Suppression des doublons, filtrage de vérification, filtrage de difficulté moyenne (au moins 1 réponse correcte sur 16 échantillons)

Modèles

Qwen2.5-Math-7B/1.5B
Qwen3-4B-it
Llama-3.2-3B-it

Indicateurs d'Évaluation

Indicateurs d'entraînement : Courbes de récompense, variations d'entropie
Repères de test : MATH500, Minerva Math, OlympiadBench, AIME-like
Méthode d'évaluation : Ave@32 (température 1.0, tokens maximum 4096)

Détails d'Implémentation

Taille du lot : 512 invites
Taille du groupe effectif : n=4
Nombre maximum d'échantillons : 32 réponses/invite
Taux d'apprentissage : 1×10⁻⁶ (AdamW)
Régularisation d'entropie : 1×10⁻⁴
Étapes d'entraînement : 600 étapes

Résultats Expérimentaux

Résultats Principaux

Amélioration de l'Efficacité d'Entraînement

Vitesse de convergence : Reinforce-Ada montre un avantage clair dans les 50-150 premières étapes
Performance finale : Atteint des limites de récompense plus élevées sur tous les modèles testés
Stabilité : Reinforce-Ada-balance présente les performances les plus stables

Performance sur les Repères de Test

Modèle	Méthode	Math500	Minerva	Olympiad	AIME-like	Moyenne Pondérée
Qwen2.5-Math-1.5B	GRPO	74.2	34.4	38.4	16.2	45.3
	Reinforce-Ada-balance	77.4	36.5	40.5	17.5	47.6 (+2.3)
Qwen2.5-Math-7B	GRPO	82.2	44.7	45.6	23.2	53.3
	Reinforce-Ada-balance	84.0	45.2	47.1	23.7	54.6 (+1.3)

Expériences d'Ablation

Importance de l'Échantillonnage Équilibré

Reinforce-Ada-balance surpasse continuellement Reinforce-Ada-pos
En phase d'entraînement tardive, l'échantillonnage équilibré maintient l'exploration, évitant l'effondrement d'entropie

Analyse des Frais de Calcul

Modèle	Méthode	Temps Moyen par Étape (secondes)	Coût Relatif
Qwen2.5-Math-1.5B	GRPO	102	1.0×
	Reinforce-Ada-balance	290	2.8×
Qwen2.5-Math-7B	GRPO	236	1.0×
	Reinforce-Ada-balance	375	1.59×

Impact de la Difficulté de l'Invite

Sur l'ensemble des invites difficiles, l'avantage de Reinforce-Ada est plus prononcé
Sur l'ensemble des invites simples, les gains sont relativement mineurs, car la plupart des invites satisfont les conditions de sortie dans les deux premiers tours

Analyse de la Dynamique d'Échantillonnage

Entraînement précoce : Le goulot d'étranglement principal est le manque d'échantillons positifs, les deux versions Reinforce-Ada-pos et balance sont efficaces
Entraînement tardif : Le goulot d'étranglement se déplace vers le manque d'échantillons négatifs, l'avantage de la version balance devient apparent
Allocation adaptative : Les invites difficiles reçoivent un budget d'échantillonnage plus important, les invites simples se terminent plus tôt

Travaux Connexes

Filtrage et Sélection de Données

Méthodes de filtrage passif : Yu et al. (2025), Xiong et al. (2025) rejettent directement les groupes de récompenses uniformes
Méthodes d'allocation budgétaire : GVM-RAFT (Yao et al., 2025) adopte un paradigme exploration-exploitation en deux étapes
Apprentissage par curriculum : Shi et al. (2025), Zhang et al. (2025) se concentrent sur la sélection au niveau des invites

Variantes de Conception GRPO

Améliorations de l'estimation d'avantage : Hu (2025), Zhu et al. (2025) et autres modifient les règles de mise à jour fondamentales
Résolution de la perte de signal : Nan et al. (2025) ajoute une constante pour éviter la variance zéro, Le et al. (2025) utilise les informations d'entropie

Théorie des Bandits Manchots Multi-Bras

S'inspire de l'algorithme d'élimination successive (Slivkins et al., 2019) pour la prise de décision en ligne
Traite les invites comme des bras, allouant dynamiquement le budget d'échantillonnage

Conclusion et Discussion

Conclusions Principales

Efficacité de l'échantillonnage adaptatif : Comparé aux stratégies d'échantillonnage fixe, amélioration significative de l'efficacité d'entraînement et des performances finales
Importance de l'échantillonnage équilibré : Maintenir l'équilibre entre les échantillons positifs et négatifs est crucial pour préserver l'exploration et éviter le surapprentissage
Praticité du remplacement plug-and-play : Peut être directement intégré aux cadres d'entraînement RL existants

Limitations

Frais de calcul : Augmentation des coûts de calcul de 1,5 à 2,8 fois par rapport à GRPO
Limitation du domaine : Les expériences se concentrent principalement sur le domaine du raisonnement mathématique
Dépendance à la difficulté de l'invite : Les gains sont limités sur les ensembles de données dominés par des invites simples
Sensibilité aux hyperparamètres : Nécessite un réglage approprié du nombre maximum de tours N et du nombre d'échantillons par tour M

Directions Futures

Gestion des données de bout en bout : Combinaison avec des stratégies macroscopiques telles que l'apprentissage par curriculum
Validation multi-domaines : Extension à d'autres tâches telles que la génération de code et le dialogue
Analyse théorique : Fourniture de garanties théoriques sur la convergence et la complexité d'échantillonnage
Optimisation de l'efficacité : Recherche de conditions de sortie et de stratégies d'échantillonnage plus efficaces

Évaluation Approfondie

Avantages

Identification précise du problème : Identification claire de la cause fondamentale de l'effondrement du signal dans GRPO
Conception de méthode ingénieuse : Application innovante de la théorie des bandits manchots multi-bras à l'entraînement des LLMs
Expériences complètes : Validation complète sur plusieurs modèles et repères
Convivialité d'ingénierie : Fourniture d'une implémentation plug-and-play, facilitant l'application pratique
Analyse approfondie : Analyse dynamique détaillée et expériences d'ablation

Insuffisances

Fondations théoriques faibles : Manque d'analyse théorique telle que la convergence
Compromis coûts-bénéfices : Nécessité d'une analyse plus approfondie pour déterminer si l'augmentation des frais de calcul en vaut la peine
Portée d'application limitée : Validation principalement sur le raisonnement mathématique, généralisation à considérer
Complexité du réglage des paramètres : Introduction de paramètres supplémentaires nécessitant un ajustement

Impact

Valeur académique : Fournit une nouvelle perspective sur l'échantillonnage de données pour l'apprentissage par renforcement des LLMs
Valeur pratique : Peut être directement appliqué aux processus d'entraînement existants
Valeur inspirante : Promeut l'application de la gestion adaptative des données dans l'RL

Scénarios d'Application

Exigences de haute qualité : Applications nécessitant des performances élevées du modèle
Ressources de calcul suffisantes : Scénarios pouvant supporter les frais de calcul supplémentaires
Tâches de raisonnement : Particulièrement adapté aux tâches nécessitant un raisonnement multi-étapes telles que le raisonnement mathématique et la génération de code
Entraînement en ligne : Scénarios nécessitant un ajustement dynamique de la stratégie d'entraînement

Références

Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Résumé : Reinforce-Ada propose un cadre d'échantillonnage adaptatif innovant qui résout efficacement le problème d'effondrement du signal dans l'apprentissage par renforcement des LLMs. Bien qu'il augmente les frais de calcul, il offre des améliorations significatives en termes d'efficacité d'entraînement et de performances finales, fournissant une nouvelle approche précieuse pour l'entraînement par renforcement des LLMs.