2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic

Reinforce-Ada : Un Cadre d'Échantillonnage Adaptatif pour l'Entraînement LLM de Style Reinforce

Informations Fondamentales

  • ID de l'article : 2510.04996
  • Titre : Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
  • Auteurs : Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
  • Classification : cs.LG cs.AI cs.CL stat.ML
  • Date de publication : Octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2510.04996
  • Lien du code : https://github.com/RLHFlow/Reinforce-Ada

Résumé

L'application de l'apprentissage par renforcement aux tâches de raisonnement des grands modèles de langage (LLMs) souffre souvent d'une instabilité dans l'estimation des gradients en raison de stratégies d'échantillonnage de réponses fixes et uniformes. Cet article propose Reinforce-Ada, un cadre d'échantillonnage adaptatif pour l'entraînement post-RL en ligne des LLMs, capable de réallouer continuellement les efforts d'échantillonnage vers les invites présentant la plus grande incertitude ou potentiel d'apprentissage. Contrairement aux méthodes traditionnelles d'allocation en deux étapes, Reinforce-Ada entrelace l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, et arrête automatiquement l'échantillonnage des invites une fois qu'un signal suffisant a été collecté. Pour stabiliser les mises à jour, la méthode forme des groupes de taille fixe et impose une diversité des récompenses, en utilisant les statistiques globales agrégées par la phase d'échantillonnage adaptatif pour calculer une ligne de base d'avantage.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Instabilité de l'estimation des gradients : Les méthodes traditionnelles d'apprentissage par renforcement utilisent un nombre d'échantillons fixe et réduit (n) lors de l'entraînement des LLMs, ce qui entraîne une variance excessive dans l'estimation des gradients et une instabilité de l'entraînement.
  2. Problème d'effondrement du signal : Lorsque les n réponses d'une invite reçoivent toutes la même récompense (entièrement correctes ou entièrement incorrectes), le calcul de l'avantage dans GRPO produit un gradient nul, causant une perte du signal d'entraînement.
  3. Inefficacité de l'échantillonnage : La stratégie d'échantillonnage uniforme ne peut pas allouer dynamiquement les ressources de calcul en fonction de la difficulté et de la valeur d'apprentissage de l'invite.

Importance du Problème

  • Dans les tâches de raisonnement mathématique, plus de 50 % des invites se retrouvent dans un état de « gradient zéro »
  • L'augmentation simple du nombre d'échantillons, bien qu'elle atténue le problème, entraîne un coût de calcul excessif (par exemple, augmentation drastique des coûts avec n=512)
  • Les méthodes de filtrage passif existantes rejettent une grande quantité de réponses déjà générées, causant un gaspillage de ressources

Limitations des Approches Existantes

  1. Échantillonnage fixe de GRPO : Incapable de s'adapter aux différences de difficulté entre les invites
  2. Méthodes de filtrage passif : Génèrent de nombreuses réponses inutiles avant de les rejeter, inefficace
  3. Allocation budgétaire en deux étapes : Les méthodes comme GVM-RAFT séparent l'estimation et l'échantillonnage, avec une efficacité réduite et une implémentation en ligne difficile

Contributions Fondamentales

  1. Proposition du cadre d'échantillonnage adaptatif Reinforce-Ada : Unifie l'estimation et l'échantillonnage dans un processus d'élimination successive en ligne, allouant dynamiquement le budget d'inférence
  2. Conception de deux conditions de sortie :
    • Reinforce-Ada-pos : Concentré sur la collecte d'échantillons positifs
    • Reinforce-Ada-balance : Équilibre les échantillons positifs et négatifs, maintenant l'exploration
  3. Introduction de la normalisation statistique globale : Utilise les informations statistiques de l'ensemble du processus d'échantillonnage pour calculer l'avantage, améliorant la stabilité de l'estimation
  4. Implémentation de remplacement plug-and-play : Peut remplacer directement l'étape de génération dans les pipelines RL existants sans modification architecturale
  5. Validation de l'efficacité sur plusieurs modèles et repères : Amélioration continue de la vitesse de convergence et des performances finales sur les tâches de raisonnement mathématique

Détails de la Méthode

Définition de la Tâche

Étant donné une distribution d'invites d₀, la politique πθ génère des réponses a~πθ(·|x), et un vérificateur fournit une récompense r⋆(x,a)∈{0,1}. L'objectif est de maximiser la récompense attendue :

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Architecture de l'Algorithme Principal

1. Processus d'Échantillonnage Adaptatif

Flux d'algorithme :
1. Initialisation : Toutes les invites marquées comme actives
2. Échantillonnage multi-tours :
   - Échantillonner M réponses pour chaque invite active
   - Évaluer les conditions de sortie
   - Marquer les invites satisfaisant les conditions comme inactives
3. Répéter jusqu'à ce que toutes les invites se terminent ou que le nombre maximum de tours N soit atteint

2. Conception des Conditions de Sortie

  • Reinforce-Ada-pos : Sortie après collecte d'au moins une réponse correcte
  • Reinforce-Ada-balance : Sortie après collecte d'au moins n/2 réponses correctes et n/2 réponses incorrectes

3. Construction des Lots d'Entraînement

  • Sous-échantillonnage à partir du pool de réponses de chaque invite jusqu'à une taille fixe n
  • Priorité au maintien de l'équilibre positif-négatif (n/2 chacun)
  • Utilisation des statistiques globales pour calculer l'avantage : A(x,aᵢ) = rᵢ - r̄

4. Fonction Objectif

Utilisation de la correction par importance et de l'écrêtage de gradient de style PPO :

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Points d'Innovation Technique

  1. Processus Unifié en Ligne : Fusion des étapes d'estimation et de décision des méthodes traditionnelles en deux étapes en un seul processus en ligne
  2. Mécanisme d'Élimination Successive : S'inspire de l'algorithme des bandits manchots multi-bras, arrêtant dynamiquement les invites ne nécessitant pas d'échantillonnage supplémentaire
  3. Stratégie de Normalisation Globale : Utilise les informations statistiques du pool d'échantillonnage complet plutôt que du sous-ensemble final sélectionné, améliorant la robustesse de l'estimation
  4. Garantie d'Échantillonnage Équilibré : Assure que chaque lot d'entraînement possède une variance non nulle, évitant la disparition des gradients

Configuration Expérimentale

Ensembles de Données

  • Données d'entraînement : Sous-ensemble par défaut de l'ensemble de données OpenR1-Math-220k
  • Prétraitement : Suppression des doublons, filtrage de vérification, filtrage de difficulté moyenne (au moins 1 réponse correcte sur 16 échantillons)

Modèles

  • Qwen2.5-Math-7B/1.5B
  • Qwen3-4B-it
  • Llama-3.2-3B-it

Indicateurs d'Évaluation

  • Indicateurs d'entraînement : Courbes de récompense, variations d'entropie
  • Repères de test : MATH500, Minerva Math, OlympiadBench, AIME-like
  • Méthode d'évaluation : Ave@32 (température 1.0, tokens maximum 4096)

Détails d'Implémentation

  • Taille du lot : 512 invites
  • Taille du groupe effectif : n=4
  • Nombre maximum d'échantillons : 32 réponses/invite
  • Taux d'apprentissage : 1×10⁻⁶ (AdamW)
  • Régularisation d'entropie : 1×10⁻⁴
  • Étapes d'entraînement : 600 étapes

Résultats Expérimentaux

Résultats Principaux

Amélioration de l'Efficacité d'Entraînement

  • Vitesse de convergence : Reinforce-Ada montre un avantage clair dans les 50-150 premières étapes
  • Performance finale : Atteint des limites de récompense plus élevées sur tous les modèles testés
  • Stabilité : Reinforce-Ada-balance présente les performances les plus stables

Performance sur les Repères de Test

ModèleMéthodeMath500MinervaOlympiadAIME-likeMoyenne Pondérée
Qwen2.5-Math-1.5BGRPO74.234.438.416.245.3
Reinforce-Ada-balance77.436.540.517.547.6 (+2.3)
Qwen2.5-Math-7BGRPO82.244.745.623.253.3
Reinforce-Ada-balance84.045.247.123.754.6 (+1.3)

Expériences d'Ablation

Importance de l'Échantillonnage Équilibré

  • Reinforce-Ada-balance surpasse continuellement Reinforce-Ada-pos
  • En phase d'entraînement tardive, l'échantillonnage équilibré maintient l'exploration, évitant l'effondrement d'entropie

Analyse des Frais de Calcul

ModèleMéthodeTemps Moyen par Étape (secondes)Coût Relatif
Qwen2.5-Math-1.5BGRPO1021.0×
Reinforce-Ada-balance2902.8×
Qwen2.5-Math-7BGRPO2361.0×
Reinforce-Ada-balance3751.59×

Impact de la Difficulté de l'Invite

  • Sur l'ensemble des invites difficiles, l'avantage de Reinforce-Ada est plus prononcé
  • Sur l'ensemble des invites simples, les gains sont relativement mineurs, car la plupart des invites satisfont les conditions de sortie dans les deux premiers tours

Analyse de la Dynamique d'Échantillonnage

  1. Entraînement précoce : Le goulot d'étranglement principal est le manque d'échantillons positifs, les deux versions Reinforce-Ada-pos et balance sont efficaces
  2. Entraînement tardif : Le goulot d'étranglement se déplace vers le manque d'échantillons négatifs, l'avantage de la version balance devient apparent
  3. Allocation adaptative : Les invites difficiles reçoivent un budget d'échantillonnage plus important, les invites simples se terminent plus tôt

Travaux Connexes

Filtrage et Sélection de Données

  • Méthodes de filtrage passif : Yu et al. (2025), Xiong et al. (2025) rejettent directement les groupes de récompenses uniformes
  • Méthodes d'allocation budgétaire : GVM-RAFT (Yao et al., 2025) adopte un paradigme exploration-exploitation en deux étapes
  • Apprentissage par curriculum : Shi et al. (2025), Zhang et al. (2025) se concentrent sur la sélection au niveau des invites

Variantes de Conception GRPO

  • Améliorations de l'estimation d'avantage : Hu (2025), Zhu et al. (2025) et autres modifient les règles de mise à jour fondamentales
  • Résolution de la perte de signal : Nan et al. (2025) ajoute une constante pour éviter la variance zéro, Le et al. (2025) utilise les informations d'entropie

Théorie des Bandits Manchots Multi-Bras

  • S'inspire de l'algorithme d'élimination successive (Slivkins et al., 2019) pour la prise de décision en ligne
  • Traite les invites comme des bras, allouant dynamiquement le budget d'échantillonnage

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de l'échantillonnage adaptatif : Comparé aux stratégies d'échantillonnage fixe, amélioration significative de l'efficacité d'entraînement et des performances finales
  2. Importance de l'échantillonnage équilibré : Maintenir l'équilibre entre les échantillons positifs et négatifs est crucial pour préserver l'exploration et éviter le surapprentissage
  3. Praticité du remplacement plug-and-play : Peut être directement intégré aux cadres d'entraînement RL existants

Limitations

  1. Frais de calcul : Augmentation des coûts de calcul de 1,5 à 2,8 fois par rapport à GRPO
  2. Limitation du domaine : Les expériences se concentrent principalement sur le domaine du raisonnement mathématique
  3. Dépendance à la difficulté de l'invite : Les gains sont limités sur les ensembles de données dominés par des invites simples
  4. Sensibilité aux hyperparamètres : Nécessite un réglage approprié du nombre maximum de tours N et du nombre d'échantillons par tour M

Directions Futures

  1. Gestion des données de bout en bout : Combinaison avec des stratégies macroscopiques telles que l'apprentissage par curriculum
  2. Validation multi-domaines : Extension à d'autres tâches telles que la génération de code et le dialogue
  3. Analyse théorique : Fourniture de garanties théoriques sur la convergence et la complexité d'échantillonnage
  4. Optimisation de l'efficacité : Recherche de conditions de sortie et de stratégies d'échantillonnage plus efficaces

Évaluation Approfondie

Avantages

  1. Identification précise du problème : Identification claire de la cause fondamentale de l'effondrement du signal dans GRPO
  2. Conception de méthode ingénieuse : Application innovante de la théorie des bandits manchots multi-bras à l'entraînement des LLMs
  3. Expériences complètes : Validation complète sur plusieurs modèles et repères
  4. Convivialité d'ingénierie : Fourniture d'une implémentation plug-and-play, facilitant l'application pratique
  5. Analyse approfondie : Analyse dynamique détaillée et expériences d'ablation

Insuffisances

  1. Fondations théoriques faibles : Manque d'analyse théorique telle que la convergence
  2. Compromis coûts-bénéfices : Nécessité d'une analyse plus approfondie pour déterminer si l'augmentation des frais de calcul en vaut la peine
  3. Portée d'application limitée : Validation principalement sur le raisonnement mathématique, généralisation à considérer
  4. Complexité du réglage des paramètres : Introduction de paramètres supplémentaires nécessitant un ajustement

Impact

  1. Valeur académique : Fournit une nouvelle perspective sur l'échantillonnage de données pour l'apprentissage par renforcement des LLMs
  2. Valeur pratique : Peut être directement appliqué aux processus d'entraînement existants
  3. Valeur inspirante : Promeut l'application de la gestion adaptative des données dans l'RL

Scénarios d'Application

  1. Exigences de haute qualité : Applications nécessitant des performances élevées du modèle
  2. Ressources de calcul suffisantes : Scénarios pouvant supporter les frais de calcul supplémentaires
  3. Tâches de raisonnement : Particulièrement adapté aux tâches nécessitant un raisonnement multi-étapes telles que le raisonnement mathématique et la génération de code
  4. Entraînement en ligne : Scénarios nécessitant un ajustement dynamique de la stratégie d'entraînement

Références

  1. Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
  2. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
  3. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
  4. Slivkins et al. (2019). Introduction to multi-armed bandits.
  5. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Résumé : Reinforce-Ada propose un cadre d'échantillonnage adaptatif innovant qui résout efficacement le problème d'effondrement du signal dans l'apprentissage par renforcement des LLMs. Bien qu'il augmente les frais de calcul, il offre des améliorations significatives en termes d'efficacité d'entraînement et de performances finales, fournissant une nouvelle approche précieuse pour l'entraînement par renforcement des LLMs.