Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic
Reinforce-Ada: Ein adaptives Sampling-Framework für Reinforce-Style LLM-Training
Die Anwendung von Reinforcement Learning auf Inferenzaufgaben großer Sprachmodelle (LLMs) führt häufig zu instabilen Gradientenschätzungen aufgrund fester und gleichmäßiger Antwort-Sampling-Strategien. Dieses Paper stellt Reinforce-Ada vor, ein adaptives Sampling-Framework für das Online-Reinforcement-Learning-Training von LLMs, das kontinuierlich Sampling-Anstrengungen auf Prompts mit maximaler Unsicherheit oder Lernpotenzial umverteilt. Im Gegensatz zu traditionellen zweistufigen Allokationsmethoden verwebt Reinforce-Ada Schätzung und Sampling in einem Online-Successive-Elimination-Prozess und stoppt automatisch das Sampling für Prompts, nachdem ausreichende Signale gesammelt wurden. Zur Stabilisierung der Updates bildet das Verfahren Gruppen fester Größe und erzwingt Reward-Diversität, wobei globale Statistiken aus der adaptiven Sampling-Phase zur Berechnung von Advantage-Baselines verwendet werden.
Instabile Gradientenschätzung: Traditionelle Reinforcement-Learning-Methoden verwenden beim LLM-Training eine feste kleine Stichprobenzahl (n) zum Sampling, was zu großer Varianz in der Gradientenschätzung und instabilem Training führt.
Signal-Kollaps-Problem: Wenn alle n Antworten eines Prompts die gleiche Belohnung erhalten (alle richtig oder alle falsch), führt die Advantage-Berechnung in GRPO zu Null-Gradienten und verursacht Trainingssignalverlust.
Ineffiziente Sampling-Effizienz: Gleichmäßige Sampling-Strategien können Rechenressourcen nicht dynamisch basierend auf Prompt-Schwierigkeit und Lernwert zuweisen.
Vorschlag des Reinforce-Ada-Adaptive-Sampling-Frameworks: Vereinheitlicht Schätzung und Sampling in einem Online-Successive-Elimination-Prozess zur dynamischen Allokation von Inferenzbudgets
Design von zwei Exitbedingungen:
Reinforce-Ada-pos: Konzentriert sich auf positive Sample-Sammlung
Reinforce-Ada-balance: Balanciert positive und negative Samples, erhält Explorationsfähigkeit
Einführung globaler statistischer Normalisierung: Verwendet Statistiken aus dem gesamten Sampling-Prozess zur Advantage-Berechnung und verbessert Schätzungsstabilität
Plug-and-Play-Ersatz: Kann direkt Generierungsschritte in bestehenden RL-Pipelines ersetzen, ohne Architekturänderungen
Validierung der Wirksamkeit auf mehreren Modellen und Benchmarks: Kontinuierliche Verbesserung der Konvergenzgeschwindigkeit und Endleistung bei mathematischen Reasoning-Aufgaben
Gegeben eine Prompt-Verteilung d₀, generiert die Strategie πθ Antworten a~πθ(·|x), ein Verifizierer gibt Belohnung r⋆(x,a)∈{0,1}. Das Ziel ist die Maximierung der erwarteten Belohnung:
Algorithmus-Ablauf:
1. Initialisierung: Alle Prompts als aktiv markiert
2. Multi-Round-Sampling:
- Für jeden aktiven Prompt M Antworten samplen
- Exitbedingungen evaluieren
- Prompts, die Bedingungen erfüllen, als inaktiv markieren
3. Wiederholen bis alle Prompts beendet oder maximale Runden N erreicht
Online-Unified-Prozess: Kombiniert traditionelle zweistufige Methoden-Schätzung und -Entscheidung in einen einzelnen Online-Prozess
Successive-Elimination-Mechanismus: Inspiriert von Multi-Armed-Bandit-Gedanken, stoppt dynamisch Prompts, die kein weiteres Sampling benötigen
Globale Normalisierungsstrategie: Verwendet Statistiken aus dem vollständigen Sampling-Pool statt nur der endgültigen ausgewählten Teilmenge, verbessert Schätzungsrobustheit
Balanced-Sampling-Garantie: Stellt sicher, dass jede Trainingsgruppe Nicht-Null-Varianz hat, vermeidet Gradient-Vanishing
Adaptives Sampling ist wirksam: Zeigt signifikante Verbesserungen der Trainingseffizienz und Endleistung im Vergleich zu festen Sampling-Strategien
Balanced Sampling ist entscheidend: Die Aufrechterhaltung positiv-negativer Balance ist wesentlich für die Beibehaltung von Explorationsfähigkeit und Vermeidung von Überanpassung
Praktische Plug-and-Play-Implementierung: Kann direkt in bestehende RL-Trainings-Frameworks integriert werden
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
Zusammenfassung: Reinforce-Ada stellt ein innovatives adaptives Sampling-Framework vor, das das Signal-Kollaps-Problem im Reinforcement Learning von LLMs effektiv löst. Obwohl es Rechenkosten erhöht, zeigt es signifikante Verbesserungen in Trainingseffizienz und Endleistung und bietet wertvolle neue Perspektiven für LLM-Reinforcement-Learning-Training.