Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic
Reinforce-Ada: Un Framework di Campionamento Adattivo per l'Addestramento LLM in Stile Reinforce
L'applicazione dell'apprendimento per rinforzo ai compiti di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) è spesso ostacolata da strategie di campionamento delle risposte fisse e uniformi che causano instabilità nella stima del gradiente. Questo articolo propone Reinforce-Ada, un framework di campionamento adattivo per l'addestramento post-RL online degli LLM, che rialloca continuamente lo sforzo di campionamento verso i prompt con la massima incertezza o potenziale di apprendimento. A differenza dei tradizionali metodi di allocazione in due fasi, Reinforce-Ada intreccia stima e campionamento in un processo di eliminazione successiva online, arrestando automaticamente il campionamento per i prompt una volta raccolti segnali sufficienti. Per stabilizzare gli aggiornamenti, il metodo forma gruppi di dimensione fissa e applica diversità nelle ricompense, calcolando le baseline di vantaggio utilizzando informazioni statistiche globali aggregate dalla fase di campionamento adattivo.
Instabilità nella Stima del Gradiente: I metodi tradizionali di apprendimento per rinforzo utilizzano un numero fisso di campioni (n) durante l'addestramento degli LLM, causando una varianza eccessiva nella stima del gradiente e instabilità nell'addestramento.
Problema del Collasso del Segnale: Quando tutte le n risposte di un prompt ricevono la stessa ricompensa (tutte corrette o tutte errate), il calcolo del vantaggio in GRPO produce un gradiente nullo, causando perdita del segnale di addestramento.
Inefficienza nel Campionamento: La strategia di campionamento uniforme non riesce ad allocare dinamicamente le risorse computazionali in base alla difficoltà e al valore di apprendimento del prompt.
Nei compiti di ragionamento matematico, oltre il 50% dei prompt cade nello stato di "gradiente nullo"
Aumentare semplicemente il numero di campioni, sebbene attenui il problema, comporta costi computazionali eccessivi (ad esempio, quando n=512 i costi aumentano drasticamente)
I metodi di filtraggio passivo esistenti scartano molte risposte già generate, causando spreco di risorse
Propone il Framework Reinforce-Ada di Campionamento Adattivo: Unifica stima e campionamento in un processo di eliminazione successiva online, allocando dinamicamente il budget di inferenza
Progetta Due Condizioni di Uscita:
Reinforce-Ada-pos: Focalizzato sulla raccolta di campioni positivi
Reinforce-Ada-balance: Bilancia campioni positivi e negativi, mantenendo l'esplorazione
Introduce Normalizzazione Statistica Globale: Utilizza informazioni statistiche dell'intero processo di campionamento per calcolare il vantaggio, migliorando la stabilità della stima
Implementa Sostituzione Plug-and-Play: Può sostituire direttamente il passo di generazione nelle pipeline RL esistenti senza modifiche architetturali
Verifica l'Efficacia su Più Modelli e Benchmark: Migliora continuamente la velocità di convergenza e le prestazioni finali nei compiti di ragionamento matematico
Dato una distribuzione di prompt d₀, la politica πθ genera risposte a~πθ(·|x), un verificatore fornisce ricompense r⋆(x,a)∈{0,1}. L'obiettivo è massimizzare la ricompensa attesa:
Flusso dell'Algoritmo:
1. Inizializzazione: Tutti i prompt sono contrassegnati come attivi
2. Campionamento Multi-Round:
- Campiona M risposte per ogni prompt attivo
- Valuta le condizioni di uscita
- Contrassegna i prompt che soddisfano le condizioni come inattivi
3. Ripeti finché tutti i prompt non escono o si raggiunge il numero massimo di round N
Processo Unificato Online: Combina il metodo tradizionale in due fasi di stima e decisione in un singolo processo online
Meccanismo di Eliminazione Successiva: Prende ispirazione dal pensiero delle slot machine multi-braccio, arrestando dinamicamente i prompt che non necessitano di ulteriore campionamento
Strategia di Normalizzazione Globale: Utilizza informazioni statistiche dell'intero pool di campionamento piuttosto che del sottoinsieme finale selezionato, migliorando la robustezza della stima
Garanzia di Campionamento Bilanciato: Assicura che ogni gruppo di addestramento abbia varianza non nulla, evitando la scomparsa del gradiente
Su insiemi di prompt difficili, il vantaggio di Reinforce-Ada è più pronunciato
Su insiemi di prompt semplici, i benefici sono relativamente minori, poiché la maggior parte dei prompt soddisfa le condizioni di uscita nei primi due round
Efficacia del Campionamento Adattivo: Rispetto alle strategie di campionamento fisso, migliora significativamente l'efficienza di addestramento e le prestazioni finali
Importanza del Campionamento Bilanciato: Mantenere l'equilibrio tra campioni positivi e negativi è cruciale per preservare l'esplorazione e evitare l'overfitting
Praticità Plug-and-Play: Può essere integrato direttamente nei framework di addestramento RL esistenti
Requisiti di Alta Qualità: Applicazioni che richiedono prestazioni elevate del modello
Risorse Computazionali Sufficienti: Scenari che possono sostenere costi computazionali aggiuntivi
Compiti di Ragionamento: Particolarmente adatto per compiti che richiedono ragionamento multi-step come ragionamento matematico e generazione di codice
Addestramento Online: Scenari che richiedono l'adeguamento dinamico della strategia di addestramento
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
Sintesi: Reinforce-Ada propone un framework innovativo di campionamento adattivo che risolve efficacemente il problema del collasso del segnale nell'apprendimento per rinforzo degli LLM. Sebbene aumenti i costi computazionali, mostra miglioramenti significativi nell'efficienza di addestramento e nelle prestazioni finali, fornendo una prospettiva nuova e preziosa per l'addestramento con apprendimento per rinforzo degli LLM.