2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.

Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.

academic

Reinforce-Ada: Un Framework di Campionamento Adattivo per l'Addestramento LLM in Stile Reinforce

Informazioni Fondamentali

ID Articolo: 2510.04996
Titolo: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Autori: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
Classificazione: cs.LG cs.AI cs.CL stat.ML
Data di Pubblicazione: Ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2510.04996
Link Codice: https://github.com/RLHFlow/Reinforce-Ada

Riassunto

L'applicazione dell'apprendimento per rinforzo ai compiti di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) è spesso ostacolata da strategie di campionamento delle risposte fisse e uniformi che causano instabilità nella stima del gradiente. Questo articolo propone Reinforce-Ada, un framework di campionamento adattivo per l'addestramento post-RL online degli LLM, che rialloca continuamente lo sforzo di campionamento verso i prompt con la massima incertezza o potenziale di apprendimento. A differenza dei tradizionali metodi di allocazione in due fasi, Reinforce-Ada intreccia stima e campionamento in un processo di eliminazione successiva online, arrestando automaticamente il campionamento per i prompt una volta raccolti segnali sufficienti. Per stabilizzare gli aggiornamenti, il metodo forma gruppi di dimensione fissa e applica diversità nelle ricompense, calcolando le baseline di vantaggio utilizzando informazioni statistiche globali aggregate dalla fase di campionamento adattivo.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Instabilità nella Stima del Gradiente: I metodi tradizionali di apprendimento per rinforzo utilizzano un numero fisso di campioni (n) durante l'addestramento degli LLM, causando una varianza eccessiva nella stima del gradiente e instabilità nell'addestramento.
Problema del Collasso del Segnale: Quando tutte le n risposte di un prompt ricevono la stessa ricompensa (tutte corrette o tutte errate), il calcolo del vantaggio in GRPO produce un gradiente nullo, causando perdita del segnale di addestramento.
Inefficienza nel Campionamento: La strategia di campionamento uniforme non riesce ad allocare dinamicamente le risorse computazionali in base alla difficoltà e al valore di apprendimento del prompt.

Importanza del Problema

Nei compiti di ragionamento matematico, oltre il 50% dei prompt cade nello stato di "gradiente nullo"
Aumentare semplicemente il numero di campioni, sebbene attenui il problema, comporta costi computazionali eccessivi (ad esempio, quando n=512 i costi aumentano drasticamente)
I metodi di filtraggio passivo esistenti scartano molte risposte già generate, causando spreco di risorse

Limitazioni dei Metodi Esistenti

Campionamento Fisso di GRPO: Non riesce ad adattarsi alle differenze di difficoltà tra i diversi prompt
Metodi di Filtraggio Passivo: Producono molte risposte inutili prima di scartarle, con bassa efficienza
Allocazione del Budget in Due Fasi: Metodi come GVM-RAFT separano stima e campionamento, con efficienza ridotta e difficile implementazione online

Contributi Fondamentali

Propone il Framework Reinforce-Ada di Campionamento Adattivo: Unifica stima e campionamento in un processo di eliminazione successiva online, allocando dinamicamente il budget di inferenza
Progetta Due Condizioni di Uscita:
- Reinforce-Ada-pos: Focalizzato sulla raccolta di campioni positivi
- Reinforce-Ada-balance: Bilancia campioni positivi e negativi, mantenendo l'esplorazione
Introduce Normalizzazione Statistica Globale: Utilizza informazioni statistiche dell'intero processo di campionamento per calcolare il vantaggio, migliorando la stabilità della stima
Implementa Sostituzione Plug-and-Play: Può sostituire direttamente il passo di generazione nelle pipeline RL esistenti senza modifiche architetturali
Verifica l'Efficacia su Più Modelli e Benchmark: Migliora continuamente la velocità di convergenza e le prestazioni finali nei compiti di ragionamento matematico

Dettagli del Metodo

Definizione del Compito

Dato una distribuzione di prompt d₀, la politica πθ genera risposte a～πθ(·|x), un verificatore fornisce ricompense r⋆(x,a)∈{0,1}. L'obiettivo è massimizzare la ricompensa attesa:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Architettura dell'Algoritmo Principale

1. Processo di Campionamento Adattivo

Flusso dell'Algoritmo:
1. Inizializzazione: Tutti i prompt sono contrassegnati come attivi
2. Campionamento Multi-Round:
   - Campiona M risposte per ogni prompt attivo
   - Valuta le condizioni di uscita
   - Contrassegna i prompt che soddisfano le condizioni come inattivi
3. Ripeti finché tutti i prompt non escono o si raggiunge il numero massimo di round N

2. Progettazione delle Condizioni di Uscita

Reinforce-Ada-pos: Esce dopo aver raccolto almeno una risposta corretta
Reinforce-Ada-balance: Esce dopo aver raccolto almeno n/2 risposte corrette e n/2 errate

3. Costruzione del Batch di Addestramento

Sottocampiona dal pool di risposte di ogni prompt fino a una dimensione fissa n
Prioritizza il mantenimento dell'equilibrio tra campioni positivi e negativi (n/2 ciascuno)
Calcola il vantaggio utilizzando statistiche globali: A(x,aᵢ) = rᵢ - r̄

4. Funzione Obiettivo

Utilizza correzione per campionamento per importanza e clipping dello stile PPO:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Punti di Innovazione Tecnica

Processo Unificato Online: Combina il metodo tradizionale in due fasi di stima e decisione in un singolo processo online
Meccanismo di Eliminazione Successiva: Prende ispirazione dal pensiero delle slot machine multi-braccio, arrestando dinamicamente i prompt che non necessitano di ulteriore campionamento
Strategia di Normalizzazione Globale: Utilizza informazioni statistiche dell'intero pool di campionamento piuttosto che del sottoinsieme finale selezionato, migliorando la robustezza della stima
Garanzia di Campionamento Bilanciato: Assicura che ogni gruppo di addestramento abbia varianza non nulla, evitando la scomparsa del gradiente

Configurazione Sperimentale

Dataset

Dati di Addestramento: Sottoinsieme predefinito del dataset OpenR1-Math-220k
Preprocessing: Deduplicazione, filtraggio di verifica, selezione di difficoltà media (almeno 1 corretto su 16 campioni)

Modelli

Qwen2.5-Math-7B/1.5B
Qwen3-4B-it
Llama-3.2-3B-it

Metriche di Valutazione

Metriche di Addestramento: Curve di ricompensa, variazioni di entropia
Benchmark di Test: MATH500, Minerva Math, OlympiadBench, AIME-like
Metodo di Valutazione: Ave@32 (temperatura 1.0, token massimi 4096)

Dettagli di Implementazione

Dimensione del batch: 512 prompt
Dimensione del gruppo effettivo: n=4
Numero massimo di campioni: 32 risposte/prompt
Tasso di apprendimento: 1×10⁻⁶ (AdamW)
Regolarizzazione dell'entropia: 1×10⁻⁴
Passi di addestramento: 600

Risultati Sperimentali

Risultati Principali

Miglioramento dell'Efficienza di Addestramento

Velocità di Convergenza: Reinforce-Ada mostra vantaggi evidenti nei primi 50-150 passi
Prestazioni Finali: Raggiunge limiti di ricompensa più elevati su tutti i modelli testati
Stabilità: Reinforce-Ada-balance mostra le prestazioni più stabili

Prestazioni sui Benchmark di Test

Modello	Metodo	Math500	Minerva	Olympiad	AIME-like	Media Ponderata
Qwen2.5-Math-1.5B	GRPO	74.2	34.4	38.4	16.2	45.3
	Reinforce-Ada-balance	77.4	36.5	40.5	17.5	47.6 (+2.3)
Qwen2.5-Math-7B	GRPO	82.2	44.7	45.6	23.2	53.3
	Reinforce-Ada-balance	84.0	45.2	47.1	23.7	54.6 (+1.3)

Esperimenti di Ablazione

Importanza del Campionamento Bilanciato

Reinforce-Ada-balance supera continuamente Reinforce-Ada-pos
Nelle fasi successive dell'addestramento, il campionamento bilanciato mantiene l'esplorazione, evitando il collasso dell'entropia

Analisi dei Costi Computazionali

Modello	Metodo	Tempo Medio per Passo (secondi)	Costo Relativo
Qwen2.5-Math-1.5B	GRPO	102	1.0×
	Reinforce-Ada-balance	290	2.8×
Qwen2.5-Math-7B	GRPO	236	1.0×
	Reinforce-Ada-balance	375	1.59×

Impatto della Difficoltà del Prompt

Su insiemi di prompt difficili, il vantaggio di Reinforce-Ada è più pronunciato
Su insiemi di prompt semplici, i benefici sono relativamente minori, poiché la maggior parte dei prompt soddisfa le condizioni di uscita nei primi due round

Analisi della Dinamica di Campionamento

Addestramento Iniziale: Il collo di bottiglia principale è la mancanza di campioni positivi, sia Reinforce-Ada-pos che balance sono efficaci
Addestramento Successivo: Il collo di bottiglia si trasforma nella mancanza di campioni negativi, il vantaggio della versione balance diventa evidente
Allocazione Adattiva: I prompt difficili ricevono più budget di campionamento, i prompt semplici escono anticipatamente

Lavori Correlati

Filtraggio e Selezione dei Dati

Metodi di Filtraggio Passivo: Yu et al. (2025), Xiong et al. (2025) scartano direttamente i gruppi con ricompense uniformi
Metodi di Allocazione del Budget: GVM-RAFT (Yao et al., 2025) adotta un paradigma di esplorazione-sfruttamento in due fasi
Apprendimento Curricolare: Shi et al. (2025), Zhang et al. (2025) si concentrano sulla selezione a livello di prompt

Varianti di GRPO

Miglioramenti nella Stima del Vantaggio: Hu (2025), Zhu et al. (2025) e altri modificano le regole di aggiornamento principale
Soluzione della Perdita di Segnale: Nan et al. (2025) aggiunge costanti per evitare varianza nulla, Le et al. (2025) utilizza informazioni di entropia

Teoria delle Slot Machine Multi-Braccio

Prende ispirazione dagli algoritmi di eliminazione successiva (Slivkins et al., 2019) per il pensiero decisionale online
Considera i prompt come bracci, allocando dinamicamente il budget di campionamento

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Campionamento Adattivo: Rispetto alle strategie di campionamento fisso, migliora significativamente l'efficienza di addestramento e le prestazioni finali
Importanza del Campionamento Bilanciato: Mantenere l'equilibrio tra campioni positivi e negativi è cruciale per preservare l'esplorazione e evitare l'overfitting
Praticità Plug-and-Play: Può essere integrato direttamente nei framework di addestramento RL esistenti

Limitazioni

Costi Computazionali: Aumento dei costi computazionali di 1.5-2.8 volte rispetto a GRPO
Limitazioni del Dominio: Gli esperimenti si concentrano principalmente sul dominio del ragionamento matematico
Dipendenza dalla Difficoltà del Prompt: I benefici sono limitati su dataset dove i prompt semplici sono dominanti
Sensibilità ai Iperparametri: Richiede una corretta impostazione del numero massimo di round N e del numero di campioni per round M

Direzioni Future

Gestione Completa dei Dati: Combinazione con strategie macroscopiche come l'apprendimento curricolare
Verifica Multi-Dominio: Estensione a altri compiti come generazione di codice e conversazione
Analisi Teorica: Fornire garanzie teoriche sulla convergenza e sulla complessità campionaria
Ottimizzazione dell'Efficienza: Ricerca di condizioni di uscita e strategie di campionamento più efficienti

Valutazione Approfondita

Punti di Forza

Identificazione Accurata del Problema: Identifica chiaramente la causa fondamentale del collasso del segnale in GRPO
Progettazione Ingegnosa del Metodo: Applica in modo innovativo le idee delle slot machine multi-braccio all'addestramento degli LLM
Esperimenti Completi: Verifica completa su più modelli e benchmark
Facilità di Implementazione: Fornisce un'implementazione plug-and-play, facilitando l'applicazione pratica
Analisi Approfondita: Analisi dinamica dettagliata e esperimenti di ablazione

Carenze

Fondamenti Teorici Deboli: Manca l'analisi teorica sulla convergenza e altri aspetti
Compromesso Costo-Beneficio: Se l'aumento dei costi computazionali sia giustificato richiede ulteriore analisi
Ambito di Applicabilità Limitato: Principalmente verificato sul ragionamento matematico, la generalizzabilità rimane da verificare
Complessità nell'Ottimizzazione dei Parametri: Introduce iperparametri aggiuntivi che richiedono sintonizzazione

Impatto

Valore Accademico: Fornisce una nuova prospettiva sul campionamento adattivo dei dati per l'apprendimento per rinforzo degli LLM
Valore Pratico: Può essere applicato direttamente ai processi di addestramento esistenti
Significato Ispiratore: Promuove l'applicazione della gestione adattiva dei dati nell'RL

Scenari di Applicabilità

Requisiti di Alta Qualità: Applicazioni che richiedono prestazioni elevate del modello
Risorse Computazionali Sufficienti: Scenari che possono sostenere costi computazionali aggiuntivi
Compiti di Ragionamento: Particolarmente adatto per compiti che richiedono ragionamento multi-step come ragionamento matematico e generazione di codice
Addestramento Online: Scenari che richiedono l'adeguamento dinamico della strategia di addestramento

Bibliografia

Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Sintesi: Reinforce-Ada propone un framework innovativo di campionamento adattivo che risolve efficacemente il problema del collasso del segnale nell'apprendimento per rinforzo degli LLM. Sebbene aumenti i costi computazionali, mostra miglioramenti significativi nell'efficienza di addestramento e nelle prestazioni finali, fornendo una prospettiva nuova e preziosa per l'addestramento con apprendimento per rinforzo degli LLM.