2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic

Reinforce-Ada: Un Framework di Campionamento Adattivo per l'Addestramento LLM in Stile Reinforce

Informazioni Fondamentali

  • ID Articolo: 2510.04996
  • Titolo: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
  • Autori: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
  • Classificazione: cs.LG cs.AI cs.CL stat.ML
  • Data di Pubblicazione: Ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2510.04996
  • Link Codice: https://github.com/RLHFlow/Reinforce-Ada

Riassunto

L'applicazione dell'apprendimento per rinforzo ai compiti di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) è spesso ostacolata da strategie di campionamento delle risposte fisse e uniformi che causano instabilità nella stima del gradiente. Questo articolo propone Reinforce-Ada, un framework di campionamento adattivo per l'addestramento post-RL online degli LLM, che rialloca continuamente lo sforzo di campionamento verso i prompt con la massima incertezza o potenziale di apprendimento. A differenza dei tradizionali metodi di allocazione in due fasi, Reinforce-Ada intreccia stima e campionamento in un processo di eliminazione successiva online, arrestando automaticamente il campionamento per i prompt una volta raccolti segnali sufficienti. Per stabilizzare gli aggiornamenti, il metodo forma gruppi di dimensione fissa e applica diversità nelle ricompense, calcolando le baseline di vantaggio utilizzando informazioni statistiche globali aggregate dalla fase di campionamento adattivo.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Instabilità nella Stima del Gradiente: I metodi tradizionali di apprendimento per rinforzo utilizzano un numero fisso di campioni (n) durante l'addestramento degli LLM, causando una varianza eccessiva nella stima del gradiente e instabilità nell'addestramento.
  2. Problema del Collasso del Segnale: Quando tutte le n risposte di un prompt ricevono la stessa ricompensa (tutte corrette o tutte errate), il calcolo del vantaggio in GRPO produce un gradiente nullo, causando perdita del segnale di addestramento.
  3. Inefficienza nel Campionamento: La strategia di campionamento uniforme non riesce ad allocare dinamicamente le risorse computazionali in base alla difficoltà e al valore di apprendimento del prompt.

Importanza del Problema

  • Nei compiti di ragionamento matematico, oltre il 50% dei prompt cade nello stato di "gradiente nullo"
  • Aumentare semplicemente il numero di campioni, sebbene attenui il problema, comporta costi computazionali eccessivi (ad esempio, quando n=512 i costi aumentano drasticamente)
  • I metodi di filtraggio passivo esistenti scartano molte risposte già generate, causando spreco di risorse

Limitazioni dei Metodi Esistenti

  1. Campionamento Fisso di GRPO: Non riesce ad adattarsi alle differenze di difficoltà tra i diversi prompt
  2. Metodi di Filtraggio Passivo: Producono molte risposte inutili prima di scartarle, con bassa efficienza
  3. Allocazione del Budget in Due Fasi: Metodi come GVM-RAFT separano stima e campionamento, con efficienza ridotta e difficile implementazione online

Contributi Fondamentali

  1. Propone il Framework Reinforce-Ada di Campionamento Adattivo: Unifica stima e campionamento in un processo di eliminazione successiva online, allocando dinamicamente il budget di inferenza
  2. Progetta Due Condizioni di Uscita:
    • Reinforce-Ada-pos: Focalizzato sulla raccolta di campioni positivi
    • Reinforce-Ada-balance: Bilancia campioni positivi e negativi, mantenendo l'esplorazione
  3. Introduce Normalizzazione Statistica Globale: Utilizza informazioni statistiche dell'intero processo di campionamento per calcolare il vantaggio, migliorando la stabilità della stima
  4. Implementa Sostituzione Plug-and-Play: Può sostituire direttamente il passo di generazione nelle pipeline RL esistenti senza modifiche architetturali
  5. Verifica l'Efficacia su Più Modelli e Benchmark: Migliora continuamente la velocità di convergenza e le prestazioni finali nei compiti di ragionamento matematico

Dettagli del Metodo

Definizione del Compito

Dato una distribuzione di prompt d₀, la politica πθ genera risposte a~πθ(·|x), un verificatore fornisce ricompense r⋆(x,a)∈{0,1}. L'obiettivo è massimizzare la ricompensa attesa:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Architettura dell'Algoritmo Principale

1. Processo di Campionamento Adattivo

Flusso dell'Algoritmo:
1. Inizializzazione: Tutti i prompt sono contrassegnati come attivi
2. Campionamento Multi-Round:
   - Campiona M risposte per ogni prompt attivo
   - Valuta le condizioni di uscita
   - Contrassegna i prompt che soddisfano le condizioni come inattivi
3. Ripeti finché tutti i prompt non escono o si raggiunge il numero massimo di round N

2. Progettazione delle Condizioni di Uscita

  • Reinforce-Ada-pos: Esce dopo aver raccolto almeno una risposta corretta
  • Reinforce-Ada-balance: Esce dopo aver raccolto almeno n/2 risposte corrette e n/2 errate

3. Costruzione del Batch di Addestramento

  • Sottocampiona dal pool di risposte di ogni prompt fino a una dimensione fissa n
  • Prioritizza il mantenimento dell'equilibrio tra campioni positivi e negativi (n/2 ciascuno)
  • Calcola il vantaggio utilizzando statistiche globali: A(x,aᵢ) = rᵢ - r̄

4. Funzione Obiettivo

Utilizza correzione per campionamento per importanza e clipping dello stile PPO:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Punti di Innovazione Tecnica

  1. Processo Unificato Online: Combina il metodo tradizionale in due fasi di stima e decisione in un singolo processo online
  2. Meccanismo di Eliminazione Successiva: Prende ispirazione dal pensiero delle slot machine multi-braccio, arrestando dinamicamente i prompt che non necessitano di ulteriore campionamento
  3. Strategia di Normalizzazione Globale: Utilizza informazioni statistiche dell'intero pool di campionamento piuttosto che del sottoinsieme finale selezionato, migliorando la robustezza della stima
  4. Garanzia di Campionamento Bilanciato: Assicura che ogni gruppo di addestramento abbia varianza non nulla, evitando la scomparsa del gradiente

Configurazione Sperimentale

Dataset

  • Dati di Addestramento: Sottoinsieme predefinito del dataset OpenR1-Math-220k
  • Preprocessing: Deduplicazione, filtraggio di verifica, selezione di difficoltà media (almeno 1 corretto su 16 campioni)

Modelli

  • Qwen2.5-Math-7B/1.5B
  • Qwen3-4B-it
  • Llama-3.2-3B-it

Metriche di Valutazione

  • Metriche di Addestramento: Curve di ricompensa, variazioni di entropia
  • Benchmark di Test: MATH500, Minerva Math, OlympiadBench, AIME-like
  • Metodo di Valutazione: Ave@32 (temperatura 1.0, token massimi 4096)

Dettagli di Implementazione

  • Dimensione del batch: 512 prompt
  • Dimensione del gruppo effettivo: n=4
  • Numero massimo di campioni: 32 risposte/prompt
  • Tasso di apprendimento: 1×10⁻⁶ (AdamW)
  • Regolarizzazione dell'entropia: 1×10⁻⁴
  • Passi di addestramento: 600

Risultati Sperimentali

Risultati Principali

Miglioramento dell'Efficienza di Addestramento

  • Velocità di Convergenza: Reinforce-Ada mostra vantaggi evidenti nei primi 50-150 passi
  • Prestazioni Finali: Raggiunge limiti di ricompensa più elevati su tutti i modelli testati
  • Stabilità: Reinforce-Ada-balance mostra le prestazioni più stabili

Prestazioni sui Benchmark di Test

ModelloMetodoMath500MinervaOlympiadAIME-likeMedia Ponderata
Qwen2.5-Math-1.5BGRPO74.234.438.416.245.3
Reinforce-Ada-balance77.436.540.517.547.6 (+2.3)
Qwen2.5-Math-7BGRPO82.244.745.623.253.3
Reinforce-Ada-balance84.045.247.123.754.6 (+1.3)

Esperimenti di Ablazione

Importanza del Campionamento Bilanciato

  • Reinforce-Ada-balance supera continuamente Reinforce-Ada-pos
  • Nelle fasi successive dell'addestramento, il campionamento bilanciato mantiene l'esplorazione, evitando il collasso dell'entropia

Analisi dei Costi Computazionali

ModelloMetodoTempo Medio per Passo (secondi)Costo Relativo
Qwen2.5-Math-1.5BGRPO1021.0×
Reinforce-Ada-balance2902.8×
Qwen2.5-Math-7BGRPO2361.0×
Reinforce-Ada-balance3751.59×

Impatto della Difficoltà del Prompt

  • Su insiemi di prompt difficili, il vantaggio di Reinforce-Ada è più pronunciato
  • Su insiemi di prompt semplici, i benefici sono relativamente minori, poiché la maggior parte dei prompt soddisfa le condizioni di uscita nei primi due round

Analisi della Dinamica di Campionamento

  1. Addestramento Iniziale: Il collo di bottiglia principale è la mancanza di campioni positivi, sia Reinforce-Ada-pos che balance sono efficaci
  2. Addestramento Successivo: Il collo di bottiglia si trasforma nella mancanza di campioni negativi, il vantaggio della versione balance diventa evidente
  3. Allocazione Adattiva: I prompt difficili ricevono più budget di campionamento, i prompt semplici escono anticipatamente

Lavori Correlati

Filtraggio e Selezione dei Dati

  • Metodi di Filtraggio Passivo: Yu et al. (2025), Xiong et al. (2025) scartano direttamente i gruppi con ricompense uniformi
  • Metodi di Allocazione del Budget: GVM-RAFT (Yao et al., 2025) adotta un paradigma di esplorazione-sfruttamento in due fasi
  • Apprendimento Curricolare: Shi et al. (2025), Zhang et al. (2025) si concentrano sulla selezione a livello di prompt

Varianti di GRPO

  • Miglioramenti nella Stima del Vantaggio: Hu (2025), Zhu et al. (2025) e altri modificano le regole di aggiornamento principale
  • Soluzione della Perdita di Segnale: Nan et al. (2025) aggiunge costanti per evitare varianza nulla, Le et al. (2025) utilizza informazioni di entropia

Teoria delle Slot Machine Multi-Braccio

  • Prende ispirazione dagli algoritmi di eliminazione successiva (Slivkins et al., 2019) per il pensiero decisionale online
  • Considera i prompt come bracci, allocando dinamicamente il budget di campionamento

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Campionamento Adattivo: Rispetto alle strategie di campionamento fisso, migliora significativamente l'efficienza di addestramento e le prestazioni finali
  2. Importanza del Campionamento Bilanciato: Mantenere l'equilibrio tra campioni positivi e negativi è cruciale per preservare l'esplorazione e evitare l'overfitting
  3. Praticità Plug-and-Play: Può essere integrato direttamente nei framework di addestramento RL esistenti

Limitazioni

  1. Costi Computazionali: Aumento dei costi computazionali di 1.5-2.8 volte rispetto a GRPO
  2. Limitazioni del Dominio: Gli esperimenti si concentrano principalmente sul dominio del ragionamento matematico
  3. Dipendenza dalla Difficoltà del Prompt: I benefici sono limitati su dataset dove i prompt semplici sono dominanti
  4. Sensibilità ai Iperparametri: Richiede una corretta impostazione del numero massimo di round N e del numero di campioni per round M

Direzioni Future

  1. Gestione Completa dei Dati: Combinazione con strategie macroscopiche come l'apprendimento curricolare
  2. Verifica Multi-Dominio: Estensione a altri compiti come generazione di codice e conversazione
  3. Analisi Teorica: Fornire garanzie teoriche sulla convergenza e sulla complessità campionaria
  4. Ottimizzazione dell'Efficienza: Ricerca di condizioni di uscita e strategie di campionamento più efficienti

Valutazione Approfondita

Punti di Forza

  1. Identificazione Accurata del Problema: Identifica chiaramente la causa fondamentale del collasso del segnale in GRPO
  2. Progettazione Ingegnosa del Metodo: Applica in modo innovativo le idee delle slot machine multi-braccio all'addestramento degli LLM
  3. Esperimenti Completi: Verifica completa su più modelli e benchmark
  4. Facilità di Implementazione: Fornisce un'implementazione plug-and-play, facilitando l'applicazione pratica
  5. Analisi Approfondita: Analisi dinamica dettagliata e esperimenti di ablazione

Carenze

  1. Fondamenti Teorici Deboli: Manca l'analisi teorica sulla convergenza e altri aspetti
  2. Compromesso Costo-Beneficio: Se l'aumento dei costi computazionali sia giustificato richiede ulteriore analisi
  3. Ambito di Applicabilità Limitato: Principalmente verificato sul ragionamento matematico, la generalizzabilità rimane da verificare
  4. Complessità nell'Ottimizzazione dei Parametri: Introduce iperparametri aggiuntivi che richiedono sintonizzazione

Impatto

  1. Valore Accademico: Fornisce una nuova prospettiva sul campionamento adattivo dei dati per l'apprendimento per rinforzo degli LLM
  2. Valore Pratico: Può essere applicato direttamente ai processi di addestramento esistenti
  3. Significato Ispiratore: Promuove l'applicazione della gestione adattiva dei dati nell'RL

Scenari di Applicabilità

  1. Requisiti di Alta Qualità: Applicazioni che richiedono prestazioni elevate del modello
  2. Risorse Computazionali Sufficienti: Scenari che possono sostenere costi computazionali aggiuntivi
  3. Compiti di Ragionamento: Particolarmente adatto per compiti che richiedono ragionamento multi-step come ragionamento matematico e generazione di codice
  4. Addestramento Online: Scenari che richiedono l'adeguamento dinamico della strategia di addestramento

Bibliografia

  1. Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
  2. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
  3. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
  4. Slivkins et al. (2019). Introduction to multi-armed bandits.
  5. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Sintesi: Reinforce-Ada propone un framework innovativo di campionamento adattivo che risolve efficacemente il problema del collasso del segnale nell'apprendimento per rinforzo degli LLM. Sebbene aumenti i costi computazionali, mostra miglioramenti significativi nell'efficienza di addestramento e nelle prestazioni finali, fornendo una prospettiva nuova e preziosa per l'addestramento con apprendimento per rinforzo degli LLM.