Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic
Reinforce-Ada: Un Marco de Muestreo Adaptativo para Entrenamiento de LLMs de Estilo Reinforce
La aplicación del aprendizaje por refuerzo a tareas de razonamiento en modelos de lenguaje grandes (LLMs) frecuentemente resulta en estimaciones de gradientes inestables debido a estrategias de muestreo de respuestas fijas y uniformes. Este artículo propone Reinforce-Ada, un marco de muestreo adaptativo para el entrenamiento posterior de aprendizaje por refuerzo en línea de LLMs, capaz de reasignar continuamente el esfuerzo de muestreo a indicaciones con máxima incertidumbre o potencial de aprendizaje. A diferencia de los métodos tradicionales de asignación de dos etapas, Reinforce-Ada entrelaza la estimación y el muestreo en un proceso de eliminación sucesiva en línea, deteniendo automáticamente el muestreo de indicaciones una vez que se recopila suficiente señal. Para estabilizar las actualizaciones, el método forma grupos de tamaño fijo e impone diversidad de recompensas, utilizando información estadística global agregada de la fase de muestreo adaptativo para calcular líneas base de ventaja.
Inestabilidad en la Estimación de Gradientes: Los métodos tradicionales de aprendizaje por refuerzo emplean un número fijo de muestras pequeñas (n) durante el muestreo, resultando en una varianza excesiva en la estimación de gradientes e inestabilidad en el entrenamiento.
Problema del Colapso de Señal: Cuando todas las n respuestas de una indicación reciben la misma recompensa (todas correctas o todas incorrectas), el cálculo de ventaja en GRPO produce gradientes cero, causando pérdida de señal de entrenamiento.
Ineficiencia en el Muestreo: La estrategia de muestreo uniforme no puede asignar dinámicamente recursos computacionales según la dificultad y valor de aprendizaje de la indicación.
Muestreo Fijo de GRPO: No puede adaptarse a diferencias de dificultad entre indicaciones
Métodos de Filtrado Pasivo: Generan muchas respuestas inútiles antes de descartarlas, baja eficiencia
Asignación de Presupuesto de Dos Etapas: Métodos como GVM-RAFT separan estimación y muestreo, con eficiencia limitada y difícil implementación en línea
Propone el Marco Reinforce-Ada de Muestreo Adaptativo: Unifica estimación y muestreo en un proceso de eliminación sucesiva en línea, asignando dinámicamente presupuesto de inferencia
Diseña Dos Condiciones de Salida:
Reinforce-Ada-pos: Se enfoca en la recopilación de muestras positivas
Reinforce-Ada-balance: Equilibra muestras positivas y negativas, manteniendo exploración
Introduce Normalización Estadística Global: Utiliza información estadística de todo el proceso de muestreo para calcular ventaja, mejorando la estabilidad de estimación
Implementa Reemplazo Plug-and-Play: Puede reemplazar directamente el paso de generación en canalizaciones RL existentes sin modificaciones arquitectónicas
Valida Efectividad en Múltiples Modelos y Puntos de Referencia: Mejora continua en velocidad de convergencia y rendimiento final en tareas de razonamiento matemático
Dada una distribución de indicaciones d₀, la política πθ genera respuestas a~πθ(·|x), un verificador proporciona recompensa r⋆(x,a)∈{0,1}. El objetivo es maximizar la recompensa esperada:
Flujo del Algoritmo:
1. Inicialización: Todas las indicaciones marcadas como activas
2. Muestreo Multi-ronda:
- Muestrear M respuestas para cada indicación activa
- Evaluar condiciones de salida
- Marcar indicaciones que cumplen condiciones como inactivas
3. Repetir hasta que todas las indicaciones salgan o se alcance máximo de rondas N
Proceso Unificado en Línea: Combina la estimación y decisión del método tradicional de dos etapas en un único proceso en línea
Mecanismo de Eliminación Sucesiva: Inspirado en el pensamiento de máquinas tragaperras multi-brazo, detiene dinámicamente indicaciones que no requieren más muestreo
Estrategia de Normalización Global: Utiliza información estadística del grupo de muestreo completo en lugar de subconjuntos finales seleccionados, mejorando robustez de estimación
Garantía de Muestreo Equilibrado: Asegura que cada grupo de entrenamiento tenga varianza no nula, evitando desaparición de gradientes
En conjuntos de indicaciones difíciles, la ventaja de Reinforce-Ada es más pronunciada
En conjuntos de indicaciones simples, las ganancias son relativamente pequeñas, ya que la mayoría de indicaciones cumplen condiciones de salida en las primeras dos rondas
Requisitos de Alta Calidad: Aplicaciones con requisitos altos de rendimiento del modelo
Recursos Computacionales Suficientes: Escenarios que pueden asumir costo computacional adicional
Tareas de Razonamiento: Particularmente adecuado para razonamiento matemático, generación de código y otras tareas que requieren razonamiento multi-paso
Entrenamiento en Línea: Escenarios que requieren ajuste dinámico de estrategias de entrenamiento
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
Resumen: Reinforce-Ada propone un marco innovador de muestreo adaptativo que resuelve efectivamente el problema del colapso de señal en el aprendizaje por refuerzo de LLMs. Aunque aumenta el costo computacional, muestra mejoras significativas en eficiencia de entrenamiento y rendimiento final, proporcionando nuevas perspectivas valiosas para el entrenamiento de aprendizaje por refuerzo de LLMs.