2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.

Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.

academic

Reinforce-Ada: Un Marco de Muestreo Adaptativo para Entrenamiento de LLMs de Estilo Reinforce

Información Básica

ID del Artículo: 2510.04996
Título: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Autores: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
Clasificación: cs.LG cs.AI cs.CL stat.ML
Fecha de Publicación: Octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2510.04996
Enlace del Código: https://github.com/RLHFlow/Reinforce-Ada

Resumen

La aplicación del aprendizaje por refuerzo a tareas de razonamiento en modelos de lenguaje grandes (LLMs) frecuentemente resulta en estimaciones de gradientes inestables debido a estrategias de muestreo de respuestas fijas y uniformes. Este artículo propone Reinforce-Ada, un marco de muestreo adaptativo para el entrenamiento posterior de aprendizaje por refuerzo en línea de LLMs, capaz de reasignar continuamente el esfuerzo de muestreo a indicaciones con máxima incertidumbre o potencial de aprendizaje. A diferencia de los métodos tradicionales de asignación de dos etapas, Reinforce-Ada entrelaza la estimación y el muestreo en un proceso de eliminación sucesiva en línea, deteniendo automáticamente el muestreo de indicaciones una vez que se recopila suficiente señal. Para estabilizar las actualizaciones, el método forma grupos de tamaño fijo e impone diversidad de recompensas, utilizando información estadística global agregada de la fase de muestreo adaptativo para calcular líneas base de ventaja.

Contexto de Investigación y Motivación

Problemas Centrales

Inestabilidad en la Estimación de Gradientes: Los métodos tradicionales de aprendizaje por refuerzo emplean un número fijo de muestras pequeñas (n) durante el muestreo, resultando en una varianza excesiva en la estimación de gradientes e inestabilidad en el entrenamiento.
Problema del Colapso de Señal: Cuando todas las n respuestas de una indicación reciben la misma recompensa (todas correctas o todas incorrectas), el cálculo de ventaja en GRPO produce gradientes cero, causando pérdida de señal de entrenamiento.
Ineficiencia en el Muestreo: La estrategia de muestreo uniforme no puede asignar dinámicamente recursos computacionales según la dificultad y valor de aprendizaje de la indicación.

Importancia del Problema

En tareas como razonamiento matemático, más del 50% de las indicaciones caen en estado de "gradiente cero"
Aumentar simplemente el número de muestras, aunque alivia el problema, tiene un costo computacional prohibitivo (como cuando n=512)
Los métodos de filtrado pasivo existentes descartan muchas respuestas ya generadas, causando desperdicio de recursos

Limitaciones de Métodos Existentes

Muestreo Fijo de GRPO: No puede adaptarse a diferencias de dificultad entre indicaciones
Métodos de Filtrado Pasivo: Generan muchas respuestas inútiles antes de descartarlas, baja eficiencia
Asignación de Presupuesto de Dos Etapas: Métodos como GVM-RAFT separan estimación y muestreo, con eficiencia limitada y difícil implementación en línea

Contribuciones Principales

Propone el Marco Reinforce-Ada de Muestreo Adaptativo: Unifica estimación y muestreo en un proceso de eliminación sucesiva en línea, asignando dinámicamente presupuesto de inferencia
Diseña Dos Condiciones de Salida:
- Reinforce-Ada-pos: Se enfoca en la recopilación de muestras positivas
- Reinforce-Ada-balance: Equilibra muestras positivas y negativas, manteniendo exploración
Introduce Normalización Estadística Global: Utiliza información estadística de todo el proceso de muestreo para calcular ventaja, mejorando la estabilidad de estimación
Implementa Reemplazo Plug-and-Play: Puede reemplazar directamente el paso de generación en canalizaciones RL existentes sin modificaciones arquitectónicas
Valida Efectividad en Múltiples Modelos y Puntos de Referencia: Mejora continua en velocidad de convergencia y rendimiento final en tareas de razonamiento matemático

Explicación Detallada del Método

Definición de la Tarea

Dada una distribución de indicaciones d₀, la política πθ genera respuestas a～πθ(·|x), un verificador proporciona recompensa r⋆(x,a)∈{0,1}. El objetivo es maximizar la recompensa esperada:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Arquitectura del Algoritmo Principal

1. Proceso de Muestreo Adaptativo

Flujo del Algoritmo:
1. Inicialización: Todas las indicaciones marcadas como activas
2. Muestreo Multi-ronda:
   - Muestrear M respuestas para cada indicación activa
   - Evaluar condiciones de salida
   - Marcar indicaciones que cumplen condiciones como inactivas
3. Repetir hasta que todas las indicaciones salgan o se alcance máximo de rondas N

2. Diseño de Condiciones de Salida

Reinforce-Ada-pos: Sale después de recopilar al menos una respuesta correcta
Reinforce-Ada-balance: Sale solo después de recopilar al menos n/2 respuestas correctas y n/2 incorrectas

3. Construcción de Lotes de Entrenamiento

Submuestrear respuestas de cada indicación a tamaño fijo n
Priorizar mantener equilibrio de muestras positivas y negativas (n/2 cada una)
Utilizar estadísticas globales para calcular ventaja: A(x,aᵢ) = rᵢ - r̄

4. Función Objetivo

Adopta corrección de muestreo por importancia y recorte de gradiente estilo PPO:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Puntos de Innovación Técnica

Proceso Unificado en Línea: Combina la estimación y decisión del método tradicional de dos etapas en un único proceso en línea
Mecanismo de Eliminación Sucesiva: Inspirado en el pensamiento de máquinas tragaperras multi-brazo, detiene dinámicamente indicaciones que no requieren más muestreo
Estrategia de Normalización Global: Utiliza información estadística del grupo de muestreo completo en lugar de subconjuntos finales seleccionados, mejorando robustez de estimación
Garantía de Muestreo Equilibrado: Asegura que cada grupo de entrenamiento tenga varianza no nula, evitando desaparición de gradientes

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento: Subconjunto predeterminado del conjunto de datos OpenR1-Math-220k
Preprocesamiento: Deduplicación, filtrado de verificación, filtrado de dificultad media (al menos 1 correcto en 16 muestras)

Modelos

Qwen2.5-Math-7B/1.5B
Qwen3-4B-it
Llama-3.2-3B-it

Métricas de Evaluación

Métricas de Entrenamiento: Curvas de recompensa, cambios de entropía
Puntos de Referencia de Prueba: MATH500, Minerva Math, OlympiadBench, AIME-like
Método de Evaluación: Ave@32 (temperatura 1.0, máximo 4096 tokens)

Detalles de Implementación

Tamaño de lote: 512 indicaciones
Tamaño de grupo efectivo: n=4
Número máximo de muestras: 32 respuestas/indicación
Tasa de aprendizaje: 1×10⁻⁶ (AdamW)
Regularización de entropía: 1×10⁻⁴
Pasos de entrenamiento: 600

Resultados Experimentales

Resultados Principales

Mejora en Eficiencia de Entrenamiento

Velocidad de Convergencia: Reinforce-Ada muestra ventaja clara en los primeros 50-150 pasos
Rendimiento Final: Alcanza límites de recompensa más altos en todos los modelos de prueba
Estabilidad: Reinforce-Ada-balance muestra el desempeño más estable

Desempeño en Puntos de Referencia de Prueba

Modelo	Método	Math500	Minerva	Olympiad	AIME-like	Promedio Ponderado
Qwen2.5-Math-1.5B	GRPO	74.2	34.4	38.4	16.2	45.3
	Reinforce-Ada-balance	77.4	36.5	40.5	17.5	47.6 (+2.3)
Qwen2.5-Math-7B	GRPO	82.2	44.7	45.6	23.2	53.3
	Reinforce-Ada-balance	84.0	45.2	47.1	23.7	54.6 (+1.3)

Experimentos de Ablación

Importancia del Muestreo Equilibrado

Reinforce-Ada-balance supera consistentemente a Reinforce-Ada-pos
En etapas posteriores del entrenamiento, el muestreo equilibrado mantiene exploración, evitando colapso de entropía

Análisis de Sobrecarga Computacional

Modelo	Método	Tiempo Promedio por Paso (seg)	Costo Relativo
Qwen2.5-Math-1.5B	GRPO	102	1.0×
	Reinforce-Ada-balance	290	2.8×
Qwen2.5-Math-7B	GRPO	236	1.0×
	Reinforce-Ada-balance	375	1.59×

Impacto de Dificultad de Indicación

En conjuntos de indicaciones difíciles, la ventaja de Reinforce-Ada es más pronunciada
En conjuntos de indicaciones simples, las ganancias son relativamente pequeñas, ya que la mayoría de indicaciones cumplen condiciones de salida en las primeras dos rondas

Análisis de Dinámicas de Muestreo

Entrenamiento Temprano: El cuello de botella principal es la falta de muestras positivas, tanto Reinforce-Ada-pos como balance son efectivos
Entrenamiento Posterior: El cuello de botella se convierte en falta de muestras negativas, la versión balance muestra ventaja clara
Asignación Adaptativa: Las indicaciones difíciles reciben más presupuesto de muestreo, las indicaciones simples salen temprano

Trabajo Relacionado

Filtrado y Selección de Datos

Métodos de Filtrado Pasivo: Yu et al. (2025), Xiong et al. (2025) descartan directamente grupos de recompensa uniforme
Métodos de Asignación de Presupuesto: GVM-RAFT (Yao et al., 2025) adopta paradigma de exploración-explotación de dos etapas
Aprendizaje Curricular: Shi et al. (2025), Zhang et al. (2025) se enfoca en selección a nivel de indicación

Diseño de Variantes GRPO

Mejora de Estimación de Ventaja: Hu (2025), Zhu et al. (2025) y otros modifican reglas de actualización central
Solución de Pérdida de Señal: Nan et al. (2025) añade constantes para evitar varianza cero, Le et al. (2025) utiliza información de entropía

Teoría de Máquinas Tragaperras Multi-Brazo

Inspirado en pensamiento de algoritmos de eliminación sucesiva (Slivkins et al., 2019) para toma de decisiones en línea
Trata indicaciones como brazos, asignando dinámicamente presupuesto de muestreo

Conclusiones y Discusión

Conclusiones Principales

Muestreo Adaptativo Efectivo: Comparado con estrategias de muestreo fijo, mejora significativamente la eficiencia de entrenamiento y rendimiento final
Muestreo Equilibrado Crítico: Mantener equilibrio de muestras positivas y negativas es crucial para mantener exploración y evitar sobreajuste
Utilidad Plug-and-Play: Puede integrarse directamente en marcos de entrenamiento RL existentes

Limitaciones

Sobrecarga Computacional: Aumento de costo computacional de 1.5-2.8 veces comparado con GRPO
Restricción de Dominio: Los experimentos se concentran principalmente en el dominio de razonamiento matemático
Dependencia de Dificultad de Indicación: Las ganancias son limitadas en conjuntos de datos donde indicaciones simples son dominantes
Sensibilidad a Hiperparámetros: Requiere configuración razonable del número máximo de rondas N y número de muestras por ronda M

Direcciones Futuras

Gestión de Datos de Flujo Completo: Combinar con estrategias macro como aprendizaje curricular
Validación Multi-Dominio: Extender a otras tareas como generación de código, diálogo, etc.
Análisis Teórico: Proporcionar garantías teóricas sobre convergencia y complejidad de muestras
Optimización de Eficiencia: Investigar condiciones de salida y estrategias de muestreo más eficientes

Evaluación Profunda

Fortalezas

Identificación Precisa del Problema: Identifica claramente la causa raíz del colapso de señal en GRPO
Diseño de Método Ingenioso: Aplica creativamente ideas de máquinas tragaperras multi-brazo al entrenamiento de LLMs
Experimentos Exhaustivos: Validación integral en múltiples modelos y puntos de referencia
Amigable con la Ingeniería: Proporciona implementación plug-and-play, facilitando aplicación práctica
Análisis Profundo: Análisis dinámico detallado y experimentos de ablación

Insuficiencias

Fundamento Teórico Débil: Carece de análisis teórico sobre convergencia, etc.
Equilibrio Costo-Beneficio: Si el aumento de sobrecarga computacional vale la pena requiere más análisis
Rango de Aplicabilidad Limitado: Principalmente validado en razonamiento matemático, la generalización requiere consideración
Complejidad de Ajuste de Parámetros: Introduce hiperparámetros adicionales que requieren ajuste

Impacto

Valor Académico: Proporciona nueva perspectiva sobre muestreo de datos en aprendizaje por refuerzo para LLMs
Valor Práctico: Puede aplicarse directamente a procesos de entrenamiento existentes
Significado Inspirador: Impulsa la aplicación de gestión de datos adaptativa en RL

Escenarios Aplicables

Requisitos de Alta Calidad: Aplicaciones con requisitos altos de rendimiento del modelo
Recursos Computacionales Suficientes: Escenarios que pueden asumir costo computacional adicional
Tareas de Razonamiento: Particularmente adecuado para razonamiento matemático, generación de código y otras tareas que requieren razonamiento multi-paso
Entrenamiento en Línea: Escenarios que requieren ajuste dinámico de estrategias de entrenamiento

Referencias

Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Resumen: Reinforce-Ada propone un marco innovador de muestreo adaptativo que resuelve efectivamente el problema del colapso de señal en el aprendizaje por refuerzo de LLMs. Aunque aumenta el costo computacional, muestra mejoras significativas en eficiencia de entrenamiento y rendimiento final, proporcionando nuevas perspectivas valiosas para el entrenamiento de aprendizaje por refuerzo de LLMs.