2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic

Reinforce-Ada: Un Marco de Muestreo Adaptativo para Entrenamiento de LLMs de Estilo Reinforce

Información Básica

  • ID del Artículo: 2510.04996
  • Título: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
  • Autores: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
  • Clasificación: cs.LG cs.AI cs.CL stat.ML
  • Fecha de Publicación: Octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2510.04996
  • Enlace del Código: https://github.com/RLHFlow/Reinforce-Ada

Resumen

La aplicación del aprendizaje por refuerzo a tareas de razonamiento en modelos de lenguaje grandes (LLMs) frecuentemente resulta en estimaciones de gradientes inestables debido a estrategias de muestreo de respuestas fijas y uniformes. Este artículo propone Reinforce-Ada, un marco de muestreo adaptativo para el entrenamiento posterior de aprendizaje por refuerzo en línea de LLMs, capaz de reasignar continuamente el esfuerzo de muestreo a indicaciones con máxima incertidumbre o potencial de aprendizaje. A diferencia de los métodos tradicionales de asignación de dos etapas, Reinforce-Ada entrelaza la estimación y el muestreo en un proceso de eliminación sucesiva en línea, deteniendo automáticamente el muestreo de indicaciones una vez que se recopila suficiente señal. Para estabilizar las actualizaciones, el método forma grupos de tamaño fijo e impone diversidad de recompensas, utilizando información estadística global agregada de la fase de muestreo adaptativo para calcular líneas base de ventaja.

Contexto de Investigación y Motivación

Problemas Centrales

  1. Inestabilidad en la Estimación de Gradientes: Los métodos tradicionales de aprendizaje por refuerzo emplean un número fijo de muestras pequeñas (n) durante el muestreo, resultando en una varianza excesiva en la estimación de gradientes e inestabilidad en el entrenamiento.
  2. Problema del Colapso de Señal: Cuando todas las n respuestas de una indicación reciben la misma recompensa (todas correctas o todas incorrectas), el cálculo de ventaja en GRPO produce gradientes cero, causando pérdida de señal de entrenamiento.
  3. Ineficiencia en el Muestreo: La estrategia de muestreo uniforme no puede asignar dinámicamente recursos computacionales según la dificultad y valor de aprendizaje de la indicación.

Importancia del Problema

  • En tareas como razonamiento matemático, más del 50% de las indicaciones caen en estado de "gradiente cero"
  • Aumentar simplemente el número de muestras, aunque alivia el problema, tiene un costo computacional prohibitivo (como cuando n=512)
  • Los métodos de filtrado pasivo existentes descartan muchas respuestas ya generadas, causando desperdicio de recursos

Limitaciones de Métodos Existentes

  1. Muestreo Fijo de GRPO: No puede adaptarse a diferencias de dificultad entre indicaciones
  2. Métodos de Filtrado Pasivo: Generan muchas respuestas inútiles antes de descartarlas, baja eficiencia
  3. Asignación de Presupuesto de Dos Etapas: Métodos como GVM-RAFT separan estimación y muestreo, con eficiencia limitada y difícil implementación en línea

Contribuciones Principales

  1. Propone el Marco Reinforce-Ada de Muestreo Adaptativo: Unifica estimación y muestreo en un proceso de eliminación sucesiva en línea, asignando dinámicamente presupuesto de inferencia
  2. Diseña Dos Condiciones de Salida:
    • Reinforce-Ada-pos: Se enfoca en la recopilación de muestras positivas
    • Reinforce-Ada-balance: Equilibra muestras positivas y negativas, manteniendo exploración
  3. Introduce Normalización Estadística Global: Utiliza información estadística de todo el proceso de muestreo para calcular ventaja, mejorando la estabilidad de estimación
  4. Implementa Reemplazo Plug-and-Play: Puede reemplazar directamente el paso de generación en canalizaciones RL existentes sin modificaciones arquitectónicas
  5. Valida Efectividad en Múltiples Modelos y Puntos de Referencia: Mejora continua en velocidad de convergencia y rendimiento final en tareas de razonamiento matemático

Explicación Detallada del Método

Definición de la Tarea

Dada una distribución de indicaciones d₀, la política πθ genera respuestas a~πθ(·|x), un verificador proporciona recompensa r⋆(x,a)∈{0,1}. El objetivo es maximizar la recompensa esperada:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Arquitectura del Algoritmo Principal

1. Proceso de Muestreo Adaptativo

Flujo del Algoritmo:
1. Inicialización: Todas las indicaciones marcadas como activas
2. Muestreo Multi-ronda:
   - Muestrear M respuestas para cada indicación activa
   - Evaluar condiciones de salida
   - Marcar indicaciones que cumplen condiciones como inactivas
3. Repetir hasta que todas las indicaciones salgan o se alcance máximo de rondas N

2. Diseño de Condiciones de Salida

  • Reinforce-Ada-pos: Sale después de recopilar al menos una respuesta correcta
  • Reinforce-Ada-balance: Sale solo después de recopilar al menos n/2 respuestas correctas y n/2 incorrectas

3. Construcción de Lotes de Entrenamiento

  • Submuestrear respuestas de cada indicación a tamaño fijo n
  • Priorizar mantener equilibrio de muestras positivas y negativas (n/2 cada una)
  • Utilizar estadísticas globales para calcular ventaja: A(x,aᵢ) = rᵢ - r̄

4. Función Objetivo

Adopta corrección de muestreo por importancia y recorte de gradiente estilo PPO:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Puntos de Innovación Técnica

  1. Proceso Unificado en Línea: Combina la estimación y decisión del método tradicional de dos etapas en un único proceso en línea
  2. Mecanismo de Eliminación Sucesiva: Inspirado en el pensamiento de máquinas tragaperras multi-brazo, detiene dinámicamente indicaciones que no requieren más muestreo
  3. Estrategia de Normalización Global: Utiliza información estadística del grupo de muestreo completo en lugar de subconjuntos finales seleccionados, mejorando robustez de estimación
  4. Garantía de Muestreo Equilibrado: Asegura que cada grupo de entrenamiento tenga varianza no nula, evitando desaparición de gradientes

Configuración Experimental

Conjuntos de Datos

  • Datos de Entrenamiento: Subconjunto predeterminado del conjunto de datos OpenR1-Math-220k
  • Preprocesamiento: Deduplicación, filtrado de verificación, filtrado de dificultad media (al menos 1 correcto en 16 muestras)

Modelos

  • Qwen2.5-Math-7B/1.5B
  • Qwen3-4B-it
  • Llama-3.2-3B-it

Métricas de Evaluación

  • Métricas de Entrenamiento: Curvas de recompensa, cambios de entropía
  • Puntos de Referencia de Prueba: MATH500, Minerva Math, OlympiadBench, AIME-like
  • Método de Evaluación: Ave@32 (temperatura 1.0, máximo 4096 tokens)

Detalles de Implementación

  • Tamaño de lote: 512 indicaciones
  • Tamaño de grupo efectivo: n=4
  • Número máximo de muestras: 32 respuestas/indicación
  • Tasa de aprendizaje: 1×10⁻⁶ (AdamW)
  • Regularización de entropía: 1×10⁻⁴
  • Pasos de entrenamiento: 600

Resultados Experimentales

Resultados Principales

Mejora en Eficiencia de Entrenamiento

  • Velocidad de Convergencia: Reinforce-Ada muestra ventaja clara en los primeros 50-150 pasos
  • Rendimiento Final: Alcanza límites de recompensa más altos en todos los modelos de prueba
  • Estabilidad: Reinforce-Ada-balance muestra el desempeño más estable

Desempeño en Puntos de Referencia de Prueba

ModeloMétodoMath500MinervaOlympiadAIME-likePromedio Ponderado
Qwen2.5-Math-1.5BGRPO74.234.438.416.245.3
Reinforce-Ada-balance77.436.540.517.547.6 (+2.3)
Qwen2.5-Math-7BGRPO82.244.745.623.253.3
Reinforce-Ada-balance84.045.247.123.754.6 (+1.3)

Experimentos de Ablación

Importancia del Muestreo Equilibrado

  • Reinforce-Ada-balance supera consistentemente a Reinforce-Ada-pos
  • En etapas posteriores del entrenamiento, el muestreo equilibrado mantiene exploración, evitando colapso de entropía

Análisis de Sobrecarga Computacional

ModeloMétodoTiempo Promedio por Paso (seg)Costo Relativo
Qwen2.5-Math-1.5BGRPO1021.0×
Reinforce-Ada-balance2902.8×
Qwen2.5-Math-7BGRPO2361.0×
Reinforce-Ada-balance3751.59×

Impacto de Dificultad de Indicación

  • En conjuntos de indicaciones difíciles, la ventaja de Reinforce-Ada es más pronunciada
  • En conjuntos de indicaciones simples, las ganancias son relativamente pequeñas, ya que la mayoría de indicaciones cumplen condiciones de salida en las primeras dos rondas

Análisis de Dinámicas de Muestreo

  1. Entrenamiento Temprano: El cuello de botella principal es la falta de muestras positivas, tanto Reinforce-Ada-pos como balance son efectivos
  2. Entrenamiento Posterior: El cuello de botella se convierte en falta de muestras negativas, la versión balance muestra ventaja clara
  3. Asignación Adaptativa: Las indicaciones difíciles reciben más presupuesto de muestreo, las indicaciones simples salen temprano

Trabajo Relacionado

Filtrado y Selección de Datos

  • Métodos de Filtrado Pasivo: Yu et al. (2025), Xiong et al. (2025) descartan directamente grupos de recompensa uniforme
  • Métodos de Asignación de Presupuesto: GVM-RAFT (Yao et al., 2025) adopta paradigma de exploración-explotación de dos etapas
  • Aprendizaje Curricular: Shi et al. (2025), Zhang et al. (2025) se enfoca en selección a nivel de indicación

Diseño de Variantes GRPO

  • Mejora de Estimación de Ventaja: Hu (2025), Zhu et al. (2025) y otros modifican reglas de actualización central
  • Solución de Pérdida de Señal: Nan et al. (2025) añade constantes para evitar varianza cero, Le et al. (2025) utiliza información de entropía

Teoría de Máquinas Tragaperras Multi-Brazo

  • Inspirado en pensamiento de algoritmos de eliminación sucesiva (Slivkins et al., 2019) para toma de decisiones en línea
  • Trata indicaciones como brazos, asignando dinámicamente presupuesto de muestreo

Conclusiones y Discusión

Conclusiones Principales

  1. Muestreo Adaptativo Efectivo: Comparado con estrategias de muestreo fijo, mejora significativamente la eficiencia de entrenamiento y rendimiento final
  2. Muestreo Equilibrado Crítico: Mantener equilibrio de muestras positivas y negativas es crucial para mantener exploración y evitar sobreajuste
  3. Utilidad Plug-and-Play: Puede integrarse directamente en marcos de entrenamiento RL existentes

Limitaciones

  1. Sobrecarga Computacional: Aumento de costo computacional de 1.5-2.8 veces comparado con GRPO
  2. Restricción de Dominio: Los experimentos se concentran principalmente en el dominio de razonamiento matemático
  3. Dependencia de Dificultad de Indicación: Las ganancias son limitadas en conjuntos de datos donde indicaciones simples son dominantes
  4. Sensibilidad a Hiperparámetros: Requiere configuración razonable del número máximo de rondas N y número de muestras por ronda M

Direcciones Futuras

  1. Gestión de Datos de Flujo Completo: Combinar con estrategias macro como aprendizaje curricular
  2. Validación Multi-Dominio: Extender a otras tareas como generación de código, diálogo, etc.
  3. Análisis Teórico: Proporcionar garantías teóricas sobre convergencia y complejidad de muestras
  4. Optimización de Eficiencia: Investigar condiciones de salida y estrategias de muestreo más eficientes

Evaluación Profunda

Fortalezas

  1. Identificación Precisa del Problema: Identifica claramente la causa raíz del colapso de señal en GRPO
  2. Diseño de Método Ingenioso: Aplica creativamente ideas de máquinas tragaperras multi-brazo al entrenamiento de LLMs
  3. Experimentos Exhaustivos: Validación integral en múltiples modelos y puntos de referencia
  4. Amigable con la Ingeniería: Proporciona implementación plug-and-play, facilitando aplicación práctica
  5. Análisis Profundo: Análisis dinámico detallado y experimentos de ablación

Insuficiencias

  1. Fundamento Teórico Débil: Carece de análisis teórico sobre convergencia, etc.
  2. Equilibrio Costo-Beneficio: Si el aumento de sobrecarga computacional vale la pena requiere más análisis
  3. Rango de Aplicabilidad Limitado: Principalmente validado en razonamiento matemático, la generalización requiere consideración
  4. Complejidad de Ajuste de Parámetros: Introduce hiperparámetros adicionales que requieren ajuste

Impacto

  1. Valor Académico: Proporciona nueva perspectiva sobre muestreo de datos en aprendizaje por refuerzo para LLMs
  2. Valor Práctico: Puede aplicarse directamente a procesos de entrenamiento existentes
  3. Significado Inspirador: Impulsa la aplicación de gestión de datos adaptativa en RL

Escenarios Aplicables

  1. Requisitos de Alta Calidad: Aplicaciones con requisitos altos de rendimiento del modelo
  2. Recursos Computacionales Suficientes: Escenarios que pueden asumir costo computacional adicional
  3. Tareas de Razonamiento: Particularmente adecuado para razonamiento matemático, generación de código y otras tareas que requieren razonamiento multi-paso
  4. Entrenamiento en Línea: Escenarios que requieren ajuste dinámico de estrategias de entrenamiento

Referencias

  1. Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
  2. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
  3. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
  4. Slivkins et al. (2019). Introduction to multi-armed bandits.
  5. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Resumen: Reinforce-Ada propone un marco innovador de muestreo adaptativo que resuelve efectivamente el problema del colapso de señal en el aprendizaje por refuerzo de LLMs. Aunque aumenta el costo computacional, muestra mejoras significativas en eficiencia de entrenamiento y rendimiento final, proporcionando nuevas perspectivas valiosas para el entrenamiento de aprendizaje por refuerzo de LLMs.