Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic
Reinforce-Ada: Адаптивная структура выборки для обучения LLM в стиле Reinforce
При применении обучения с подкреплением к задачам логического вывода больших языковых моделей (LLM) фиксированная и равномерная стратегия выборки ответов часто приводит к нестабильной оценке градиентов. В данной работе предлагается Reinforce-Ada — адаптивная структура выборки для онлайн-обучения с подкреплением LLM, которая непрерывно перераспределяет усилия выборки на подсказки с максимальной неопределённостью или потенциалом обучения. В отличие от традиционных двухэтапных методов распределения, Reinforce-Ada переплетает оценку и выборку в едином онлайн-процессе последовательного исключения, автоматически прекращая выборку для подсказок после сбора достаточного сигнала. Для стабилизации обновлений метод формирует группы фиксированного размера и обеспечивает разнообразие вознаграждений, используя глобальную статистику, собранную на этапе адаптивной выборки, для расчёта базовой линии преимущества.
Нестабильность оценки градиентов: Традиционные методы обучения с подкреплением используют фиксированное небольшое количество выборок (n) при обучении LLM, что приводит к чрезмерной дисперсии оценки градиентов и нестабильности обучения.
Проблема коллапса сигнала: Когда все n ответов на подсказку получают одинаковое вознаграждение (все правильные или все неправильные), расчёт преимущества в GRPO производит нулевой градиент, вызывая потерю сигнала обучения.
Неэффективность выборки: Равномерная стратегия выборки не может динамически распределять вычислительные ресурсы в зависимости от сложности подсказки и стоимости обучения.
В задачах математического рассуждения более 50% подсказок попадают в состояние "нулевого градиента"
Простое увеличение количества выборок, хотя и смягчает проблему, требует чрезмерных вычислительных затрат (например, при n=512 затраты резко возрастают)
Существующие методы пассивной фильтрации отбрасывают большое количество уже сгенерированных ответов, что приводит к потере ресурсов
Предложена адаптивная структура выборки Reinforce-Ada: Объединяет оценку и выборку в едином онлайн-процессе последовательного исключения, динамически распределяя бюджет логического вывода
Разработаны два условия выхода:
Reinforce-Ada-pos: сосредоточена на сборе положительных выборок
Reinforce-Ada-balance: балансирует положительные и отрицательные выборки, сохраняя исследовательский характер
Введена глобальная нормализация статистики: Использует статистическую информацию всего процесса выборки для расчёта преимущества, повышая стабильность оценки
Реализована готовая к использованию замена: Может напрямую заменить этап генерации в существующих конвейерах RL без изменения архитектуры
Проверена эффективность на нескольких моделях и эталонах: Постоянное улучшение скорости сходимости и финальной производительности в задачах математического рассуждения
Поток алгоритма:
1. Инициализация: все подсказки отмечены как активные
2. Многораундовая выборка:
- Выборка M ответов для каждой активной подсказки
- Оценка условий выхода
- Подсказки, удовлетворяющие условиям, отмечены как неактивные
3. Повторение до выхода всех подсказок или достижения максимального числа раундов N
Единый онлайн-процесс: Объединяет оценку и принятие решений традиционного двухэтапного метода в единый онлайн-процесс
Механизм последовательного исключения: Заимствует идеи из многорукого бандита, динамически останавливая выборку для подсказок, не требующих дополнительной выборки
Стратегия глобальной нормализации: Использует статистическую информацию полного пула выборок, а не только финального подмножества, повышая робастность оценки
Гарантия сбалансированной выборки: Обеспечивает ненулевую дисперсию в каждой обучающей группе, предотвращая исчезновение градиентов
Улучшение оценки преимущества: Hu (2025), Zhu et al. (2025) и др. модифицируют основное правило обновления
Решение проблемы потери сигнала: Nan et al. (2025) добавляет константу для избежания нулевой дисперсии, Le et al. (2025) использует информацию энтропии
Эффективность адаптивной выборки: Значительно улучшает эффективность обучения и финальную производительность по сравнению с фиксированной стратегией выборки
Ключевая роль сбалансированной выборки: Сохранение баланса положительных и отрицательных выборок критично для поддержания исследовательского характера и предотвращения переобучения
Практическая применимость: Может быть напрямую интегрирована в существующие структуры обучения с подкреплением
Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.
Резюме: Reinforce-Ada предлагает инновационную адаптивную структуру выборки, эффективно решающую проблему коллапса сигнала в обучении LLM с подкреплением. Хотя это увеличивает вычислительные затраты, она обеспечивает значительные улучшения как в эффективности обучения, так и в финальной производительности, предоставляя ценный новый подход к обучению LLM с подкреплением.