2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic

Reinforce-Ada: Адаптивная структура выборки для обучения LLM в стиле Reinforce

Основная информация

  • ID статьи: 2510.04996
  • Название: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
  • Авторы: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
  • Классификация: cs.LG cs.AI cs.CL stat.ML
  • Дата публикации: Октябрь 2025 (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2510.04996
  • Ссылка на код: https://github.com/RLHFlow/Reinforce-Ada

Аннотация

При применении обучения с подкреплением к задачам логического вывода больших языковых моделей (LLM) фиксированная и равномерная стратегия выборки ответов часто приводит к нестабильной оценке градиентов. В данной работе предлагается Reinforce-Ada — адаптивная структура выборки для онлайн-обучения с подкреплением LLM, которая непрерывно перераспределяет усилия выборки на подсказки с максимальной неопределённостью или потенциалом обучения. В отличие от традиционных двухэтапных методов распределения, Reinforce-Ada переплетает оценку и выборку в едином онлайн-процессе последовательного исключения, автоматически прекращая выборку для подсказок после сбора достаточного сигнала. Для стабилизации обновлений метод формирует группы фиксированного размера и обеспечивает разнообразие вознаграждений, используя глобальную статистику, собранную на этапе адаптивной выборки, для расчёта базовой линии преимущества.

Исследовательский контекст и мотивация

Основные проблемы

  1. Нестабильность оценки градиентов: Традиционные методы обучения с подкреплением используют фиксированное небольшое количество выборок (n) при обучении LLM, что приводит к чрезмерной дисперсии оценки градиентов и нестабильности обучения.
  2. Проблема коллапса сигнала: Когда все n ответов на подсказку получают одинаковое вознаграждение (все правильные или все неправильные), расчёт преимущества в GRPO производит нулевой градиент, вызывая потерю сигнала обучения.
  3. Неэффективность выборки: Равномерная стратегия выборки не может динамически распределять вычислительные ресурсы в зависимости от сложности подсказки и стоимости обучения.

Важность проблемы

  • В задачах математического рассуждения более 50% подсказок попадают в состояние "нулевого градиента"
  • Простое увеличение количества выборок, хотя и смягчает проблему, требует чрезмерных вычислительных затрат (например, при n=512 затраты резко возрастают)
  • Существующие методы пассивной фильтрации отбрасывают большое количество уже сгенерированных ответов, что приводит к потере ресурсов

Ограничения существующих методов

  1. Фиксированная выборка GRPO: Не может адаптироваться к различиям в сложности подсказок
  2. Методы пассивной фильтрации: Генерируют большое количество бесполезных ответов перед отбросом, что неэффективно
  3. Двухэтапное распределение бюджета: Методы типа GVM-RAFT разделяют оценку и выборку, что снижает эффективность и затрудняет онлайн-реализацию

Основные вклады

  1. Предложена адаптивная структура выборки Reinforce-Ada: Объединяет оценку и выборку в едином онлайн-процессе последовательного исключения, динамически распределяя бюджет логического вывода
  2. Разработаны два условия выхода:
    • Reinforce-Ada-pos: сосредоточена на сборе положительных выборок
    • Reinforce-Ada-balance: балансирует положительные и отрицательные выборки, сохраняя исследовательский характер
  3. Введена глобальная нормализация статистики: Использует статистическую информацию всего процесса выборки для расчёта преимущества, повышая стабильность оценки
  4. Реализована готовая к использованию замена: Может напрямую заменить этап генерации в существующих конвейерах RL без изменения архитектуры
  5. Проверена эффективность на нескольких моделях и эталонах: Постоянное улучшение скорости сходимости и финальной производительности в задачах математического рассуждения

Подробное описание метода

Определение задачи

Для распределения подсказок d₀ политика πθ генерирует ответы a~πθ(·|x), верификатор выдаёт вознаграждение r⋆(x,a)∈{0,1}. Цель — максимизировать ожидаемое вознаграждение:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Архитектура основного алгоритма

1. Процесс адаптивной выборки

Поток алгоритма:
1. Инициализация: все подсказки отмечены как активные
2. Многораундовая выборка:
   - Выборка M ответов для каждой активной подсказки
   - Оценка условий выхода
   - Подсказки, удовлетворяющие условиям, отмечены как неактивные
3. Повторение до выхода всех подсказок или достижения максимального числа раундов N

2. Проектирование условий выхода

  • Reinforce-Ada-pos: выход при сборе хотя бы одного правильного ответа
  • Reinforce-Ada-balance: выход при сборе хотя бы n/2 правильных и n/2 неправильных ответов

3. Построение обучающих батчей

  • Понижающая выборка из пула ответов каждой подсказки до фиксированного размера n
  • Приоритизация сохранения баланса положительных и отрицательных выборок (по n/2 каждого)
  • Использование глобальной статистики для расчёта преимущества: A(x,aᵢ) = rᵢ - r̄

4. Целевая функция

Применяется коррекция важности выборки и обрезание градиента в стиле PPO:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Технические инновации

  1. Единый онлайн-процесс: Объединяет оценку и принятие решений традиционного двухэтапного метода в единый онлайн-процесс
  2. Механизм последовательного исключения: Заимствует идеи из многорукого бандита, динамически останавливая выборку для подсказок, не требующих дополнительной выборки
  3. Стратегия глобальной нормализации: Использует статистическую информацию полного пула выборок, а не только финального подмножества, повышая робастность оценки
  4. Гарантия сбалансированной выборки: Обеспечивает ненулевую дисперсию в каждой обучающей группе, предотвращая исчезновение градиентов

Экспериментальная установка

Наборы данных

  • Обучающие данные: подмножество по умолчанию набора данных OpenR1-Math-220k
  • Предварительная обработка: дедупликация, фильтрация верификации, отбор средней сложности (минимум 1 правильный ответ из 16 выборок)

Модели

  • Qwen2.5-Math-7B/1.5B
  • Qwen3-4B-it
  • Llama-3.2-3B-it

Метрики оценки

  • Метрики обучения: кривые вознаграждения, изменение энтропии
  • Тестовые эталоны: MATH500, Minerva Math, OlympiadBench, AIME-like
  • Способ оценки: Ave@32 (температура 1.0, максимум 4096 токенов)

Детали реализации

  • Размер батча: 512 подсказок
  • Размер эффективной группы: n=4
  • Максимальное количество выборок: 32 ответа/подсказка
  • Скорость обучения: 1×10⁻⁶ (AdamW)
  • Регуляризация энтропии: 1×10⁻⁴
  • Количество шагов обучения: 600

Результаты экспериментов

Основные результаты

Улучшение эффективности обучения

  • Скорость сходимости: Reinforce-Ada показывает явное преимущество в первые 50-150 шагов
  • Финальная производительность: достигает более высокого потолка вознаграждения на всех тестируемых моделях
  • Стабильность: Reinforce-Ada-balance показывает наиболее стабильные результаты

Производительность на тестовых эталонах

МодельМетодMath500MinervaOlympiadAIME-likeВзвешенное среднее
Qwen2.5-Math-1.5BGRPO74.234.438.416.245.3
Reinforce-Ada-balance77.436.540.517.547.6 (+2.3)
Qwen2.5-Math-7BGRPO82.244.745.623.253.3
Reinforce-Ada-balance84.045.247.123.754.6 (+1.3)

Абляционные исследования

Важность сбалансированной выборки

  • Reinforce-Ada-balance постоянно превосходит Reinforce-Ada-pos
  • На поздних этапах обучения сбалансированная выборка сохраняет исследовательский характер, предотвращая коллапс энтропии

Анализ вычислительных затрат

МодельМетодСреднее время шага (сек)Относительная стоимость
Qwen2.5-Math-1.5BGRPO1021.0×
Reinforce-Ada-balance2902.8×
Qwen2.5-Math-7BGRPO2361.0×
Reinforce-Ada-balance3751.59×

Влияние сложности подсказки

  • На наборе сложных подсказок преимущество Reinforce-Ada более выраженно
  • На наборе простых подсказок выигрыш относительно небольшой, так как большинство подсказок удовлетворяют условиям выхода в первые два раунда

Анализ динамики выборки

  1. Раннее обучение: основным узким местом является нехватка положительных выборок, обе версии Reinforce-Ada-pos и balance эффективны
  2. Позднее обучение: узкое место переходит на нехватку отрицательных выборок, версия balance показывает явное преимущество
  3. Адаптивное распределение: сложные подсказки получают больше бюджета выборки, простые подсказки выходят раньше

Связанные работы

Фильтрация и отбор данных

  • Методы пассивной фильтрации: Yu et al. (2025), Xiong et al. (2025) напрямую отбрасывают группы с равномерным вознаграждением
  • Методы распределения бюджета: GVM-RAFT (Yao et al., 2025) использует двухэтапную парадигму исследования-использования
  • Обучение по программе: Shi et al. (2025), Zhang et al. (2025) сосредоточены на отборе на уровне подсказок

Варианты проектирования GRPO

  • Улучшение оценки преимущества: Hu (2025), Zhu et al. (2025) и др. модифицируют основное правило обновления
  • Решение проблемы потери сигнала: Nan et al. (2025) добавляет константу для избежания нулевой дисперсии, Le et al. (2025) использует информацию энтропии

Теория многорукого бандита

  • Заимствует идеи алгоритмов последовательного исключения (Slivkins et al., 2019) для онлайн-принятия решений
  • Рассматривает подсказки как рычаги, динамически распределяя бюджет выборки

Заключение и обсуждение

Основные выводы

  1. Эффективность адаптивной выборки: Значительно улучшает эффективность обучения и финальную производительность по сравнению с фиксированной стратегией выборки
  2. Ключевая роль сбалансированной выборки: Сохранение баланса положительных и отрицательных выборок критично для поддержания исследовательского характера и предотвращения переобучения
  3. Практическая применимость: Может быть напрямую интегрирована в существующие структуры обучения с подкреплением

Ограничения

  1. Вычислительные затраты: Увеличение вычислительных затрат в 1.5-2.8 раза по сравнению с GRPO
  2. Ограничение по области: Эксперименты в основном сосредоточены на области математического рассуждения
  3. Зависимость от сложности подсказки: Выигрыш ограничен на наборах данных, где доминируют простые подсказки
  4. Чувствительность к гиперпараметрам: Требует разумной установки максимального числа раундов N и количества выборок на раунд M

Направления будущих исследований

  1. Комплексное управление данными: Интеграция с обучением по программе и другими макростратегиями
  2. Проверка на нескольких областях: Расширение на генерацию кода, диалоги и другие задачи
  3. Теоретический анализ: Предоставление теоретических гарантий сходимости и сложности выборки
  4. Оптимизация эффективности: Исследование более эффективных условий выхода и стратегий выборки

Глубокая оценка

Преимущества

  1. Точная идентификация проблемы: Четко определяет коренную причину коллапса сигнала в GRPO
  2. Умное проектирование метода: Инновационно применяет идеи многорукого бандита к обучению LLM
  3. Полные эксперименты: Комплексная проверка на нескольких моделях и эталонах
  4. Удобство инженерной реализации: Предоставляет готовую к использованию реализацию, облегчая практическое применение
  5. Глубокий анализ: Детальный анализ динамики и абляционные исследования

Недостатки

  1. Слабая теоретическая база: Отсутствует анализ сходимости и других теоретических свойств
  2. Компромисс затрат и выгод: Требуется дополнительный анализ того, стоят ли увеличенные вычислительные затраты полученных улучшений
  3. Ограниченная применимость: Проверена в основном на математическом рассуждении, обобщаемость требует дальнейшей проверки
  4. Сложность настройки параметров: Вводит дополнительные гиперпараметры, требующие настройки

Влияние

  1. Академическая ценность: Предоставляет новую перспективу на выборку данных для обучения с подкреплением LLM
  2. Практическая ценность: Может быть напрямую применена к существующим процессам обучения
  3. Вдохновляющее значение: Способствует применению адаптивного управления данными в обучении с подкреплением

Сценарии применения

  1. Высокие требования к качеству: Приложения с высокими требованиями к производительности модели
  2. Достаточные вычислительные ресурсы: Сценарии, способные нести дополнительные вычислительные затраты
  3. Задачи логического вывода: Особенно подходит для задач, требующих многошагового рассуждения, таких как математическое рассуждение и генерация кода
  4. Онлайн-обучение: Сценарии, требующие динамической корректировки стратегии обучения

Список литературы

  1. Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
  2. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
  3. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
  4. Slivkins et al. (2019). Introduction to multi-armed bandits.
  5. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Резюме: Reinforce-Ada предлагает инновационную адаптивную структуру выборки, эффективно решающую проблему коллапса сигнала в обучении LLM с подкреплением. Хотя это увеличивает вычислительные затраты, она обеспечивает значительные улучшения как в эффективности обучения, так и в финальной производительности, предоставляя ценный новый подход к обучению LLM с подкреплением.