2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic

Reinforce-Ada: 강화학습 스타일 LLM 훈련을 위한 적응형 샘플링 프레임워크

기본 정보

  • 논문 ID: 2510.04996
  • 제목: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
  • 저자: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
  • 분류: cs.LG cs.AI cs.CL stat.ML
  • 발표 시간: 2025년 10월 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2510.04996
  • 코드 링크: https://github.com/RLHFlow/Reinforce-Ada

초록

강화학습을 대규모 언어모델(LLMs)의 추론 작업에 적용할 때, 고정되고 균등한 응답 샘플링 전략으로 인해 그래디언트 추정이 불안정해지는 문제가 발생합니다. 본 논문은 Reinforce-Ada를 제안하며, 이는 LLMs의 온라인 강화학습 사후 훈련을 위한 적응형 샘플링 프레임워크입니다. 이는 샘플링 노력을 최대 불확실성 또는 학습 잠재력을 가진 프롬프트로 지속적으로 재할당할 수 있습니다. 기존의 2단계 할당 방법과 달리, Reinforce-Ada는 추정과 샘플링을 온라인 순차 제거 프로세스에 통합하며, 충분한 신호 수집 후 프롬프트에 대한 샘플링을 자동으로 중지합니다. 업데이트 안정성을 위해, 이 방법은 고정 크기의 그룹을 형성하고 보상 다양성을 강제하며, 적응형 샘플링 단계에서 수집한 전역 통계 정보를 사용하여 이점 기준선을 계산합니다.

연구 배경 및 동기

핵심 문제

  1. 그래디언트 추정 불안정성: 기존 강화학습 방법은 LLM 훈련 시 고정된 소규모 샘플 수(n)를 사용하여 샘플링하므로, 그래디언트 추정 분산이 과도하여 훈련이 불안정합니다.
  2. 신호 붕괴 문제: 프롬프트의 모든 n개 응답이 동일한 보상(모두 정답 또는 모두 오답)을 받을 때, GRPO의 이점 계산에서 0 그래디언트가 발생하여 훈련 신호가 손실됩니다.
  3. 샘플링 효율 저하: 균등 샘플링 전략은 프롬프트의 난이도와 학습 가치에 따라 계산 자원을 동적으로 할당할 수 없습니다.

문제의 중요성

  • 수학 추론 같은 작업에서 50% 이상의 프롬프트가 "0 그래디언트" 상태에 빠집니다
  • 단순히 샘플링 수를 증가시키면 문제를 완화할 수 있지만, 계산 비용이 과도합니다(예: n=512일 때 비용 급증)
  • 기존의 수동 필터링 방법은 생성된 많은 응답을 버려서 자원 낭비를 초래합니다

기존 방법의 한계

  1. GRPO의 고정 샘플링: 다양한 프롬프트 난이도에 적응할 수 없습니다
  2. 수동 필터링 방법: 많은 무용지물 응답을 생성한 후 버려서 효율이 낮습니다
  3. 2단계 예산 할당: GVM-RAFT 등의 방법은 추정과 샘플링을 분리하여 효율이 낮고 온라인 구현이 어렵습니다

핵심 기여

  1. Reinforce-Ada 적응형 샘플링 프레임워크 제안: 추정과 샘플링을 온라인 순차 제거 프로세스로 통합하여 추론 예산을 동적으로 할당합니다
  2. 두 가지 종료 조건 설계:
    • Reinforce-Ada-pos: 양성 샘플 수집에 초점
    • Reinforce-Ada-balance: 양성 및 음성 샘플 균형 유지로 탐색성 보존
  3. 전역 통계 정규화 도입: 전체 샘플링 프로세스의 통계 정보를 사용하여 이점을 계산하여 추정 안정성을 향상시킵니다
  4. 플러그 앤 플레이 대체 구현: 기존 RL 파이프라인의 생성 단계를 직접 대체할 수 있으며, 아키텍처 수정이 필요 없습니다
  5. 여러 모델 및 벤치마크에서 유효성 검증: 수학 추론 작업에서 지속적으로 수렴 속도와 최종 성능을 개선합니다

방법 상세 설명

작업 정의

프롬프트 분포 d₀가 주어졌을 때, 정책 πθ는 응답 a~πθ(·|x)를 생성하고, 검증기는 보상 r⋆(x,a)∈{0,1}을 제공합니다. 목표는 예상 보상을 최대화하는 것입니다:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

핵심 알고리즘 아키텍처

1. 적응형 샘플링 프로세스

알고리즘 흐름:
1. 초기화: 모든 프롬프트를 활성 상태로 표시
2. 다중 라운드 샘플링:
   - 각 활성 프롬프트에서 M개 응답 샘플링
   - 종료 조건 평가
   - 조건을 만족하는 프롬프트를 비활성으로 표시
3. 모든 프롬프트가 종료되거나 최대 라운드 수 N에 도달할 때까지 반복

2. 종료 조건 설계

  • Reinforce-Ada-pos: 최소 1개의 정답 응답 수집 후 종료
  • Reinforce-Ada-balance: 최소 n/2개의 정답 및 n/2개의 오답 응답 수집 후 종료

3. 훈련 배치 구성

  • 각 프롬프트의 응답 풀에서 고정 크기 n으로 다운샘플링
  • 양성 및 음성 샘플 균형 유지 우선(각각 n/2개)
  • 전역 통계를 사용하여 이점 계산: A(x,aᵢ) = rᵢ - r̄

4. 목적 함수

중요도 샘플링 보정 및 PPO 스타일 그래디언트 클리핑 적용:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

기술 혁신 포인트

  1. 온라인 통합 프로세스: 기존 2단계 방법의 추정과 결정을 단일 온라인 프로세스로 통합
  2. 순차 제거 메커니즘: 다중 팔 밴딧의 아이디어를 차용하여 추가 샘플링이 필요 없는 프롬프트를 동적으로 중지
  3. 전역 정규화 전략: 최종 선택 부분집합이 아닌 완전한 샘플링 풀의 통계 정보 사용으로 추정 견고성 향상
  4. 균형 샘플링 보장: 각 훈련 그룹이 0이 아닌 분산을 가지도록 보장하여 그래디언트 소실 방지

실험 설정

데이터셋

  • 훈련 데이터: OpenR1-Math-220k 데이터셋의 기본 부분집합
  • 전처리: 중복 제거, 검증 필터링, 중간 난이도 필터링(16회 샘플링 중 최소 1회 정답)

모델

  • Qwen2.5-Math-7B/1.5B
  • Qwen3-4B-it
  • Llama-3.2-3B-it

평가 지표

  • 훈련 지표: 보상 곡선, 엔트로피 변화
  • 테스트 벤치마크: MATH500, Minerva Math, OlympiadBench, AIME-like
  • 평가 방식: Ave@32 (온도 1.0, 최대 4096 토큰)

구현 세부사항

  • 배치 크기: 512개 프롬프트
  • 유효 그룹 크기: n=4
  • 최대 샘플링 수: 프롬프트당 32개 응답
  • 학습률: 1×10⁻⁶ (AdamW)
  • 엔트로피 정규화: 1×10⁻⁴
  • 훈련 단계: 600 단계

실험 결과

주요 결과

훈련 효율 향상

  • 수렴 속도: Reinforce-Ada는 처음 50-150 단계에서 명확한 우위를 보입니다
  • 최종 성능: 모든 테스트 모델에서 더 높은 보상 상한에 도달합니다
  • 안정성: Reinforce-Ada-balance가 가장 안정적으로 나타납니다

테스트 벤치마크 성능

모델방법Math500MinervaOlympiadAIME-like가중 평균
Qwen2.5-Math-1.5BGRPO74.234.438.416.245.3
Reinforce-Ada-balance77.436.540.517.547.6 (+2.3)
Qwen2.5-Math-7BGRPO82.244.745.623.253.3
Reinforce-Ada-balance84.045.247.123.754.6 (+1.3)

제거 실험

균형 샘플링의 중요성

  • Reinforce-Ada-balance는 지속적으로 Reinforce-Ada-pos를 능가합니다
  • 훈련 후기에 균형 샘플링은 탐색성을 유지하여 엔트로피 붕괴를 방지합니다

계산 오버헤드 분석

모델방법평균 단계 시간(초)상대 비용
Qwen2.5-Math-1.5BGRPO1021.0×
Reinforce-Ada-balance2902.8×
Qwen2.5-Math-7BGRPO2361.0×
Reinforce-Ada-balance3751.59×

프롬프트 난이도 영향

  • 어려운 프롬프트 집합에서 Reinforce-Ada의 우위가 더욱 두드러집니다
  • 간단한 프롬프트 집합에서는 수익이 상대적으로 작습니다. 대부분의 프롬프트가 처음 두 라운드에서 종료 조건을 만족하기 때문입니다

샘플링 동역학 분석

  1. 초기 훈련: 주요 병목은 양성 샘플 부족이며, Reinforce-Ada-pos와 balance 모두 효과적입니다
  2. 후기 훈련: 병목이 음성 샘플 부족으로 전환되며, balance 버전의 우위가 두드러집니다
  3. 적응형 할당: 어려운 프롬프트는 더 많은 샘플링 예산을 받고, 간단한 프롬프트는 조기에 종료됩니다

관련 연구

데이터 필터링 및 선택

  • 수동 필터링 방법: Yu et al. (2025), Xiong et al. (2025)는 균등 보상 그룹을 직접 버립니다
  • 예산 할당 방법: GVM-RAFT (Yao et al., 2025)는 2단계 탐색-활용 패러다임을 채택합니다
  • 커리큘럼 학습: Shi et al. (2025), Zhang et al. (2025)는 프롬프트 수준 선택에 초점을 맞춥니다

GRPO 변형 설계

  • 이점 추정 개선: Hu (2025), Zhu et al. (2025) 등은 핵심 업데이트 규칙을 수정합니다
  • 신호 손실 해결: Nan et al. (2025)는 0 분산을 피하기 위해 상수를 추가하고, Le et al. (2025)는 엔트로피 정보를 사용합니다

다중 팔 밴딧 이론

  • 순차 제거 알고리즘(Slivkins et al., 2019)의 온라인 의사결정 아이디어를 차용합니다
  • 프롬프트를 팔로 간주하여 샘플링 예산을 동적으로 할당합니다

결론 및 논의

주요 결론

  1. 적응형 샘플링 효과: 고정 샘플링 전략 대비 훈련 효율과 최종 성능이 크게 개선됩니다
  2. 균형 샘플링 핵심: 양성 및 음성 샘플 균형 유지는 탐색성 유지 및 과적합 방지에 필수적입니다
  3. 플러그 앤 플레이 실용성: 기존 RL 훈련 프레임워크에 직접 통합할 수 있습니다

한계

  1. 계산 오버헤드: GRPO 대비 1.5-2.8배의 계산 비용 증가
  2. 영역 제한: 실험이 주로 수학 추론 영역에 집중됩니다
  3. 프롬프트 난이도 의존성: 간단한 프롬프트가 주도적인 데이터셋에서 수익이 제한적입니다
  4. 하이퍼파라미터 민감성: 최대 라운드 수 N과 라운드당 샘플링 수 M을 적절히 설정해야 합니다

향후 방향

  1. 전체 흐름 데이터 관리: 커리큘럼 학습 등 거시적 전략과 결합
  2. 다중 영역 검증: 코드 생성, 대화 등 다른 작업으로 확장
  3. 이론적 분석: 수렴성 및 샘플 복잡도에 대한 이론적 보장 제공
  4. 효율성 최적화: 더 효율적인 종료 조건 및 샘플링 전략 연구

심층 평가

장점

  1. 문제 정위 정확: GRPO의 신호 붕괴 근본 원인을 명확히 파악합니다
  2. 방법 설계 정교: 다중 팔 밴딧 아이디어를 LLM 훈련에 창의적으로 적용합니다
  3. 실험 충분: 다중 모델, 다중 벤치마크의 포괄적 검증
  4. 엔지니어링 친화적: 플러그 앤 플레이 구현으로 실제 적용이 용이합니다
  5. 분석 심층: 상세한 동역학 분석 및 제거 실험

부족한 점

  1. 이론적 기초 약함: 수렴성 등 이론적 분석이 부족합니다
  2. 비용-효익 균형: 계산 오버헤드 증가가 정당한지 더 많은 분석이 필요합니다
  3. 적용 범위 제한: 주로 수학 추론에서 검증되어 일반화 가능성이 미지수입니다
  4. 파라미터 조정 복잡: 추가 하이퍼파라미터 조정이 필요합니다

영향력

  1. 학술적 가치: LLM 강화학습에 새로운 데이터 샘플링 관점을 제공합니다
  2. 실용적 가치: 기존 훈련 흐름에 직접 적용할 수 있습니다
  3. 계발적 의의: RL에서 적응형 데이터 관리 적용을 추진합니다

적용 시나리오

  1. 고품질 요구: 모델 성능에 높은 요구사항이 있는 애플리케이션
  2. 충분한 계산 자원: 추가 계산 비용을 감당할 수 있는 시나리오
  3. 추론 작업: 특히 수학 추론, 코드 생성 등 다단계 추론이 필요한 작업
  4. 온라인 훈련: 훈련 전략을 동적으로 조정해야 하는 시나리오

참고문헌

  1. Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
  2. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
  3. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
  4. Slivkins et al. (2019). Introduction to multi-armed bandits.
  5. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

요약: Reinforce-Ada는 LLM 강화학습의 신호 붕괴 문제를 효과적으로 해결하는 혁신적인 적응형 샘플링 프레임워크를 제안합니다. 계산 비용이 증가하지만, 훈련 효율과 최종 성능 모두에서 현저한 개선을 보여주며, LLM의 강화학습 훈련에 가치 있는 새로운 관점을 제공합니다.