2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.

Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.

academic

Reinforce-Ada: Ein adaptives Sampling-Framework für Reinforce-Style LLM-Training

Grundinformationen

Paper-ID: 2510.04996
Titel: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
Autoren: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
Klassifizierung: cs.LG cs.AI cs.CL stat.ML
Veröffentlichungsdatum: Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2510.04996
Code-Link: https://github.com/RLHFlow/Reinforce-Ada

Zusammenfassung

Die Anwendung von Reinforcement Learning auf Inferenzaufgaben großer Sprachmodelle (LLMs) führt häufig zu instabilen Gradientenschätzungen aufgrund fester und gleichmäßiger Antwort-Sampling-Strategien. Dieses Paper stellt Reinforce-Ada vor, ein adaptives Sampling-Framework für das Online-Reinforcement-Learning-Training von LLMs, das kontinuierlich Sampling-Anstrengungen auf Prompts mit maximaler Unsicherheit oder Lernpotenzial umverteilt. Im Gegensatz zu traditionellen zweistufigen Allokationsmethoden verwebt Reinforce-Ada Schätzung und Sampling in einem Online-Successive-Elimination-Prozess und stoppt automatisch das Sampling für Prompts, nachdem ausreichende Signale gesammelt wurden. Zur Stabilisierung der Updates bildet das Verfahren Gruppen fester Größe und erzwingt Reward-Diversität, wobei globale Statistiken aus der adaptiven Sampling-Phase zur Berechnung von Advantage-Baselines verwendet werden.

Forschungshintergrund und Motivation

Kernprobleme

Instabile Gradientenschätzung: Traditionelle Reinforcement-Learning-Methoden verwenden beim LLM-Training eine feste kleine Stichprobenzahl (n) zum Sampling, was zu großer Varianz in der Gradientenschätzung und instabilem Training führt.
Signal-Kollaps-Problem: Wenn alle n Antworten eines Prompts die gleiche Belohnung erhalten (alle richtig oder alle falsch), führt die Advantage-Berechnung in GRPO zu Null-Gradienten und verursacht Trainingssignalverlust.
Ineffiziente Sampling-Effizienz: Gleichmäßige Sampling-Strategien können Rechenressourcen nicht dynamisch basierend auf Prompt-Schwierigkeit und Lernwert zuweisen.

Bedeutung des Problems

Bei Aufgaben wie mathematischem Reasoning verfallen über 50% der Prompts in den "Null-Gradienten"-Zustand
Eine einfache Erhöhung der Stichprobenzahl lindert zwar das Problem, verursacht aber hohe Rechenkosten (z.B. bei n=512 Kostenexplosion)
Bestehende passive Filtermethoden verwerfen große Mengen bereits generierter Antworten und verschwenden Ressourcen

Einschränkungen bestehender Methoden

Festes Sampling von GRPO: Kann sich nicht an Schwierigkeitsunterschiede verschiedener Prompts anpassen
Passive Filtermethoden: Ineffizient, da viele nutzlose Antworten generiert und dann verworfen werden
Zweistufige Budgetallokation: Methoden wie GVM-RAFT trennen Schätzung und Sampling, sind ineffizient und schwer online zu implementieren

Kernbeiträge

Vorschlag des Reinforce-Ada-Adaptive-Sampling-Frameworks: Vereinheitlicht Schätzung und Sampling in einem Online-Successive-Elimination-Prozess zur dynamischen Allokation von Inferenzbudgets
Design von zwei Exitbedingungen:
- Reinforce-Ada-pos: Konzentriert sich auf positive Sample-Sammlung
- Reinforce-Ada-balance: Balanciert positive und negative Samples, erhält Explorationsfähigkeit
Einführung globaler statistischer Normalisierung: Verwendet Statistiken aus dem gesamten Sampling-Prozess zur Advantage-Berechnung und verbessert Schätzungsstabilität
Plug-and-Play-Ersatz: Kann direkt Generierungsschritte in bestehenden RL-Pipelines ersetzen, ohne Architekturänderungen
Validierung der Wirksamkeit auf mehreren Modellen und Benchmarks: Kontinuierliche Verbesserung der Konvergenzgeschwindigkeit und Endleistung bei mathematischen Reasoning-Aufgaben

Methodendetails

Aufgabendefinition

Gegeben eine Prompt-Verteilung d₀, generiert die Strategie πθ Antworten a～πθ(·|x), ein Verifizierer gibt Belohnung r⋆(x,a)∈{0,1}. Das Ziel ist die Maximierung der erwarteten Belohnung:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Kern-Algorithmus-Architektur

1. Adaptiver Sampling-Prozess

Algorithmus-Ablauf:
1. Initialisierung: Alle Prompts als aktiv markiert
2. Multi-Round-Sampling:
   - Für jeden aktiven Prompt M Antworten samplen
   - Exitbedingungen evaluieren
   - Prompts, die Bedingungen erfüllen, als inaktiv markieren
3. Wiederholen bis alle Prompts beendet oder maximale Runden N erreicht

2. Exitbedingungen-Design

Reinforce-Ada-pos: Beendet nach Sammlung mindestens einer korrekten Antwort
Reinforce-Ada-balance: Beendet nach Sammlung von mindestens n/2 korrekten und n/2 falschen Antworten

3. Trainings-Batch-Konstruktion

Downsampling von Antworten jedes Prompts auf feste Größe n
Priorisierung der Aufrechterhaltung positiv-negativer Balance (je n/2)
Verwendung globaler Statistiken zur Advantage-Berechnung: A(x,aᵢ) = rᵢ - r̄

4. Zielfunktion

Verwendet Importance-Sampling-Korrektur und PPO-ähnliche Gradient-Clipping:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Technische Innovationspunkte

Online-Unified-Prozess: Kombiniert traditionelle zweistufige Methoden-Schätzung und -Entscheidung in einen einzelnen Online-Prozess
Successive-Elimination-Mechanismus: Inspiriert von Multi-Armed-Bandit-Gedanken, stoppt dynamisch Prompts, die kein weiteres Sampling benötigen
Globale Normalisierungsstrategie: Verwendet Statistiken aus dem vollständigen Sampling-Pool statt nur der endgültigen ausgewählten Teilmenge, verbessert Schätzungsrobustheit
Balanced-Sampling-Garantie: Stellt sicher, dass jede Trainingsgruppe Nicht-Null-Varianz hat, vermeidet Gradient-Vanishing

Experimentelle Einrichtung

Datensätze

Trainingsdaten: Standardteilmenge des OpenR1-Math-220k-Datensatzes
Vorverarbeitung: Deduplizierung, Verifikationsfilterung, Filterung mittlerer Schwierigkeit (mindestens 1 korrekt in 16 Samples)

Modelle

Qwen2.5-Math-7B/1.5B
Qwen3-4B-it
Llama-3.2-3B-it

Bewertungsmetriken

Trainingsmetriken: Belohnungskurven, Entropieänderungen
Test-Benchmarks: MATH500, Minerva Math, OlympiadBench, AIME-like
Bewertungsmethode: Ave@32 (Temperatur 1.0, max 4096 Tokens)

Implementierungsdetails

Batch-Größe: 512 Prompts
Effektive Gruppengröße: n=4
Maximale Samples: 32 Antworten/Prompt
Lernrate: 1×10⁻⁶ (AdamW)
Entropie-Regularisierung: 1×10⁻⁴
Trainingsschritte: 600

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserung der Trainingseffizienz

Konvergenzgeschwindigkeit: Reinforce-Ada zeigt bereits in den ersten 50-150 Schritten deutliche Vorteile
Endleistung: Erreicht höhere Belohnungsobergrenzen auf allen Test-Modellen
Stabilität: Reinforce-Ada-balance zeigt die stabilste Leistung

Test-Benchmark-Leistung

Modell	Methode	Math500	Minerva	Olympiad	AIME-like	Gewichteter Durchschnitt
Qwen2.5-Math-1.5B	GRPO	74.2	34.4	38.4	16.2	45.3
	Reinforce-Ada-balance	77.4	36.5	40.5	17.5	47.6 (+2.3)
Qwen2.5-Math-7B	GRPO	82.2	44.7	45.6	23.2	53.3
	Reinforce-Ada-balance	84.0	45.2	47.1	23.7	54.6 (+1.3)

Ablationsstudien

Bedeutung des Balanced Sampling

Reinforce-Ada-balance übertrifft kontinuierlich Reinforce-Ada-pos
In späteren Trainingsphasen erhält Balanced Sampling Explorationsfähigkeit und vermeidet Entropie-Kollaps

Rechenaufwand-Analyse

Modell	Methode	Durchschnittliche Schrittzeit (Sekunden)	Relative Kosten
Qwen2.5-Math-1.5B	GRPO	102	1.0×
	Reinforce-Ada-balance	290	2.8×
Qwen2.5-Math-7B	GRPO	236	1.0×
	Reinforce-Ada-balance	375	1.59×

Prompt-Schwierigkeits-Auswirkung

Bei schwierigen Prompt-Sets sind die Vorteile von Reinforce-Ada ausgeprägter
Bei einfachen Prompt-Sets sind die Gewinne relativ kleiner, da die meisten Prompts bereits in den ersten zwei Runden die Exitbedingung erfüllen

Sampling-Dynamik-Analyse

Frühes Training: Hauptengpass ist Mangel an positiven Samples, sowohl Reinforce-Ada-pos als auch balance sind wirksam
Spätes Training: Engpass wechselt zu Mangel an negativen Samples, Balance-Version zeigt Vorteile
Adaptive Allokation: Schwierige Prompts erhalten mehr Sampling-Budget, einfache Prompts beenden früh

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Adaptives Sampling ist wirksam: Zeigt signifikante Verbesserungen der Trainingseffizienz und Endleistung im Vergleich zu festen Sampling-Strategien
Balanced Sampling ist entscheidend: Die Aufrechterhaltung positiv-negativer Balance ist wesentlich für die Beibehaltung von Explorationsfähigkeit und Vermeidung von Überanpassung
Praktische Plug-and-Play-Implementierung: Kann direkt in bestehende RL-Trainings-Frameworks integriert werden

Einschränkungen

Rechenaufwand: 1.5-2.8× Rechenkosten-Erhöhung im Vergleich zu GRPO
Domänen-Beschränkung: Experimente konzentrieren sich hauptsächlich auf mathematisches Reasoning
Prompt-Schwierigkeits-Abhängigkeit: Begrenzte Gewinne bei Datensätzen mit dominierenden einfachen Prompts
Hyperparameter-Sensitivität: Erfordert angemessene Einstellung von maximalen Runden N und Samples pro Runde M

Zukünftige Richtungen

Ganzheitliches Datenmanagement: Integration mit Curriculum Learning und anderen makroskopischen Strategien
Multi-Domain-Validierung: Erweiterung auf Code-Generierung, Dialog und andere Aufgaben
Theoretische Analyse: Bereitstellung von Konvergenz- und Sample-Komplexitäts-Garantien
Effizienz-Optimierung: Erforschung effizienterer Exitbedingungen und Sampling-Strategien

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Klare Identifikation der Wurzelursache des Signal-Kollaps in GRPO
Geschicktes Methodendesign: Innovative Anwendung von Multi-Armed-Bandit-Gedanken auf LLM-Training
Umfassende Experimente: Vollständige Validierung über mehrere Modelle und Benchmarks
Engineering-freundlich: Bietet Plug-and-Play-Implementierung für praktische Anwendung
Tiefgreifende Analyse: Detaillierte Dynamik-Analyse und Ablationsstudien

Schwächen

Schwache theoretische Grundlagen: Mangel an theoretischer Analyse wie Konvergenz
Kosten-Nutzen-Abwägung: Ob die erhöhten Rechenkosten gerechtfertigt sind, bedarf weiterer Analyse
Begrenzte Anwendbarkeit: Hauptsächlich auf mathematischem Reasoning validiert, Generalisierbarkeit unklar
Komplexe Parameter-Optimierung: Führt zusätzliche Hyperparameter ein, die optimiert werden müssen

Einfluss

Akademischer Wert: Bietet neue Perspektive auf Daten-Sampling für LLM-Reinforcement-Learning
Praktischer Wert: Kann direkt auf bestehende Trainings-Workflows angewendet werden
Inspirationswert: Fördert Anwendung adaptiven Datenmanagements in RL

Anwendungsszenarien

Hohe Qualitätsanforderungen: Anwendungen mit hohen Anforderungen an Modellleistung
Ausreichende Rechenressourcen: Szenarien, die zusätzliche Rechenkosten tragen können
Reasoning-Aufgaben: Besonders geeignet für mathematisches Reasoning, Code-Generierung und andere Multi-Step-Reasoning-Aufgaben
Online-Training: Szenarien, die dynamische Anpassung von Trainingsstrategien erfordern

Literaturverzeichnis

Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
Slivkins et al. (2019). Introduction to multi-armed bandits.
Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Zusammenfassung: Reinforce-Ada stellt ein innovatives adaptives Sampling-Framework vor, das das Signal-Kollaps-Problem im Reinforcement Learning von LLMs effektiv löst. Obwohl es Rechenkosten erhöht, zeigt es signifikante Verbesserungen in Trainingseffizienz und Endleistung und bietet wertvolle neue Perspektiven für LLM-Reinforcement-Learning-Training.