2025-11-22T01:34:16.289617

Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training

Xiong, Ye, Liao et al.
Reinforcement learning applied to large language models (LLMs) for reasoning tasks is often bottlenecked by unstable gradient estimates due to fixed and uniform sampling of responses across prompts. Prior work such as GVM-RAFT addresses this by dynamically allocating inference budget per prompt to minimize stochastic gradient variance under a budget constraint. Inspired by this insight, we propose Reinforce-Ada, an adaptive sampling framework for online RL post-training of LLMs that continuously reallocates sampling effort to the prompts with the greatest uncertainty or learning potential. Unlike conventional two-stage allocation methods, Reinforce-Ada interleaves estimation and sampling in an online successive elimination process, and automatically stops sampling for a prompt once sufficient signal is collected. To stabilize updates, we form fixed-size groups with enforced reward diversity and compute advantage baselines using global statistics aggregated over the adaptive sampling phase. Empirical results across multiple model architectures and reasoning benchmarks show that Reinforce-Ada accelerates convergence and improves final performance compared to GRPO, especially when using the balanced sampling variant. Our work highlights the central role of variance-aware, adaptive data curation in enabling efficient and reliable reinforcement learning for reasoning-capable LLMs. Code is available at https://github.com/RLHFlow/Reinforce-Ada.
academic

Reinforce-Ada: Ein adaptives Sampling-Framework für Reinforce-Style LLM-Training

Grundinformationen

  • Paper-ID: 2510.04996
  • Titel: Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training
  • Autoren: Wei Xiong, Chenlu Ye, Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian, Nan Jiang, Tong Zhang
  • Klassifizierung: cs.LG cs.AI cs.CL stat.ML
  • Veröffentlichungsdatum: Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2510.04996
  • Code-Link: https://github.com/RLHFlow/Reinforce-Ada

Zusammenfassung

Die Anwendung von Reinforcement Learning auf Inferenzaufgaben großer Sprachmodelle (LLMs) führt häufig zu instabilen Gradientenschätzungen aufgrund fester und gleichmäßiger Antwort-Sampling-Strategien. Dieses Paper stellt Reinforce-Ada vor, ein adaptives Sampling-Framework für das Online-Reinforcement-Learning-Training von LLMs, das kontinuierlich Sampling-Anstrengungen auf Prompts mit maximaler Unsicherheit oder Lernpotenzial umverteilt. Im Gegensatz zu traditionellen zweistufigen Allokationsmethoden verwebt Reinforce-Ada Schätzung und Sampling in einem Online-Successive-Elimination-Prozess und stoppt automatisch das Sampling für Prompts, nachdem ausreichende Signale gesammelt wurden. Zur Stabilisierung der Updates bildet das Verfahren Gruppen fester Größe und erzwingt Reward-Diversität, wobei globale Statistiken aus der adaptiven Sampling-Phase zur Berechnung von Advantage-Baselines verwendet werden.

Forschungshintergrund und Motivation

Kernprobleme

  1. Instabile Gradientenschätzung: Traditionelle Reinforcement-Learning-Methoden verwenden beim LLM-Training eine feste kleine Stichprobenzahl (n) zum Sampling, was zu großer Varianz in der Gradientenschätzung und instabilem Training führt.
  2. Signal-Kollaps-Problem: Wenn alle n Antworten eines Prompts die gleiche Belohnung erhalten (alle richtig oder alle falsch), führt die Advantage-Berechnung in GRPO zu Null-Gradienten und verursacht Trainingssignalverlust.
  3. Ineffiziente Sampling-Effizienz: Gleichmäßige Sampling-Strategien können Rechenressourcen nicht dynamisch basierend auf Prompt-Schwierigkeit und Lernwert zuweisen.

Bedeutung des Problems

  • Bei Aufgaben wie mathematischem Reasoning verfallen über 50% der Prompts in den "Null-Gradienten"-Zustand
  • Eine einfache Erhöhung der Stichprobenzahl lindert zwar das Problem, verursacht aber hohe Rechenkosten (z.B. bei n=512 Kostenexplosion)
  • Bestehende passive Filtermethoden verwerfen große Mengen bereits generierter Antworten und verschwenden Ressourcen

Einschränkungen bestehender Methoden

  1. Festes Sampling von GRPO: Kann sich nicht an Schwierigkeitsunterschiede verschiedener Prompts anpassen
  2. Passive Filtermethoden: Ineffizient, da viele nutzlose Antworten generiert und dann verworfen werden
  3. Zweistufige Budgetallokation: Methoden wie GVM-RAFT trennen Schätzung und Sampling, sind ineffizient und schwer online zu implementieren

Kernbeiträge

  1. Vorschlag des Reinforce-Ada-Adaptive-Sampling-Frameworks: Vereinheitlicht Schätzung und Sampling in einem Online-Successive-Elimination-Prozess zur dynamischen Allokation von Inferenzbudgets
  2. Design von zwei Exitbedingungen:
    • Reinforce-Ada-pos: Konzentriert sich auf positive Sample-Sammlung
    • Reinforce-Ada-balance: Balanciert positive und negative Samples, erhält Explorationsfähigkeit
  3. Einführung globaler statistischer Normalisierung: Verwendet Statistiken aus dem gesamten Sampling-Prozess zur Advantage-Berechnung und verbessert Schätzungsstabilität
  4. Plug-and-Play-Ersatz: Kann direkt Generierungsschritte in bestehenden RL-Pipelines ersetzen, ohne Architekturänderungen
  5. Validierung der Wirksamkeit auf mehreren Modellen und Benchmarks: Kontinuierliche Verbesserung der Konvergenzgeschwindigkeit und Endleistung bei mathematischen Reasoning-Aufgaben

Methodendetails

Aufgabendefinition

Gegeben eine Prompt-Verteilung d₀, generiert die Strategie πθ Antworten a~πθ(·|x), ein Verifizierer gibt Belohnung r⋆(x,a)∈{0,1}. Das Ziel ist die Maximierung der erwarteten Belohnung:

J(θ) = E_{x∼d₀,a∼πθ(·|x)}r⋆(x,a)

Kern-Algorithmus-Architektur

1. Adaptiver Sampling-Prozess

Algorithmus-Ablauf:
1. Initialisierung: Alle Prompts als aktiv markiert
2. Multi-Round-Sampling:
   - Für jeden aktiven Prompt M Antworten samplen
   - Exitbedingungen evaluieren
   - Prompts, die Bedingungen erfüllen, als inaktiv markieren
3. Wiederholen bis alle Prompts beendet oder maximale Runden N erreicht

2. Exitbedingungen-Design

  • Reinforce-Ada-pos: Beendet nach Sammlung mindestens einer korrekten Antwort
  • Reinforce-Ada-balance: Beendet nach Sammlung von mindestens n/2 korrekten und n/2 falschen Antworten

3. Trainings-Batch-Konstruktion

  • Downsampling von Antworten jedes Prompts auf feste Größe n
  • Priorisierung der Aufrechterhaltung positiv-negativer Balance (je n/2)
  • Verwendung globaler Statistiken zur Advantage-Berechnung: A(x,aᵢ) = rᵢ - r̄

4. Zielfunktion

Verwendet Importance-Sampling-Korrektur und PPO-ähnliche Gradient-Clipping:

L(θ) = 1/|B| ∑{(x,aᵢ)∈B} ∑^{|aᵢ|} min(ρᵢ,t·A(x,aᵢ), clip(ρᵢ,t, 1-ε_, 1+ε_)·A(x,aᵢ))

Technische Innovationspunkte

  1. Online-Unified-Prozess: Kombiniert traditionelle zweistufige Methoden-Schätzung und -Entscheidung in einen einzelnen Online-Prozess
  2. Successive-Elimination-Mechanismus: Inspiriert von Multi-Armed-Bandit-Gedanken, stoppt dynamisch Prompts, die kein weiteres Sampling benötigen
  3. Globale Normalisierungsstrategie: Verwendet Statistiken aus dem vollständigen Sampling-Pool statt nur der endgültigen ausgewählten Teilmenge, verbessert Schätzungsrobustheit
  4. Balanced-Sampling-Garantie: Stellt sicher, dass jede Trainingsgruppe Nicht-Null-Varianz hat, vermeidet Gradient-Vanishing

Experimentelle Einrichtung

Datensätze

  • Trainingsdaten: Standardteilmenge des OpenR1-Math-220k-Datensatzes
  • Vorverarbeitung: Deduplizierung, Verifikationsfilterung, Filterung mittlerer Schwierigkeit (mindestens 1 korrekt in 16 Samples)

Modelle

  • Qwen2.5-Math-7B/1.5B
  • Qwen3-4B-it
  • Llama-3.2-3B-it

Bewertungsmetriken

  • Trainingsmetriken: Belohnungskurven, Entropieänderungen
  • Test-Benchmarks: MATH500, Minerva Math, OlympiadBench, AIME-like
  • Bewertungsmethode: Ave@32 (Temperatur 1.0, max 4096 Tokens)

Implementierungsdetails

  • Batch-Größe: 512 Prompts
  • Effektive Gruppengröße: n=4
  • Maximale Samples: 32 Antworten/Prompt
  • Lernrate: 1×10⁻⁶ (AdamW)
  • Entropie-Regularisierung: 1×10⁻⁴
  • Trainingsschritte: 600

Experimentelle Ergebnisse

Hauptergebnisse

Verbesserung der Trainingseffizienz

  • Konvergenzgeschwindigkeit: Reinforce-Ada zeigt bereits in den ersten 50-150 Schritten deutliche Vorteile
  • Endleistung: Erreicht höhere Belohnungsobergrenzen auf allen Test-Modellen
  • Stabilität: Reinforce-Ada-balance zeigt die stabilste Leistung

Test-Benchmark-Leistung

ModellMethodeMath500MinervaOlympiadAIME-likeGewichteter Durchschnitt
Qwen2.5-Math-1.5BGRPO74.234.438.416.245.3
Reinforce-Ada-balance77.436.540.517.547.6 (+2.3)
Qwen2.5-Math-7BGRPO82.244.745.623.253.3
Reinforce-Ada-balance84.045.247.123.754.6 (+1.3)

Ablationsstudien

Bedeutung des Balanced Sampling

  • Reinforce-Ada-balance übertrifft kontinuierlich Reinforce-Ada-pos
  • In späteren Trainingsphasen erhält Balanced Sampling Explorationsfähigkeit und vermeidet Entropie-Kollaps

Rechenaufwand-Analyse

ModellMethodeDurchschnittliche Schrittzeit (Sekunden)Relative Kosten
Qwen2.5-Math-1.5BGRPO1021.0×
Reinforce-Ada-balance2902.8×
Qwen2.5-Math-7BGRPO2361.0×
Reinforce-Ada-balance3751.59×

Prompt-Schwierigkeits-Auswirkung

  • Bei schwierigen Prompt-Sets sind die Vorteile von Reinforce-Ada ausgeprägter
  • Bei einfachen Prompt-Sets sind die Gewinne relativ kleiner, da die meisten Prompts bereits in den ersten zwei Runden die Exitbedingung erfüllen

Sampling-Dynamik-Analyse

  1. Frühes Training: Hauptengpass ist Mangel an positiven Samples, sowohl Reinforce-Ada-pos als auch balance sind wirksam
  2. Spätes Training: Engpass wechselt zu Mangel an negativen Samples, Balance-Version zeigt Vorteile
  3. Adaptive Allokation: Schwierige Prompts erhalten mehr Sampling-Budget, einfache Prompts beenden früh

Verwandte Arbeiten

Datenfilterung und -auswahl

  • Passive Filtermethoden: Yu et al. (2025), Xiong et al. (2025) verwerfen direkt Gruppen mit gleichmäßigen Belohnungen
  • Budget-Allokationsmethoden: GVM-RAFT (Yao et al., 2025) verwendet zweistufiges Explorations-Exploitations-Paradigma
  • Curriculum Learning: Shi et al. (2025), Zhang et al. (2025) konzentrieren sich auf Prompt-Level-Auswahl

GRPO-Varianten-Design

  • Advantage-Schätzungs-Verbesserungen: Hu (2025), Zhu et al. (2025) etc. modifizieren Kern-Update-Regeln
  • Signal-Verlust-Lösungen: Nan et al. (2025) addiert Konstanten zur Vermeidung von Null-Varianz, Le et al. (2025) verwendet Entropie-Informationen

Multi-Armed-Bandit-Theorie

  • Inspiriert von Successive-Elimination-Algorithmen (Slivkins et al., 2019) für Online-Entscheidungen
  • Behandelt Prompts als Arme mit dynamischer Sampling-Budget-Allokation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Adaptives Sampling ist wirksam: Zeigt signifikante Verbesserungen der Trainingseffizienz und Endleistung im Vergleich zu festen Sampling-Strategien
  2. Balanced Sampling ist entscheidend: Die Aufrechterhaltung positiv-negativer Balance ist wesentlich für die Beibehaltung von Explorationsfähigkeit und Vermeidung von Überanpassung
  3. Praktische Plug-and-Play-Implementierung: Kann direkt in bestehende RL-Trainings-Frameworks integriert werden

Einschränkungen

  1. Rechenaufwand: 1.5-2.8× Rechenkosten-Erhöhung im Vergleich zu GRPO
  2. Domänen-Beschränkung: Experimente konzentrieren sich hauptsächlich auf mathematisches Reasoning
  3. Prompt-Schwierigkeits-Abhängigkeit: Begrenzte Gewinne bei Datensätzen mit dominierenden einfachen Prompts
  4. Hyperparameter-Sensitivität: Erfordert angemessene Einstellung von maximalen Runden N und Samples pro Runde M

Zukünftige Richtungen

  1. Ganzheitliches Datenmanagement: Integration mit Curriculum Learning und anderen makroskopischen Strategien
  2. Multi-Domain-Validierung: Erweiterung auf Code-Generierung, Dialog und andere Aufgaben
  3. Theoretische Analyse: Bereitstellung von Konvergenz- und Sample-Komplexitäts-Garantien
  4. Effizienz-Optimierung: Erforschung effizienterer Exitbedingungen und Sampling-Strategien

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemidentifikation: Klare Identifikation der Wurzelursache des Signal-Kollaps in GRPO
  2. Geschicktes Methodendesign: Innovative Anwendung von Multi-Armed-Bandit-Gedanken auf LLM-Training
  3. Umfassende Experimente: Vollständige Validierung über mehrere Modelle und Benchmarks
  4. Engineering-freundlich: Bietet Plug-and-Play-Implementierung für praktische Anwendung
  5. Tiefgreifende Analyse: Detaillierte Dynamik-Analyse und Ablationsstudien

Schwächen

  1. Schwache theoretische Grundlagen: Mangel an theoretischer Analyse wie Konvergenz
  2. Kosten-Nutzen-Abwägung: Ob die erhöhten Rechenkosten gerechtfertigt sind, bedarf weiterer Analyse
  3. Begrenzte Anwendbarkeit: Hauptsächlich auf mathematischem Reasoning validiert, Generalisierbarkeit unklar
  4. Komplexe Parameter-Optimierung: Führt zusätzliche Hyperparameter ein, die optimiert werden müssen

Einfluss

  1. Akademischer Wert: Bietet neue Perspektive auf Daten-Sampling für LLM-Reinforcement-Learning
  2. Praktischer Wert: Kann direkt auf bestehende Trainings-Workflows angewendet werden
  3. Inspirationswert: Fördert Anwendung adaptiven Datenmanagements in RL

Anwendungsszenarien

  1. Hohe Qualitätsanforderungen: Anwendungen mit hohen Anforderungen an Modellleistung
  2. Ausreichende Rechenressourcen: Szenarien, die zusätzliche Rechenkosten tragen können
  3. Reasoning-Aufgaben: Besonders geeignet für mathematisches Reasoning, Code-Generierung und andere Multi-Step-Reasoning-Aufgaben
  4. Online-Training: Szenarien, die dynamische Anpassung von Trainingsstrategien erfordern

Literaturverzeichnis

  1. Shao et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models.
  2. Yao et al. (2025). Optimizing chain-of-thought reasoners via gradient variance minimization in rejection sampling and rl.
  3. Yu et al. (2025). Dapo: An open-source llm reinforcement learning system at scale.
  4. Slivkins et al. (2019). Introduction to multi-armed bandits.
  5. Dong et al. (2023). RAFT: Reward ranked finetuning for generative foundation model alignment.

Zusammenfassung: Reinforce-Ada stellt ein innovatives adaptives Sampling-Framework vor, das das Signal-Kollaps-Problem im Reinforcement Learning von LLMs effektiv löst. Obwohl es Rechenkosten erhöht, zeigt es signifikante Verbesserungen in Trainingseffizienz und Endleistung und bietet wertvolle neue Perspektiven für LLM-Reinforcement-Learning-Training.