Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
- Papier-ID: 2503.13551
- Titel: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
- Autoren: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungszeit/Konferenz: arXiv-Preprint (Oktober 2025)
- Papierlink: https://arxiv.org/abs/2503.13551
Neuere Forschungen zeigen, dass große Sprachmodelle (LLMs) durch überwachtes Feintuning oder Reinforcement Learning starke Argumentationsfähigkeiten erwerben können. Allerdings weist die Schlüsselmethode der Prozessbelohnungsmodelle (PRM) Probleme mit Belohnungshacking auf, was sie bei der Identifizierung optimaler Zwischenschritte unzuverlässig macht. Darüber hinaus ist die Annotation von Argumentationsprozessen für die Belohnungsmodellierung kostspielig, was die Erfassung hochwertiger Daten in großem Maßstab herausfordernd macht. Um diese Probleme zu lösen, wird in diesem Papier ein neuartiger Belohnungsmodellierungsansatz – das hierarchische Belohnungsmodell (HRM) – vorgeschlagen, das einzelne und aufeinanderfolgende Argumentationsschritte auf feingranularer und grobgranularer Ebene bewertet. HRM zeichnet sich durch die Bewertung der Kohärenz mehrstufiger Argumentation aus, besonders wenn fehlerhafte Schritte später durch Selbstreflexion korrigiert werden. Um die Kosten für die Generierung von Trainingsdaten weiter zu senken, wird eine leichte und effektive Datenaugmentierungsstrategie – hierarchische Knotenkompression (HNC) – eingeführt, die zwei aufeinanderfolgende Argumentationsschritte in einer Baumstruktur zu einem zusammenfasst. Durch die Anwendung von HNC auf von MCTS generierte Argumentationstrajektorien wird die Vielfalt und Robustheit der HRM-Trainingsdaten mit minimalem Rechenaufwand verbessert, während gleichzeitig kontrolliertes Rauschen eingeführt wird. Experimentelle Ergebnisse auf dem PRM800K-Datensatz zeigen, dass HRM in Kombination mit HNC stabilere und zuverlässigere Bewertungen als PRM bietet. Darüber hinaus demonstrieren domänenübergreifende Evaluierungen auf den Datensätzen MATH500 und GSM8K die starken Verallgemeinerungsfähigkeiten und Robustheit von HRM bei verschiedenen Argumentationsaufgaben.
Diese Forschung befasst sich hauptsächlich mit zwei kritischen Problemen bei großen Sprachmodellen in mathematischen Argumentationsaufgaben:
- Belohnungshacking-Problem: Bestehende Prozessbelohnungsmodelle (PRM) sind anfällig für Ausnutzung durch Modelle, die möglicherweise hohe Punktzahlen durch Ausnutzung des Belohnungssignals statt durch echte Verbesserung der Argumentation erhalten, was die Zuverlässigkeit bei komplexen Aufgaben beeinträchtigt.
- Hohe Annotationskosten: PRM erfordert teure großflächige manuelle Annotationen von Argumentationsschritten, was ihre Zuverlässigkeit und Skalierbarkeit einschränkt.
Mathematische Argumentation ist eine wichtige Aufgabe zur Bewertung der Argumentationsfähigkeiten von LLMs. Bestehende Methoden wie Chain-of-Thought (CoT) und Tree-of-Thought (ToT) verbessern zwar die Leistung, weisen aber weiterhin kritische Einschränkungen auf:
- CoT-Modelle verfügen über keinen Mechanismus zur Erkennung und Korrektur von Zwischenargumentationsfehlern
- ToT-Methoden können nicht inhärent jeden Zwischenschritt validieren oder die Abrufung optimaler Argumentationstrajektorien garantieren
- Ergebnis-Belohnungsmodelle (ORM): Leiden unter verzögertem Feedback und Kreditvergabeproblemen, wodurch es schwierig ist, zu bestimmen, welche Argumentationsschritte zum Endergebnis beitragen
- Prozess-Belohnungsmodelle (PRM): Bieten zwar feinere Überwachung, sind aber anfällig für Belohnungshacking und verursachen hohe Annotationskosten
Basierend auf den oben genannten Problemen wird in diesem Papier das hierarchische Belohnungsmodell (HRM) vorgeschlagen, um die Einschränkungen von PRM zu mildern. Durch die Kombination von hierarchischen Überwachungssignalen auf feingranularer (Einzelschritt) und grobgranularer (aufeinanderfolgende Mehrschritte) Ebene während des Trainings kann HRM lokale und globale Kohärenz in der Argumentation erfassen.
- Vorschlag des hierarchischen Belohnungsmodells (HRM): Nutzt hierarchische Überwachung der Trainingsdaten auf Einzelschritt- und Mehrschrittebene, um Kohärenz und Selbstkorrektur in mehrstufiger Argumentation zu fördern, mit Validierung der HRM-Robustheit auf dem PRM800K-Datensatz.
- Einführung der hierarchischen Knotenkompression (HNC): Eine leichte MCTS-Datenaugmentierungsmethode, die die Vielfalt und Robustheit der HRM-Trainingsdaten mit minimalem Rechenaufwand erheblich erhöht.
- Verbesserung der Strategiemodellleistung: Weitere Verbesserung der Argumentationsleistung durch Feintuning auf hochwertige, von MCTS gefilterte Argumentationstrajektorien.
- Validierung der Verallgemeinerungsfähigkeit: Demonstration der überlegenen Argumentationskonsistenz und Verallgemeinerungsfähigkeit von HRM im Vergleich zu PRM auf den Datensätzen GSM8K und MATH500.
Dieses Papier konzentriert sich auf mathematische Argumentationsaufgaben mit dem Ziel, die Leistung von LLMs bei der Lösung mehrstufiger mathematischer Probleme zu bewerten und zu verbessern. Die Eingabe ist ein mathematisches Problem, die Ausgabe ist ein schrittweiser Argumentationsprozess und eine endgültige Antwort, wobei die Einschränkung die Gewährleistung der Korrektheit und Kohärenz der Argumentationsschritte ist.
Die Kernidee von HRM ist die Verwendung hierarchischer Überwachung während des Trainings zur Bewertung einzelner und aufeinanderfolgender Argumentationsschritte:
Trainingsdatenkonstruktion:
- PRM-Trainingsdaten: DPRM={(si,R(si))∣1≤i≤N}
- HRM-Trainingsdaten: DHRM=DPRM∪{(si+si+1,R(si+si+1))∣1≤i<N}
wobei si den i-ten Argumentationsschritt darstellt, R(⋅) die Belohnungsfunktion ist und N die Gesamtzahl der Argumentationsschritte ist.
Hierarchisches Überwachungsziel:
- Erfassung feingranularer und grobgranularer Konsistenz
- Realisierung von Selbstreflexion und Fehlerkorrektur
Inferenzphase: Obwohl während des Trainings zusammengefasste Argumentationsschritte verwendet werden, bewertet HRM während der Inferenz weiterhin schrittweise und weist Belohnungen nur basierend auf dem aktuellen Schritt si zu, ähnlich wie PRM.
HNC ist eine Datenaugmentierungsmethode, die die Trainingsdatenvielfalt durch Zusammenfassung aufeinanderfolgender Knoten in der MCTS-Baumstruktur erhöht:
Kernmechanismus:
- Zufälliges Zusammenfassen zweier aufeinanderfolgender Knoten, von denen jeder einem Argumentationsschritt entspricht
- Entfernung direkter Verbindungen zwischen Knoten
- Umleitung von Verbindungsbeziehungen
Rauscheinführung: Wenn ein zufälliger Knoten entfernt wird, werden die Gewichte der verbleibenden untergeordneten Knoten von N1 auf N−11 neu verteilt, wobei die Varianz von Nσ2 auf N−1σ2 ansteigt, was kontrolliertes Rauschen einführt.
- Hierarchisches Überwachungsdesign: Im Gegensatz zu PRM, das nur einzelne Schritte bewertet, berücksichtigt HRM die Wechselwirkungen zwischen mehreren Schritten und kann Korrektionen früher Fehler durch nachfolgende Schritte identifizieren.
- Selbstkorrektur-Fähigkeit: Während traditionelle PRM einzelne fehlerhafte Schritte bestrafen, ohne potenzielle Korrektionen in nachfolgender Argumentation zu berücksichtigen, bewertet HRM die Argumentationskohärenz über mehrere Schritte hinweg.
- Kostengünstige Datenaugmentierung: HNC realisiert Datenaugmentierung mit extrem niedrigem Rechenaufwand (etwa 30 Minuten CPU-Zeit), was im Vergleich zu 2457 A100 GPU-Stunden für MCTS vernachlässigbar ist.
- PRM800K: Enthält manuell annotierte Argumentationstrajektorien als Grundlage für das Training von ORM, PRM und HRM
- MATH500: Mathematische Probleme auf Oberstufen- und Universitätsniveau zur Bewertung der Verallgemeinerungsfähigkeit
- GSM8K: Mathematische Anwendungsaufgaben der Grundschule mit 1000 Testproblemen
- Genauigkeit: Genauigkeit der Problemlösung unter der Best-of-N-Strategie
- Stabilität: Konsistenz der Leistung mit zunehmendem N
- Robustheit: Konsistente Leistung über verschiedene Strategiemodelle und Datensätze hinweg
- ORM (Outcome Reward Model): Bewertung basierend auf der gesamten Argumentationskette
- PRM (Process Reward Model): Schrittweise Bewertung des Argumentationsprozesses
- HRM (Hierarchical Reward Model): Das in diesem Papier vorgeschlagene hierarchische Belohnungsmodell
- Belohnungsmodelle: Feintuning basierend auf Qwen2.5-1.5B-Math
- Strategiemodelle: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
- MCTS-Konfiguration: 5-6 untergeordnete Knoten pro übergeordnetem Knoten, maximale Baumtiefe 7
- Trainingsoptimierung: Verwendung von FlashAttention, DeepSpeed und gemischter Präzisionstraining
Best-of-N-Leistung auf dem PRM800K-Datensatz:
| N | 2 | 4 | 8 | 16 | 24 |
|---|
| ORM | 0.622 | 0.677 | 0.655 | 0.655 | 0.633 |
| PRM | 0.700 | 0.644 | 0.611 | 0.588 | 0.577 |
| HRM | 0.722 | 0.711 | 0.744 | 0.800 | 0.800 |
Wichtigste Erkenntnisse:
- HRM behält stabile Leistung mit zunehmendem N bei, mit stabiler Genauigkeit von 80%
- ORM und PRM zeigen erhebliche Schwankungen, mit sinkender Genauigkeit bei wachsendem N
- HRM zeigt die beste Stabilität und Zuverlässigkeit
Ergebnisse auf GSM8K- und MATH500-Datensätzen:
| Datensatz | Methode | N=2 | N=64 | N=256 | N=512 |
|---|
| GSM8K | PRM | 0.784 | 0.905 | 0.927 | 0.918 |
| GSM8K | HRM | 0.784 | 0.907 | 0.930 | 0.926 |
| MATH500 | PRM | 0.468 | 0.656 | 0.686 | 0.688 |
| MATH500 | HRM | 0.490 | 0.742 | 0.740 | 0.736 |
Wichtige Beobachtungen:
- Auf dem komplexeren MATH500-Datensatz ist HRM deutlich besser als PRM
- Auf dem relativ einfacheren GSM8K ist der Unterschied kleiner, aber HRM ist immer noch leicht überlegen
- HRM zeigt stärkere domänenübergreifende Robustheit
Vergleich verschiedener Strategiemodelle:
HRM, trainiert auf automatisch annotierten Daten, die von MCTS generiert wurden, zeigt auf mehreren Strategiemodellen bessere Stabilität als PRM:
- DeepSeek-Math-7B
- Qwen2.5-72B-Math
- Qwen2.5-7B-Math
Weitere Verbesserung der Strategiemodellleistung durch überwachtes Feintuning mit KL-Divergenz-Regularisierung validiert den Wert hochwertiger Argumentationsdaten.
Dieses Papier basiert auf dem Reinforcement Learning from Human Feedback (RLHF)-Framework, das Belohnungsmodelle verwendet, um hochwertige und minderwertige Antworten zu unterscheiden, und PPO zur Optimierung von LLMs nutzt.
- ORM: Weist Belohnungen basierend auf der Gesamtausgabe zu, mit verzögertem Feedback und Kreditvergabeproblemen
- PRM: Bewertet Zwischenargumentationsschritte mit feinerer Überwachung, aber anfällig für Belohnungshacking
MCTS wird als Methode zur autonomen Annotation von Argumentationstrajektorien vorgeschlagen, aber die Rechenkosten wachsen exponentiell mit der Suchbaumtiefe und -breite.
- HRM lindert effektiv das Belohnungshacking-Problem von PRM durch hierarchische Überwachung und bietet stabilere und zuverlässigere Bewertungen
- HNC ist eine effiziente Datenaugmentierungsstrategie, die die Qualität der Trainingsdaten mit extrem niedrigen Kosten erheblich verbessert
- HRM zeigt hervorragende Verallgemeinerungsfähigkeiten und ist durchgehend besser als PRM auf mehreren mathematischen Argumentationsdatensätzen
- Schritt-Zusammenfassungsbeschränkung: Derzeit werden nur zwei aufeinanderfolgende Schritte zusammengefasst, das Zusammenfassen von mehr Schritten führt zu exponentieller Komplexität der Labelkombinationen
- Domänenbeschränkung: Hauptsächlich auf mathematische Argumentation konzentriert, die Anwendbarkeit auf andere strukturierte Argumentationsbereiche erfordert weitere Validierung
- Rechenbeschränkungen: MCTS-Konfiguration ist durch Rechenressourcen begrenzt, was die Vielfalt der generierten Daten beeinflussen kann
- Erkundung komplexerer hierarchischer Strukturdesigns
- Erweiterung auf andere strukturierte Argumentationsaufgaben
- Integration effizienterer Suchalgorithmen zur Reduzierung der Rechenkosten
- Untersuchung ausgefeilteren Labelstrategien für die Behandlung von Mehrschrittenzusammenfassungen
- Starke Innovativität: Das hierarchische Überwachungsdesign von HRM kombiniert geschickt lokale Genauigkeit und globale Kohärenz
- Umfassende Experimente: Vollständige Evaluierung auf mehreren Datensätzen und Strategiemodellen
- Hoher praktischer Wert: HNC bietet eine kostengünstige Datenaugmentierungslösung
- Solide theoretische Grundlagen: Tiefgreifende Analyse des Belohnungshacking-Problems mit gezielter Lösung
- Methodische Komplexität: Komplexere Trainingsdatenkonstruktion und Labelstrategien im Vergleich zu PRM
- Skalierbarkeit: Derzeit nur Zweischritt-Zusammenfassung unterstützt, was die Erweiterbarkeit der Methode einschränkt
- Domänenspezifität: Hauptsächlich auf mathematische Argumentationsaufgaben validiert, Anwendbarkeit auf andere Bereiche unzureichend validiert
- Akademischer Beitrag: Bietet neue hierarchische Perspektiven für das Design von Belohnungsmodellen
- Praktischer Wert: HNC-Methode kann direkt auf bestehende MCTS-Prozesse angewendet werden
- Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtungen und Hyperparameterkonfigurationen
- Mathematische Argumentationsaufgaben: Besonders geeignet für komplexe mathematische Probleme, die mehrstufige Argumentation erfordern
- Argumentationsaufgaben, die Selbstkorrektur erfordern: HRM kann Fehlerkorrektur im Argumentationsprozess identifizieren und belohnen
- Ressourcenbegrenzte Szenarien: HNC bietet eine kostengünstige Datenaugmentierungslösung
Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:
- Lightman et al. (2023) - Let's verify step by step (PRM800K-Datensatz)
- Cobbe et al. (2021) - Training verifiers to solve math word problems
- Wei et al. (2022) - Chain-of-thought prompting
- Ouyang et al. (2022) - Training language models to follow instructions with human feedback
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovative Lösungen für kritische Probleme von PRM bietet. Das hierarchische Überwachungsdesign von HRM ist theoretisch fundiert, experimentell gut validiert, und die HNC-Methode hat starken praktischen Wert. Das Papier zeigt hervorragende Leistungen in technischer Innovation, experimentellem Design und Ergebnisanalyse und trägt wertvoll zur Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle bei.