2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.

academic

Auf dem Weg zu hierarchischen mehrstufigen Belohnungsmodellen für verbesserte Argumentation in großen Sprachmodellen

Grundlegende Informationen

Papier-ID: 2503.13551
Titel: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
Autoren: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
Klassifizierung: cs.CL cs.AI
Veröffentlichungszeit/Konferenz: arXiv-Preprint (Oktober 2025)
Papierlink: https://arxiv.org/abs/2503.13551

Zusammenfassung

Neuere Forschungen zeigen, dass große Sprachmodelle (LLMs) durch überwachtes Feintuning oder Reinforcement Learning starke Argumentationsfähigkeiten erwerben können. Allerdings weist die Schlüsselmethode der Prozessbelohnungsmodelle (PRM) Probleme mit Belohnungshacking auf, was sie bei der Identifizierung optimaler Zwischenschritte unzuverlässig macht. Darüber hinaus ist die Annotation von Argumentationsprozessen für die Belohnungsmodellierung kostspielig, was die Erfassung hochwertiger Daten in großem Maßstab herausfordernd macht. Um diese Probleme zu lösen, wird in diesem Papier ein neuartiger Belohnungsmodellierungsansatz – das hierarchische Belohnungsmodell (HRM) – vorgeschlagen, das einzelne und aufeinanderfolgende Argumentationsschritte auf feingranularer und grobgranularer Ebene bewertet. HRM zeichnet sich durch die Bewertung der Kohärenz mehrstufiger Argumentation aus, besonders wenn fehlerhafte Schritte später durch Selbstreflexion korrigiert werden. Um die Kosten für die Generierung von Trainingsdaten weiter zu senken, wird eine leichte und effektive Datenaugmentierungsstrategie – hierarchische Knotenkompression (HNC) – eingeführt, die zwei aufeinanderfolgende Argumentationsschritte in einer Baumstruktur zu einem zusammenfasst. Durch die Anwendung von HNC auf von MCTS generierte Argumentationstrajektorien wird die Vielfalt und Robustheit der HRM-Trainingsdaten mit minimalem Rechenaufwand verbessert, während gleichzeitig kontrolliertes Rauschen eingeführt wird. Experimentelle Ergebnisse auf dem PRM800K-Datensatz zeigen, dass HRM in Kombination mit HNC stabilere und zuverlässigere Bewertungen als PRM bietet. Darüber hinaus demonstrieren domänenübergreifende Evaluierungen auf den Datensätzen MATH500 und GSM8K die starken Verallgemeinerungsfähigkeiten und Robustheit von HRM bei verschiedenen Argumentationsaufgaben.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich hauptsächlich mit zwei kritischen Problemen bei großen Sprachmodellen in mathematischen Argumentationsaufgaben:

Belohnungshacking-Problem: Bestehende Prozessbelohnungsmodelle (PRM) sind anfällig für Ausnutzung durch Modelle, die möglicherweise hohe Punktzahlen durch Ausnutzung des Belohnungssignals statt durch echte Verbesserung der Argumentation erhalten, was die Zuverlässigkeit bei komplexen Aufgaben beeinträchtigt.
Hohe Annotationskosten: PRM erfordert teure großflächige manuelle Annotationen von Argumentationsschritten, was ihre Zuverlässigkeit und Skalierbarkeit einschränkt.

Forschungsbedeutung

Mathematische Argumentation ist eine wichtige Aufgabe zur Bewertung der Argumentationsfähigkeiten von LLMs. Bestehende Methoden wie Chain-of-Thought (CoT) und Tree-of-Thought (ToT) verbessern zwar die Leistung, weisen aber weiterhin kritische Einschränkungen auf:

CoT-Modelle verfügen über keinen Mechanismus zur Erkennung und Korrektur von Zwischenargumentationsfehlern
ToT-Methoden können nicht inhärent jeden Zwischenschritt validieren oder die Abrufung optimaler Argumentationstrajektorien garantieren

Einschränkungen bestehender Methoden

Ergebnis-Belohnungsmodelle (ORM): Leiden unter verzögertem Feedback und Kreditvergabeproblemen, wodurch es schwierig ist, zu bestimmen, welche Argumentationsschritte zum Endergebnis beitragen
Prozess-Belohnungsmodelle (PRM): Bieten zwar feinere Überwachung, sind aber anfällig für Belohnungshacking und verursachen hohe Annotationskosten

Forschungsmotivation

Basierend auf den oben genannten Problemen wird in diesem Papier das hierarchische Belohnungsmodell (HRM) vorgeschlagen, um die Einschränkungen von PRM zu mildern. Durch die Kombination von hierarchischen Überwachungssignalen auf feingranularer (Einzelschritt) und grobgranularer (aufeinanderfolgende Mehrschritte) Ebene während des Trainings kann HRM lokale und globale Kohärenz in der Argumentation erfassen.

Kernbeiträge

Vorschlag des hierarchischen Belohnungsmodells (HRM): Nutzt hierarchische Überwachung der Trainingsdaten auf Einzelschritt- und Mehrschrittebene, um Kohärenz und Selbstkorrektur in mehrstufiger Argumentation zu fördern, mit Validierung der HRM-Robustheit auf dem PRM800K-Datensatz.
Einführung der hierarchischen Knotenkompression (HNC): Eine leichte MCTS-Datenaugmentierungsmethode, die die Vielfalt und Robustheit der HRM-Trainingsdaten mit minimalem Rechenaufwand erheblich erhöht.
Verbesserung der Strategiemodellleistung: Weitere Verbesserung der Argumentationsleistung durch Feintuning auf hochwertige, von MCTS gefilterte Argumentationstrajektorien.
Validierung der Verallgemeinerungsfähigkeit: Demonstration der überlegenen Argumentationskonsistenz und Verallgemeinerungsfähigkeit von HRM im Vergleich zu PRM auf den Datensätzen GSM8K und MATH500.

Methodische Details

Aufgabendefinition

Dieses Papier konzentriert sich auf mathematische Argumentationsaufgaben mit dem Ziel, die Leistung von LLMs bei der Lösung mehrstufiger mathematischer Probleme zu bewerten und zu verbessern. Die Eingabe ist ein mathematisches Problem, die Ausgabe ist ein schrittweiser Argumentationsprozess und eine endgültige Antwort, wobei die Einschränkung die Gewährleistung der Korrektheit und Kohärenz der Argumentationsschritte ist.

Modellarchitektur

Hierarchisches Belohnungsmodell (HRM)

Die Kernidee von HRM ist die Verwendung hierarchischer Überwachung während des Trainings zur Bewertung einzelner und aufeinanderfolgender Argumentationsschritte:

Trainingsdatenkonstruktion:

PRM-Trainingsdaten: $D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}$
HRM-Trainingsdaten: $D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}$

wobei $s_i$ den $i$ -ten Argumentationsschritt darstellt, $R(\cdot)$ die Belohnungsfunktion ist und $N$ die Gesamtzahl der Argumentationsschritte ist.

Hierarchisches Überwachungsziel:

Erfassung feingranularer und grobgranularer Konsistenz
Realisierung von Selbstreflexion und Fehlerkorrektur

Inferenzphase: Obwohl während des Trainings zusammengefasste Argumentationsschritte verwendet werden, bewertet HRM während der Inferenz weiterhin schrittweise und weist Belohnungen nur basierend auf dem aktuellen Schritt $s_i$ zu, ähnlich wie PRM.

Hierarchische Knotenkompression (HNC)

HNC ist eine Datenaugmentierungsmethode, die die Trainingsdatenvielfalt durch Zusammenfassung aufeinanderfolgender Knoten in der MCTS-Baumstruktur erhöht:

Kernmechanismus:

Zufälliges Zusammenfassen zweier aufeinanderfolgender Knoten, von denen jeder einem Argumentationsschritt entspricht
Entfernung direkter Verbindungen zwischen Knoten
Umleitung von Verbindungsbeziehungen

Rauscheinführung: Wenn ein zufälliger Knoten entfernt wird, werden die Gewichte der verbleibenden untergeordneten Knoten von $\frac{1}{N}$ auf $\frac{1}{N-1}$ neu verteilt, wobei die Varianz von $\frac{\sigma^2}{N}$ auf $\frac{\sigma^2}{N-1}$ ansteigt, was kontrolliertes Rauschen einführt.

Technische Innovationspunkte

Hierarchisches Überwachungsdesign: Im Gegensatz zu PRM, das nur einzelne Schritte bewertet, berücksichtigt HRM die Wechselwirkungen zwischen mehreren Schritten und kann Korrektionen früher Fehler durch nachfolgende Schritte identifizieren.
Selbstkorrektur-Fähigkeit: Während traditionelle PRM einzelne fehlerhafte Schritte bestrafen, ohne potenzielle Korrektionen in nachfolgender Argumentation zu berücksichtigen, bewertet HRM die Argumentationskohärenz über mehrere Schritte hinweg.
Kostengünstige Datenaugmentierung: HNC realisiert Datenaugmentierung mit extrem niedrigem Rechenaufwand (etwa 30 Minuten CPU-Zeit), was im Vergleich zu 2457 A100 GPU-Stunden für MCTS vernachlässigbar ist.

Experimentelle Einrichtung

Datensätze

PRM800K: Enthält manuell annotierte Argumentationstrajektorien als Grundlage für das Training von ORM, PRM und HRM
MATH500: Mathematische Probleme auf Oberstufen- und Universitätsniveau zur Bewertung der Verallgemeinerungsfähigkeit
GSM8K: Mathematische Anwendungsaufgaben der Grundschule mit 1000 Testproblemen

Bewertungsmetriken

Genauigkeit: Genauigkeit der Problemlösung unter der Best-of-N-Strategie
Stabilität: Konsistenz der Leistung mit zunehmendem N
Robustheit: Konsistente Leistung über verschiedene Strategiemodelle und Datensätze hinweg

Vergleichsmethoden

ORM (Outcome Reward Model): Bewertung basierend auf der gesamten Argumentationskette
PRM (Process Reward Model): Schrittweise Bewertung des Argumentationsprozesses
HRM (Hierarchical Reward Model): Das in diesem Papier vorgeschlagene hierarchische Belohnungsmodell

Implementierungsdetails

Belohnungsmodelle: Feintuning basierend auf Qwen2.5-1.5B-Math
Strategiemodelle: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
MCTS-Konfiguration: 5-6 untergeordnete Knoten pro übergeordnetem Knoten, maximale Baumtiefe 7
Trainingsoptimierung: Verwendung von FlashAttention, DeepSpeed und gemischter Präzisionstraining

Experimentelle Ergebnisse

Hauptergebnisse

Best-of-N-Leistung auf dem PRM800K-Datensatz:

N	2	4	8	16	24
ORM	0.622	0.677	0.655	0.655	0.633
PRM	0.700	0.644	0.611	0.588	0.577
HRM	0.722	0.711	0.744	0.800	0.800

Wichtigste Erkenntnisse:

HRM behält stabile Leistung mit zunehmendem N bei, mit stabiler Genauigkeit von 80%
ORM und PRM zeigen erhebliche Schwankungen, mit sinkender Genauigkeit bei wachsendem N
HRM zeigt die beste Stabilität und Zuverlässigkeit

Domänenübergreifende Verallgemeinerungsexperimente

Ergebnisse auf GSM8K- und MATH500-Datensätzen:

Datensatz	Methode	N=2	N=64	N=256	N=512
GSM8K	PRM	0.784	0.905	0.927	0.918
GSM8K	HRM	0.784	0.907	0.930	0.926
MATH500	PRM	0.468	0.656	0.686	0.688
MATH500	HRM	0.490	0.742	0.740	0.736

Wichtige Beobachtungen:

Auf dem komplexeren MATH500-Datensatz ist HRM deutlich besser als PRM
Auf dem relativ einfacheren GSM8K ist der Unterschied kleiner, aber HRM ist immer noch leicht überlegen
HRM zeigt stärkere domänenübergreifende Robustheit

Ablationsstudien

Vergleich verschiedener Strategiemodelle: HRM, trainiert auf automatisch annotierten Daten, die von MCTS generiert wurden, zeigt auf mehreren Strategiemodellen bessere Stabilität als PRM:

DeepSeek-Math-7B
Qwen2.5-72B-Math
Qwen2.5-7B-Math

Selbsttrainingsexperimente

Weitere Verbesserung der Strategiemodellleistung durch überwachtes Feintuning mit KL-Divergenz-Regularisierung validiert den Wert hochwertiger Argumentationsdaten.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

HRM lindert effektiv das Belohnungshacking-Problem von PRM durch hierarchische Überwachung und bietet stabilere und zuverlässigere Bewertungen
HNC ist eine effiziente Datenaugmentierungsstrategie, die die Qualität der Trainingsdaten mit extrem niedrigen Kosten erheblich verbessert
HRM zeigt hervorragende Verallgemeinerungsfähigkeiten und ist durchgehend besser als PRM auf mehreren mathematischen Argumentationsdatensätzen

Einschränkungen

Schritt-Zusammenfassungsbeschränkung: Derzeit werden nur zwei aufeinanderfolgende Schritte zusammengefasst, das Zusammenfassen von mehr Schritten führt zu exponentieller Komplexität der Labelkombinationen
Domänenbeschränkung: Hauptsächlich auf mathematische Argumentation konzentriert, die Anwendbarkeit auf andere strukturierte Argumentationsbereiche erfordert weitere Validierung
Rechenbeschränkungen: MCTS-Konfiguration ist durch Rechenressourcen begrenzt, was die Vielfalt der generierten Daten beeinflussen kann

Zukünftige Richtungen

Erkundung komplexerer hierarchischer Strukturdesigns
Erweiterung auf andere strukturierte Argumentationsaufgaben
Integration effizienterer Suchalgorithmen zur Reduzierung der Rechenkosten
Untersuchung ausgefeilteren Labelstrategien für die Behandlung von Mehrschrittenzusammenfassungen

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Das hierarchische Überwachungsdesign von HRM kombiniert geschickt lokale Genauigkeit und globale Kohärenz
Umfassende Experimente: Vollständige Evaluierung auf mehreren Datensätzen und Strategiemodellen
Hoher praktischer Wert: HNC bietet eine kostengünstige Datenaugmentierungslösung
Solide theoretische Grundlagen: Tiefgreifende Analyse des Belohnungshacking-Problems mit gezielter Lösung

Mängel

Methodische Komplexität: Komplexere Trainingsdatenkonstruktion und Labelstrategien im Vergleich zu PRM
Skalierbarkeit: Derzeit nur Zweischritt-Zusammenfassung unterstützt, was die Erweiterbarkeit der Methode einschränkt
Domänenspezifität: Hauptsächlich auf mathematische Argumentationsaufgaben validiert, Anwendbarkeit auf andere Bereiche unzureichend validiert

Auswirkungen

Akademischer Beitrag: Bietet neue hierarchische Perspektiven für das Design von Belohnungsmodellen
Praktischer Wert: HNC-Methode kann direkt auf bestehende MCTS-Prozesse angewendet werden
Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtungen und Hyperparameterkonfigurationen

Anwendungsszenarien

Mathematische Argumentationsaufgaben: Besonders geeignet für komplexe mathematische Probleme, die mehrstufige Argumentation erfordern
Argumentationsaufgaben, die Selbstkorrektur erfordern: HRM kann Fehlerkorrektur im Argumentationsprozess identifizieren und belohnen
Ressourcenbegrenzte Szenarien: HNC bietet eine kostengünstige Datenaugmentierungslösung

Referenzen

Das Papier zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

Lightman et al. (2023) - Let's verify step by step (PRM800K-Datensatz)
Cobbe et al. (2021) - Training verifiers to solve math word problems
Wei et al. (2022) - Chain-of-thought prompting
Ouyang et al. (2022) - Training language models to follow instructions with human feedback

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovative Lösungen für kritische Probleme von PRM bietet. Das hierarchische Überwachungsdesign von HRM ist theoretisch fundiert, experimentell gut validiert, und die HNC-Methode hat starken praktischen Wert. Das Papier zeigt hervorragende Leistungen in technischer Innovation, experimentellem Design und Ergebnisanalyse und trägt wertvoll zur Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle bei.